อ่าน 21 นาที
การทดสอบสมมติฐานทางสถิติ
การ ทดสอบสมมติฐานทางสถิติ เป็นวิธีการอนุมานทางสถิติที่ใช้ในการตัดสินใจว่าข้อมูลมีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานเฉพาะหรือไม่...
การทดสอบสมมติฐานทางสถิติ
| สถิติการทดสอบ | ประเภทของการทดสอบ |
|---|---|
| ค่าสถิติt | การทดสอบ t -test การทดสอบการถดถอย |
| สถิติF | ANOVA MANOVA ANCOVA |
| ค่าสถิติz | การทดสอบz |
| สถิติx 2 | การทดสอบไคสแควร์ |
| สถิติ การทดสอบที่ใช้กันทั่วไปบางส่วน และ การทดสอบทางสถิติหรือแบบจำลอง ที่เกี่ยวข้อง | |
การทดสอบสมมติฐานทางสถิติเป็นวิธีการอนุมานทางสถิติที่ใช้ในการตัดสินใจว่าข้อมูลมีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานเฉพาะหรือไม่ โดยทั่วไปการทดสอบสมมติฐานทางสถิติจะเกี่ยวข้องกับการคำนวณค่าสถิติการทดสอบจากนั้นจึงทำการตัดสินใจ โดยการเปรียบเทียบค่าสถิติการทดสอบกับค่าวิกฤตหรือโดยการประเมินค่าp ที่คำนวณจากค่าสถิติการทดสอบ มี การทดสอบทางสถิติเฉพาะทางประมาณ 100 รายการที่ใช้กันอยู่[ 1 ] [ 2 ]
คำจำกัดความของคำศัพท์
เป้าหมายของการทดสอบสมมติฐานคือการพิสูจน์ว่าคุณสมบัติบางอย่างของประชากรทางสถิติเป็นจริงหรือไม่โดยการตรวจสอบข้อมูลตัวอย่างโดยทั่วไป ประชากรจะถูกจำลองโดยตัวแปรสุ่มที่มีการกระจายซึ่งมีพารามิเตอร์ที่ไม่ทราบค่า ตัวอย่างเช่น การทดลองทางการแพทย์อาจต้องการพิสูจน์ว่ายาชนิดใดชนิดหนึ่งมีประสิทธิภาพในการรักษาความดันโลหิตสูงหรือไม่ โดยที่ "การเปลี่ยนแปลงของความดันโลหิตที่สังเกตได้ในผู้ป่วยที่รับประทานยา" เป็นตัวแปรสุ่ม ตัวอย่างสมมติฐานอาจเป็น "ค่าเฉลี่ยของการเปลี่ยนแปลงความดันโลหิตเป็นศูนย์" หรือ "ค่าเฉลี่ยของการเปลี่ยนแปลงความดันโลหิตเป็นค่าลบ" โดยทั่วไป ข้อความใดๆ เกี่ยวกับพารามิเตอร์ที่อธิบายประชากรสามารถเป็นสมมติฐานได้ (แต่ไม่ใช่ข้อความเกี่ยวกับตัวอย่าง) [ 3 ]
การทดสอบนี้เปรียบเทียบสมมติฐานสองข้อ ได้แก่สมมติฐาน "ว่าง" (H₀ )และสมมติฐาน "ทางเลือก" (H₁ ) ซึ่งเป็นการปฏิเสธ สมมติฐานว่าง โดยทั่วไป การทดสอบจะเลือกสมมติฐานว่างที่ว่าการแทรกแซงที่กำลังศึกษาไม่มีผล หรือพารามิเตอร์ของประชากรมีค่า "ชัดเจน" ค่าสถิติการทดสอบจะถูกคำนวณจากข้อมูลตัวอย่างที่กำหนด และผู้ทดสอบจะคำนวณความน่าจะเป็นแบบมีเงื่อนไขของการสังเกตค่าอย่างน้อยที่สุดที่ค่าสุดขั้วนี้ โดยสมมติว่าสมมติฐานว่างเป็นจริง หากความน่าจะเป็นนี้ (เรียกว่าค่า p ) น้อยกว่าระดับนัยสำคัญของการทดสอบ (p = 0 ) แสดงว่าสมมติฐานว่างถูกปฏิเสธ การทดสอบไม่ได้สรุปว่าสมมติฐานว่างเป็นเท็จ หรือความน่าจะเป็นที่สมมติฐานว่างเป็นเท็จน้อยกว่า p = 0 [ 4 ]
เนื่องจากโดยปกติแล้วเป็นไปไม่ได้ที่จะพิสูจน์ได้อย่างแน่ชัดว่าสมมติฐานที่กำลังทดสอบนั้นเป็นจริงหรือเท็จจากตัวอย่าง ดังนั้นข้อสรุปของการทดสอบสมมติฐานจึงไม่ถูกต้องเสมอไป มีข้อผิดพลาดที่เป็นไปได้สองประเภท:
- ความผิดพลาด ประเภทที่ 1คือการปฏิเสธสมมติฐานว่างแม้ว่าสมมติฐานว่างจะเป็นจริง ด้วยความน่าจะเป็นซึ่งเท่ากับระดับนัยสำคัญของการทดสอบ
- ความผิดพลาด ประเภทที่ 2คือ การยอมรับสมมติฐานหลักแม้ว่าสมมติฐานทางเลือกจะเป็นจริง โดยมีความน่าจะเป็นค่านี้เรียกว่ากำลังของการทดสอบ
คำจำกัดความเพิ่มเติมบางส่วน:
- สมมติฐานแบบง่าย : สมมติฐานใดๆ ที่ระบุการกระจายตัวของประชากรได้อย่างสมบูรณ์
- สมมติฐานเชิงผสม: สมมติฐานใดๆ ที่ไม่ได้ระบุการกระจายตัวของประชากรอย่างครบถ้วน
- ข้อมูลเชิงบวก: ข้อมูลที่ช่วยให้นักวิจัยสามารถปฏิเสธสมมติฐานว่างได้

- ค่าวิกฤตของการทดสอบทางสถิติคือขอบเขตของบริเวณการยอมรับของการทดสอบ [ 5 ]บริเวณการยอมรับคือเซตของค่าสถิติการทดสอบซึ่งสมมติฐานว่างจะไม่ถูกปฏิเสธ ขึ้นอยู่กับรูปร่างของบริเวณการยอมรับ อาจมีค่าวิกฤตหนึ่งค่าหรือมากกว่าหนึ่งค่า
- บริเวณที่ถูกปฏิเสธ /บริเวณวิกฤต : ชุดค่าของสถิติการทดสอบที่ทำให้สมมติฐานว่างถูกปฏิเสธ
- ขนาด : สำหรับสมมติฐานแบบง่าย นี่คือความน่าจะเป็นของการทดสอบที่ปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้องอัตราผลบวกเท็จสำหรับสมมติฐานแบบผสม นี่คือค่าสูงสุดของความน่าจะเป็นของการปฏิเสธสมมติฐานว่างในทุกกรณีที่ครอบคลุมโดยสมมติฐานว่าง ส่วนเติมเต็มของอัตราผลบวกเท็จเรียกว่าความจำเพาะในทางชีวสถิติ ("นี่คือการทดสอบที่จำเพาะ เนื่องจากผลลัพธ์เป็นบวก เราจึงสามารถพูดได้อย่างมั่นใจว่าผู้ป่วยมีอาการดังกล่าว") ดูความไวและความจำเพาะและข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2สำหรับคำจำกัดความที่ครบถ้วน
- การทดสอบนัยสำคัญทางสถิติ : เป็นแนวคิดที่มาก่อนการทดสอบสมมติฐานทางสถิติ (ดูส่วน "ที่มา") ผลการทดลองจะถือว่ามีนัยสำคัญทางสถิติหากตัวอย่างไม่สอดคล้องกับสมมติฐาน (ว่าง) มากพอ แนวคิดนี้เคยถูกมองว่าเป็นเรื่องสามัญสำนึก เป็นวิธีการแก้ปัญหาเชิงปฏิบัติสำหรับการระบุผลการทดลองที่มีความหมาย เป็นข้อตกลงที่กำหนดเกณฑ์ของหลักฐานทางสถิติ หรือเป็นวิธีการสรุปผลจากข้อมูล การทดสอบสมมติฐานทางสถิติได้เพิ่มความเข้มงวดทางคณิตศาสตร์และความสอดคล้องทางปรัชญาให้กับแนวคิดนี้โดยทำให้สมมติฐานทางเลือกมีความชัดเจน ปัจจุบันคำนี้ถูกใช้ในความหมายกว้างๆ สำหรับเวอร์ชันสมัยใหม่ซึ่งเป็นส่วนหนึ่งของการทดสอบสมมติฐานทางสถิติ
- การทดสอบแบบอนุรักษ์นิยม: การทดสอบจะถือว่าเป็นการทดสอบแบบอนุรักษ์นิยม หากเมื่อสร้างขึ้นสำหรับระดับนัยสำคัญที่กำหนดไว้ ความน่าจะเป็นที่แท้จริงของ การปฏิเสธสมมติฐานว่าง อย่างไม่ถูกต้องจะไม่เกินระดับนัยสำคัญที่กำหนดไว้
- การทดสอบที่แม่นยำ
การทดสอบสมมติฐานทางสถิติเปรียบเทียบค่าสถิติการทดสอบ ( เช่น zหรือt ) กับค่าเกณฑ์ ค่าสถิติการทดสอบ (สูตรที่พบในตารางด้านล่าง) นั้นอิงตามหลักความเหมาะสมที่สุด สำหรับระดับอัตราความผิดพลาดประเภทที่ 1 ที่คงที่ การใช้สถิติเหล่านี้จะช่วยลดอัตราความผิดพลาดประเภทที่ 2 ให้เหลือน้อยที่สุด (เทียบเท่ากับการเพิ่มกำลังการทดสอบให้สูงสุด) คำศัพท์ต่อไปนี้อธิบายการทดสอบในแง่ของความเหมาะสมที่สุดดังกล่าว:
- การทดสอบที่มีประสิทธิภาพสูงสุด: สำหรับขนาดหรือระดับนัยสำคัญ ที่กำหนด การทดสอบที่มีประสิทธิภาพสูงสุด (ความน่าจะเป็นที่จะปฏิเสธ) สำหรับค่าที่กำหนดของพารามิเตอร์ที่กำลังทดสอบ ซึ่งอยู่ในสมมติฐานทางเลือก
- การทดสอบที่มีประสิทธิภาพสูงสุดอย่างสม่ำเสมอ (UMP)
ประวัติศาสตร์
แม้ว่าการทดสอบสมมติฐานจะได้รับความนิยมในช่วงต้นศตวรรษที่ 20 แต่รูปแบบแรกเริ่มถูกนำมาใช้ในช่วงปี 1700 การใช้งานครั้งแรกได้รับการยกย่องให้แก่John Arbuthnot (1710) [ 6 ]ตามด้วยPierre-Simon Laplace (ช่วงปี 1770 ) ในการวิเคราะห์อัตราส่วนเพศของมนุษย์เมื่อแรกเกิด ดู§ อัตราส่วนเพศของมนุษย์
1778: ปิแอร์ ลาปลาซเปรียบเทียบอัตราการเกิดของเด็กชายและเด็กหญิงในเมืองต่างๆ ของยุโรป เขากล่าวว่า "เป็นเรื่องปกติที่จะสรุปได้ว่าความเป็นไปได้เหล่านี้มีอัตราส่วนใกล้เคียงกันมาก" ดังนั้น สมมติฐานว่างในกรณีนี้คืออัตราการเกิดของเด็กชายและเด็กหญิงควรเท่ากันตาม "ภูมิปัญญาดั้งเดิม" [ 7 ]
1900: Karl Pearsonพัฒนาการทดสอบไคกำลังสองเพื่อพิจารณาว่า "รูปแบบของเส้นโค้งความถี่ที่กำหนดจะสามารถอธิบายตัวอย่างที่ดึงมาจากประชากรที่กำหนดได้อย่างมีประสิทธิภาพหรือไม่" ดังนั้นสมมติฐานว่างคือประชากรจะถูกอธิบายโดยการแจกแจงบางอย่างที่ทำนายโดยทฤษฎี เขาใช้จำนวนเลขห้าและหกในข้อมูลการทอยลูกเต๋าของ Weldon เป็นตัวอย่าง [ 8 ]
1904: คาร์ล เพียร์สันพัฒนาแนวคิดเรื่อง " ความบังเอิญ " เพื่อพิจารณาว่าผลลัพธ์เป็นอิสระจากปัจจัยเชิงหมวดหมู่ที่กำหนดหรือไม่ ในที่นี้สมมติฐานว่างคือโดยปริยายว่าสองสิ่งนั้นไม่เกี่ยวข้องกัน (เช่น การเกิดแผลเป็นและอัตราการตายจากไข้ทรพิษ) [ 9 ]ในกรณีนี้สมมติฐานว่างไม่ได้ถูกทำนายโดยทฤษฎีหรือภูมิปัญญาดั้งเดิมอีกต่อไป แต่เป็นหลักการของความไม่แยแสที่ทำให้ฟิชเชอร์และคนอื่นๆ ปฏิเสธการใช้ "ความน่าจะเป็นผกผัน" [ 10 ]
ต้นกำเนิดสมัยใหม่และข้อโต้แย้งในช่วงแรก
การทดสอบนัยสำคัญสมัยใหม่ส่วนใหญ่เป็นผลงานของKarl Pearson ( ค่าp , การทดสอบไคกำลังสองของ Pearson ), William Sealy Gosset ( การแจกแจง t ของ Student ) และRonald Fisher (" สมมติฐานว่าง ", การวิเคราะห์ความแปรปรวน , " การทดสอบนัยสำคัญ ") ในขณะที่การทดสอบสมมติฐานได้รับการพัฒนาโดยJerzy NeymanและEgon Pearson (ลูกชายของ Karl) Ronald Fisher เริ่มต้นชีวิตในสถิติในฐานะ Bayesian (Zabell 1992) แต่ในไม่ช้า Fisher ก็เริ่มไม่พอใจกับความเป็นอัตวิสัยที่เกี่ยวข้อง (กล่าวคือการใช้หลักการไม่แยแสเมื่อกำหนดความน่าจะเป็นก่อนหน้า) และพยายามที่จะนำเสนอแนวทางที่เป็น "วัตถุประสงค์" มากขึ้นสำหรับการอนุมานแบบอุปนัย[ 11 ]
ฟิชเชอร์เน้นการออกแบบการทดลองที่เข้มงวดและวิธีการดึงผลลัพธ์จากตัวอย่างจำนวนน้อยโดยสมมติว่า มี การกระจายแบบเกาส์เซียนในขณะที่เนย์แมน (ซึ่งร่วมงานกับเพียร์สันรุ่นน้อง) เน้นความเข้มงวดทางคณิตศาสตร์และวิธีการเพื่อให้ได้ผลลัพธ์มากขึ้นจากตัวอย่างจำนวนมากและการกระจายที่หลากหลายกว่า การทดสอบสมมติฐานสมัยใหม่เป็นการผสมผสานที่ไม่สอดคล้องกันระหว่างสูตร วิธีการ และศัพท์เฉพาะของฟิชเชอร์กับเนย์แมน/เพียร์สันที่พัฒนาขึ้นในช่วงต้นศตวรรษที่ 20
ฟิชเชอร์เป็นผู้ทำให้ "การทดสอบนัยสำคัญ" เป็นที่รู้จักอย่างแพร่หลาย เขาต้องการสมมติฐานว่าง (ซึ่งสอดคล้องกับการแจกแจงความถี่ของประชากร) และกลุ่มตัวอย่าง การคำนวณของเขา (ซึ่งปัจจุบันเป็นที่คุ้นเคยกันดี) จะเป็นตัวกำหนดว่าจะปฏิเสธสมมติฐานว่างหรือไม่ การทดสอบนัยสำคัญไม่ได้ใช้สมมติฐานทางเลือก ดังนั้นจึงไม่มีแนวคิดเรื่องข้อผิดพลาดประเภทที่สอง (ผลลบเท็จ)
ค่าpถูกคิดค้นขึ้นเป็นดัชนีที่ไม่เป็นทางการแต่เป็นกลาง เพื่อช่วยให้นักวิจัยสามารถพิจารณา (โดยอาศัยความรู้ด้านอื่น ๆ) ว่าควรปรับเปลี่ยนการทดลองในอนาคตหรือเสริมสร้างความเชื่อ มั่น ในสมมติฐานว่างหรือไม่[ 12 ]การทดสอบสมมติฐาน (และข้อผิดพลาดประเภทที่ 1/2) ถูกคิดค้นโดย Neyman และ Pearson เพื่อเป็นทางเลือกที่เป็นกลางมากกว่า ค่า p ของ Fisher ซึ่งมีจุดประสงค์เพื่อกำหนดพฤติกรรมของนักวิจัยเช่นกัน แต่ไม่ต้องอาศัย การอนุมานเชิงอุปนัยใด ๆจากนักวิจัย[ 13 ] [ 14 ]
เนย์แมนและเพียร์สันพิจารณาปัญหาที่แตกต่างจากฟิชเชอร์ (ซึ่งพวกเขาเรียกว่า "การทดสอบสมมติฐาน") ในขั้นต้น พวกเขาพิจารณาสมมติฐานง่ายๆ สองข้อ (ทั้งสองข้อมีการกระจายความถี่) พวกเขาคำนวณความน่าจะเป็นสองค่า และโดยทั่วไปจะเลือกสมมติฐานที่เกี่ยวข้องกับความน่าจะเป็นที่สูงกว่า (สมมติฐานที่มีแนวโน้มที่จะสร้างตัวอย่างได้มากกว่า) วิธีการของพวกเขาจะเลือกสมมติฐานเสมอ นอกจากนี้ยังช่วยให้สามารถคำนวณความน่าจะเป็นของข้อผิดพลาดทั้งสองประเภทได้ด้วย
ฟิชเชอร์และเนย์แมน/เพียร์สันขัดแย้งกันอย่างรุนแรง เนย์แมน/เพียร์สันถือว่าสูตรของพวกเขาเป็นการปรับปรุงการทดสอบความสำคัญ (เอกสารกำหนด[ 13 ]เป็นนามธรรมนักคณิตศาสตร์ได้สรุปและปรับปรุงทฤษฎีนี้มาหลายทศวรรษแล้ว[ 15 ] ) ฟิชเชอร์คิดว่ามันไม่สามารถนำไปใช้กับการวิจัยทางวิทยาศาสตร์ได้ เพราะบ่อยครั้งในระหว่างการทดลอง จะพบว่าสมมติฐานเริ่มต้นเกี่ยวกับสมมติฐานว่างนั้นน่าสงสัยเนื่องจากแหล่งที่มาของข้อผิดพลาดที่ไม่คาดคิด เขาเชื่อว่าการใช้การตัดสินใจปฏิเสธ/ยอมรับที่เข้มงวดโดยอิงจากแบบจำลองที่กำหนดขึ้นก่อนที่จะมีการเก็บรวบรวมข้อมูลนั้นไม่สอดคล้องกับสถานการณ์ทั่วไปที่นักวิทยาศาสตร์ต้องเผชิญ และความพยายามที่จะนำวิธีการนี้ไปใช้กับการวิจัยทางวิทยาศาสตร์จะนำไปสู่ความสับสนอย่างมาก[ 16 ]
ข้อพิพาทระหว่าง Fisher และ Neyman–Pearson เกิดขึ้นบนพื้นฐานทางปรัชญา โดยนักปรัชญาได้อธิบายว่าเป็นข้อพิพาทเกี่ยวกับบทบาทที่เหมาะสมของแบบจำลองในการอนุมานทางสถิติ[ 17 ]
เนย์แมนเข้ารับตำแหน่งที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ในปี 1938 ทำให้ยุติความเป็นหุ้นส่วนกับเพียร์สันและแยกคู่กรณี (ซึ่งก่อนหน้านี้เคยอยู่ในอาคารเดียวกัน) ข้อพิพาทระหว่างฟิชเชอร์และเนย์แมนสิ้นสุดลง (โดยยังไม่ได้รับการแก้ไขหลังจาก 27 ปี) เมื่อฟิชเชอร์เสียชีวิตในปี 1962 เนย์แมนเขียนคำไว้อาลัยที่ได้รับการยกย่อง[ 18 ]สิ่งพิมพ์ในภายหลังบางส่วนของเนย์แมนรายงานค่าp และระดับนัยสำคัญ [ 19 ]
การทดสอบนัยสำคัญของสมมติฐานว่าง (NHST)
การทดสอบสมมติฐานแบบสมัยใหม่โดยทั่วไปเรียกว่าการทดสอบความสำคัญของสมมติฐานว่าง (NHST) [ 20 ]และเป็นการผสมผสานระหว่างแนวทางของ Fisher กับแนวทางของ Neyman-Pearson ในปี 2000 Raymond S. Nickersonได้เขียนบทความระบุว่า NHST (ในขณะนั้น) "เป็นวิธีการวิเคราะห์ข้อมูลที่รวบรวมในการทดลองทางจิตวิทยาที่ใช้กันอย่างแพร่หลายที่สุด และเป็นเช่นนั้นมาประมาณ 70 ปีแล้ว" และในขณะเดียวกันก็ "เป็นที่ถกเถียงกันมาก" [ 20 ]
การหลอมรวมนี้เป็นผลมาจากความสับสนของผู้เขียนตำราสถิติ (ตามที่ฟิชเชอร์คาดการณ์ไว้) ตั้งแต่ช่วงทศวรรษ 1940 [ 21 ] (แต่การตรวจจับสัญญาณเช่น ยังคงใช้สูตรของเนย์แมน/เพียร์สัน) ความแตกต่างทางแนวคิดที่สำคัญและข้อควรระวังมากมายนอกเหนือจากที่กล่าวมาข้างต้นถูกละเลย เนย์แมนและเพียร์สันได้ให้คำศัพท์ที่แข็งแกร่งกว่า คณิตศาสตร์ที่เข้มงวดกว่า และปรัชญาที่สอดคล้องกันมากกว่า แต่เนื้อหาที่สอนในวิชาสถิติเบื้องต้นในปัจจุบันกลับมีความคล้ายคลึงกับวิธีการของฟิชเชอร์มากกว่าวิธีการของพวกเขา[ 22 ]
ในช่วงประมาณปี พ.ศ. 2483 [ 21 ]ผู้เขียนตำราสถิติเริ่มรวมสองแนวทางเข้าด้วยกันโดยใช้ ค่า pแทนสถิติการทดสอบ (หรือข้อมูล) เพื่อทดสอบกับ "ระดับนัยสำคัญ" ของ Neyman–Pearson
| # | การทดสอบสมมติฐานว่างของฟิชเชอร์ | ทฤษฎีการตัดสินใจของเนย์แมน-เพียร์สัน |
|---|---|---|
| 1 | ตั้งสมมติฐานว่างทางสถิติ สมมติฐานว่างนั้นไม่จำเป็นต้องเป็นสมมติฐานที่เป็นศูนย์ (เช่น ความแตกต่างเป็นศูนย์) | ตั้งสมมติฐานทางสถิติสองข้อ คือ H1 และ H2 และตัดสินใจเกี่ยวกับ α, β และขนาดตัวอย่างก่อนการทดลอง โดยพิจารณาจากต้นทุนและผลประโยชน์ตามความรู้สึกส่วนตัว สิ่งเหล่านี้จะกำหนดขอบเขตการปฏิเสธสำหรับแต่ละสมมติฐาน |
| 2 | ระบุระดับนัยสำคัญที่แน่นอน (เช่น p = 0.051 หรือ p = 0.049) อย่าใช้คำว่า "ยอมรับ" หรือ "ปฏิเสธ" สมมติฐาน หากผลลัพธ์ "ไม่มีนัยสำคัญ" อย่าดึงข้อสรุปหรือตัดสินใจใดๆ แต่ให้ระงับการตัดสินใจไว้ก่อนจนกว่าจะมีข้อมูลเพิ่มเติม | ถ้าข้อมูลอยู่ในบริเวณปฏิเสธของ H1 ให้ยอมรับ H2 มิฉะนั้นให้ยอมรับ H1 การยอมรับสมมติฐานไม่ได้หมายความว่าคุณเชื่อในสมมติฐานนั้น แต่หมายความว่าคุณปฏิบัติตนเสมือนว่าสมมติฐานนั้นเป็นจริง |
| 3 | ควรใช้วิธีการนี้เฉพาะในกรณีที่ทราบข้อมูลเกี่ยวกับปัญหาที่กำลังพิจารณาน้อยมาก และใช้เพื่อสรุปผลเบื้องต้นในบริบทของการพยายามทำความเข้าใจสถานการณ์การทดลองเท่านั้น | ประโยชน์ของกระบวนการนี้มีข้อจำกัดอยู่หลายประการ เช่น สถานการณ์ที่มีสมมติฐานแบบเลือกอย่างใดอย่างหนึ่ง (เช่น μ1 = 8 หรือ μ2 = 10 เป็นจริง) และสถานการณ์ที่คุณสามารถพิจารณาถึงความคุ้มค่าในการเลือกค่าอัลฟาและเบตาได้อย่างเหมาะสม |
ปรัชญา
Paul Meehlได้โต้แย้งว่าความ สำคัญ ทางญาณวิทยาของการเลือกสมมติฐานว่างนั้นไม่ได้รับการยอมรับอย่างกว้างขวาง เมื่อทฤษฎีทำนายสมมติฐานว่าง การทดลองที่แม่นยำยิ่งขึ้นจะเป็นการทดสอบทฤษฎีพื้นฐานที่เข้มงวดมากขึ้น เมื่อสมมติฐานว่างเป็นค่าเริ่มต้นว่า "ไม่มีความแตกต่าง" หรือ "ไม่มีผล" การทดลองที่แม่นยำยิ่งขึ้นจะเป็นการทดสอบทฤษฎีที่กระตุ้นให้ทำการทดลองนั้นน้อยลง[ 23 ]
ฟิชเชอร์และเนย์แมนคัดค้านแนวคิดเรื่องความเป็นอัตวิสัยของความน่าจะเป็น มุมมองของพวกเขามีส่วนช่วยในการกำหนดนิยามเชิงวัตถุวิสัย แก่นแท้ของความขัดแย้งทางประวัติศาสตร์ของพวกเขานั้นอยู่ที่ปรัชญา
นักสถิติได้อภิปรายข้อวิจารณ์เชิงปรัชญาเกี่ยวกับการทดสอบสมมติฐานในบริบทอื่นๆ มากมาย โดยเฉพาะอย่างยิ่งความสัมพันธ์ไม่ได้หมายความถึงสาเหตุและการออกแบบการ ทดลอง การ ทดสอบสมมติฐานยังคงเป็นที่สนใจของนักปรัชญาอย่างต่อเนื่อง[ 17 ] [ 24 ]
การศึกษา
สถิติได้รับการสอนในโรงเรียนมากขึ้นเรื่อยๆ โดยการทดสอบสมมติฐานเป็นหนึ่งในองค์ประกอบที่สอน[ 25 ] [ 26 ]ข้อสรุปมากมายที่รายงานในสื่อยอดนิยม (ตั้งแต่แบบสำรวจความคิดเห็นทางการเมืองไปจนถึงการศึกษาทางการแพทย์) ล้วนอิงตามสถิติ นักเขียนบางคนกล่าวว่าการวิเคราะห์ทางสถิติประเภทนี้ช่วยให้คิดอย่างชัดเจนเกี่ยวกับปัญหาที่เกี่ยวข้องกับข้อมูลจำนวนมาก รวมถึงการรายงานแนวโน้มและการอนุมานจากข้อมูลดังกล่าวอย่างมีประสิทธิภาพ แต่เตือนว่านักเขียนสำหรับสาธารณชนในวงกว้างควรมีความเข้าใจอย่างถ่องแท้ในสาขานี้เพื่อที่จะใช้คำศัพท์และแนวคิดได้อย่างถูกต้อง[ 27 ] [ 28 ]ชั้นเรียนสถิติเบื้องต้นในวิทยาลัยเน้นการทดสอบสมมติฐานเป็นอย่างมาก อาจถึงครึ่งหนึ่งของหลักสูตร สาขาต่างๆ เช่น วรรณคดีและศาสนศาสตร์ในปัจจุบันรวมถึงการค้นพบที่อิงตามการวิเคราะห์ทางสถิติ (ดูBible Analyzer ) ชั้นเรียนสถิติเบื้องต้นสอนการทดสอบสมมติฐานเป็นกระบวนการแบบตำราอาหาร การทดสอบสมมติฐานยังได้รับการสอนในระดับบัณฑิตศึกษาด้วย นักสถิติเรียนรู้วิธีการสร้างขั้นตอนการทดสอบทางสถิติที่ดี (เช่นz , Student's t , Fและ chi-squared) การทดสอบสมมติฐานทางสถิติถือเป็นสาขาที่พัฒนาแล้วในสาขาสถิติ[ 29 ]แต่การพัฒนายังคงดำเนินต่อไปในปริมาณที่จำกัด
การศึกษาเชิงวิชาการระบุว่าวิธีการสอนสถิติเบื้องต้นแบบตำราเรียนนั้นไม่มีเวลาให้ศึกษาประวัติศาสตร์ ปรัชญา หรือข้อโต้แย้ง การทดสอบสมมติฐานได้รับการสอนในรูปแบบวิธีการรวมที่เป็นมาตรฐาน การสำรวจแสดงให้เห็นว่าผู้สำเร็จการศึกษาจากชั้นเรียนนี้เต็มไปด้วยความเข้าใจผิดเชิงปรัชญา (ในทุกแง่มุมของการอนุมานทางสถิติ) ซึ่งยังคงมีอยู่ในหมู่อาจารย์ผู้สอน[ 30 ]แม้ว่าปัญหานี้จะได้รับการแก้ไขมานานกว่าทศวรรษแล้ว[ 31 ]และยังคงมีการเรียกร้องให้มีการปฏิรูปการศึกษา[ 32 ]แต่นักเรียนก็ยังคงสำเร็จการศึกษาจากชั้นเรียนสถิติโดยมีความเข้าใจผิดพื้นฐานเกี่ยวกับการทดสอบสมมติฐาน[ 33 ]แนวคิดในการปรับปรุงการสอนการทดสอบสมมติฐาน ได้แก่ การสนับสนุนให้นักเรียนค้นหาข้อผิดพลาดทางสถิติในเอกสารที่ตีพิมพ์ การสอนประวัติศาสตร์ของสถิติ และการเน้นย้ำถึงข้อโต้แย้งในวิชาที่โดยทั่วไปแล้วค่อนข้างน่าเบื่อ[ 34 ]
เรย์มอนด์ เอส. นิเคอร์สัน แสดงความคิดเห็นว่า:
การถกเถียงเกี่ยวกับ NHST มีรากฐานมาจากความขัดแย้งที่ยังไม่ได้รับการแก้ไขระหว่างผู้มีส่วนร่วมหลักในการพัฒนาทฤษฎีสถิติเชิงอนุมานซึ่งเป็นพื้นฐานของแนวทางสมัยใหม่Gigerenzer et al. (1989) ได้ทบทวนรายละเอียดอย่างมากเกี่ยวกับข้อโต้แย้งระหว่าง RA Fisher กับ Jerzy Neyman และ Egon Pearson รวมถึงความไม่ลงรอยกันระหว่างมุมมองทั้งสองนี้กับมุมมองของผู้ติดตาม Thomas Bayes พวกเขาตั้งข้อสังเกตว่าแทบไม่มีการกล่าวถึงข้อโต้แย้งทางประวัติศาสตร์และที่กำลังดำเนินอยู่ในตำราส่วนใหญ่ที่ใช้สอน NHST ให้กับผู้ใช้ที่มีศักยภาพ การขาดมุมมองทางประวัติศาสตร์ที่ถูกต้องและความเข้าใจในความซับซ้อนและรากฐานทางปรัชญาที่บางครั้งก็เป็นที่ถกเถียงกันของแนวทางต่างๆ ในการอนุมานทางสถิติ อาจช่วยอธิบายได้มากว่าทำไมการทดสอบทางสถิติจึงถูกนำไปใช้ในทางที่ผิดและตีความผิดได้ง่าย[ 20 ]
การทำการทดสอบสมมติฐานแบบความถี่ในทางปฏิบัติ
ขั้นตอนทั่วไปในการทำการทดสอบสมมติฐานแบบความถี่ในทางปฏิบัติมีดังนี้:
- กำหนดสมมติฐาน (ข้ออ้างที่สามารถทดสอบได้โดยใช้ข้อมูล)
- เลือกการทดสอบทางสถิติที่เหมาะสม พร้อมด้วยค่าสถิติการทดสอบTที่ เกี่ยวข้อง
- จงหาการแจกแจงของค่าสถิติการทดสอบภายใต้สมมติฐานว่างจากข้อสมมติ ในกรณีมาตรฐาน ผลลัพธ์นี้จะเป็นที่รู้จักกันดีอยู่แล้ว ตัวอย่างเช่น ค่าสถิติการทดสอบอาจมีการแจกแจงแบบ Student's tโดยมีระดับความเป็นอิสระที่ทราบ หรือการแจกแจงแบบปกติโดยมีค่าเฉลี่ยและความแปรปรวนที่ทราบ
- เลือกค่าระดับนัยสำคัญ ( α ) ซึ่ง เป็นอัตราการเกิดผลบวกเท็จที่ยอมรับได้สูงสุดค่าที่นิยมใช้คือ 5% และ 1%
- คำนวณค่าที่สังเกตได้t obsของสถิติการทดสอบT จากข้อมูลที่สังเกต ได้
- ตัดสินใจว่าจะปฏิเสธสมมติฐานว่างเพื่อสนับสนุนสมมติฐานทางเลือกหรือไม่ปฏิเสธสมมติฐานว่าง กฎการตัดสินใจของ Neyman-Pearsonคือการปฏิเสธสมมติฐานว่างH 0หากค่าที่สังเกตได้t obsอยู่ในบริเวณวิกฤต และจะไม่ปฏิเสธสมมติฐานว่างในกรณีอื่น[ 35 ]
ตัวอย่างเชิงปฏิบัติ
ความแตกต่างระหว่างสองกระบวนการที่ใช้กับตัวอย่างกระเป๋าเดินทางกัมมันตรังสี (ด้านล่าง):
- "เครื่องวัดรังสีไกเกอร์วัดได้ 10 ค่าที่อนุญาตคือ 9 ตรวจสอบกระเป๋าเดินทางด้วย"
- "ค่าที่วัดได้จากเครื่องวัดรังสีไกเกอร์สูงผิดปกติ กระเป๋าเดินทางที่ปลอดภัย 97% มีค่าการวัดต่ำกว่านี้ ขีดจำกัดอยู่ที่ 95% โปรดตรวจสอบกระเป๋าเดินทาง"
รายงานฉบับแรกนั้นเพียงพอแล้ว ส่วนรายงานฉบับหลังให้คำอธิบายข้อมูลและเหตุผลที่ตรวจสอบกระเป๋าเดินทางโดยละเอียดมากกว่า
การไม่ปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าสมมติฐานว่างนั้น "ได้รับการยอมรับ" โดยตัวมันเอง (แม้ว่าเนย์แมนและเพียร์สันจะใช้คำนั้นในงานเขียนดั้งเดิมของพวกเขา โปรดดู ส่วน การตีความ )
กระบวนการที่อธิบายไว้ที่นี่เหมาะสมอย่างยิ่งสำหรับการคำนวณ พวกมันละเลยการพิจารณาการออกแบบการทดลอง อย่างจริงจัง [ 36 ] [ 37 ]
การประเมินขนาดตัวอย่างที่เหมาะสมก่อนทำการทดลองนั้นมีความสำคัญอย่างยิ่ง
วลี "การทดสอบนัยสำคัญ" ถูกบัญญัติโดยนักสถิติRonald Fisher [ 38 ]
การตีความ
เมื่อสมมติฐานว่างเป็นจริงและตรงตามข้อสมมติทางสถิติ ความน่าจะเป็นที่ค่า p จะน้อยกว่าหรือเท่ากับระดับนัยสำคัญจะมีค่าสูงสุดเพียงเท่านี้ซึ่งทำให้มั่นใจได้ว่าการทดสอบสมมติฐานจะรักษาอัตราการเกิดผลบวกเท็จตามที่ระบุไว้ (โดยมีเงื่อนไขว่าตรงตามข้อสมมติทางสถิติ) [ 3 ]
ค่าpคือความน่าจะเป็นที่สถิติการทดสอบซึ่งอย่างน้อยก็สุดขั้วเท่ากับที่ได้รับจะเกิดขึ้นภายใต้สมมติฐานว่าง ที่ระดับนัยสำคัญ 0.05 คาดว่าเหรียญที่ยุติธรรมจะปฏิเสธสมมติฐานว่าง (ที่ว่ามันยุติธรรม) (อย่างไม่ถูกต้อง) ใน 1 ใน 20 การทดสอบโดยเฉลี่ย ค่า pไม่ได้ให้ความน่าจะเป็นที่สมมติฐานว่างหรือสมมติฐานตรงข้ามถูกต้อง (แหล่งที่มาของความสับสนทั่วไป) [ 39 ]
ถ้า ค่า pน้อยกว่าเกณฑ์ความสำคัญที่เลือกไว้ (หรือกล่าวอีกนัยหนึ่งคือ ค่าสถิติที่สังเกตได้อยู่ในช่วงวิกฤต) เราจะกล่าวว่าสมมติฐานหลักถูกปฏิเสธที่ระดับนัยสำคัญที่เลือกไว้ แต่ถ้าค่าp ไม่น้อยกว่าเกณฑ์ความสำคัญที่เลือกไว้ (หรือกล่าวอีกนัยหนึ่งคือ ค่าสถิติที่สังเกตได้อยู่นอกช่วงวิกฤต) เราจะกล่าวว่าสมมติฐานหลักไม่ถูกปฏิเสธที่ระดับนัยสำคัญที่เลือกไว้
ในตัวอย่าง "สุภาพสตรีชิมชา" (ด้านล่าง) ฟิชเชอร์กำหนดให้สุภาพสตรีจัดเรียงถ้วยชาทั้งหมดอย่างถูกต้องเพื่อพิสูจน์ข้อสรุปที่ว่าผลลัพธ์นั้นไม่น่าจะเกิดจากความบังเอิญ การทดสอบของเขาเผยให้เห็นว่า หากสุภาพสตรีเดาแบบสุ่ม (สมมติฐานว่าง) จะมีโอกาส 1.4% ที่ผลลัพธ์ที่สังเกตได้ (ชาที่จัดเรียงอย่างสมบูรณ์แบบ) จะเกิดขึ้น
การใช้งานและความสำคัญ
สถิติมีประโยชน์ในการวิเคราะห์ข้อมูลส่วนใหญ่ เช่นเดียวกับการทดสอบสมมติฐาน ซึ่งสามารถพิสูจน์ข้อสรุปได้แม้ว่าจะไม่มีทฤษฎีทางวิทยาศาสตร์รองรับก็ตาม ในตัวอย่างเรื่องหญิงสาวชิมชา ดูเหมือนจะ "ชัดเจน" ว่าไม่มีความแตกต่างระหว่าง (นมที่เทลงในชา) กับ (ชาที่เทลงในนม) แต่ข้อมูลกลับขัดแย้งกับ "ความชัดเจน" นั้น
การประยุกต์ใช้การทดสอบสมมติฐานในโลกแห่งความเป็นจริง ได้แก่: [ 40 ]
- การทดสอบว่าผู้ชายมีโอกาสฝันร้ายมากกว่าผู้หญิงหรือไม่
- การระบุผู้เขียนเอกสาร
- การประเมินผลกระทบของพระจันทร์เต็มดวงต่อพฤติกรรม
- การหาช่วงระยะที่ค้างคาวสามารถตรวจจับแมลงได้โดยใช้เสียงสะท้อน
- การตัดสินใจว่าพรมปูพื้นโรงพยาบาลทำให้เกิดการติดเชื้อมากขึ้นหรือไม่
- การเลือกวิธีที่ดีที่สุดในการเลิกสูบบุหรี่
- ตรวจสอบว่าสติกเกอร์ติดกันชนสะท้อนพฤติกรรมของเจ้าของรถหรือไม่
- การทดสอบข้อกล่าวอ้างของนักวิเคราะห์ลายมือ
การทดสอบสมมติฐานทางสถิติมีบทบาทสำคัญในสถิติโดยรวมและการอนุมานทางสถิติตัวอย่างเช่น เลห์มันน์ (1992) ในการทบทวนบทความพื้นฐานของเนย์แมนและเพียร์สัน (1933) กล่าวว่า "ถึงกระนั้น แม้จะมีข้อบกพร่องอยู่บ้าง แต่กระบวนทัศน์ใหม่ที่กำหนดขึ้นในบทความปี 1933 และการพัฒนามากมายที่ดำเนินการภายใต้กรอบนั้นยังคงมีบทบาทสำคัญทั้งในทฤษฎีและการปฏิบัติของสถิติ และคาดว่าจะยังคงมีบทบาทเช่นนั้นต่อไปในอนาคตอันใกล้"
การทดสอบนัยสำคัญเป็นเครื่องมือทางสถิติที่ได้รับความนิยมในวิทยาศาสตร์สังคมเชิงทดลองบางสาขา (มากกว่า 90% ของบทความในวารสารจิตวิทยาประยุกต์ในช่วงต้นทศวรรษ 1990) [ 41 ]สาขาอื่นๆ นิยมการประมาณค่าพารามิเตอร์ (เช่นขนาดผลกระทบ ) การทดสอบนัยสำคัญถูกใช้แทนการเปรียบเทียบค่าที่คาดการณ์ไว้กับผลการทดลองแบบดั้งเดิมซึ่งเป็นหัวใจสำคัญของวิธีการทางวิทยาศาสตร์เมื่อทฤษฎีสามารถคาดการณ์ได้เพียงเครื่องหมายของความสัมพันธ์เท่านั้น การทดสอบสมมติฐานแบบทิศทางเดียว (ด้านเดียว) สามารถกำหนดค่าได้เพื่อให้เฉพาะผลลัพธ์ที่มีนัยสำคัญทางสถิติเท่านั้นที่สนับสนุนทฤษฎี รูปแบบการประเมินทฤษฎีนี้เป็นการประยุกต์ใช้การทดสอบสมมติฐานที่ถูกวิพากษ์วิจารณ์มากที่สุด
ข้อควรระวัง
"ถ้าหากรัฐบาลกำหนดให้ขั้นตอนทางสถิติต้องมีฉลากเตือนเหมือนกับที่ติดบนยา วิธีการอนุมานส่วนใหญ่ก็คงต้องติดฉลากยาวๆ จริงๆ" [ 42 ]ข้อควรระวังนี้ใช้กับการทดสอบสมมติฐานและทางเลือกอื่นๆ ด้วย
การทดสอบสมมติฐานที่ประสบความสำเร็จนั้นเกี่ยวข้องกับความน่าจะเป็นและอัตราความผิดพลาดประเภทที่ 1 ข้อสรุปอาจผิดพลาดได้
ผลสรุปของการทดสอบจะมีความน่าเชื่อถือมากน้อยเพียงใดนั้นขึ้นอยู่กับตัวอย่างที่ใช้เป็นพื้นฐาน การออกแบบการทดลองจึงมีความสำคัญอย่างยิ่ง มีการสังเกตพบผลกระทบที่ไม่คาดคิดหลายประการ ได้แก่:
- ปรากฏการณ์ฮันส์ผู้ชาญฉลาดม้าตัวหนึ่งดูเหมือนจะสามารถคำนวณเลขง่ายๆ ได้
- ปรากฏการณ์ฮอว์ธอร์น : คนงานอุตสาหกรรมมีประสิทธิภาพในการทำงานมากขึ้นในสภาพแสงสว่างที่ดี และมีประสิทธิภาพสูงสุดในสภาพแสงสว่างที่แย่กว่า
- ผลของยาหลอกยาเม็ดที่ไม่มีส่วนผสมทางการแพทย์ใดๆ กลับมีประสิทธิภาพอย่างน่าทึ่ง
การวิเคราะห์ทางสถิติของข้อมูลที่ทำให้เข้าใจผิดจะนำไปสู่ข้อสรุปที่ทำให้เข้าใจผิดเช่นกัน ปัญหาเรื่องคุณภาพของข้อมูลอาจมีความซับซ้อนมากกว่านั้น ตัวอย่างเช่น ในการพยากรณ์ยังไม่มีข้อตกลงเกี่ยวกับมาตรวัดความแม่นยำของการพยากรณ์ ในกรณีที่ไม่มีมาตรวัดที่เป็นที่ยอมรับ การตัดสินใจใดๆ ที่อิงจากมาตรวัดเหล่านั้นย่อมมีข้อโต้แย้งอยู่เสมอ
อคติในการตีพิมพ์: ผลลัพธ์ที่ไม่พบความสำคัญทางสถิติอาจมีโอกาสน้อยที่จะได้รับการตีพิมพ์ ซึ่งอาจทำให้เกิดอคติในงานวิจัยได้
การทดสอบหลายครั้ง: เมื่อทำการทดสอบสมมติฐานว่างที่เป็นจริงหลายครั้งพร้อมกันโดยไม่มีการปรับค่า ความน่าจะเป็นโดยรวมของข้อผิดพลาดประเภทที่ 1 จะสูงกว่าระดับอัลฟาที่กำหนดไว้[ 43 ]
ผู้ที่ทำการตัดสินใจที่สำคัญโดยอิงจากผลการทดสอบสมมติฐาน ควรพิจารณารายละเอียดมากกว่าข้อสรุปเพียงอย่างเดียว ในสาขาวิทยาศาสตร์กายภาพ ผลลัพธ์ส่วนใหญ่จะได้รับการยอมรับอย่างสมบูรณ์ก็ต่อเมื่อได้รับการยืนยันจากแหล่งข้อมูลอิสระแล้วเท่านั้น
การทดสอบสมมติฐานแบบบูตสแตรปที่ไม่ใช้พารามิเตอร์
วิธี การสุ่มตัวอย่างซ้ำแบบบูตสแตรปสามารถใช้สำหรับการทดสอบสมมติฐานว่างได้ บูตสแตรปสร้างตัวอย่างจำลองจำนวนมากโดยการสุ่มตัวอย่างซ้ำ (แบบมีการแทนที่) ข้อมูลตัวอย่างดั้งเดิมที่รวมกัน โดยถือว่าสมมติฐานว่างนั้นถูกต้อง บูตสแตรปมีความอเนกประสงค์มาก เนื่องจากไม่ขึ้นอยู่กับการแจกแจง และไม่พึ่งพาสมมติฐานพาราเมตริกที่จำกัด แต่ขึ้นอยู่กับวิธีการประมาณเชิงประจักษ์ที่มีการรับประกันเชิงอะซิมโทติก การทดสอบสมมติฐานพาราเมตริกแบบดั้งเดิมมีประสิทธิภาพในการคำนวณมากกว่า แต่มีข้อสมมติเชิงโครงสร้างที่เข้มงวดกว่า ในสถานการณ์ที่การคำนวณความน่าจะเป็นของสถิติการทดสอบภายใต้สมมติฐานว่างทำได้ยากหรือเป็นไปไม่ได้ (อาจเนื่องมาจากความไม่สะดวกหรือขาดความรู้เกี่ยวกับการแจกแจงพื้นฐาน) บูตสแตรปจึงเป็นวิธีการที่ใช้ได้ผลสำหรับการอนุมานทางสถิติ[ 44 ] [ 45 ] [ 46 ] [ 47 ]
ตัวอย่าง
อัตราส่วนเพศของมนุษย์
โดยทั่วไปแล้ว การใช้การทดสอบสมมติฐานทางสถิติครั้งแรกสุดนั้น เชื่อกันว่าเกิดขึ้นจากคำถามที่ว่า การเกิดของเพศชายและเพศหญิงมีโอกาสเท่ากันหรือไม่ (สมมติฐานว่าง) ซึ่งJohn Arbuthnot (1710) ได้กล่าวถึงในช่วงปี 1700 [ 48 ]และต่อมาโดยPierre-Simon Laplace (ช่วงปี 1770) [ 49 ]
Arbuthnot ตรวจสอบบันทึกการเกิดในลอนดอนในแต่ละปีตลอด 82 ปี ตั้งแต่ปี 1629 ถึง 1710 และใช้การทดสอบเครื่องหมาย ซึ่งเป็นการทดสอบ แบบไม่ใช้พารามิเตอร์อย่างง่าย[ 50 ] [ 51 ] [ 52 ]ในทุกปี จำนวนเพศชายที่เกิดในลอนดอนมีมากกว่าจำนวนเพศหญิง เมื่อพิจารณาว่าการเกิดของเพศชายหรือเพศหญิงมากกว่ากันนั้นมีโอกาสเกิดขึ้นเท่าๆ กัน ความน่าจะเป็นของผลลัพธ์ที่สังเกตได้คือ 0.5 82หรือประมาณ 1 ใน 4,836,000,000,000,000,000,000,000 ในแง่สมัยใหม่ นี่คือ ค่า p Arbuthnot สรุปว่าค่านี้เล็กเกินกว่าจะเป็นผลมาจากความบังเอิญ และต้องเป็นผลมาจากพระประสงค์ของพระเจ้า: "จากนั้นจึงสรุปได้ว่า เป็นศิลปะ ไม่ใช่ความบังเอิญ ที่ควบคุม" ในแง่สมัยใหม่ เขาปฏิเสธสมมติฐานว่างที่ว่าการเกิดของเพศชายและเพศหญิงมีโอกาสเท่ากันที่ระดับนัยสำคัญ p = 1/2 82
ลาปลาซพิจารณาสถิติการเกิดเกือบครึ่งล้านครั้ง สถิติแสดงให้เห็นว่ามีเด็กผู้ชายมากกว่าเด็กผู้หญิง[ 7 ]เขาสรุปโดยการคำนวณค่าpว่าความเกินนั้นเป็นผลกระทบที่แท้จริง แต่ไม่สามารถอธิบายได้[ 53 ]
หญิงสาวกำลังชิมชา
ในตัวอย่างที่มีชื่อเสียงของการทดสอบสมมติฐาน ซึ่งรู้จักกันในชื่อ " สุภาพสตรีชิมชา" [ 54 ] ดร . มูเรียล บริสตอลเพื่อนร่วมงานของฟิชเชอร์ อ้างว่าสามารถบอกได้ว่าชาหรือนมถูกเติมลงในถ้วยก่อน ฟิชเชอร์เสนอให้ถ้วยแปดใบแก่เธอ โดยแต่ละใบมีสี่ชนิด ในลำดับแบบสุ่ม จากนั้นจึงสามารถถามได้ว่าความน่าจะเป็นที่เธอจะได้จำนวนที่ถูกต้องโดยบังเอิญนั้นเป็นเท่าใด สมมติฐานว่างคือสุภาพสตรีไม่มีความสามารถดังกล่าว สถิติการทดสอบคือการนับจำนวนความสำเร็จในการเลือกถ้วยทั้งสี่ใบอย่างง่าย พื้นที่วิกฤตคือกรณีเดียวที่มีความสำเร็จ 4 ครั้งจาก 4 ครั้งที่เป็นไปได้ โดยอิงตามเกณฑ์ความน่าจะเป็นทั่วไป (< 5%) รูปแบบของความสำเร็จ 4 ครั้งสอดคล้องกับ 1 ใน 70 ชุดค่าผสมที่เป็นไปได้ (p≈ 1.4%) ฟิชเชอร์ยืนยันว่าไม่จำเป็นต้องมีสมมติฐานทางเลือก (เลย) สุภาพสตรีระบุถ้วยทุกใบได้อย่างถูกต้อง[ 55 ]ซึ่งถือเป็นผลลัพธ์ที่มีนัยสำคัญทางสถิติ
เกมไพ่พยากรณ์
บุคคลหนึ่ง (ผู้ถูกทดสอบ) จะได้รับการทดสอบความสามารถ ในการหยั่งรู้ โดยให้พวกเขาดูด้านหลังของไพ่ที่สุ่มเลือกมา 25 ครั้ง และถูกถามว่าไพ่ใบนั้นเป็นของชุดใดในสี่ชุด จำนวนครั้งที่ตอบถูกหรือถูกทั้งหมดเรียกว่าX
ขณะที่เราพยายามค้นหาหลักฐานของความสามารถในการหยั่งรู้ของพวกเขา ในขณะนี้สมมติฐานหลักคือบุคคลนั้นไม่มีความสามารถในการหยั่งรู้[ 56 ]ทางเลือกอื่นคือ บุคคลนั้นมีความสามารถในการหยั่งรู้ (ไม่มากก็น้อย)
ถ้าสมมติฐานหลักเป็นจริง สิ่งเดียวที่ผู้ทดสอบสามารถทำได้คือการเดา สำหรับไพ่ทุกใบ ความน่าจะเป็น (ความถี่สัมพัทธ์) ที่ไพ่ชุดใดชุดหนึ่งจะปรากฏขึ้นคือ 1/4 ถ้าสมมติฐานทางเลือกเป็นจริง ผู้ทดสอบจะทายชุดไพ่ได้อย่างถูกต้องด้วยความน่าจะเป็นมากกว่า 1/4 เราจะเรียกความน่าจะเป็นของการเดาได้อย่างถูกต้องว่าpดังนั้น สมมติฐานจึงเป็นดังนี้:
- สมมติฐานว่าง (เดาเอา)
และ
- สมมติฐานทางเลือก (ผู้มีญาณทิพย์ที่แท้จริง)
เมื่อผู้ทดสอบทำนายไพ่ทั้ง 25 ใบได้อย่างถูกต้อง เราจะถือว่าพวกเขามีญาณทิพย์ และปฏิเสธสมมติฐานว่าง เช่นเดียวกับการทำนายถูก 24 หรือ 23 ครั้ง แต่ถ้าทำนายถูกเพียง 5 หรือ 6 ครั้ง ก็ไม่มีเหตุผลที่จะถือว่าพวกเขามีญาณทิพย์ แล้วถ้าทำนายถูก 12 หรือ 17 ครั้งล่ะ? จำนวนการทำนายถูกที่สำคัญ ( c ) คือเท่าใด ที่เราจะถือว่าผู้ทดสอบมีญาณทิพย์? เราจะกำหนดค่าวิกฤตc ได้อย่างไร ? การเลือกc = 25 (นั่นคือ เรายอมรับญาณทิพย์ก็ต่อเมื่อทำนายไพ่ทั้งหมดได้อย่างถูกต้อง) จะทำให้เรามีความเข้มงวดมากกว่าการ เลือก c = 10 ในกรณีแรก แทบจะไม่มีผู้ทดสอบคนใดได้รับการยอมรับว่ามีญาณทิพย์ ในกรณีที่สอง จะมีผู้ทดสอบจำนวนหนึ่งผ่านการทดสอบ ในทางปฏิบัติ เราจะตัดสินใจว่าเราจะมีความเข้มงวดมากน้อยเพียงใด นั่นคือ เราจะตัดสินใจว่าเราจะยอมรับความผิดพลาดประเภทแรก – ผลบวกเท็จหรือความผิดพลาดประเภทที่ 1 – บ่อยแค่ไหน เมื่อc = 25 ความน่าจะเป็นของความผิดพลาดดังกล่าวคือ:
- ,
ดังนั้นจึงมีค่าน้อยมาก ความน่าจะเป็นของผลบวกเท็จคือความน่าจะเป็นของการเดาถูกโดยสุ่มทั้ง 25 ครั้ง
หากใช้เกณฑ์วิเคราะห์ที่อ่อนลง โดยกำหนดให้c = 10 จะได้ผลลัพธ์ดังนี้:
- .
ดังนั้นค่า c = 10 จึงทำให้มีโอกาสเกิดผลบวกเท็จสูงขึ้นมาก
ก่อนที่จะทำการทดสอบจริง จะต้องกำหนดค่าความน่าจะเป็นสูงสุดที่ยอมรับได้ของความผิดพลาดประเภทที่ 1 ( α ) ก่อน โดยทั่วไปจะเลือกค่าในช่วง 1% ถึง 5% (หากอัตราความผิดพลาดสูงสุดที่ยอมรับได้เป็นศูนย์ จะต้องมีการเดาที่ถูกต้องเป็นจำนวนอนันต์) ค่าวิกฤตcจะถูกคำนวณโดยขึ้นอยู่กับอัตราความผิดพลาดประเภทที่ 1 นี้ ตัวอย่างเช่น หากเราเลือกอัตราความผิดพลาด 1% ค่า cจะคำนวณได้ดังนี้:
- .
จากตัวเลข c ทั้งหมดที่มีคุณสมบัตินี้ เราจะเลือกตัวเลขที่เล็กที่สุด เพื่อลดโอกาสที่จะเกิดข้อผิดพลาดประเภทที่ 2 หรือผลลบเท็จสำหรับตัวอย่างข้างต้น เราเลือก:
รูปแบบต่างๆ และประเภทย่อย
การทดสอบสมมติฐานทางสถิติเป็นเทคนิคสำคัญทั้งในการอนุมานแบบความถี่และการอนุมานแบบเบย์แม้ว่าการอนุมานทั้งสองประเภทจะมีความแตกต่างที่สำคัญ การทดสอบสมมติฐานทางสถิติกำหนดขั้นตอนที่ควบคุม (แก้ไข) ความน่าจะเป็นของการตัดสินใจ ผิดพลาด ว่าสมมติฐานหลัก ( สมมติฐานว่าง ) นั้นไม่ถูกต้อง ขั้นตอนนี้ขึ้นอยู่กับความน่าจะเป็นที่ชุดของการสังเกตจะเกิดขึ้นหากสมมติฐานว่างเป็นจริง ความน่าจะเป็นของการตัดสินใจผิดพลาดนี้ไม่ใช่ความน่าจะเป็นที่สมมติฐานว่างเป็นจริง หรือความน่าจะเป็นที่สมมติฐานทางเลือกใด ๆ เป็นจริง ซึ่งแตกต่างจากเทคนิคอื่น ๆ ในทฤษฎีการตัดสินใจที่สมมติฐานว่างและสมมติฐานทางเลือกได้รับการพิจารณาอย่างเท่าเทียมกันมากกว่า
แนวทางการทดสอบสมมติฐานแบบเบ ย์เซียนที่เรียบง่ายวิธีหนึ่งคือการตัดสินใจโดยอาศัยความน่าจะเป็นภายหลัง[ 57 ] [ 58 ]แต่วิธีนี้ใช้ไม่ได้ผลเมื่อเปรียบเทียบสมมติฐานแบบจุดและแบบต่อเนื่อง แนวทางการตัดสินใจอื่นๆ เช่นทฤษฎีการตัดสินใจแบบเบย์เซียนพยายามที่จะสร้างสมดุลระหว่างผลที่ตามมาของการตัดสินใจที่ไม่ถูกต้องในทุกความเป็นไปได้ แทนที่จะมุ่งเน้นไปที่สมมติฐานว่างเพียงสมมติฐานเดียว มีแนวทางอื่นๆ อีกมากมายในการตัดสินใจโดยอาศัยข้อมูลผ่านทฤษฎีการตัดสินใจและการตัดสินใจที่เหมาะสมซึ่งบางวิธีก็มีคุณสมบัติที่พึงประสงค์ อย่างไรก็ตาม การทดสอบสมมติฐานเป็นแนวทางหลักในการวิเคราะห์ข้อมูลในหลายสาขาวิทยาศาสตร์ การขยายทฤษฎีการทดสอบสมมติฐานรวมถึงการศึกษาพลังของการทดสอบ กล่าวคือ ความน่าจะเป็นของการปฏิเสธสมมติฐานว่างอย่างถูกต้องเมื่อพิจารณาว่าสมมติฐานนั้นเป็นเท็จ การพิจารณาเช่นนี้สามารถนำมาใช้เพื่อวัตถุประสงค์ในการกำหนดขนาดตัวอย่างก่อนการเก็บรวบรวมข้อมูล
การทดสอบสมมติฐานของเนย์แมน-เพียร์สัน
ตัวอย่างของการทดสอบสมมติฐานของเนย์แมน-เพียร์สัน (หรือการทดสอบนัยสำคัญทางสถิติของสมมติฐานว่าง) สามารถทำได้โดยการเปลี่ยนตัวอย่างกระเป๋าเดินทางกัมมันตรังสี หาก "กระเป๋าเดินทาง" นั้นเป็นภาชนะบรรจุวัสดุกัมมันตรังสีที่มีการป้องกัน การทดสอบอาจใช้เพื่อเลือกสมมติฐานจากสามสมมติฐาน ได้แก่ ไม่มีแหล่งกำเนิดกัมมันตรังสี มีแหล่งกำเนิดหนึ่งแหล่ง และมีสองแหล่ง (ทั้งหมด) การทดสอบนี้อาจจำเป็นเพื่อความปลอดภัย โดยต้องมีการดำเนินการในแต่ละกรณีทฤษฎีบทของเนย์แมน-เพียร์สันเกี่ยวกับการทดสอบสมมติฐานกล่าวว่า เกณฑ์ที่ดีสำหรับการเลือกสมมติฐานคือ อัตราส่วนของความน่าจะเป็น ( อัตราส่วนความน่าจะเป็น ) วิธีการแก้ปัญหาอย่างง่ายคือ การเลือกสมมติฐานที่มีความน่าจะเป็นสูงสุดสำหรับจำนวนการตรวจวัดด้วยเครื่องไกเกอร์ ผลลัพธ์โดยทั่วไปจะสอดคล้องกับสัญชาตญาณ: จำนวนการตรวจวัดน้อยหมายถึงไม่มีแหล่งกำเนิด จำนวนการตรวจวัดมากหมายถึงมีสองแหล่งกำเนิด และจำนวนการตรวจวัดปานกลางหมายถึงหนึ่งแหล่งกำเนิด โปรดสังเกตว่าโดยปกติแล้วจะมีปัญหาใน การพิสูจน์สมมติฐาน เชิงลบ สมมติฐานว่างควรสามารถพิสูจน์ได้ว่าผิด อย่าง น้อยที่สุด
ทฤษฎี Neyman–Pearson สามารถรองรับทั้งความน่าจะเป็นก่อนหน้าและต้นทุนของการกระทำที่เกิดจากการตัดสินใจ[ 59 ]แบบแรกอนุญาตให้การทดสอบแต่ละครั้งพิจารณาผลลัพธ์ของการทดสอบก่อนหน้า (ต่างจากการทดสอบนัยสำคัญของ Fisher) แบบหลังอนุญาตให้พิจารณาประเด็นทางเศรษฐกิจ (เช่น) เช่นเดียวกับความน่าจะเป็น อัตราส่วนความน่าจะเป็นยังคงเป็นเกณฑ์ที่ดีสำหรับการเลือกสมมติฐาน
การทดสอบสมมติฐานทั้งสองรูปแบบนั้นขึ้นอยู่กับการกำหนดปัญหาที่แตกต่างกัน การทดสอบแบบดั้งเดิมนั้นคล้ายคลึงกับคำถามจริง/เท็จ ในขณะที่การทดสอบของ Neyman–Pearson นั้นคล้ายกับคำถามแบบเลือกตอบหลายตัวเลือก ในมุมมองของTukey [ 60 ]การทดสอบแบบแรกจะให้ข้อสรุปบนพื้นฐานของหลักฐานที่แข็งแกร่งเท่านั้น ในขณะที่การทดสอบแบบหลังจะให้การตัดสินใจบนพื้นฐานของหลักฐานที่มีอยู่ แม้ว่าการทดสอบทั้งสองจะดูแตกต่างกันมากทั้งทางคณิตศาสตร์และปรัชญา แต่การพัฒนาในภายหลังนำไปสู่ข้ออ้างที่ตรงกันข้าม ลองพิจารณาแหล่งกำเนิดรังสีขนาดเล็กจำนวนมาก สมมติฐานจะกลายเป็นเม็ดทรายกัมมันตรังสี 0, 1, 2, 3... เม็ด แทบไม่มีความแตกต่างระหว่างการไม่มีหรือมีรังสีบ้าง (Fisher) และเม็ดทรายกัมมันตรังสี 0 เม็ด เทียบกับทางเลือกทั้งหมด (Neyman–Pearson) เอกสารสำคัญของ Neyman–Pearson ในปี 1933 [ 13 ]ยังพิจารณาสมมติฐานแบบผสม (สมมติฐานที่มีการกระจายรวมถึงพารามิเตอร์ที่ไม่ทราบค่า) ด้วย ตัวอย่างหนึ่งพิสูจน์ถึงความเหมาะสมที่สุดของ การทดสอบ t (ของนักเรียน) โดยระบุว่า "ไม่มีการทดสอบใดที่ดีกว่านี้สำหรับสมมติฐานที่กำลังพิจารณาอยู่" (หน้า 321) ทฤษฎีของเนย์แมน-เพียร์สันได้พิสูจน์ถึงความเหมาะสมที่สุดของวิธีการของฟิชเชอร์ตั้งแต่เริ่มต้น
การทดสอบนัยสำคัญของ Fisher ได้รับการพิสูจน์แล้วว่าเป็นเครื่องมือทางสถิติที่ยืดหยุ่นและเป็นที่นิยมในการใช้งาน โดยมีศักยภาพในการเติบโตทางคณิตศาสตร์เพียงเล็กน้อย การทดสอบสมมติฐานของ Neyman–Pearson ได้รับการกล่าวอ้างว่าเป็นเสาหลักของสถิติทางคณิตศาสตร์[ 61 ]ซึ่งสร้างกระบวนทัศน์ใหม่สำหรับสาขานี้ นอกจากนี้ยังกระตุ้นให้เกิดการประยุกต์ใช้ใหม่ ๆ ในการควบคุมกระบวนการทางสถิติทฤษฎีการตรวจจับทฤษฎีการตัดสินใจและทฤษฎีเกมทั้งสองสูตรประสบความสำเร็จ แต่ความสำเร็จนั้นมีลักษณะที่แตกต่างกัน
ข้อพิพาทเกี่ยวกับสูตรยังไม่ได้รับการแก้ไข วิทยาศาสตร์ส่วนใหญ่ใช้สูตรของฟิชเชอร์ (ที่ปรับเปลี่ยนเล็กน้อย) ตามที่สอนในสถิติเบื้องต้น นักสถิติศึกษาทฤษฎีของเนย์แมน-เพียร์สันในระดับบัณฑิตศึกษา นักคณิตศาสตร์ภาคภูมิใจที่ได้รวมสูตรต่างๆ เข้าด้วยกัน นักปรัชญามองว่าสูตรเหล่านั้นแยกจากกัน ความคิดเห็นของนักวิชาการมองว่าสูตรต่างๆ แข่งขันกัน (ฟิชเชอร์กับเนย์แมน) ไม่เข้ากัน[ 11 ]หรือเสริมกัน[ 15 ]ข้อพิพาทมีความซับซ้อนมากขึ้นนับตั้งแต่การอนุมานแบบเบย์เซียนได้รับความน่าเชื่อถือ
คำศัพท์ที่ใช้ไม่สอดคล้องกัน การทดสอบสมมติฐานอาจหมายถึงการผสมผสานระหว่างสองสูตรที่เปลี่ยนแปลงไปตามเวลา การพูดคุยเรื่องการทดสอบนัยสำคัญกับการทดสอบสมมติฐานจึงยิ่งทำให้เกิดความสับสนมากขึ้น
ฟิชเชอร์คิดว่าการทดสอบสมมติฐานเป็นกลยุทธ์ที่มีประโยชน์สำหรับการควบคุมคุณภาพทางอุตสาหกรรม อย่างไรก็ตาม เขาไม่เห็นด้วยอย่างยิ่งว่าการทดสอบสมมติฐานจะมีประโยชน์สำหรับนักวิทยาศาสตร์[ 12 ] การทดสอบสมมติฐานเป็นวิธีการค้นหาสถิติการทดสอบที่ใช้ในการทดสอบนัยสำคัญ[ 15 ]แนวคิดเรื่องกำลังมีประโยชน์ในการอธิบายผลที่ตามมาของการปรับระดับนัยสำคัญและถูกนำมาใช้อย่างมากในการกำหนดขนาดตัวอย่างวิธีการทั้งสองยังคงแตกต่างกันในเชิงปรัชญา[ 17 ]โดยปกติ (แต่ไม่เสมอไป ) จะให้คำตอบทางคณิตศาสตร์เดียวกัน คำตอบที่ต้องการขึ้นอยู่กับบริบท[ 15 ]ในขณะที่การรวมทฤษฎีของฟิชเชอร์และเนย์แมน-เพียร์สันที่มีอยู่ได้รับการวิพากษ์วิจารณ์อย่างหนัก การปรับเปลี่ยนการรวมเพื่อให้บรรลุเป้าหมายแบบเบย์เซียนได้รับการพิจารณาแล้ว[ 62 ]
การวิจารณ์
ข้อวิพากษ์วิจารณ์ส่วนใหญ่เกี่ยวกับการทดสอบสมมติฐานทางสถิติสามารถสรุปได้ด้วยประเด็นต่อไปนี้:
- การตีความ ค่า pขึ้นอยู่กับกฎการหยุดและคำจำกัดความของการเปรียบเทียบหลายรายการ กฎการหยุดมักจะเปลี่ยนแปลงในระหว่างการศึกษา และคำจำกัดความของการเปรียบเทียบหลายรายการนั้นมีความคลุมเครืออย่างหลีกเลี่ยงไม่ได้ (เช่น "ค่า p ขึ้นอยู่กับทั้งข้อมูลที่สังเกตได้และข้อมูลอื่นๆ ที่อาจสังเกตได้แต่ไม่ได้สังเกต") [ 63 ]
- ความสับสนที่เกิดขึ้น (ส่วนหนึ่ง) จากการรวมวิธีการของ Fisher และ Neyman–Pearson ซึ่งแตกต่างกันในเชิงแนวคิด[ 60 ]
- เน้นความสำคัญทางสถิติโดยไม่รวมการประมาณและการยืนยันโดยการทดลองซ้ำ[ 64 ]
- การกำหนดความสำคัญทางสถิติอย่างเข้มงวดเป็นเกณฑ์สำหรับการตีพิมพ์ ส่งผลให้เกิดอคติในการตีพิมพ์ [ 65 ] คำวิจารณ์ส่วนใหญ่เป็นไปโดยอ้อม แทนที่จะผิด การทดสอบสมมติฐานทางสถิติกลับถูกเข้าใจผิด ใช้มากเกินไป และใช้ในทางที่ผิด
- เมื่อใช้เพื่อตรวจจับว่ามีความแตกต่างระหว่างกลุ่มหรือไม่ จะเกิดความขัดแย้งขึ้น เมื่อมีการปรับปรุงการออกแบบการทดลอง (เช่น ความแม่นยำในการวัดและขนาดตัวอย่างที่เพิ่มขึ้น) การทดสอบจะมีความผ่อนปรนมากขึ้น เว้นแต่จะยอมรับสมมติฐานที่ไร้สาระว่าแหล่งที่มาของสัญญาณรบกวนทั้งหมดในข้อมูลจะหักล้างกันอย่างสมบูรณ์ โอกาสที่จะพบนัยสำคัญทางสถิติในทิศทางใดทิศทางหนึ่งจะเข้าใกล้ 100% [ 66 ]อย่างไรก็ตาม สมมติฐานที่ไร้สาระนี้ที่ว่าความแตกต่างเฉลี่ยระหว่างสองกลุ่มไม่สามารถเป็นศูนย์ได้ หมายความว่าข้อมูลไม่สามารถเป็นอิสระและมีการกระจายเหมือนกัน (iid) ได้ เนื่องจากความแตกต่างที่คาดหวังระหว่างสองกลุ่มย่อยใด ๆ ของตัวแปรสุ่ม iid เป็นศูนย์ ดังนั้นสมมติฐาน iid จึงไร้สาระเช่นกัน
- ความกังวลเชิงปรัชญาหลายชั้น ความน่าจะเป็นของนัยสำคัญทางสถิติเป็นฟังก์ชันของการตัดสินใจของผู้ทำการทดลอง/นักวิเคราะห์[ 67 ]หากการตัดสินใจขึ้นอยู่กับธรรมเนียมปฏิบัติ จะเรียกว่าเป็นการตัดสินใจตามอำเภอใจหรือไร้สติ[ 68 ]ในขณะที่การตัดสินใจที่ไม่ได้ขึ้นอยู่กับธรรมเนียมปฏิบัติดังกล่าว อาจเรียกว่าเป็นการตัดสินใจตามความรู้สึกส่วนตัว เพื่อลดข้อผิดพลาดประเภทที่ 2 แนะนำให้ใช้กลุ่มตัวอย่างขนาดใหญ่ ในทางจิตวิทยา สมมติฐานว่างแทบทั้งหมดถูกอ้างว่าเป็นเท็จสำหรับกลุ่มตัวอย่างขนาดใหญ่พอสมควร ดังนั้น "...การทำการทดลองโดยมี เป้าหมาย เดียวคือการปฏิเสธสมมติฐานว่างจึงมักไม่สมเหตุสมผล" [ 69 ] "ผลการค้นพบที่มีนัยสำคัญทางสถิติมักทำให้เข้าใจผิด" ในทางจิตวิทยา[ 70 ]นัยสำคัญทางสถิติไม่ได้หมายความถึงนัยสำคัญในทางปฏิบัติ และความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ การตั้งข้อสงสัยต่อสมมติฐานว่างจึงห่างไกลจากการสนับสนุนสมมติฐานการวิจัยโดยตรง
- “มันไม่ได้บอกสิ่งที่เราอยากรู้” [ 71 ]มีรายการข้อร้องเรียนหลายสิบรายการ[ 72 ] [ 20 ] [ 73 ]
นักวิจารณ์และผู้สนับสนุนส่วนใหญ่เห็นพ้องกันในข้อเท็จจริงเกี่ยวกับลักษณะของการทดสอบนัยสำคัญของสมมติฐานว่าง (NHST): แม้ว่าจะสามารถให้ข้อมูลที่สำคัญได้ แต่ก็ไม่เพียงพอที่จะใช้เป็นเครื่องมือเดียวสำหรับการวิเคราะห์ทางสถิติการปฏิเสธสมมติฐานว่างได้สำเร็จอาจไม่ให้การสนับสนุนสมมติฐานการวิจัย ข้อโต้แย้งที่ยังคงดำเนินอยู่เกี่ยวข้องกับการเลือกแนวทางปฏิบัติทางสถิติที่ดีที่สุดสำหรับอนาคตอันใกล้ โดยพิจารณาจากแนวทางปฏิบัติที่มีอยู่ อย่างไรก็ตาม การออกแบบการวิจัยที่เหมาะสมสามารถลดปัญหานี้ได้ นักวิจารณ์ต้องการห้าม NHST โดยสิ้นเชิง บังคับให้ละทิ้งแนวทางปฏิบัติเหล่านั้นโดยสิ้นเชิง[ 74 ]ในขณะที่ผู้สนับสนุนแนะนำให้เปลี่ยนแปลงน้อยลง[ 75 ]
ความขัดแย้งเกี่ยวกับการทดสอบนัยสำคัญและผลกระทบต่ออคติในการตีพิมพ์โดยเฉพาะ ได้ก่อให้เกิดผลลัพธ์หลายประการสมาคมจิตวิทยาอเมริกันได้เสริมสร้างข้อกำหนดการรายงานทางสถิติหลังจากการตรวจสอบ[ 76 ] ผู้จัดพิมพ์ วารสารทางการแพทย์ได้ตระหนักถึงภาระผูกพันในการตีพิมพ์ผลลัพธ์บางอย่างที่ไม่มีนัยสำคัญทางสถิติเพื่อต่อสู้กับอคติในการตีพิมพ์[ 77 ] และ ได้มีการสร้างวารสาร ( Journal of Articles in Support of the Null Hypothesis ) ขึ้นเพื่อตีพิมพ์ผลลัพธ์ดังกล่าวโดยเฉพาะ [ 78 ]ตำราเรียนได้เพิ่มข้อควรระวังบางประการ[ 79 ]และเพิ่มการครอบคลุมเครื่องมือที่จำเป็นในการประมาณขนาดของตัวอย่างที่จำเป็นในการสร้างผลลัพธ์ที่มีนัยสำคัญ องค์กรหลักๆ เพียงไม่กี่แห่งเท่านั้นที่ละทิ้งการใช้การทดสอบนัยสำคัญ แม้ว่าบางแห่งจะมีการหารือเกี่ยวกับการทำเช่นนั้นก็ตาม[ 76 ]ตัวอย่างเช่น ในปี 2023 บรรณาธิการของวารสาร Journal of Physiology "แนะนำอย่างยิ่งให้ใช้วิธีการประมาณค่าสำหรับผู้ที่ตีพิมพ์ในวารสาร" (หมายถึงขนาดของผลกระทบ (เพื่อให้ผู้อ่านสามารถตัดสินได้ว่าการค้นพบนั้นมีความเกี่ยวข้องในทางปฏิบัติ ทางสรีรวิทยา หรือทางคลินิกหรือไม่) และช่วงความเชื่อมั่นเพื่อสื่อถึงความแม่นยำของการประมาณค่านั้น) โดยกล่าวว่า "ท้ายที่สุดแล้ว สิ่งที่ผู้ตีพิมพ์ในวารสาร Journal of Physiology ควรให้ความสำคัญมากที่สุดคือความสำคัญทางสรีรวิทยาของข้อมูล มากกว่าความสำคัญทางสถิติ" [ 80 ]
ค่า P เป็นตัวแปรสุ่ม[ 81 ]ดังนั้น การตัดสินใจของการทดสอบทางสถิติจึงเป็นตัวแปรสุ่ม เพื่อทำความเข้าใจเสถียรภาพ จึงมีการเสนอแนวทางต่างๆ รวมถึงแนวทางต่อไปนี้:
- การบูตสแตรปการกระจายตัวอย่างของค่า p [ 82 ]
ทางเลือกอื่นๆ
จุดยืนที่เป็นเอกภาพของนักวิจารณ์คือ สถิติไม่ควรนำไปสู่ข้อสรุปหรือการตัดสินใจแบบยอมรับ-ปฏิเสธ แต่ควรนำไปสู่ค่าประมาณที่มีช่วงการประมาณค่าปรัชญาการวิเคราะห์ข้อมูลนี้โดยทั่วไปเรียกว่าสถิติการประมาณค่า สถิติการประมาณค่าสามารถทำได้ด้วยวิธีการแบบความถี่[ 83 ]หรือแบบเบย์เซียน[ 84 ] [ 85 ]
นักวิจารณ์การทดสอบนัยสำคัญได้สนับสนุนให้การอนุมานขึ้นอยู่กับค่า p น้อยลง และขึ้นอยู่กับช่วงความเชื่อมั่นสำหรับขนาดผลกระทบสำหรับความสำคัญ ช่วงการทำนายสำหรับความเชื่อมั่น การทำซ้ำและการขยายสำหรับความสามารถในการทำซ้ำ การวิเคราะห์เมตาสำหรับความทั่วไปมากขึ้น[ 86 ]แต่ไม่มีทางเลือกใดที่แนะนำมาซึ่งก่อให้เกิดการตัดสินใจโดยเนื้อแท้ เลห์มันน์กล่าวว่าทฤษฎีการทดสอบสมมติฐานสามารถนำเสนอได้ในแง่ของข้อสรุป/การตัดสินใจ ความน่าจะเป็น หรือช่วงความเชื่อมั่น: "ความแตกต่างระหว่าง... แนวทางส่วนใหญ่เป็นเรื่องของการรายงานและการตีความ" [ 29 ]
การอนุมานแบบเบย์เซียนเป็นทางเลือกหนึ่งที่เสนอแทนการทดสอบนัยสำคัญ (นิคเกอร์สันอ้างถึงแหล่งข้อมูล 10 แหล่งที่แนะนำ รวมถึงโรเซบูม (1960)) [ 20 ]ตัวอย่างเช่นการประมาณค่าพารามิเตอร์ แบบเบย์เซียน สามารถให้ข้อมูลมากมายเกี่ยวกับข้อมูลที่นักวิจัยสามารถอนุมานได้ ในขณะที่ใช้ไพรเออร์ ที่ไม่แน่นอน ซึ่งมีอิทธิพลต่อผลลัพธ์เพียงเล็กน้อยเมื่อมีข้อมูลเพียงพอ นักจิตวิทยาจอห์น เค. ครูชเคได้แนะนำการประมาณค่าแบบเบย์เซียนเป็นทางเลือกแทนการทดสอบt [ 84 ]และยังได้เปรียบเทียบการประมาณค่าแบบเบย์เซียนสำหรับการประเมินค่าว่างกับการเปรียบเทียบแบบจำลองแบบเบย์เซียนสำหรับการทดสอบสมมติฐาน[ 85 ]สามารถเปรียบเทียบแบบจำลอง/สมมติฐานที่แข่งขันกันสองแบบได้โดยใช้ปัจจัยเบย์เซียน [ 87 ] วิธีการแบบเบย์เซียนอาจถูกวิพากษ์วิจารณ์ว่าต้องการข้อมูลที่หาได้ยากในกรณีที่ใช้การทดสอบนัยสำคัญมากที่สุด โดยทั่วไปแล้ว ความน่าจะเป็นก่อนหน้าหรือการกระจายความน่าจะเป็นของสถิติการทดสอบภายใต้สมมติฐานทางเลือกมักจะไม่มีอยู่ในสังคมศาสตร์[ 20 ]
ผู้สนับสนุนแนวทางแบบเบย์เซียนบางครั้งอ้างว่าเป้าหมายของนักวิจัยส่วนใหญ่คือการประเมินความน่าจะเป็น ที่สมมติฐานเป็นจริง อย่าง เป็นกลาง โดยอาศัยข้อมูลที่พวกเขารวบรวมไว้[ 88 ] [ 89 ] ทั้ง การทดสอบนัยสำคัญของ ฟิชเชอร์และ การทดสอบสมมติฐานของ เนย์แมน-เพียร์สันไม่สามารถให้ข้อมูลนี้ได้ และไม่ได้อ้างว่าจะให้ได้ ความน่าจะเป็นที่สมมติฐานเป็นจริงสามารถหาได้จากการใช้ทฤษฎีบทของเบย์ เท่านั้น ซึ่งไม่เป็นที่น่าพอใจสำหรับทั้งฝ่ายฟิชเชอร์และเนย์แมน-เพียร์สันเนื่องจากการใช้ความเป็นอัตวิสัย อย่างชัดเจน ในรูปแบบของความน่าจะเป็นก่อนหน้า [ 13 ] [ 90 ] กลยุทธ์ของฟิชเชอร์คือการหลีกเลี่ยงสิ่งนี้ด้วยค่าp ( ดัชนีที่เป็นกลางโดยอาศัยข้อมูลเพียงอย่างเดียว) ตามด้วยการอนุมานแบบอุปนัยในขณะที่เนย์แมน-เพียร์สันได้คิดค้นแนวทางพฤติกรรม แบบอุปนัย ของพวกเขา
ดูเพิ่มเติม
- สถิติ
- ปัญหาเบห์เรนส์-ฟิชเชอร์
- การบูตสแตรป (สถิติ)
- การตรวจสอบว่าเหรียญนั้นเป็นเหรียญยุติธรรมหรือไม่
- แผนผังการตัดสินใจการทดสอบเปรียบเทียบค่าเฉลี่ย
- ความสุ่มเชิงพื้นที่อย่างสมบูรณ์
- เคาน์เตอร์นัลล์
- ความสามารถในการพิสูจน์ความเท็จ
- วิธีของฟิชเชอร์สำหรับการรวมการทดสอบนัยสำคัญอิสระ
- ความสัมพันธ์เชิงสาเหตุแบบแกรนเจอร์
- ผลกระทบจากการมองไปทางอื่น
- ปัญหาหน่วยพื้นที่ที่ปรับเปลี่ยนได้
- ปัญหาหน่วยเวลาที่ปรับเปลี่ยนได้
- การทดสอบสมมติฐานแบบหลายตัวแปร
- การทดสอบ Omnibus
- การคิดแบบแบ่งแยกสองขั้ว
- การทดสอบสมมติฐานที่ค่อนข้างแน่นอน
- เกณฑ์ข้อมูลอะไคเกะ
- เกณฑ์ข้อมูลแบบเบย์เซียน
- ค่า E
อ่านเพิ่มเติม
- Lehmann EL (1992) "บทนำสู่ Neyman และ Pearson (1933) เกี่ยวกับปัญหาของการทดสอบสมมติฐานทางสถิติที่มีประสิทธิภาพสูงสุด" ใน: ความก้าวหน้าทางสถิติ เล่ม 1 (บรรณาธิการ Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5(ตามด้วยการพิมพ์เอกสารซ้ำ)
- Neyman, J.; Pearson, ES (1933). "เกี่ยวกับปัญหาของการทดสอบสมมติฐานทางสถิติที่มีประสิทธิภาพสูงสุด" . Philosophical Transactions of the Royal Society A . 231 ( 694– 706): 289– 337. Bibcode : 1933RSPTA.231..289N . doi : 10.1098/rsta.1933.0009 .
ลิงก์ภายนอก
- " สมมติฐานทางสถิติ การตรวจสอบ" สารานุกรมคณิตศาสตร์สำนักพิมพ์ EMS 2001 [1994]
- การวิพากษ์วิจารณ์การทดสอบสมมติฐานแบบคลาสสิกโดยใช้แนวคิดแบบเบย์เซียน
- บทวิจารณ์การทดสอบสมมติฐานแบบคลาสสิกที่เน้นความกังวลใจที่มีมายาวนานของนักสถิติ
- ภาพรวมการทดสอบทางสถิติ:วิธีเลือกการทดสอบทางสถิติที่ถูกต้อง
- [1]วิธีการทดสอบสมมติฐานโดยใช้การวิเคราะห์ทางสถิติในการค้นพบความรู้ทางชีววิทยา; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana
เครื่องคำนวณออนไลน์
- เครื่องมือคำนวณค่า p และการทดสอบสมมติฐานบางส่วน
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การทดสอบสมมติฐานทางสถิติ
การ ทดสอบสมมติฐานทางสถิติ เป็นวิธีการอนุมานทางสถิติที่ใช้ในการตัดสินใจว่าข้อมูลมีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานเฉพาะหรือไม่...
คำจำกัดความของคำศัพท์
เป้าหมายของการทดสอบสมมติฐานคือการพิสูจน์ว่าคุณสมบัติบางอย่างของ ประชากรทางสถิติ เป็นจริงหรือไม่โดยการตรวจสอบ ข้อมูลตัวอย่าง โดยทั่วไป ประชากรจะถูกจำลองโดย ตัวแปรสุ่ม ที่มีการกระจายซึ่งมีพารามิเตอร์ที่ไม่ทราบค่า ตัวอย่างเช่น...
ประวัติศาสตร์
แม้ว่าการทดสอบสมมติฐานจะได้รับความนิยมในช่วงต้นศตวรรษที่ 20 แต่รูปแบบแรกเริ่มถูกนำมาใช้ในช่วงปี 1700 การใช้งานครั้งแรกได้รับการยกย่องให้แก่ John Arbuthnot (1710) [ 6 ] ตามด้วย Pierre-Simon Laplace (ช่วงปี 1770 ) ในการวิเคราะห์ อัตราส่วนเพศของมนุษย์...
ต้นกำเนิดสมัยใหม่และข้อโต้แย้งในช่วงแรก
การทดสอบนัยสำคัญสมัยใหม่ส่วนใหญ่เป็นผลงานของ Karl Pearson ( ค่า p , การทดสอบไคกำลังสองของ Pearson ), William Sealy Gosset ( การแจกแจง t ของ Student ) และ Ronald Fisher (" สมมติฐานว่าง ", การวิเคราะห์ความแปรปรวน , " การทดสอบนัยสำคัญ ")...