การทดสอบสมมติฐานทางสถิติ

สถิติการทดสอบ	ประเภทของการทดสอบ
ค่าสถิติt	การทดสอบ t -test การทดสอบการถดถอย
สถิติF	ANOVA MANOVA ANCOVA
ค่าสถิติz	การทดสอบz
สถิติx ²	การทดสอบไคสแควร์
สถิติ การทดสอบที่ใช้กันทั่วไปบางส่วน และ การทดสอบทางสถิติหรือแบบจำลอง ที่เกี่ยวข้อง

การทดสอบสมมติฐานทางสถิติเป็นวิธีการอนุมานทางสถิติที่ใช้ในการตัดสินใจว่าข้อมูลมีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานเฉพาะหรือไม่ โดยทั่วไปการทดสอบสมมติฐานทางสถิติจะเกี่ยวข้องกับการคำนวณค่าสถิติการทดสอบจากนั้นจึงทำการตัดสินใจ โดยการเปรียบเทียบค่าสถิติการทดสอบกับค่าวิกฤตหรือโดยการประเมินค่า p ที่คำนวณจากค่าสถิติการทดสอบ มี การทดสอบทางสถิติเฉพาะทางประมาณ 100 รายการที่ใช้กันอยู่^{[ 1 ]}^{[ 2 ]}

คำจำกัดความของคำศัพท์

เป้าหมายของการทดสอบสมมติฐานคือการพิสูจน์ว่าคุณสมบัติบางอย่างของประชากรทางสถิติเป็นจริงหรือไม่โดยการตรวจสอบข้อมูลตัวอย่างโดยทั่วไป ประชากรจะถูกจำลองโดยตัวแปรสุ่มที่มีการกระจายซึ่งมีพารามิเตอร์ที่ไม่ทราบค่า ตัวอย่างเช่น การทดลองทางการแพทย์อาจต้องการพิสูจน์ว่ายาชนิดใดชนิดหนึ่งมีประสิทธิภาพในการรักษาความดันโลหิตสูงหรือไม่ โดยที่ "การเปลี่ยนแปลงของความดันโลหิตที่สังเกตได้ในผู้ป่วยที่รับประทานยา" เป็นตัวแปรสุ่ม ตัวอย่างสมมติฐานอาจเป็น "ค่าเฉลี่ยของการเปลี่ยนแปลงความดันโลหิตเป็นศูนย์" หรือ "ค่าเฉลี่ยของการเปลี่ยนแปลงความดันโลหิตเป็นค่าลบ" โดยทั่วไป ข้อความใดๆ เกี่ยวกับพารามิเตอร์ที่อธิบายประชากรสามารถเป็นสมมติฐานได้ (แต่ไม่ใช่ข้อความเกี่ยวกับตัวอย่าง) ^{[ 3 ]}

การทดสอบนี้เปรียบเทียบสมมติฐานสองข้อ ได้แก่สมมติฐาน "ว่าง" (H₀ ₎และสมมติฐาน "ทางเลือก" (H₁ ₎ ซึ่งเป็นการปฏิเสธ สมมติฐานว่าง โดยทั่วไป การทดสอบจะเลือกสมมติฐานว่างที่ว่าการแทรกแซงที่กำลังศึกษาไม่มีผล หรือพารามิเตอร์ของประชากรมีค่า "ชัดเจน" ค่าสถิติการทดสอบจะถูกคำนวณจากข้อมูลตัวอย่างที่กำหนด และผู้ทดสอบจะคำนวณความน่าจะเป็นแบบมีเงื่อนไขของการสังเกตค่าอย่างน้อยที่สุดที่ค่าสุดขั้วนี้ โดยสมมติว่าสมมติฐานว่างเป็นจริง หากความน่าจะเป็นนี้ (เรียกว่าค่า p ) น้อยกว่าระดับนัยสำคัญของการทดสอบ (p = 0 ) แสดงว่าสมมติฐานว่างถูกปฏิเสธ การทดสอบไม่ได้สรุปว่าสมมติฐานว่างเป็นเท็จ หรือความน่าจะเป็นที่สมมติฐานว่างเป็นเท็จน้อยกว่า p = 0 ^[⁴^] $\alpha$ $\alpha$

เนื่องจากโดยปกติแล้วเป็นไปไม่ได้ที่จะพิสูจน์ได้อย่างแน่ชัดว่าสมมติฐานที่กำลังทดสอบนั้นเป็นจริงหรือเท็จจากตัวอย่าง ดังนั้นข้อสรุปของการทดสอบสมมติฐานจึงไม่ถูกต้องเสมอไป มีข้อผิดพลาดที่เป็นไปได้สองประเภท:

ความผิดพลาด ประเภทที่ 1คือการปฏิเสธสมมติฐานว่างแม้ว่าสมมติฐานว่างจะเป็นจริง ด้วยความน่าจะเป็นซึ่งเท่ากับระดับนัยสำคัญของการทดสอบ $\alpha =P({\text{ปฏิเสธ }}H_{0}|H_{0})$
ความผิดพลาด ประเภทที่ 2คือ การยอมรับสมมติฐานหลักแม้ว่าสมมติฐานทางเลือกจะเป็นจริง โดยมีความน่าจะเป็นค่านี้เรียกว่ากำลังของการทดสอบ $\beta =P({\text{accept }}H_{0}|H_{1})$ $1-\beta$

คำจำกัดความเพิ่มเติมบางส่วน:

สมมติฐานแบบง่าย : สมมติฐานใดๆ ที่ระบุการกระจายตัวของประชากรได้อย่างสมบูรณ์
สมมติฐานเชิงผสม: สมมติฐานใดๆ ที่ไม่ได้ระบุการกระจายตัวของประชากรอย่างครบถ้วน
ข้อมูลเชิงบวก: ข้อมูลที่ช่วยให้นักวิจัยสามารถปฏิเสธสมมติฐานว่างได้

ค่าวิกฤตของการทดสอบทางสถิติคือขอบเขตของบริเวณการยอมรับของการทดสอบ^{[ 5 ]}บริเวณการยอมรับคือเซตของค่าสถิติการทดสอบซึ่งสมมติฐานว่างจะไม่ถูกปฏิเสธ ขึ้นอยู่กับรูปร่างของบริเวณการยอมรับ อาจมีค่าวิกฤตหนึ่งค่าหรือมากกว่าหนึ่งค่า
- บริเวณที่ถูกปฏิเสธ /บริเวณวิกฤต : ชุดค่าของสถิติการทดสอบที่ทำให้สมมติฐานว่างถูกปฏิเสธ
ขนาด : สำหรับสมมติฐานแบบง่าย นี่คือความน่าจะเป็นของการทดสอบที่ปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้องอัตราผลบวกเท็จสำหรับสมมติฐานแบบผสม นี่คือค่าสูงสุดของความน่าจะเป็นของการปฏิเสธสมมติฐานว่างในทุกกรณีที่ครอบคลุมโดยสมมติฐานว่าง ส่วนเติมเต็มของอัตราผลบวกเท็จเรียกว่าความจำเพาะในทางชีวสถิติ ("นี่คือการทดสอบที่จำเพาะ เนื่องจากผลลัพธ์เป็นบวก เราจึงสามารถพูดได้อย่างมั่นใจว่าผู้ป่วยมีอาการดังกล่าว") ดูความไวและความจำเพาะและข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2สำหรับคำจำกัดความที่ครบถ้วน
การทดสอบนัยสำคัญทางสถิติ : เป็นแนวคิดที่มาก่อนการทดสอบสมมติฐานทางสถิติ (ดูส่วน "ที่มา") ผลการทดลองจะถือว่ามีนัยสำคัญทางสถิติหากตัวอย่างไม่สอดคล้องกับสมมติฐาน (ว่าง) มากพอ แนวคิดนี้เคยถูกมองว่าเป็นเรื่องสามัญสำนึก เป็นวิธีการแก้ปัญหาเชิงปฏิบัติสำหรับการระบุผลการทดลองที่มีความหมาย เป็นข้อตกลงที่กำหนดเกณฑ์ของหลักฐานทางสถิติ หรือเป็นวิธีการสรุปผลจากข้อมูล การทดสอบสมมติฐานทางสถิติได้เพิ่มความเข้มงวดทางคณิตศาสตร์และความสอดคล้องทางปรัชญาให้กับแนวคิดนี้โดยทำให้สมมติฐานทางเลือกมีความชัดเจน ปัจจุบันคำนี้ถูกใช้ในความหมายกว้างๆ สำหรับเวอร์ชันสมัยใหม่ซึ่งเป็นส่วนหนึ่งของการทดสอบสมมติฐานทางสถิติ
การทดสอบแบบอนุรักษ์นิยม: การทดสอบจะถือว่าเป็นการทดสอบแบบอนุรักษ์นิยม หากเมื่อสร้างขึ้นสำหรับระดับนัยสำคัญที่กำหนดไว้ ความน่าจะเป็นที่แท้จริงของ การปฏิเสธสมมติฐานว่าง อย่างไม่ถูกต้องจะไม่เกินระดับนัยสำคัญที่กำหนดไว้
การทดสอบที่แม่นยำ

การทดสอบสมมติฐานทางสถิติเปรียบเทียบค่าสถิติการทดสอบ ( เช่น zหรือt ) กับค่าเกณฑ์ ค่าสถิติการทดสอบ (สูตรที่พบในตารางด้านล่าง) นั้นอิงตามหลักความเหมาะสมที่สุด สำหรับระดับอัตราความผิดพลาดประเภทที่ 1 ที่คงที่ การใช้สถิติเหล่านี้จะช่วยลดอัตราความผิดพลาดประเภทที่ 2 ให้เหลือน้อยที่สุด (เทียบเท่ากับการเพิ่มกำลังการทดสอบให้สูงสุด) คำศัพท์ต่อไปนี้อธิบายการทดสอบในแง่ของความเหมาะสมที่สุดดังกล่าว:

การทดสอบที่มีประสิทธิภาพสูงสุด: สำหรับขนาดหรือระดับนัยสำคัญ ที่กำหนด การทดสอบที่มีประสิทธิภาพสูงสุด (ความน่าจะเป็นที่จะปฏิเสธ) สำหรับค่าที่กำหนดของพารามิเตอร์ที่กำลังทดสอบ ซึ่งอยู่ในสมมติฐานทางเลือก
การทดสอบที่มีประสิทธิภาพสูงสุดอย่างสม่ำเสมอ (UMP)

ประวัติศาสตร์

แม้ว่าการทดสอบสมมติฐานจะได้รับความนิยมในช่วงต้นศตวรรษที่ 20 แต่รูปแบบแรกเริ่มถูกนำมาใช้ในช่วงปี 1700 การใช้งานครั้งแรกได้รับการยกย่องให้แก่John Arbuthnot (1710) ^{[ 6 ]}ตามด้วยPierre-Simon Laplace (ช่วงปี 1770 ) ในการวิเคราะห์อัตราส่วนเพศของมนุษย์เมื่อแรกเกิด ดู§ อัตราส่วนเพศของมนุษย์

1778: ปิแอร์ ลาปลาซเปรียบเทียบอัตราการเกิดของเด็กชายและเด็กหญิงในเมืองต่างๆ ของยุโรป เขากล่าวว่า "เป็นเรื่องปกติที่จะสรุปได้ว่าความเป็นไปได้เหล่านี้มีอัตราส่วนใกล้เคียงกันมาก" ดังนั้น สมมติฐานว่างในกรณีนี้คืออัตราการเกิดของเด็กชายและเด็กหญิงควรเท่ากันตาม "ภูมิปัญญาดั้งเดิม" ^{[ 7 ]}

1900: Karl Pearsonพัฒนาการทดสอบไคกำลังสองเพื่อพิจารณาว่า "รูปแบบของเส้นโค้งความถี่ที่กำหนดจะสามารถอธิบายตัวอย่างที่ดึงมาจากประชากรที่กำหนดได้อย่างมีประสิทธิภาพหรือไม่" ดังนั้นสมมติฐานว่างคือประชากรจะถูกอธิบายโดยการแจกแจงบางอย่างที่ทำนายโดยทฤษฎี เขาใช้จำนวนเลขห้าและหกในข้อมูลการทอยลูกเต๋าของ Weldon เป็นตัวอย่าง ^{[ 8 ]}

1904: คาร์ล เพียร์สันพัฒนาแนวคิดเรื่อง " ความบังเอิญ " เพื่อพิจารณาว่าผลลัพธ์เป็นอิสระจากปัจจัยเชิงหมวดหมู่ที่กำหนดหรือไม่ ในที่นี้สมมติฐานว่างคือโดยปริยายว่าสองสิ่งนั้นไม่เกี่ยวข้องกัน (เช่น การเกิดแผลเป็นและอัตราการตายจากไข้ทรพิษ) ^{[ 9 ]}ในกรณีนี้สมมติฐานว่างไม่ได้ถูกทำนายโดยทฤษฎีหรือภูมิปัญญาดั้งเดิมอีกต่อไป แต่เป็นหลักการของความไม่แยแสที่ทำให้ฟิชเชอร์และคนอื่นๆ ปฏิเสธการใช้ "ความน่าจะเป็นผกผัน" ^{[ 10 ]}

ต้นกำเนิดสมัยใหม่และข้อโต้แย้งในช่วงแรก

การทดสอบนัยสำคัญสมัยใหม่ส่วนใหญ่เป็นผลงานของKarl Pearson ( ค่า p , การทดสอบไคกำลังสองของ Pearson ), William Sealy Gosset ( การแจกแจง t ของ Student ) และRonald Fisher (" สมมติฐานว่าง ", การวิเคราะห์ความแปรปรวน , " การทดสอบนัยสำคัญ ") ในขณะที่การทดสอบสมมติฐานได้รับการพัฒนาโดยJerzy NeymanและEgon Pearson (ลูกชายของ Karl) Ronald Fisher เริ่มต้นชีวิตในสถิติในฐานะ Bayesian (Zabell 1992) แต่ในไม่ช้า Fisher ก็เริ่มไม่พอใจกับความเป็นอัตวิสัยที่เกี่ยวข้อง (กล่าวคือการใช้หลักการไม่แยแสเมื่อกำหนดความน่าจะเป็นก่อนหน้า) และพยายามที่จะนำเสนอแนวทางที่เป็น "วัตถุประสงค์" มากขึ้นสำหรับการอนุมานแบบอุปนัย^{[ 11 ]}

ฟิชเชอร์เน้นการออกแบบการทดลองที่เข้มงวดและวิธีการดึงผลลัพธ์จากตัวอย่างจำนวนน้อยโดยสมมติว่า มี การกระจายแบบเกาส์เซียนในขณะที่เนย์แมน (ซึ่งร่วมงานกับเพียร์สันรุ่นน้อง) เน้นความเข้มงวดทางคณิตศาสตร์และวิธีการเพื่อให้ได้ผลลัพธ์มากขึ้นจากตัวอย่างจำนวนมากและการกระจายที่หลากหลายกว่า การทดสอบสมมติฐานสมัยใหม่เป็นการผสมผสานที่ไม่สอดคล้องกันระหว่างสูตร วิธีการ และศัพท์เฉพาะของฟิชเชอร์กับเนย์แมน/เพียร์สันที่พัฒนาขึ้นในช่วงต้นศตวรรษที่ 20

ฟิชเชอร์เป็นผู้ทำให้ "การทดสอบนัยสำคัญ" เป็นที่รู้จักอย่างแพร่หลาย เขาต้องการสมมติฐานว่าง (ซึ่งสอดคล้องกับการแจกแจงความถี่ของประชากร) และกลุ่มตัวอย่าง การคำนวณของเขา (ซึ่งปัจจุบันเป็นที่คุ้นเคยกันดี) จะเป็นตัวกำหนดว่าจะปฏิเสธสมมติฐานว่างหรือไม่ การทดสอบนัยสำคัญไม่ได้ใช้สมมติฐานทางเลือก ดังนั้นจึงไม่มีแนวคิดเรื่องข้อผิดพลาดประเภทที่สอง (ผลลบเท็จ)

ค่าpถูกคิดค้นขึ้นเป็นดัชนีที่ไม่เป็นทางการแต่เป็นกลาง เพื่อช่วยให้นักวิจัยสามารถพิจารณา (โดยอาศัยความรู้ด้านอื่น ๆ) ว่าควรปรับเปลี่ยนการทดลองในอนาคตหรือเสริมสร้างความเชื่อ มั่น ในสมมติฐานว่างหรือไม่^{[ 12 ]}การทดสอบสมมติฐาน (และข้อผิดพลาดประเภทที่ 1/2) ถูกคิดค้นโดย Neyman และ Pearson เพื่อเป็นทางเลือกที่เป็นกลางมากกว่า ค่า p ของ Fisher ซึ่งมีจุดประสงค์เพื่อกำหนดพฤติกรรมของนักวิจัยเช่นกัน แต่ไม่ต้องอาศัย การอนุมานเชิงอุปนัยใด ๆจากนักวิจัย^{[ 13 ]}^{[ 14 ]}

เนย์แมนและเพียร์สันพิจารณาปัญหาที่แตกต่างจากฟิชเชอร์ (ซึ่งพวกเขาเรียกว่า "การทดสอบสมมติฐาน") ในขั้นต้น พวกเขาพิจารณาสมมติฐานง่ายๆ สองข้อ (ทั้งสองข้อมีการกระจายความถี่) พวกเขาคำนวณความน่าจะเป็นสองค่า และโดยทั่วไปจะเลือกสมมติฐานที่เกี่ยวข้องกับความน่าจะเป็นที่สูงกว่า (สมมติฐานที่มีแนวโน้มที่จะสร้างตัวอย่างได้มากกว่า) วิธีการของพวกเขาจะเลือกสมมติฐานเสมอ นอกจากนี้ยังช่วยให้สามารถคำนวณความน่าจะเป็นของข้อผิดพลาดทั้งสองประเภทได้ด้วย

ฟิชเชอร์และเนย์แมน/เพียร์สันขัดแย้งกันอย่างรุนแรง เนย์แมน/เพียร์สันถือว่าสูตรของพวกเขาเป็นการปรับปรุงการทดสอบความสำคัญ (เอกสารกำหนด^{[ 13 ]}เป็นนามธรรมนักคณิตศาสตร์ได้สรุปและปรับปรุงทฤษฎีนี้มาหลายทศวรรษแล้ว^{[ 15 ]} ) ฟิชเชอร์คิดว่ามันไม่สามารถนำไปใช้กับการวิจัยทางวิทยาศาสตร์ได้ เพราะบ่อยครั้งในระหว่างการทดลอง จะพบว่าสมมติฐานเริ่มต้นเกี่ยวกับสมมติฐานว่างนั้นน่าสงสัยเนื่องจากแหล่งที่มาของข้อผิดพลาดที่ไม่คาดคิด เขาเชื่อว่าการใช้การตัดสินใจปฏิเสธ/ยอมรับที่เข้มงวดโดยอิงจากแบบจำลองที่กำหนดขึ้นก่อนที่จะมีการเก็บรวบรวมข้อมูลนั้นไม่สอดคล้องกับสถานการณ์ทั่วไปที่นักวิทยาศาสตร์ต้องเผชิญ และความพยายามที่จะนำวิธีการนี้ไปใช้กับการวิจัยทางวิทยาศาสตร์จะนำไปสู่ความสับสนอย่างมาก^{[ 16 ]}

ข้อพิพาทระหว่าง Fisher และ Neyman–Pearson เกิดขึ้นบนพื้นฐานทางปรัชญา โดยนักปรัชญาได้อธิบายว่าเป็นข้อพิพาทเกี่ยวกับบทบาทที่เหมาะสมของแบบจำลองในการอนุมานทางสถิติ^{[ 17 ]}

เนย์แมนเข้ารับตำแหน่งที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ในปี 1938 ทำให้ยุติความเป็นหุ้นส่วนกับเพียร์สันและแยกคู่กรณี (ซึ่งก่อนหน้านี้เคยอยู่ในอาคารเดียวกัน) ข้อพิพาทระหว่างฟิชเชอร์และเนย์แมนสิ้นสุดลง (โดยยังไม่ได้รับการแก้ไขหลังจาก 27 ปี) เมื่อฟิชเชอร์เสียชีวิตในปี 1962 เนย์แมนเขียนคำไว้อาลัยที่ได้รับการยกย่อง^{[ 18 ]}สิ่งพิมพ์ในภายหลังบางส่วนของเนย์แมนรายงานค่าp และระดับนัยสำคัญ ^{[ 19 ]}

การทดสอบนัยสำคัญของสมมติฐานว่าง (NHST)

การทดสอบสมมติฐานแบบสมัยใหม่โดยทั่วไปเรียกว่าการทดสอบความสำคัญของสมมติฐานว่าง (NHST) ^{[ 20 ]}และเป็นการผสมผสานระหว่างแนวทางของ Fisher กับแนวทางของ Neyman-Pearson ในปี 2000 Raymond S. Nickersonได้เขียนบทความระบุว่า NHST (ในขณะนั้น) "เป็นวิธีการวิเคราะห์ข้อมูลที่รวบรวมในการทดลองทางจิตวิทยาที่ใช้กันอย่างแพร่หลายที่สุด และเป็นเช่นนั้นมาประมาณ 70 ปีแล้ว" และในขณะเดียวกันก็ "เป็นที่ถกเถียงกันมาก" ^{[ 20 ]}

การหลอมรวมนี้เป็นผลมาจากความสับสนของผู้เขียนตำราสถิติ (ตามที่ฟิชเชอร์คาดการณ์ไว้) ตั้งแต่ช่วงทศวรรษ 1940 ^{[ 21 ]} (แต่การตรวจจับสัญญาณเช่น ยังคงใช้สูตรของเนย์แมน/เพียร์สัน) ความแตกต่างทางแนวคิดที่สำคัญและข้อควรระวังมากมายนอกเหนือจากที่กล่าวมาข้างต้นถูกละเลย เนย์แมนและเพียร์สันได้ให้คำศัพท์ที่แข็งแกร่งกว่า คณิตศาสตร์ที่เข้มงวดกว่า และปรัชญาที่สอดคล้องกันมากกว่า แต่เนื้อหาที่สอนในวิชาสถิติเบื้องต้นในปัจจุบันกลับมีความคล้ายคลึงกับวิธีการของฟิชเชอร์มากกว่าวิธีการของพวกเขา^{[ 22 ]}

ในช่วงประมาณปี พ.ศ. 2483 ^{[ 21 ]}ผู้เขียนตำราสถิติเริ่มรวมสองแนวทางเข้าด้วยกันโดยใช้ ค่า pแทนสถิติการทดสอบ (หรือข้อมูล) เพื่อทดสอบกับ "ระดับนัยสำคัญ" ของ Neyman–Pearson

การเปรียบเทียบระหว่างทฤษฎีของฟิชเชอร์และทฤษฎีความถี่ (เนย์แมน-เพียร์สัน)
#	การทดสอบสมมติฐานว่างของฟิชเชอร์	ทฤษฎีการตัดสินใจของเนย์แมน-เพียร์สัน
1	ตั้งสมมติฐานว่างทางสถิติ สมมติฐานว่างนั้นไม่จำเป็นต้องเป็นสมมติฐานที่เป็นศูนย์ (เช่น ความแตกต่างเป็นศูนย์)	ตั้งสมมติฐานทางสถิติสองข้อ คือ H1 และ H2 และตัดสินใจเกี่ยวกับ α, β และขนาดตัวอย่างก่อนการทดลอง โดยพิจารณาจากต้นทุนและผลประโยชน์ตามความรู้สึกส่วนตัว สิ่งเหล่านี้จะกำหนดขอบเขตการปฏิเสธสำหรับแต่ละสมมติฐาน
2	ระบุระดับนัยสำคัญที่แน่นอน (เช่น p = 0.051 หรือ p = 0.049) อย่าใช้คำว่า "ยอมรับ" หรือ "ปฏิเสธ" สมมติฐาน หากผลลัพธ์ "ไม่มีนัยสำคัญ" อย่าดึงข้อสรุปหรือตัดสินใจใดๆ แต่ให้ระงับการตัดสินใจไว้ก่อนจนกว่าจะมีข้อมูลเพิ่มเติม	ถ้าข้อมูลอยู่ในบริเวณปฏิเสธของ H1 ให้ยอมรับ H2 มิฉะนั้นให้ยอมรับ H1 การยอมรับสมมติฐานไม่ได้หมายความว่าคุณเชื่อในสมมติฐานนั้น แต่หมายความว่าคุณปฏิบัติตนเสมือนว่าสมมติฐานนั้นเป็นจริง
3	ควรใช้วิธีการนี้เฉพาะในกรณีที่ทราบข้อมูลเกี่ยวกับปัญหาที่กำลังพิจารณาน้อยมาก และใช้เพื่อสรุปผลเบื้องต้นในบริบทของการพยายามทำความเข้าใจสถานการณ์การทดลองเท่านั้น	ประโยชน์ของกระบวนการนี้มีข้อจำกัดอยู่หลายประการ เช่น สถานการณ์ที่มีสมมติฐานแบบเลือกอย่างใดอย่างหนึ่ง (เช่น μ1 = 8 หรือ μ2 = 10 เป็นจริง) และสถานการณ์ที่คุณสามารถพิจารณาถึงความคุ้มค่าในการเลือกค่าอัลฟาและเบตาได้อย่างเหมาะสม

ปรัชญา

Paul Meehlได้โต้แย้งว่าความ สำคัญ ทางญาณวิทยาของการเลือกสมมติฐานว่างนั้นไม่ได้รับการยอมรับอย่างกว้างขวาง เมื่อทฤษฎีทำนายสมมติฐานว่าง การทดลองที่แม่นยำยิ่งขึ้นจะเป็นการทดสอบทฤษฎีพื้นฐานที่เข้มงวดมากขึ้น เมื่อสมมติฐานว่างเป็นค่าเริ่มต้นว่า "ไม่มีความแตกต่าง" หรือ "ไม่มีผล" การทดลองที่แม่นยำยิ่งขึ้นจะเป็นการทดสอบทฤษฎีที่กระตุ้นให้ทำการทดลองนั้นน้อยลง^{[ 23 ]}

ฟิชเชอร์และเนย์แมนคัดค้านแนวคิดเรื่องความเป็นอัตวิสัยของความน่าจะเป็น มุมมองของพวกเขามีส่วนช่วยในการกำหนดนิยามเชิงวัตถุวิสัย แก่นแท้ของความขัดแย้งทางประวัติศาสตร์ของพวกเขานั้นอยู่ที่ปรัชญา

นักสถิติได้อภิปรายข้อวิจารณ์เชิงปรัชญาเกี่ยวกับการทดสอบสมมติฐานในบริบทอื่นๆ มากมาย โดยเฉพาะอย่างยิ่งความสัมพันธ์ไม่ได้หมายความถึงสาเหตุและการออกแบบการ ทดลอง การ ทดสอบสมมติฐานยังคงเป็นที่สนใจของนักปรัชญาอย่างต่อเนื่อง^{[ 17 ]}^{[ 24 ]}

การศึกษา

สถิติได้รับการสอนในโรงเรียนมากขึ้นเรื่อยๆ โดยการทดสอบสมมติฐานเป็นหนึ่งในองค์ประกอบที่สอน^{[ 25 ]}^{[ 26 ]}ข้อสรุปมากมายที่รายงานในสื่อยอดนิยม (ตั้งแต่แบบสำรวจความคิดเห็นทางการเมืองไปจนถึงการศึกษาทางการแพทย์) ล้วนอิงตามสถิติ นักเขียนบางคนกล่าวว่าการวิเคราะห์ทางสถิติประเภทนี้ช่วยให้คิดอย่างชัดเจนเกี่ยวกับปัญหาที่เกี่ยวข้องกับข้อมูลจำนวนมาก รวมถึงการรายงานแนวโน้มและการอนุมานจากข้อมูลดังกล่าวอย่างมีประสิทธิภาพ แต่เตือนว่านักเขียนสำหรับสาธารณชนในวงกว้างควรมีความเข้าใจอย่างถ่องแท้ในสาขานี้เพื่อที่จะใช้คำศัพท์และแนวคิดได้อย่างถูกต้อง^{[ 27 ]}^{[ 28 ]}ชั้นเรียนสถิติเบื้องต้นในวิทยาลัยเน้นการทดสอบสมมติฐานเป็นอย่างมาก อาจถึงครึ่งหนึ่งของหลักสูตร สาขาต่างๆ เช่น วรรณคดีและศาสนศาสตร์ในปัจจุบันรวมถึงการค้นพบที่อิงตามการวิเคราะห์ทางสถิติ (ดูBible Analyzer ) ชั้นเรียนสถิติเบื้องต้นสอนการทดสอบสมมติฐานเป็นกระบวนการแบบตำราอาหาร การทดสอบสมมติฐานยังได้รับการสอนในระดับบัณฑิตศึกษาด้วย นักสถิติเรียนรู้วิธีการสร้างขั้นตอนการทดสอบทางสถิติที่ดี (เช่นz , Student's t , Fและ chi-squared) การทดสอบสมมติฐานทางสถิติถือเป็นสาขาที่พัฒนาแล้วในสาขาสถิติ^{[ 29 ]}แต่การพัฒนายังคงดำเนินต่อไปในปริมาณที่จำกัด

การศึกษาเชิงวิชาการระบุว่าวิธีการสอนสถิติเบื้องต้นแบบตำราเรียนนั้นไม่มีเวลาให้ศึกษาประวัติศาสตร์ ปรัชญา หรือข้อโต้แย้ง การทดสอบสมมติฐานได้รับการสอนในรูปแบบวิธีการรวมที่เป็นมาตรฐาน การสำรวจแสดงให้เห็นว่าผู้สำเร็จการศึกษาจากชั้นเรียนนี้เต็มไปด้วยความเข้าใจผิดเชิงปรัชญา (ในทุกแง่มุมของการอนุมานทางสถิติ) ซึ่งยังคงมีอยู่ในหมู่อาจารย์ผู้สอน^{[ 30 ]}แม้ว่าปัญหานี้จะได้รับการแก้ไขมานานกว่าทศวรรษแล้ว^{[ 31 ]}และยังคงมีการเรียกร้องให้มีการปฏิรูปการศึกษา^{[ 32 ]}แต่นักเรียนก็ยังคงสำเร็จการศึกษาจากชั้นเรียนสถิติโดยมีความเข้าใจผิดพื้นฐานเกี่ยวกับการทดสอบสมมติฐาน^{[ 33 ]}แนวคิดในการปรับปรุงการสอนการทดสอบสมมติฐาน ได้แก่ การสนับสนุนให้นักเรียนค้นหาข้อผิดพลาดทางสถิติในเอกสารที่ตีพิมพ์ การสอนประวัติศาสตร์ของสถิติ และการเน้นย้ำถึงข้อโต้แย้งในวิชาที่โดยทั่วไปแล้วค่อนข้างน่าเบื่อ^{[ 34 ]}

เรย์มอนด์ เอส. นิเคอร์สัน แสดงความคิดเห็นว่า:

การถกเถียงเกี่ยวกับ NHST มีรากฐานมาจากความขัดแย้งที่ยังไม่ได้รับการแก้ไขระหว่างผู้มีส่วนร่วมหลักในการพัฒนาทฤษฎีสถิติเชิงอนุมานซึ่งเป็นพื้นฐานของแนวทางสมัยใหม่Gigerenzer et al. (1989) ได้ทบทวนรายละเอียดอย่างมากเกี่ยวกับข้อโต้แย้งระหว่าง RA Fisher กับ Jerzy Neyman และ Egon Pearson รวมถึงความไม่ลงรอยกันระหว่างมุมมองทั้งสองนี้กับมุมมองของผู้ติดตาม Thomas Bayes พวกเขาตั้งข้อสังเกตว่าแทบไม่มีการกล่าวถึงข้อโต้แย้งทางประวัติศาสตร์และที่กำลังดำเนินอยู่ในตำราส่วนใหญ่ที่ใช้สอน NHST ให้กับผู้ใช้ที่มีศักยภาพ การขาดมุมมองทางประวัติศาสตร์ที่ถูกต้องและความเข้าใจในความซับซ้อนและรากฐานทางปรัชญาที่บางครั้งก็เป็นที่ถกเถียงกันของแนวทางต่างๆ ในการอนุมานทางสถิติ อาจช่วยอธิบายได้มากว่าทำไมการทดสอบทางสถิติจึงถูกนำไปใช้ในทางที่ผิดและตีความผิดได้ง่าย^{[ 20 ]}

การทำการทดสอบสมมติฐานแบบความถี่ในทางปฏิบัติ

ขั้นตอนทั่วไปในการทำการทดสอบสมมติฐานแบบความถี่ในทางปฏิบัติมีดังนี้:

กำหนดสมมติฐาน (ข้ออ้างที่สามารถทดสอบได้โดยใช้ข้อมูล)
เลือกการทดสอบทางสถิติที่เหมาะสม พร้อมด้วยค่าสถิติการทดสอบTที่ เกี่ยวข้อง
จงหาการแจกแจงของค่าสถิติการทดสอบภายใต้สมมติฐานว่างจากข้อสมมติ ในกรณีมาตรฐาน ผลลัพธ์นี้จะเป็นที่รู้จักกันดีอยู่แล้ว ตัวอย่างเช่น ค่าสถิติการทดสอบอาจมีการแจกแจงแบบ Student's tโดยมีระดับความเป็นอิสระที่ทราบ หรือการแจกแจงแบบปกติโดยมีค่าเฉลี่ยและความแปรปรวนที่ทราบ
เลือกค่าระดับนัยสำคัญ ( α ) ซึ่ง เป็นอัตราการเกิดผลบวกเท็จที่ยอมรับได้สูงสุดค่าที่นิยมใช้คือ 5% และ 1%
คำนวณค่าที่สังเกตได้t _obsของสถิติการทดสอบT จากข้อมูลที่สังเกต ได้
ตัดสินใจว่าจะปฏิเสธสมมติฐานว่างเพื่อสนับสนุนสมมติฐานทางเลือกหรือไม่ปฏิเสธสมมติฐานว่าง กฎการตัดสินใจของ Neyman-Pearsonคือการปฏิเสธสมมติฐานว่างH ₀หากค่าที่สังเกตได้t _obsอยู่ในบริเวณวิกฤต และจะไม่ปฏิเสธสมมติฐานว่างในกรณีอื่น^{[ 35 ]}

ตัวอย่างเชิงปฏิบัติ

ความแตกต่างระหว่างสองกระบวนการที่ใช้กับตัวอย่างกระเป๋าเดินทางกัมมันตรังสี (ด้านล่าง):

"เครื่องวัดรังสีไกเกอร์วัดได้ 10 ค่าที่อนุญาตคือ 9 ตรวจสอบกระเป๋าเดินทางด้วย"
"ค่าที่วัดได้จากเครื่องวัดรังสีไกเกอร์สูงผิดปกติ กระเป๋าเดินทางที่ปลอดภัย 97% มีค่าการวัดต่ำกว่านี้ ขีดจำกัดอยู่ที่ 95% โปรดตรวจสอบกระเป๋าเดินทาง"

รายงานฉบับแรกนั้นเพียงพอแล้ว ส่วนรายงานฉบับหลังให้คำอธิบายข้อมูลและเหตุผลที่ตรวจสอบกระเป๋าเดินทางโดยละเอียดมากกว่า

การไม่ปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าสมมติฐานว่างนั้น "ได้รับการยอมรับ" โดยตัวมันเอง (แม้ว่าเนย์แมนและเพียร์สันจะใช้คำนั้นในงานเขียนดั้งเดิมของพวกเขา โปรดดู ส่วน การตีความ )

กระบวนการที่อธิบายไว้ที่นี่เหมาะสมอย่างยิ่งสำหรับการคำนวณ พวกมันละเลยการพิจารณาการออกแบบการทดลอง อย่างจริงจัง ^{[ 36 ]}^{[ 37 ]}

การประเมินขนาดตัวอย่างที่เหมาะสมก่อนทำการทดลองนั้นมีความสำคัญอย่างยิ่ง

วลี "การทดสอบนัยสำคัญ" ถูกบัญญัติโดยนักสถิติRonald Fisher ^{[ 38 ]}

การตีความ

เมื่อสมมติฐานว่างเป็นจริงและตรงตามข้อสมมติทางสถิติ ความน่าจะเป็นที่ค่า p จะน้อยกว่าหรือเท่ากับระดับนัยสำคัญจะมีค่าสูงสุดเพียงเท่านี้ซึ่งทำให้มั่นใจได้ว่าการทดสอบสมมติฐานจะรักษาอัตราการเกิดผลบวกเท็จตามที่ระบุไว้ (โดยมีเงื่อนไขว่าตรงตามข้อสมมติทางสถิติ) ^[³^] $\alpha$ $\alpha$

ค่าpคือความน่าจะเป็นที่สถิติการทดสอบซึ่งอย่างน้อยก็สุดขั้วเท่ากับที่ได้รับจะเกิดขึ้นภายใต้สมมติฐานว่าง ที่ระดับนัยสำคัญ 0.05 คาดว่าเหรียญที่ยุติธรรมจะปฏิเสธสมมติฐานว่าง (ที่ว่ามันยุติธรรม) (อย่างไม่ถูกต้อง) ใน 1 ใน 20 การทดสอบโดยเฉลี่ย ค่า pไม่ได้ให้ความน่าจะเป็นที่สมมติฐานว่างหรือสมมติฐานตรงข้ามถูกต้อง (แหล่งที่มาของความสับสนทั่วไป) ^{[ 39 ]}

ถ้า ค่า pน้อยกว่าเกณฑ์ความสำคัญที่เลือกไว้ (หรือกล่าวอีกนัยหนึ่งคือ ค่าสถิติที่สังเกตได้อยู่ในช่วงวิกฤต) เราจะกล่าวว่าสมมติฐานหลักถูกปฏิเสธที่ระดับนัยสำคัญที่เลือกไว้ แต่ถ้าค่าp ไม่น้อยกว่าเกณฑ์ความสำคัญที่เลือกไว้ (หรือกล่าวอีกนัยหนึ่งคือ ค่าสถิติที่สังเกตได้อยู่นอกช่วงวิกฤต) เราจะกล่าวว่าสมมติฐานหลักไม่ถูกปฏิเสธที่ระดับนัยสำคัญที่เลือกไว้

ในตัวอย่าง "สุภาพสตรีชิมชา" (ด้านล่าง) ฟิชเชอร์กำหนดให้สุภาพสตรีจัดเรียงถ้วยชาทั้งหมดอย่างถูกต้องเพื่อพิสูจน์ข้อสรุปที่ว่าผลลัพธ์นั้นไม่น่าจะเกิดจากความบังเอิญ การทดสอบของเขาเผยให้เห็นว่า หากสุภาพสตรีเดาแบบสุ่ม (สมมติฐานว่าง) จะมีโอกาส 1.4% ที่ผลลัพธ์ที่สังเกตได้ (ชาที่จัดเรียงอย่างสมบูรณ์แบบ) จะเกิดขึ้น

การใช้งานและความสำคัญ

สถิติมีประโยชน์ในการวิเคราะห์ข้อมูลส่วนใหญ่ เช่นเดียวกับการทดสอบสมมติฐาน ซึ่งสามารถพิสูจน์ข้อสรุปได้แม้ว่าจะไม่มีทฤษฎีทางวิทยาศาสตร์รองรับก็ตาม ในตัวอย่างเรื่องหญิงสาวชิมชา ดูเหมือนจะ "ชัดเจน" ว่าไม่มีความแตกต่างระหว่าง (นมที่เทลงในชา) กับ (ชาที่เทลงในนม) แต่ข้อมูลกลับขัดแย้งกับ "ความชัดเจน" นั้น

การประยุกต์ใช้การทดสอบสมมติฐานในโลกแห่งความเป็นจริง ได้แก่: ^{[ 40 ]}

การทดสอบว่าผู้ชายมีโอกาสฝันร้ายมากกว่าผู้หญิงหรือไม่
การระบุผู้เขียนเอกสาร
การประเมินผลกระทบของพระจันทร์เต็มดวงต่อพฤติกรรม
การหาช่วงระยะที่ค้างคาวสามารถตรวจจับแมลงได้โดยใช้เสียงสะท้อน
การตัดสินใจว่าพรมปูพื้นโรงพยาบาลทำให้เกิดการติดเชื้อมากขึ้นหรือไม่
การเลือกวิธีที่ดีที่สุดในการเลิกสูบบุหรี่
ตรวจสอบว่าสติกเกอร์ติดกันชนสะท้อนพฤติกรรมของเจ้าของรถหรือไม่
การทดสอบข้อกล่าวอ้างของนักวิเคราะห์ลายมือ

การทดสอบสมมติฐานทางสถิติมีบทบาทสำคัญในสถิติโดยรวมและการอนุมานทางสถิติตัวอย่างเช่น เลห์มันน์ (1992) ในการทบทวนบทความพื้นฐานของเนย์แมนและเพียร์สัน (1933) กล่าวว่า "ถึงกระนั้น แม้จะมีข้อบกพร่องอยู่บ้าง แต่กระบวนทัศน์ใหม่ที่กำหนดขึ้นในบทความปี 1933 และการพัฒนามากมายที่ดำเนินการภายใต้กรอบนั้นยังคงมีบทบาทสำคัญทั้งในทฤษฎีและการปฏิบัติของสถิติ และคาดว่าจะยังคงมีบทบาทเช่นนั้นต่อไปในอนาคตอันใกล้"

การทดสอบนัยสำคัญเป็นเครื่องมือทางสถิติที่ได้รับความนิยมในวิทยาศาสตร์สังคมเชิงทดลองบางสาขา (มากกว่า 90% ของบทความในวารสารจิตวิทยาประยุกต์ในช่วงต้นทศวรรษ 1990) ^{[ 41 ]}สาขาอื่นๆ นิยมการประมาณค่าพารามิเตอร์ (เช่นขนาดผลกระทบ ) การทดสอบนัยสำคัญถูกใช้แทนการเปรียบเทียบค่าที่คาดการณ์ไว้กับผลการทดลองแบบดั้งเดิมซึ่งเป็นหัวใจสำคัญของวิธีการทางวิทยาศาสตร์เมื่อทฤษฎีสามารถคาดการณ์ได้เพียงเครื่องหมายของความสัมพันธ์เท่านั้น การทดสอบสมมติฐานแบบทิศทางเดียว (ด้านเดียว) สามารถกำหนดค่าได้เพื่อให้เฉพาะผลลัพธ์ที่มีนัยสำคัญทางสถิติเท่านั้นที่สนับสนุนทฤษฎี รูปแบบการประเมินทฤษฎีนี้เป็นการประยุกต์ใช้การทดสอบสมมติฐานที่ถูกวิพากษ์วิจารณ์มากที่สุด

ข้อควรระวัง

"ถ้าหากรัฐบาลกำหนดให้ขั้นตอนทางสถิติต้องมีฉลากเตือนเหมือนกับที่ติดบนยา วิธีการอนุมานส่วนใหญ่ก็คงต้องติดฉลากยาวๆ จริงๆ" ^{[ 42 ]}ข้อควรระวังนี้ใช้กับการทดสอบสมมติฐานและทางเลือกอื่นๆ ด้วย

การทดสอบสมมติฐานที่ประสบความสำเร็จนั้นเกี่ยวข้องกับความน่าจะเป็นและอัตราความผิดพลาดประเภทที่ 1 ข้อสรุปอาจผิดพลาดได้

ผลสรุปของการทดสอบจะมีความน่าเชื่อถือมากน้อยเพียงใดนั้นขึ้นอยู่กับตัวอย่างที่ใช้เป็นพื้นฐาน การออกแบบการทดลองจึงมีความสำคัญอย่างยิ่ง มีการสังเกตพบผลกระทบที่ไม่คาดคิดหลายประการ ได้แก่:

ปรากฏการณ์ฮันส์ผู้ชาญฉลาดม้าตัวหนึ่งดูเหมือนจะสามารถคำนวณเลขง่ายๆ ได้
ปรากฏการณ์ฮอว์ธอร์น : คนงานอุตสาหกรรมมีประสิทธิภาพในการทำงานมากขึ้นในสภาพแสงสว่างที่ดี และมีประสิทธิภาพสูงสุดในสภาพแสงสว่างที่แย่กว่า
ผลของยาหลอกยาเม็ดที่ไม่มีส่วนผสมทางการแพทย์ใดๆ กลับมีประสิทธิภาพอย่างน่าทึ่ง

การวิเคราะห์ทางสถิติของข้อมูลที่ทำให้เข้าใจผิดจะนำไปสู่ข้อสรุปที่ทำให้เข้าใจผิดเช่นกัน ปัญหาเรื่องคุณภาพของข้อมูลอาจมีความซับซ้อนมากกว่านั้น ตัวอย่างเช่น ในการพยากรณ์ยังไม่มีข้อตกลงเกี่ยวกับมาตรวัดความแม่นยำของการพยากรณ์ ในกรณีที่ไม่มีมาตรวัดที่เป็นที่ยอมรับ การตัดสินใจใดๆ ที่อิงจากมาตรวัดเหล่านั้นย่อมมีข้อโต้แย้งอยู่เสมอ

อคติในการตีพิมพ์: ผลลัพธ์ที่ไม่พบความสำคัญทางสถิติอาจมีโอกาสน้อยที่จะได้รับการตีพิมพ์ ซึ่งอาจทำให้เกิดอคติในงานวิจัยได้

การทดสอบหลายครั้ง: เมื่อทำการทดสอบสมมติฐานว่างที่เป็นจริงหลายครั้งพร้อมกันโดยไม่มีการปรับค่า ความน่าจะเป็นโดยรวมของข้อผิดพลาดประเภทที่ 1 จะสูงกว่าระดับอัลฟาที่กำหนดไว้^{[ 43 ]}

ผู้ที่ทำการตัดสินใจที่สำคัญโดยอิงจากผลการทดสอบสมมติฐาน ควรพิจารณารายละเอียดมากกว่าข้อสรุปเพียงอย่างเดียว ในสาขาวิทยาศาสตร์กายภาพ ผลลัพธ์ส่วนใหญ่จะได้รับการยอมรับอย่างสมบูรณ์ก็ต่อเมื่อได้รับการยืนยันจากแหล่งข้อมูลอิสระแล้วเท่านั้น

การทดสอบสมมติฐานแบบบูตสแตรปที่ไม่ใช้พารามิเตอร์

วิธี การสุ่มตัวอย่างซ้ำแบบบูตสแตรปสามารถใช้สำหรับการทดสอบสมมติฐานว่างได้ บูตสแตรปสร้างตัวอย่างจำลองจำนวนมากโดยการสุ่มตัวอย่างซ้ำ (แบบมีการแทนที่) ข้อมูลตัวอย่างดั้งเดิมที่รวมกัน โดยถือว่าสมมติฐานว่างนั้นถูกต้อง บูตสแตรปมีความอเนกประสงค์มาก เนื่องจากไม่ขึ้นอยู่กับการแจกแจง และไม่พึ่งพาสมมติฐานพาราเมตริกที่จำกัด แต่ขึ้นอยู่กับวิธีการประมาณเชิงประจักษ์ที่มีการรับประกันเชิงอะซิมโทติก การทดสอบสมมติฐานพาราเมตริกแบบดั้งเดิมมีประสิทธิภาพในการคำนวณมากกว่า แต่มีข้อสมมติเชิงโครงสร้างที่เข้มงวดกว่า ในสถานการณ์ที่การคำนวณความน่าจะเป็นของสถิติการทดสอบภายใต้สมมติฐานว่างทำได้ยากหรือเป็นไปไม่ได้ (อาจเนื่องมาจากความไม่สะดวกหรือขาดความรู้เกี่ยวกับการแจกแจงพื้นฐาน) บูตสแตรปจึงเป็นวิธีการที่ใช้ได้ผลสำหรับการอนุมานทางสถิติ^{[ 44 ]}^{[ 45 ]}^{[ 46 ]}^{[ 47 ]}

ตัวอย่าง

อัตราส่วนเพศของมนุษย์

โดยทั่วไปแล้ว การใช้การทดสอบสมมติฐานทางสถิติครั้งแรกสุดนั้น เชื่อกันว่าเกิดขึ้นจากคำถามที่ว่า การเกิดของเพศชายและเพศหญิงมีโอกาสเท่ากันหรือไม่ (สมมติฐานว่าง) ซึ่งJohn Arbuthnot (1710) ได้กล่าวถึงในช่วงปี 1700 ^{[ 48 ]}และต่อมาโดยPierre-Simon Laplace (ช่วงปี 1770) ^{[ 49 ]}

Arbuthnot ตรวจสอบบันทึกการเกิดในลอนดอนในแต่ละปีตลอด 82 ปี ตั้งแต่ปี 1629 ถึง 1710 และใช้การทดสอบเครื่องหมาย ซึ่งเป็นการทดสอบ แบบไม่ใช้พารามิเตอร์อย่างง่าย^{[ 50 ]}^{[ 51 ]}^{[ 52 ]}ในทุกปี จำนวนเพศชายที่เกิดในลอนดอนมีมากกว่าจำนวนเพศหญิง เมื่อพิจารณาว่าการเกิดของเพศชายหรือเพศหญิงมากกว่ากันนั้นมีโอกาสเกิดขึ้นเท่าๆ กัน ความน่าจะเป็นของผลลัพธ์ที่สังเกตได้คือ 0.5 ⁸²หรือประมาณ 1 ใน 4,836,000,000,000,000,000,000,000 ในแง่สมัยใหม่ นี่คือ ค่า p Arbuthnot สรุปว่าค่านี้เล็กเกินกว่าจะเป็นผลมาจากความบังเอิญ และต้องเป็นผลมาจากพระประสงค์ของพระเจ้า: "จากนั้นจึงสรุปได้ว่า เป็นศิลปะ ไม่ใช่ความบังเอิญ ที่ควบคุม" ในแง่สมัยใหม่ เขาปฏิเสธสมมติฐานว่างที่ว่าการเกิดของเพศชายและเพศหญิงมีโอกาสเท่ากันที่ระดับนัยสำคัญ p = 1/2 ⁸²

ลาปลาซพิจารณาสถิติการเกิดเกือบครึ่งล้านครั้ง สถิติแสดงให้เห็นว่ามีเด็กผู้ชายมากกว่าเด็กผู้หญิง^{[ 7 ]}เขาสรุปโดยการคำนวณค่าpว่าความเกินนั้นเป็นผลกระทบที่แท้จริง แต่ไม่สามารถอธิบายได้^{[ 53 ]}

หญิงสาวกำลังชิมชา

ในตัวอย่างที่มีชื่อเสียงของการทดสอบสมมติฐาน ซึ่งรู้จักกันในชื่อ " สุภาพสตรีชิมชา" ^[ 54 ^]^ดร . มูเรียล บริสตอลเพื่อนร่วมงานของฟิชเชอร์ อ้างว่าสามารถบอกได้ว่าชาหรือนมถูกเติมลงในถ้วยก่อน ฟิชเชอร์เสนอให้ถ้วยแปดใบแก่เธอ โดยแต่ละใบมีสี่ชนิด ในลำดับแบบสุ่ม จากนั้นจึงสามารถถามได้ว่าความน่าจะเป็นที่เธอจะได้จำนวนที่ถูกต้องโดยบังเอิญนั้นเป็นเท่าใด สมมติฐานว่างคือสุภาพสตรีไม่มีความสามารถดังกล่าว สถิติการทดสอบคือการนับจำนวนความสำเร็จในการเลือกถ้วยทั้งสี่ใบอย่างง่าย พื้นที่วิกฤตคือกรณีเดียวที่มีความสำเร็จ 4 ครั้งจาก 4 ครั้งที่เป็นไปได้ โดยอิงตามเกณฑ์ความน่าจะเป็นทั่วไป (< 5%) รูปแบบของความสำเร็จ 4 ครั้งสอดคล้องกับ 1 ใน 70 ชุดค่าผสมที่เป็นไปได้ (p≈ 1.4%) ฟิชเชอร์ยืนยันว่าไม่จำเป็นต้องมีสมมติฐานทางเลือก (เลย) สุภาพสตรีระบุถ้วยทุกใบได้อย่างถูกต้อง^{[ 55 ]}ซึ่งถือเป็นผลลัพธ์ที่มีนัยสำคัญทางสถิติ

เกมไพ่พยากรณ์

บุคคลหนึ่ง (ผู้ถูกทดสอบ) จะได้รับการทดสอบความสามารถ ในการหยั่งรู้ โดยให้พวกเขาดูด้านหลังของไพ่ที่สุ่มเลือกมา 25 ครั้ง และถูกถามว่าไพ่ใบนั้นเป็นของชุดใดในสี่ชุด จำนวนครั้งที่ตอบถูกหรือถูกทั้งหมดเรียกว่าX

ขณะที่เราพยายามค้นหาหลักฐานของความสามารถในการหยั่งรู้ของพวกเขา ในขณะนี้สมมติฐานหลักคือบุคคลนั้นไม่มีความสามารถในการหยั่งรู้^{[ 56 ]}ทางเลือกอื่นคือ บุคคลนั้นมีความสามารถในการหยั่งรู้ (ไม่มากก็น้อย)

ถ้าสมมติฐานหลักเป็นจริง สิ่งเดียวที่ผู้ทดสอบสามารถทำได้คือการเดา สำหรับไพ่ทุกใบ ความน่าจะเป็น (ความถี่สัมพัทธ์) ที่ไพ่ชุดใดชุดหนึ่งจะปรากฏขึ้นคือ 1/4 ถ้าสมมติฐานทางเลือกเป็นจริง ผู้ทดสอบจะทายชุดไพ่ได้อย่างถูกต้องด้วยความน่าจะเป็นมากกว่า 1/4 เราจะเรียกความน่าจะเป็นของการเดาได้อย่างถูกต้องว่าpดังนั้น สมมติฐานจึงเป็นดังนี้:

สมมติฐานว่าง (เดาเอา) ${\text{:}}\qquad H_{0}:p={\tfrac {1}{4}}$

และ

สมมติฐานทางเลือก (ผู้มีญาณทิพย์ที่แท้จริง) ${\text{:}}H_{1}:p>{\tfrac {1}{4}}$

เมื่อผู้ทดสอบทำนายไพ่ทั้ง 25 ใบได้อย่างถูกต้อง เราจะถือว่าพวกเขามีญาณทิพย์ และปฏิเสธสมมติฐานว่าง เช่นเดียวกับการทำนายถูก 24 หรือ 23 ครั้ง แต่ถ้าทำนายถูกเพียง 5 หรือ 6 ครั้ง ก็ไม่มีเหตุผลที่จะถือว่าพวกเขามีญาณทิพย์ แล้วถ้าทำนายถูก 12 หรือ 17 ครั้งล่ะ? จำนวนการทำนายถูกที่สำคัญ ( c ) คือเท่าใด ที่เราจะถือว่าผู้ทดสอบมีญาณทิพย์? เราจะกำหนดค่าวิกฤตc ได้อย่างไร ? การเลือกc = 25 (นั่นคือ เรายอมรับญาณทิพย์ก็ต่อเมื่อทำนายไพ่ทั้งหมดได้อย่างถูกต้อง) จะทำให้เรามีความเข้มงวดมากกว่าการ เลือก c = 10 ในกรณีแรก แทบจะไม่มีผู้ทดสอบคนใดได้รับการยอมรับว่ามีญาณทิพย์ ในกรณีที่สอง จะมีผู้ทดสอบจำนวนหนึ่งผ่านการทดสอบ ในทางปฏิบัติ เราจะตัดสินใจว่าเราจะมีความเข้มงวดมากน้อยเพียงใด นั่นคือ เราจะตัดสินใจว่าเราจะยอมรับความผิดพลาดประเภทแรก – ผลบวกเท็จหรือความผิดพลาดประเภทที่ 1 – บ่อยแค่ไหน เมื่อc = 25 ความน่าจะเป็นของความผิดพลาดดังกล่าวคือ:

P({\text{ปฏิเสธ }}H_{0}\mid H_{0}{\text{ ถูกต้อง}})=P\left(X=25\mid p={\frac {1}{4}}\right)=\left({\frac {1}{4}}\right)^{25}\approx 10^{-15}

,

ดังนั้นจึงมีค่าน้อยมาก ความน่าจะเป็นของผลบวกเท็จคือความน่าจะเป็นของการเดาถูกโดยสุ่มทั้ง 25 ครั้ง

หากใช้เกณฑ์วิเคราะห์ที่อ่อนลง โดยกำหนดให้c = 10 จะได้ผลลัพธ์ดังนี้:

P({\text{ปฏิเสธ }}H_{0}\mid H_{0}{\text{ ถูกต้อง}})=P\left(X\geq 10\mid p={\frac {1}{4}}\right)=\sum _{k=10}^{25}P\left(X=k\mid p={\frac {1}{4}}\right)=\sum _{k=10}^{25}{\binom {25}{k}}\left(1-{\frac {1}{4}}\right)^{25-k}\left({\frac {1}{4}}\right)^{k}\approx 0.0713

.

ดังนั้นค่า c = 10 จึงทำให้มีโอกาสเกิดผลบวกเท็จสูงขึ้นมาก

ก่อนที่จะทำการทดสอบจริง จะต้องกำหนดค่าความน่าจะเป็นสูงสุดที่ยอมรับได้ของความผิดพลาดประเภทที่ 1 ( α ) ก่อน โดยทั่วไปจะเลือกค่าในช่วง 1% ถึง 5% (หากอัตราความผิดพลาดสูงสุดที่ยอมรับได้เป็นศูนย์ จะต้องมีการเดาที่ถูกต้องเป็นจำนวนอนันต์) ค่าวิกฤตcจะถูกคำนวณโดยขึ้นอยู่กับอัตราความผิดพลาดประเภทที่ 1 นี้ ตัวอย่างเช่น หากเราเลือกอัตราความผิดพลาด 1% ค่า cจะคำนวณได้ดังนี้:

P({\text{ปฏิเสธ }}H_{0}\mid H_{0}{\text{ ถูกต้อง}})=P\left(X\geq c\mid p={\frac {1}{4}}\right)\leq 0.01

.

จากตัวเลข c ทั้งหมดที่มีคุณสมบัตินี้ เราจะเลือกตัวเลขที่เล็กที่สุด เพื่อลดโอกาสที่จะเกิดข้อผิดพลาดประเภทที่ 2 หรือผลลบเท็จสำหรับตัวอย่างข้างต้น เราเลือก: $c=13$

รูปแบบต่างๆ และประเภทย่อย

การทดสอบสมมติฐานทางสถิติเป็นเทคนิคสำคัญทั้งในการอนุมานแบบความถี่และการอนุมานแบบเบย์แม้ว่าการอนุมานทั้งสองประเภทจะมีความแตกต่างที่สำคัญ การทดสอบสมมติฐานทางสถิติกำหนดขั้นตอนที่ควบคุม (แก้ไข) ความน่าจะเป็นของการตัดสินใจ ผิดพลาด ว่าสมมติฐานหลัก ( สมมติฐานว่าง ) นั้นไม่ถูกต้อง ขั้นตอนนี้ขึ้นอยู่กับความน่าจะเป็นที่ชุดของการสังเกตจะเกิดขึ้นหากสมมติฐานว่างเป็นจริง ความน่าจะเป็นของการตัดสินใจผิดพลาดนี้ไม่ใช่ความน่าจะเป็นที่สมมติฐานว่างเป็นจริง หรือความน่าจะเป็นที่สมมติฐานทางเลือกใด ๆ เป็นจริง ซึ่งแตกต่างจากเทคนิคอื่น ๆ ในทฤษฎีการตัดสินใจที่สมมติฐานว่างและสมมติฐานทางเลือกได้รับการพิจารณาอย่างเท่าเทียมกันมากกว่า

แนวทางการทดสอบสมมติฐานแบบเบ ย์เซียนที่เรียบง่ายวิธีหนึ่งคือการตัดสินใจโดยอาศัยความน่าจะเป็นภายหลัง^{[ 57 ]}^{[ 58 ]}แต่วิธีนี้ใช้ไม่ได้ผลเมื่อเปรียบเทียบสมมติฐานแบบจุดและแบบต่อเนื่อง แนวทางการตัดสินใจอื่นๆ เช่นทฤษฎีการตัดสินใจแบบเบย์เซียนพยายามที่จะสร้างสมดุลระหว่างผลที่ตามมาของการตัดสินใจที่ไม่ถูกต้องในทุกความเป็นไปได้ แทนที่จะมุ่งเน้นไปที่สมมติฐานว่างเพียงสมมติฐานเดียว มีแนวทางอื่นๆ อีกมากมายในการตัดสินใจโดยอาศัยข้อมูลผ่านทฤษฎีการตัดสินใจและการตัดสินใจที่เหมาะสมซึ่งบางวิธีก็มีคุณสมบัติที่พึงประสงค์ อย่างไรก็ตาม การทดสอบสมมติฐานเป็นแนวทางหลักในการวิเคราะห์ข้อมูลในหลายสาขาวิทยาศาสตร์ การขยายทฤษฎีการทดสอบสมมติฐานรวมถึงการศึกษาพลังของการทดสอบ กล่าวคือ ความน่าจะเป็นของการปฏิเสธสมมติฐานว่างอย่างถูกต้องเมื่อพิจารณาว่าสมมติฐานนั้นเป็นเท็จ การพิจารณาเช่นนี้สามารถนำมาใช้เพื่อวัตถุประสงค์ในการกำหนดขนาดตัวอย่างก่อนการเก็บรวบรวมข้อมูล

การทดสอบสมมติฐานของเนย์แมน-เพียร์สัน

ตัวอย่างของการทดสอบสมมติฐานของเนย์แมน-เพียร์สัน (หรือการทดสอบนัยสำคัญทางสถิติของสมมติฐานว่าง) สามารถทำได้โดยการเปลี่ยนตัวอย่างกระเป๋าเดินทางกัมมันตรังสี หาก "กระเป๋าเดินทาง" นั้นเป็นภาชนะบรรจุวัสดุกัมมันตรังสีที่มีการป้องกัน การทดสอบอาจใช้เพื่อเลือกสมมติฐานจากสามสมมติฐาน ได้แก่ ไม่มีแหล่งกำเนิดกัมมันตรังสี มีแหล่งกำเนิดหนึ่งแหล่ง และมีสองแหล่ง (ทั้งหมด) การทดสอบนี้อาจจำเป็นเพื่อความปลอดภัย โดยต้องมีการดำเนินการในแต่ละกรณีทฤษฎีบทของเนย์แมน-เพียร์สันเกี่ยวกับการทดสอบสมมติฐานกล่าวว่า เกณฑ์ที่ดีสำหรับการเลือกสมมติฐานคือ อัตราส่วนของความน่าจะเป็น ( อัตราส่วนความน่าจะเป็น ) วิธีการแก้ปัญหาอย่างง่ายคือ การเลือกสมมติฐานที่มีความน่าจะเป็นสูงสุดสำหรับจำนวนการตรวจวัดด้วยเครื่องไกเกอร์ ผลลัพธ์โดยทั่วไปจะสอดคล้องกับสัญชาตญาณ: จำนวนการตรวจวัดน้อยหมายถึงไม่มีแหล่งกำเนิด จำนวนการตรวจวัดมากหมายถึงมีสองแหล่งกำเนิด และจำนวนการตรวจวัดปานกลางหมายถึงหนึ่งแหล่งกำเนิด โปรดสังเกตว่าโดยปกติแล้วจะมีปัญหาใน การพิสูจน์สมมติฐาน เชิงลบ สมมติฐานว่างควรสามารถพิสูจน์ได้ว่าผิด อย่าง น้อยที่สุด

ทฤษฎี Neyman–Pearson สามารถรองรับทั้งความน่าจะเป็นก่อนหน้าและต้นทุนของการกระทำที่เกิดจากการตัดสินใจ^{[ 59 ]}แบบแรกอนุญาตให้การทดสอบแต่ละครั้งพิจารณาผลลัพธ์ของการทดสอบก่อนหน้า (ต่างจากการทดสอบนัยสำคัญของ Fisher) แบบหลังอนุญาตให้พิจารณาประเด็นทางเศรษฐกิจ (เช่น) เช่นเดียวกับความน่าจะเป็น อัตราส่วนความน่าจะเป็นยังคงเป็นเกณฑ์ที่ดีสำหรับการเลือกสมมติฐาน

การทดสอบสมมติฐานทั้งสองรูปแบบนั้นขึ้นอยู่กับการกำหนดปัญหาที่แตกต่างกัน การทดสอบแบบดั้งเดิมนั้นคล้ายคลึงกับคำถามจริง/เท็จ ในขณะที่การทดสอบของ Neyman–Pearson นั้นคล้ายกับคำถามแบบเลือกตอบหลายตัวเลือก ในมุมมองของTukey ^{[ 60 ]}การทดสอบแบบแรกจะให้ข้อสรุปบนพื้นฐานของหลักฐานที่แข็งแกร่งเท่านั้น ในขณะที่การทดสอบแบบหลังจะให้การตัดสินใจบนพื้นฐานของหลักฐานที่มีอยู่ แม้ว่าการทดสอบทั้งสองจะดูแตกต่างกันมากทั้งทางคณิตศาสตร์และปรัชญา แต่การพัฒนาในภายหลังนำไปสู่ข้ออ้างที่ตรงกันข้าม ลองพิจารณาแหล่งกำเนิดรังสีขนาดเล็กจำนวนมาก สมมติฐานจะกลายเป็นเม็ดทรายกัมมันตรังสี 0, 1, 2, 3... เม็ด แทบไม่มีความแตกต่างระหว่างการไม่มีหรือมีรังสีบ้าง (Fisher) และเม็ดทรายกัมมันตรังสี 0 เม็ด เทียบกับทางเลือกทั้งหมด (Neyman–Pearson) เอกสารสำคัญของ Neyman–Pearson ในปี 1933 ^{[ 13 ]}ยังพิจารณาสมมติฐานแบบผสม (สมมติฐานที่มีการกระจายรวมถึงพารามิเตอร์ที่ไม่ทราบค่า) ด้วย ตัวอย่างหนึ่งพิสูจน์ถึงความเหมาะสมที่สุดของ การทดสอบ t (ของนักเรียน) โดยระบุว่า "ไม่มีการทดสอบใดที่ดีกว่านี้สำหรับสมมติฐานที่กำลังพิจารณาอยู่" (หน้า 321) ทฤษฎีของเนย์แมน-เพียร์สันได้พิสูจน์ถึงความเหมาะสมที่สุดของวิธีการของฟิชเชอร์ตั้งแต่เริ่มต้น

การทดสอบนัยสำคัญของ Fisher ได้รับการพิสูจน์แล้วว่าเป็นเครื่องมือทางสถิติที่ยืดหยุ่นและเป็นที่นิยมในการใช้งาน โดยมีศักยภาพในการเติบโตทางคณิตศาสตร์เพียงเล็กน้อย การทดสอบสมมติฐานของ Neyman–Pearson ได้รับการกล่าวอ้างว่าเป็นเสาหลักของสถิติทางคณิตศาสตร์^{[ 61 ]}ซึ่งสร้างกระบวนทัศน์ใหม่สำหรับสาขานี้ นอกจากนี้ยังกระตุ้นให้เกิดการประยุกต์ใช้ใหม่ ๆ ในการควบคุมกระบวนการทางสถิติทฤษฎีการตรวจจับทฤษฎีการตัดสินใจและทฤษฎีเกมทั้งสองสูตรประสบความสำเร็จ แต่ความสำเร็จนั้นมีลักษณะที่แตกต่างกัน

ข้อพิพาทเกี่ยวกับสูตรยังไม่ได้รับการแก้ไข วิทยาศาสตร์ส่วนใหญ่ใช้สูตรของฟิชเชอร์ (ที่ปรับเปลี่ยนเล็กน้อย) ตามที่สอนในสถิติเบื้องต้น นักสถิติศึกษาทฤษฎีของเนย์แมน-เพียร์สันในระดับบัณฑิตศึกษา นักคณิตศาสตร์ภาคภูมิใจที่ได้รวมสูตรต่างๆ เข้าด้วยกัน นักปรัชญามองว่าสูตรเหล่านั้นแยกจากกัน ความคิดเห็นของนักวิชาการมองว่าสูตรต่างๆ แข่งขันกัน (ฟิชเชอร์กับเนย์แมน) ไม่เข้ากัน^{[ 11 ]}หรือเสริมกัน^{[ 15 ]}ข้อพิพาทมีความซับซ้อนมากขึ้นนับตั้งแต่การอนุมานแบบเบย์เซียนได้รับความน่าเชื่อถือ

คำศัพท์ที่ใช้ไม่สอดคล้องกัน การทดสอบสมมติฐานอาจหมายถึงการผสมผสานระหว่างสองสูตรที่เปลี่ยนแปลงไปตามเวลา การพูดคุยเรื่องการทดสอบนัยสำคัญกับการทดสอบสมมติฐานจึงยิ่งทำให้เกิดความสับสนมากขึ้น

ฟิชเชอร์คิดว่าการทดสอบสมมติฐานเป็นกลยุทธ์ที่มีประโยชน์สำหรับการควบคุมคุณภาพทางอุตสาหกรรม อย่างไรก็ตาม เขาไม่เห็นด้วยอย่างยิ่งว่าการทดสอบสมมติฐานจะมีประโยชน์สำหรับนักวิทยาศาสตร์^{[ 12 ]} การทดสอบสมมติฐานเป็นวิธีการค้นหาสถิติการทดสอบที่ใช้ในการทดสอบนัยสำคัญ^{[ 15 ]}แนวคิดเรื่องกำลังมีประโยชน์ในการอธิบายผลที่ตามมาของการปรับระดับนัยสำคัญและถูกนำมาใช้อย่างมากในการกำหนดขนาดตัวอย่างวิธีการทั้งสองยังคงแตกต่างกันในเชิงปรัชญา^{[ 17 ]}โดยปกติ (แต่ไม่เสมอไป ) จะให้คำตอบทางคณิตศาสตร์เดียวกัน คำตอบที่ต้องการขึ้นอยู่กับบริบท^{[ 15 ]}ในขณะที่การรวมทฤษฎีของฟิชเชอร์และเนย์แมน-เพียร์สันที่มีอยู่ได้รับการวิพากษ์วิจารณ์อย่างหนัก การปรับเปลี่ยนการรวมเพื่อให้บรรลุเป้าหมายแบบเบย์เซียนได้รับการพิจารณาแล้ว^{[ 62 ]}

การวิจารณ์

ข้อวิพากษ์วิจารณ์ส่วนใหญ่เกี่ยวกับการทดสอบสมมติฐานทางสถิติสามารถสรุปได้ด้วยประเด็นต่อไปนี้:

การตีความ ค่า pขึ้นอยู่กับกฎการหยุดและคำจำกัดความของการเปรียบเทียบหลายรายการ กฎการหยุดมักจะเปลี่ยนแปลงในระหว่างการศึกษา และคำจำกัดความของการเปรียบเทียบหลายรายการนั้นมีความคลุมเครืออย่างหลีกเลี่ยงไม่ได้ (เช่น "ค่า p ขึ้นอยู่กับทั้งข้อมูลที่สังเกตได้และข้อมูลอื่นๆ ที่อาจสังเกตได้แต่ไม่ได้สังเกต") ^{[ 63 ]}
ความสับสนที่เกิดขึ้น (ส่วนหนึ่ง) จากการรวมวิธีการของ Fisher และ Neyman–Pearson ซึ่งแตกต่างกันในเชิงแนวคิด^{[ 60 ]}
เน้นความสำคัญทางสถิติโดยไม่รวมการประมาณและการยืนยันโดยการทดลองซ้ำ^{[ 64 ]}
การกำหนดความสำคัญทางสถิติอย่างเข้มงวดเป็นเกณฑ์สำหรับการตีพิมพ์ ส่งผลให้เกิดอคติในการตีพิมพ์ [ ^{65 ] คำ}วิจารณ์ส่วนใหญ่เป็นไปโดยอ้อม แทนที่จะผิด การทดสอบสมมติฐานทางสถิติกลับถูกเข้าใจผิด ใช้มากเกินไป และใช้ในทางที่ผิด
เมื่อใช้เพื่อตรวจจับว่ามีความแตกต่างระหว่างกลุ่มหรือไม่ จะเกิดความขัดแย้งขึ้น เมื่อมีการปรับปรุงการออกแบบการทดลอง (เช่น ความแม่นยำในการวัดและขนาดตัวอย่างที่เพิ่มขึ้น) การทดสอบจะมีความผ่อนปรนมากขึ้น เว้นแต่จะยอมรับสมมติฐานที่ไร้สาระว่าแหล่งที่มาของสัญญาณรบกวนทั้งหมดในข้อมูลจะหักล้างกันอย่างสมบูรณ์ โอกาสที่จะพบนัยสำคัญทางสถิติในทิศทางใดทิศทางหนึ่งจะเข้าใกล้ 100% ^{[ 66 ]}อย่างไรก็ตาม สมมติฐานที่ไร้สาระนี้ที่ว่าความแตกต่างเฉลี่ยระหว่างสองกลุ่มไม่สามารถเป็นศูนย์ได้ หมายความว่าข้อมูลไม่สามารถเป็นอิสระและมีการกระจายเหมือนกัน (iid) ได้ เนื่องจากความแตกต่างที่คาดหวังระหว่างสองกลุ่มย่อยใด ๆ ของตัวแปรสุ่ม iid เป็นศูนย์ ดังนั้นสมมติฐาน iid จึงไร้สาระเช่นกัน
ความกังวลเชิงปรัชญาหลายชั้น ความน่าจะเป็นของนัยสำคัญทางสถิติเป็นฟังก์ชันของการตัดสินใจของผู้ทำการทดลอง/นักวิเคราะห์^{[ 67 ]}หากการตัดสินใจขึ้นอยู่กับธรรมเนียมปฏิบัติ จะเรียกว่าเป็นการตัดสินใจตามอำเภอใจหรือไร้สติ^{[ 68 ]}ในขณะที่การตัดสินใจที่ไม่ได้ขึ้นอยู่กับธรรมเนียมปฏิบัติดังกล่าว อาจเรียกว่าเป็นการตัดสินใจตามความรู้สึกส่วนตัว เพื่อลดข้อผิดพลาดประเภทที่ 2 แนะนำให้ใช้กลุ่มตัวอย่างขนาดใหญ่ ในทางจิตวิทยา สมมติฐานว่างแทบทั้งหมดถูกอ้างว่าเป็นเท็จสำหรับกลุ่มตัวอย่างขนาดใหญ่พอสมควร ดังนั้น "...การทำการทดลองโดยมี เป้าหมาย เดียวคือการปฏิเสธสมมติฐานว่างจึงมักไม่สมเหตุสมผล" ^{[ 69 ]} "ผลการค้นพบที่มีนัยสำคัญทางสถิติมักทำให้เข้าใจผิด" ในทางจิตวิทยา^{[ 70 ]}นัยสำคัญทางสถิติไม่ได้หมายความถึงนัยสำคัญในทางปฏิบัติ และความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ การตั้งข้อสงสัยต่อสมมติฐานว่างจึงห่างไกลจากการสนับสนุนสมมติฐานการวิจัยโดยตรง
“มันไม่ได้บอกสิ่งที่เราอยากรู้” ^{[ 71 ]}มีรายการข้อร้องเรียนหลายสิบรายการ^{[ 72 ]}^{[ 20 ]}^{[ 73 ]}

นักวิจารณ์และผู้สนับสนุนส่วนใหญ่เห็นพ้องกันในข้อเท็จจริงเกี่ยวกับลักษณะของการทดสอบนัยสำคัญของสมมติฐานว่าง (NHST): แม้ว่าจะสามารถให้ข้อมูลที่สำคัญได้ แต่ก็ไม่เพียงพอที่จะใช้เป็นเครื่องมือเดียวสำหรับการวิเคราะห์ทางสถิติการปฏิเสธสมมติฐานว่างได้สำเร็จอาจไม่ให้การสนับสนุนสมมติฐานการวิจัย ข้อโต้แย้งที่ยังคงดำเนินอยู่เกี่ยวข้องกับการเลือกแนวทางปฏิบัติทางสถิติที่ดีที่สุดสำหรับอนาคตอันใกล้ โดยพิจารณาจากแนวทางปฏิบัติที่มีอยู่ อย่างไรก็ตาม การออกแบบการวิจัยที่เหมาะสมสามารถลดปัญหานี้ได้ นักวิจารณ์ต้องการห้าม NHST โดยสิ้นเชิง บังคับให้ละทิ้งแนวทางปฏิบัติเหล่านั้นโดยสิ้นเชิง^{[ 74 ]}ในขณะที่ผู้สนับสนุนแนะนำให้เปลี่ยนแปลงน้อยลง^{[ 75 ]}

ความขัดแย้งเกี่ยวกับการทดสอบนัยสำคัญและผลกระทบต่ออคติในการตีพิมพ์โดยเฉพาะ ได้ก่อให้เกิดผลลัพธ์หลายประการสมาคมจิตวิทยาอเมริกันได้เสริมสร้างข้อกำหนดการรายงานทางสถิติหลังจากการตรวจสอบ^{[ 76 ]} ผู้จัดพิมพ์ วารสารทางการแพทย์ได้ตระหนักถึงภาระผูกพันในการตีพิมพ์ผลลัพธ์บางอย่างที่ไม่มีนัยสำคัญทางสถิติเพื่อต่อสู้กับอคติในการตีพิมพ์^{[ 77 ]} และ ได้มีการสร้างวารสาร ( Journal of Articles in Support of the Null Hypothesis ) ขึ้นเพื่อตีพิมพ์ผลลัพธ์ดังกล่าวโดยเฉพาะ ^{[ 78 ]}ตำราเรียนได้เพิ่มข้อควรระวังบางประการ^{[ 79 ]}และเพิ่มการครอบคลุมเครื่องมือที่จำเป็นในการประมาณขนาดของตัวอย่างที่จำเป็นในการสร้างผลลัพธ์ที่มีนัยสำคัญ องค์กรหลักๆ เพียงไม่กี่แห่งเท่านั้นที่ละทิ้งการใช้การทดสอบนัยสำคัญ แม้ว่าบางแห่งจะมีการหารือเกี่ยวกับการทำเช่นนั้นก็ตาม^{[ 76 ]}ตัวอย่างเช่น ในปี 2023 บรรณาธิการของวารสาร Journal of Physiology "แนะนำอย่างยิ่งให้ใช้วิธีการประมาณค่าสำหรับผู้ที่ตีพิมพ์ในวารสาร" (หมายถึงขนาดของผลกระทบ (เพื่อให้ผู้อ่านสามารถตัดสินได้ว่าการค้นพบนั้นมีความเกี่ยวข้องในทางปฏิบัติ ทางสรีรวิทยา หรือทางคลินิกหรือไม่) และช่วงความเชื่อมั่นเพื่อสื่อถึงความแม่นยำของการประมาณค่านั้น) โดยกล่าวว่า "ท้ายที่สุดแล้ว สิ่งที่ผู้ตีพิมพ์ในวารสาร Journal of Physiology ควรให้ความสำคัญมากที่สุดคือความสำคัญทางสรีรวิทยาของข้อมูล มากกว่าความสำคัญทางสถิติ" ^{[ 80 ]}

ค่า P เป็นตัวแปรสุ่ม^{[ 81 ]}ดังนั้น การตัดสินใจของการทดสอบทางสถิติจึงเป็นตัวแปรสุ่ม เพื่อทำความเข้าใจเสถียรภาพ จึงมีการเสนอแนวทางต่างๆ รวมถึงแนวทางต่อไปนี้:

การบูตสแตรปการกระจายตัวอย่างของค่า p ^{[ 82 ]}

ทางเลือกอื่นๆ

จุดยืนที่เป็นเอกภาพของนักวิจารณ์คือ สถิติไม่ควรนำไปสู่ข้อสรุปหรือการตัดสินใจแบบยอมรับ-ปฏิเสธ แต่ควรนำไปสู่ค่าประมาณที่มีช่วงการประมาณค่าปรัชญาการวิเคราะห์ข้อมูลนี้โดยทั่วไปเรียกว่าสถิติการประมาณค่า สถิติการประมาณค่าสามารถทำได้ด้วยวิธีการแบบความถี่^{[ 83 ]}หรือแบบเบย์เซียน^{[ 84 ]}^{[ 85 ]}

นักวิจารณ์การทดสอบนัยสำคัญได้สนับสนุนให้การอนุมานขึ้นอยู่กับค่า p น้อยลง และขึ้นอยู่กับช่วงความเชื่อมั่นสำหรับขนาดผลกระทบสำหรับความสำคัญ ช่วงการทำนายสำหรับความเชื่อมั่น การทำซ้ำและการขยายสำหรับความสามารถในการทำซ้ำ การวิเคราะห์เมตาสำหรับความทั่วไปมากขึ้น^{[ 86 ]}แต่ไม่มีทางเลือกใดที่แนะนำมาซึ่งก่อให้เกิดการตัดสินใจโดยเนื้อแท้ เลห์มันน์กล่าวว่าทฤษฎีการทดสอบสมมติฐานสามารถนำเสนอได้ในแง่ของข้อสรุป/การตัดสินใจ ความน่าจะเป็น หรือช่วงความเชื่อมั่น: "ความแตกต่างระหว่าง... แนวทางส่วนใหญ่เป็นเรื่องของการรายงานและการตีความ" ^{[ 29 ]}

การอนุมานแบบเบย์เซียนเป็นทางเลือกหนึ่งที่เสนอแทนการทดสอบนัยสำคัญ (นิคเกอร์สันอ้างถึงแหล่งข้อมูล 10 แหล่งที่แนะนำ รวมถึงโรเซบูม (1960)) ^{[ 20 ]}ตัวอย่างเช่นการประมาณค่าพารามิเตอร์ แบบเบย์เซียน สามารถให้ข้อมูลมากมายเกี่ยวกับข้อมูลที่นักวิจัยสามารถอนุมานได้ ในขณะที่ใช้ไพรเออร์ ที่ไม่แน่นอน ซึ่งมีอิทธิพลต่อผลลัพธ์เพียงเล็กน้อยเมื่อมีข้อมูลเพียงพอ นักจิตวิทยาจอห์น เค. ครูชเคได้แนะนำการประมาณค่าแบบเบย์เซียนเป็นทางเลือกแทนการทดสอบ t ^{[ 84 ]}และยังได้เปรียบเทียบการประมาณค่าแบบเบย์เซียนสำหรับการประเมินค่าว่างกับการเปรียบเทียบแบบจำลองแบบเบย์เซียนสำหรับการทดสอบสมมติฐาน^{[ 85 ]}สามารถเปรียบเทียบแบบจำลอง/สมมติฐานที่แข่งขันกันสองแบบได้โดยใช้ปัจจัยเบย์เซียน [ ^{87 ] วิธี}การแบบเบย์เซียนอาจถูกวิพากษ์วิจารณ์ว่าต้องการข้อมูลที่หาได้ยากในกรณีที่ใช้การทดสอบนัยสำคัญมากที่สุด โดยทั่วไปแล้ว ความน่าจะเป็นก่อนหน้าหรือการกระจายความน่าจะเป็นของสถิติการทดสอบภายใต้สมมติฐานทางเลือกมักจะไม่มีอยู่ในสังคมศาสตร์^{[ 20 ]}

ผู้สนับสนุนแนวทางแบบเบย์เซียนบางครั้งอ้างว่าเป้าหมายของนักวิจัยส่วนใหญ่คือการประเมินความน่าจะ เป็น ที่สมมติฐานเป็นจริง อย่าง เป็นกลาง โดยอาศัยข้อมูลที่พวกเขารวบรวมไว้^[⁸⁸^]^[⁸⁹^] ทั้ง การทดสอบนัยสำคัญของ ฟิชเชอร์และ การทดสอบสมมติฐานของ เนย์แมน-เพียร์สันไม่สามารถให้ข้อมูลนี้ได้ และไม่ได้อ้างว่าจะให้ได้ ความน่าจะเป็นที่สมมติฐานเป็นจริงสามารถหาได้จากการใช้ทฤษฎีบทของเบย์ เท่านั้น ซึ่งไม่เป็นที่น่าพอใจสำหรับทั้งฝ่ายฟิชเชอร์และเนย์แมน-เพียร์สันเนื่องจากการใช้ความเป็นอัตวิสัย อย่างชัดเจน ในรูปแบบของความน่าจะเป็นก่อนหน้า [ ¹³^]^[⁹⁰^]^{กลยุทธ์}ของฟิชเชอร์คือการหลีกเลี่ยงสิ่งนี้ด้วยค่า p ( ดัชนีที่เป็นกลางโดยอาศัยข้อมูลเพียงอย่างเดียว) ตามด้วยการอนุมานแบบอุปนัยในขณะที่เนย์แมน-เพียร์สันได้คิดค้นแนวทางพฤติกรรม แบบอุปนัย ของพวกเขา

ดูเพิ่มเติม

อ่านเพิ่มเติม

Lehmann EL (1992) "บทนำสู่ Neyman และ Pearson (1933) เกี่ยวกับปัญหาของการทดสอบสมมติฐานทางสถิติที่มีประสิทธิภาพสูงสุด" ใน: ความก้าวหน้าทางสถิติ เล่ม 1 (บรรณาธิการ Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5(ตามด้วยการพิมพ์เอกสารซ้ำ)
Neyman, J.; Pearson, ES (1933). "เกี่ยวกับปัญหาของการทดสอบสมมติฐานทางสถิติที่มีประสิทธิภาพสูงสุด" . Philosophical Transactions of the Royal Society A . 231 ( 694– 706): 289– 337. Bibcode : 1933RSPTA.231..289N . doi : 10.1098/rsta.1933.0009 .

ลิงก์ภายนอก

" สมมติฐานทางสถิติ การตรวจสอบ" สารานุกรมคณิตศาสตร์สำนักพิมพ์ EMS 2001 [1994]
การวิพากษ์วิจารณ์การทดสอบสมมติฐานแบบคลาสสิกโดยใช้แนวคิดแบบเบย์เซียน
บทวิจารณ์การทดสอบสมมติฐานแบบคลาสสิกที่เน้นความกังวลใจที่มีมายาวนานของนักสถิติ
ภาพรวมการทดสอบทางสถิติ:วิธีเลือกการทดสอบทางสถิติที่ถูกต้อง
[1]วิธีการทดสอบสมมติฐานโดยใช้การวิเคราะห์ทางสถิติในการค้นพบความรู้ทางชีววิทยา; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana

เครื่องคำนวณออนไลน์

เครื่องมือคำนวณค่า p และการทดสอบสมมติฐานบางส่วน

[ 1 ]

[ 2 ]

[ 3 ]

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

65 ] คำ

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

87 ] วิธี

[

[

90