อ่าน 2 นาที
การทดสอบที่แม่นยำ
การ ทดสอบแบบแม่นยำ (การทดสอบนัยสำคัญ) คือ การทดสอบทางสถิติ ที่หาก สมมติฐานว่าง เป็นจริง เงื่อนไข ทั้งหมด ที่ใช้ในการหาค่าการแจกแจงของ สถิติการทดสอบ ก็จะตรงตามที่กำหนด...
การทดสอบที่แม่นยำ
การทดสอบแบบแม่นยำ (การทดสอบนัยสำคัญ)คือการทดสอบทางสถิติที่หากสมมติฐานว่างเป็นจริงเงื่อนไข ทั้งหมด ที่ใช้ในการหาค่าการแจกแจงของสถิติการทดสอบก็จะตรงตามที่กำหนด การใช้การทดสอบแบบแม่นยำจะให้การทดสอบนัยสำคัญที่รักษาอัตราความผิดพลาดประเภทที่ 1 ( ) ของการทดสอบไว้ที่ระดับนัยสำคัญที่ต้องการ ตัวอย่างเช่น การทดสอบแบบแม่นยำที่ระดับนัยสำคัญเมื่อทำการทดสอบซ้ำกับตัวอย่างจำนวนมากที่สมมติฐานว่างเป็นจริง จะปฏิเสธสมมติฐานว่างได้เกือบทุกครั้ง ซึ่งแตกต่างจากการทดสอบแบบประมาณที่อัตราความผิดพลาดประเภทที่ 1 ที่ต้องการจะคงอยู่เพียงโดยประมาณเท่านั้น (เช่น การทดสอบอาจปฏิเสธสมมติฐานว่างมากกว่า 5% ของเวลา) ในขณะที่การประมาณนี้สามารถทำให้ใกล้เคียงกับ ได้มากเท่าที่ต้องการโดยการเพิ่มขนาดตัวอย่างให้ใหญ่เพียงพอ
การทดสอบที่แม่นยำซึ่งอิงตามสถิติการทดสอบ แบบไม่ต่อเนื่อง อาจให้ผลลัพธ์ที่อนุรักษ์นิยม ซึ่งหมายความว่าอัตราการปฏิเสธที่แท้จริงอาจต่ำกว่าระดับนัยสำคัญที่กำหนดไว้ตัวอย่างเช่น กรณีของการทดสอบที่แม่นยำของฟิชเชอร์และการทดสอบที่มีประสิทธิภาพมากกว่าอย่างการทดสอบของบอชลูหากสถิติการทดสอบเป็นแบบต่อเนื่อง ค่าที่ได้จะถึงระดับนัยสำคัญอย่างแม่นยำ
การทดสอบแบบพาราเมตริกเช่น การทดสอบที่ใช้ในสถิติที่แม่นยำเป็นการทดสอบที่แม่นยำเมื่อเงื่อนไขพาราเมตริกเป็นไปตามที่กำหนดอย่างครบถ้วน แต่ในทางปฏิบัติ คำว่า " การทดสอบที่แม่นยำ (นัยสำคัญ)" มักสงวนไว้สำหรับการทดสอบแบบไม่พาราเมตริก กล่าวคือ การทดสอบที่ไม่ขึ้นอยู่กับเงื่อนไขพาราเมตริก อย่างไรก็ตาม ในทางปฏิบัติ ซอฟต์แวร์สำหรับการทดสอบแบบไม่พาราเมตริกส่วนใหญ่ใช้อัลกอริธึมเชิงอนุมานเพื่อหาค่านัยสำคัญ ซึ่งทำให้การทดสอบนั้นไม่แม่นยำ
ดังนั้น เมื่อผลลัพธ์ของการวิเคราะห์ทางสถิติถูกเรียกว่า “การทดสอบที่แม่นยำ” หรือระบุ “ ค่า p ที่แม่นยำ ” นั่นหมายความว่าการทดสอบนั้นถูกกำหนดขึ้นโดยไม่มีข้อสมมติฐานแบบพาราเมตริก และได้รับการประเมินโดยไม่ใช้อัลกอริธึมโดยประมาณ อย่างไรก็ตาม ในทางทฤษฎีแล้ว นี่อาจหมายความว่าได้ใช้การทดสอบแบบพาราเมตริกในสถานการณ์ที่ข้อสมมติฐานแบบพาราเมตริกทั้งหมดเป็นไปตามเงื่อนไขอย่างครบถ้วน แต่ในกรณีส่วนใหญ่เป็นไปไม่ได้ที่จะพิสูจน์สิ่งนี้ได้อย่างสมบูรณ์ในสถานการณ์จริง ข้อยกเว้นที่แน่ใจได้ว่าการทดสอบแบบพาราเมตริกนั้นแม่นยำ ได้แก่ การทดสอบที่อิงตามการแจกแจงแบบทวินามหรือแบบปัวซง บางครั้งคำว่าการทดสอบแบบเรียงสับเปลี่ยนถูกใช้เป็นคำพ้องความหมายกับการทดสอบที่แม่นยำ แต่ควรจำไว้ว่า การทดสอบแบบเรียงสับเปลี่ยนทั้งหมดเป็นการทดสอบที่แม่นยำ แต่การทดสอบที่แม่นยำทั้งหมดไม่จำเป็นต้องเป็นการทดสอบแบบเรียงสับเปลี่ยน
สูตร
สมการพื้นฐานที่อยู่เบื้องหลังการทดสอบที่แม่นยำคือ
ที่ไหน:
- xคือผลลัพธ์ที่สังเกตได้จริง
- Pr( y ) คือความน่าจะเป็นภายใต้สมมติฐานว่างของผลลัพธ์ที่อาจสังเกตได้y
- T ( y ) คือค่าสถิติการทดสอบสำหรับผลลัพธ์yโดยค่าT ที่มากขึ้น แสดงถึงกรณีที่เบี่ยงเบนจากสมมติฐานว่างมากขึ้นตามหลักการ
และผลรวมนั้นครอบคลุมผลลัพธ์ทั้งหมดy (รวมถึงผลลัพธ์ที่สังเกตได้) ที่มีค่าสถิติการทดสอบเท่ากับค่าที่ได้จากตัวอย่างที่สังเกตได้xหรือมีค่ามากกว่า
ตัวอย่าง: การทดสอบไคสแควร์ของเพียร์สัน เทียบกับการทดสอบแบบแม่นยำ
ตัวอย่างง่ายๆ ของแนวคิดนี้เกี่ยวข้องกับการสังเกตว่าการทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบโดยประมาณ สมมติว่าใช้การทดสอบไคสแควร์ของเพียร์สันเพื่อตรวจสอบว่าลูกเต๋าหกด้านนั้น "ยุติธรรม" หรือไม่ ซึ่งหมายความว่ามันให้ผลลัพธ์ที่เป็นไปได้ทั้งหกอย่างเท่าๆ กัน ถ้าทอยลูกเต๋าnครั้ง เรา"คาดหวัง"ว่าจะเห็นผลลัพธ์แต่ละอย่างn /6 ครั้ง ค่าสถิติการทดสอบคือ
โดยที่Xkคือจำนวนครั้งที่สังเกตผลลัพธ์kถ้าสมมติฐานว่างของ "ความยุติธรรม" เป็นจริงการแจกแจงความน่าจะเป็นของสถิติการทดสอบสามารถทำให้ใกล้เคียงกับการแจกแจงไคกำลังสองที่มี 5 องศาอิสระได้มากที่สุดเท่าที่ต้องการ โดยการทำให้ขนาดตัวอย่างnมีขนาดใหญ่เพียงพอ ในทางกลับกัน ถ้าnมีขนาดเล็ก ความน่าจะเป็นที่อิงตามการแจกแจงไคกำลังสองอาจไม่ใช่ค่าประมาณที่ใกล้เคียงเพียงพอ การหาความน่าจะเป็นที่แน่นอนว่าสถิติการทดสอบนี้เกินค่าที่กำหนดจะต้องใช้การแจงนับเชิงการจัดเรียงของผลลัพธ์ทั้งหมดของการทดลองที่ทำให้เกิดค่าสถิติการทดสอบขนาดใหญ่เช่นนั้น ดังนั้นจึงเป็นที่น่าสงสัยว่าควรใช้สถิติการทดสอบเดียวกันหรือไม่ การทดสอบอัตราส่วนความน่าจะเป็นอาจเป็นที่ต้องการมากกว่า และสถิติการทดสอบอาจไม่ใช่ฟังก์ชันเอกภาคของสถิติการทดสอบข้างต้น
ตัวอย่าง: การทดสอบความแม่นยำของฟิชเชอร์
การทดสอบความแม่นยำของฟิชเชอร์ (Fisher's exact test)ซึ่งอิงจากงานของโรนัลด์ ฟิชเชอร์และอีเจจี พิตแมนในทศวรรษ 1930 นั้นแม่นยำเพราะทราบการแจกแจงตัวอย่าง (โดยมีเงื่อนไขตามค่าขอบ) อย่างแม่นยำ ควรเปรียบเทียบกับการทดสอบไคกำลังสองของเพียร์สัน (Pearson's chi-squared test ) ซึ่ง (แม้ว่าจะทดสอบสมมติฐานว่างเดียวกัน) ไม่ใช่การทดสอบที่แม่นยำเพราะการแจกแจงของสถิติการทดสอบนั้นถูกต้องในเชิงอะซิมโทติกเท่านั้น