ข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2

ข้อผิดพลาดประเภทที่ 1หรือผลบวกเท็จคือการปฏิเสธสมมติฐานว่างที่ เป็นจริงอย่างไม่ถูกต้อง ในการทดสอบสมมติฐานทางสถิติ ข้อผิดพลาด ประเภทที่ 2หรือผลลบเท็จคือการยอมรับสมมติฐานว่างที่เป็นเท็จอย่างไม่ถูกต้อง^{[ 1 ]}

การวิเคราะห์จะเกิดข้อผิดพลาดประเภทที่ 1 เมื่อสมมติฐานพื้นฐานบางอย่างถูกปฏิเสธอย่างไม่ถูกต้องเนื่องจากข้อมูลใหม่ที่ทำให้เข้าใจผิด ในขณะเดียวกัน ข้อผิดพลาดประเภทที่ 2 เกิดขึ้นเมื่อสมมติฐานดังกล่าวถูกคงไว้เนื่องจากข้อมูลที่บกพร่องหรือไม่เพียงพอ ในขณะที่การวัดที่ดีกว่าจะแสดงให้เห็นว่าสมมติฐานนั้นไม่เป็นความจริง ตัวอย่างเช่น ในบริบทของการทดสอบทางการแพทย์ หากเราพิจารณาสมมติฐานว่างเป็น "ผู้ป่วยรายนี้ไม่เป็นโรค" การวินิจฉัยว่ามีโรคทั้งที่ไม่มีอยู่จริงจะเป็นข้อผิดพลาดประเภทที่ 1 ในขณะที่การวินิจฉัยว่าผู้ป่วยไม่มีโรคทั้งที่มีโรคอยู่จริงจะเป็นข้อผิดพลาดประเภทที่ 2 วิธีที่สมมติฐานว่างกำหนดกรอบความคาดหวังเริ่มต้นในบริบทนั้นมีอิทธิพลต่อวิธีการเฉพาะที่ข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2 ปรากฏขึ้น และสิ่งนี้จะแตกต่างกันไปตามบริบทและการใช้งาน โดยทั่วไปแล้ว ความเสี่ยงของข้อผิดพลาดดังกล่าวไม่สามารถกำจัดได้อย่างสมบูรณ์ แต่สามารถแลกเปลี่ยนระหว่างสองประเภทได้ เช่น โดยการเปลี่ยนเกณฑ์ความสำคัญ

ความรู้เกี่ยวกับข้อผิดพลาดประเภทที่ 1 และข้อผิดพลาดประเภทที่ 2 ถูกนำไปประยุกต์ใช้อย่างกว้างขวางในสาขาวิทยาศาสตร์การแพทย์ชีวสถิติและวิทยาศาสตร์คอมพิวเตอร์การลดข้อผิดพลาดเหล่านี้เป็นเป้าหมายของการศึกษาในทฤษฎีทางสถิติแม้ว่าการกำจัดข้อผิดพลาดประเภทใดประเภทหนึ่งให้หมดไปโดยสิ้นเชิงนั้นเป็นไปไม่ได้ เมื่อผลลัพธ์ที่เกี่ยวข้องไม่ได้ถูกกำหนดโดยกระบวนการเชิงสาเหตุที่ทราบและสังเกตได้

คำนิยาม

ข้อมูลพื้นฐานทางสถิติ

ในทฤษฎีการทดสอบทางสถิติแนวคิดเรื่องความคลาดเคลื่อนทางสถิติเป็นส่วนสำคัญของการทดสอบสมมติฐานการทดสอบเกี่ยวข้องกับการเลือกข้อเสนอที่แข่งขันกันสองข้อ เรียกว่าสมมติฐานว่าง (null hypothesis) ซึ่งแทนด้วยและ สมมติฐานทาง เลือก (alternative hypothesis ) ซึ่งแทนด้วยแนวคิดนี้คล้ายกับการตัดสินในศาล สมมติฐานว่างสอดคล้องกับจุดยืนของจำเลย เช่นเดียวกับที่จำเลยถูกสันนิษฐานว่าบริสุทธิ์จนกว่าจะได้รับการพิสูจน์ว่ามีความผิด สมมติฐานว่างก็ถูกสันนิษฐานว่าเป็นจริงจนกว่าข้อมูลจะให้หลักฐานที่น่าเชื่อถือมาหักล้าง สมมติฐานทางเลือกสอดคล้องกับจุดยืนที่ขัดแย้งกับจำเลย โดยเฉพาะอย่างยิ่ง สมมติฐานว่างยังเกี่ยวข้องกับการไม่มีความแตกต่างหรือไม่มีความสัมพันธ์ ดังนั้น สมมติฐานว่างจึงไม่สามารถเป็นว่ามีความแตกต่างหรือมีความสัมพันธ์ได้ ${\textstyle H_{0}}$ ${\textstyle H_{1}}$

หากผลการทดสอบสอดคล้องกับความเป็นจริง การตัดสินใจที่ถูกต้องก็จะเกิดขึ้น อย่างไรก็ตาม หากผลการทดสอบไม่สอดคล้องกับความเป็นจริง ก็จะเกิดข้อผิดพลาดขึ้น มีสองสถานการณ์ที่การตัดสินใจผิดพลาด สมมติฐานว่างอาจเป็นจริง แต่เรากลับปฏิเสธสมมติฐานว่างในทางกลับกัน สมมติฐานทางเลือกอาจเป็นจริง แต่เรากลับไม่ปฏิเสธ สมมติฐานทางเลือก มีการแบ่งประเภทของข้อผิดพลาดออกเป็นสองประเภท คือ ข้อผิดพลาดประเภทที่ 1 และข้อผิดพลาดประเภทที่ 2 ^[²^] ${\textstyle H_{0}}$ ${\textstyle H_{1}}$ ${\textstyle H_{0}}$

ข้อผิดพลาดประเภทที่ 1

ข้อผิดพลาดประเภทแรกคือการปฏิเสธสมมติฐานว่างอย่างผิดพลาดอันเป็นผลมาจากกระบวนการทดสอบ ข้อผิดพลาดประเภทนี้เรียกว่าข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ) และบางครั้งเรียกว่าข้อผิดพลาดประเภทแรก ในตัวอย่างในศาล ข้อผิดพลาดประเภทที่ 1 เทียบเท่ากับการตัดสินว่าจำเลยผู้บริสุทธิ์มีความผิด

ข้อผิดพลาดประเภทที่ 2

ข้อผิดพลาดประเภทที่สองคือ การไม่ปฏิเสธสมมติฐานว่างอันเป็นผลมาจากกระบวนการทดสอบ ข้อผิดพลาดประเภทนี้เรียกว่า ข้อผิดพลาดประเภทที่สอง (ผลลบเท็จ) และเรียกอีกอย่างว่า ข้อผิดพลาดประเภทที่สอง ในตัวอย่างในศาล ข้อผิดพลาดประเภทที่สองเทียบเท่ากับการตัดสินให้จำเลยพ้นผิด

อัตราข้อผิดพลาดการไขว้

อัตราข้อผิดพลาดครอสโอเวอร์ (CER) คือจุดที่ข้อผิดพลาดประเภทที่ 1 และข้อผิดพลาดประเภทที่ 2 เท่ากัน ระบบที่มีค่า CER ต่ำกว่าจะให้ความแม่นยำมากกว่าระบบที่มีค่า CER สูงกว่า เมื่อปัจจัยอื่นๆ เท่ากัน การที่อัตราข้อผิดพลาดประเภทที่ 1 และข้อผิดพลาดประเภทที่ 2 เท่ากัน (เช่น CER) จะส่งผลให้อัตราข้อผิดพลาดโดยรวมต่ำที่สุด^{[ 3 ]}

ผลบวกเท็จและผลลบเท็จ

ในแง่ของผลบวกเท็จและผลลบเท็จ ผลลัพธ์ที่เป็นบวกหมายถึงการปฏิเสธสมมติฐานว่าง ในขณะที่ผลลัพธ์ที่เป็นลบหมายถึงการไม่ปฏิเสธสมมติฐานว่าง คำว่า "เท็จ" หมายความว่าข้อสรุปที่ได้นั้นไม่ถูกต้อง ดังนั้น ข้อผิดพลาดประเภทที่ 1 จึงเทียบเท่ากับผลบวกเท็จ และข้อผิดพลาดประเภทที่ 2 จึงเทียบเท่ากับผลลบเท็จ

ตารางประเภทข้อผิดพลาด

ตารางแสดงความสัมพันธ์ระหว่างความจริง/ความเท็จของสมมติฐานว่างและผลลัพธ์ของการทดสอบ: ^{[ 4 ]}


ตารางประเภทข้อผิดพลาด		สมมติฐานว่าง ( ) คือ ${\textstyle {\boldสัญลักษณ์ {H_{0}}}}$
ตารางประเภทข้อผิดพลาด		จริง	เท็จ
การตัดสินใจ เกี่ยวกับ สมมติฐานว่าง ( ) ${\textstyle {\boldสัญลักษณ์ {H_{0}}}}$	ไม่ปฏิเสธ	การอนุมานที่ถูกต้อง(ผลลบที่ถูกต้อง) (ความน่าจะเป็น = ) ${\textstyle 1-\alpha }$	ข้อผิดพลาดประเภทที่ 2 (ผลลบเท็จ) (ความน่าจะเป็น = ) ${\textstyle \beta }$
	ปฏิเสธ	ความผิดพลาดประเภทที่ 1 (ผลบวกเท็จ) (ความน่าจะเป็น = ) ${\textstyle \alpha }$	การอนุมานที่ถูกต้อง(ผลบวกจริง) (ความน่าจะเป็น = ) ${\textstyle 1-\beta }$

อัตราข้อผิดพลาด

การทดสอบที่สมบูรณ์แบบจะต้องมีผลบวกเท็จเป็นศูนย์และผลลบเท็จเป็นศูนย์ อย่างไรก็ตาม วิธีการทางสถิติเป็นแบบความน่าจะเป็น และไม่สามารถทราบได้อย่างแน่นอนว่าข้อสรุปทางสถิตินั้นถูกต้อง เมื่อใดก็ตามที่มีความไม่แน่นอน ก็จะมีความเป็นไปได้ที่จะเกิดข้อผิดพลาด เมื่อพิจารณาเช่นนี้ การทดสอบสมมติฐานทางสถิติทั้งหมดจึงมีความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2 ^{[ 5 ]}

อัตราความผิดพลาดประเภทที่ 1 คือความน่าจะเป็นของการปฏิเสธสมมติฐานว่างเมื่อพิจารณาว่าสมมติฐานว่างนั้นเป็นจริง การทดสอบนี้ออกแบบมาเพื่อรักษาอัตราความผิดพลาดประเภทที่ 1 ให้อยู่ต่ำกว่าขอบเขตที่กำหนดไว้ล่วงหน้าซึ่งเรียกว่าระดับนัยสำคัญ ซึ่งโดยปกติจะใช้อักษรกรีก α (อัลฟา) และเรียกอีกอย่างว่าระดับอัลฟา^{[ 6 ]}โดยปกติ ระดับนัยสำคัญจะถูกกำหนดไว้ที่ 0.05 (5%) ซึ่งหมายความว่ายอมรับได้ที่จะมีความน่าจะเป็น 5% ในการปฏิเสธสมมติฐานว่างที่เป็นจริงอย่างไม่ถูกต้อง^{[ 7 ]}
อัตราความผิดพลาดประเภทที่ 2 จะแสดงด้วยอักษรกรีก β (เบต้า) และมีความสัมพันธ์กับกำลังของการทดสอบซึ่งเท่ากับ 1−β

อัตราความผิดพลาดทั้งสองประเภทนี้มีความสัมพันธ์กันแบบผกผัน กล่าวคือ สำหรับชุดข้อมูลตัวอย่างใดๆ ก็ตาม ความพยายามในการลดความผิดพลาดประเภทหนึ่งมักจะส่งผลให้ความผิดพลาดอีกประเภทหนึ่งเพิ่มขึ้น

คุณภาพของการทดสอบสมมติฐาน

แนวคิดเดียวกันนี้สามารถแสดงได้ในแง่ของอัตราผลลัพธ์ที่ถูกต้อง และจึงสามารถนำมาใช้เพื่อลดอัตราความผิดพลาดและปรับปรุงคุณภาพของการทดสอบสมมติฐานได้ การลดโอกาสที่จะเกิดความผิดพลาดประเภทที่ 1 นั้น ง่ายและมีประสิทธิภาพด้วยการกำหนดค่าอัลฟาให้เข้มงวดมากขึ้น ตัวอย่างเช่น การกำหนดค่าอัลฟาไว้ที่ 0.01 แทนที่จะเป็น 0.05 ส่วนการลดโอกาสที่จะเกิดความผิดพลาดประเภทที่ 2 ซึ่งเกี่ยวข้องอย่างใกล้ชิดกับกำลังของการวิเคราะห์นั้น การเพิ่มขนาดตัวอย่างของการทดสอบหรือการผ่อนปรนระดับอัลฟา เช่น การกำหนดค่าอัลฟาเป็น 0.1 แทนที่จะเป็น 0.05 อาจเพิ่มกำลังของการวิเคราะห์ได้ สถิติการทดสอบจะมีความแข็งแกร่งหากอัตราความผิดพลาดประเภทที่ 1 ถูกควบคุมได้

การปรับค่าเกณฑ์ (ค่าตัด) ที่แตกต่างกันยังสามารถใช้เพื่อทำให้การทดสอบมีความจำเพาะหรือความไวมากขึ้น ซึ่งจะช่วยเพิ่มคุณภาพของการทดสอบได้ ตัวอย่างเช่น ลองนึกภาพการทดสอบทางการแพทย์ที่ผู้ทำการทดลองอาจวัดความเข้มข้นของโปรตีนบางชนิดในตัวอย่างเลือด ผู้ทำการทดลองสามารถปรับค่าเกณฑ์ (เส้นแนวตั้งสีดำในภาพ) และผู้คนจะได้รับการวินิจฉัยว่าเป็นโรคหากตรวจพบตัวเลขใด ๆ ที่สูงกว่าค่าเกณฑ์ที่กำหนด ตามภาพ การเปลี่ยนค่าเกณฑ์จะส่งผลให้เกิดการเปลี่ยนแปลงในผลบวกเท็จและผลลบเท็จ ซึ่งสอดคล้องกับการเคลื่อนที่บนเส้นโค้ง

ตัวอย่าง

เนื่องจากในการทดลองจริงนั้นเป็นไปไม่ได้ที่จะหลีกเลี่ยงข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2 ทั้งหมด ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องพิจารณาถึงระดับความเสี่ยงที่เรายินดีรับในการปฏิเสธสมมติฐานหลัก H₀ หรือยอมรับสมมติฐานหลัก H₀ อย่างผิดพลาด_วิธีแก้_{ปัญหา}นี้คือการรายงานค่า pหรือระดับนัยสำคัญ α ของสถิติ ตัวอย่างเช่น หากค่า p ของผลลัพธ์สถิติการทดสอบคือ 0.0596 แสดงว่ามีความน่าจะเป็น 5.96% ที่เราจะปฏิเสธสมมติฐานหลัก H₀ อย่างผิดพลาดหากสมมติฐานหลัก H₀ _เป็นจริง หรือหากเรากล่าวว่าสถิตินั้นดำเนินการที่ระดับนัยสำคัญ α เช่น 0.05 แสดงว่าเรายอมรับการปฏิเสธสมมติฐานหลัก H₀ อย่างผิดพลาดได้_ที่ 5% ระดับนัยสำคัญ α ที่ 0.05 นั้นค่อนข้างเป็นที่นิยม แต่ไม่มีกฎทั่วไปที่ใช้ได้กับทุกสถานการณ์

การวัดความเร็วของยานพาหนะ

ความเร็วสูงสุดที่อนุญาตบนทางด่วนในสหรัฐอเมริกาคือ 120 กิโลเมตรต่อชั่วโมง (75 ไมล์ต่อชั่วโมง) มีการติดตั้งอุปกรณ์วัดความเร็วของยานพาหนะที่วิ่งผ่าน สมมติว่าอุปกรณ์จะทำการวัดความเร็วของยานพาหนะที่วิ่งผ่านสามครั้ง โดยบันทึกค่าเป็นตัวอย่างสุ่ม X₁ _, X₂ _, X₃ _{ตำรวจ}จราจรจะปรับหรือไม่ปรับผู้ขับขี่ขึ้นอยู่กับความเร็วเฉลี่ยกล่าวคือ ค่าสถิติการทดสอบ... ${\bar {X}}$

$T={\frac {X_{1}+X_{2}+X_{3}}{3}}={\bar {X}}$

นอกจากนี้ เราสมมติว่าค่าที่วัดได้ X ₁ , X ₂ , X ₃ถูกจำลองด้วยการแจกแจงปกติ N(μ,2) ดังนั้น T ควรเป็นไปตาม N(μ,2/ ) และพารามิเตอร์ μ แทนความเร็วที่แท้จริงของยานพาหนะที่ผ่าน ในการทดลองนี้ สมมติฐานว่าง H ₀และสมมติฐานทางเลือก H ₁ควรจะเป็น ${\sqrt {3}}$

H ₀ : μ=120 เทียบกับ H ₁ : μ>120

ถ้าเราทำการทดสอบทางสถิติที่ระดับนัยสำคัญ α=0.05 จะต้องคำนวณ ค่าวิกฤต c เพื่อแก้ปัญหา

$P\left(Z\geqslant {\frac {c-120}{\frac {2}{\sqrt {3}}}}\right)=0.05$

ตามกฎการเปลี่ยนหน่วยของการแจกแจงปกติ เมื่ออ้างอิงจากตาราง Zเราจะได้

${\frac {c-120}{\frac {2}{\sqrt {3}}}}=1.645\Rightarrow c=121.9$

นี่คือบริเวณวิกฤต กล่าวคือ หากความเร็วที่บันทึกได้ของยานพาหนะสูงกว่าค่าวิกฤต 121.9 ผู้ขับขี่จะถูกปรับ อย่างไรก็ตาม ยังมีผู้ขับขี่อีก 5% ที่ถูกปรับโดยไม่ถูกต้อง เนื่องจากความเร็วเฉลี่ยที่บันทึกได้สูงกว่า 121.9 แต่ความเร็วที่แท้จริงไม่เกิน 120 ซึ่งเราเรียกว่า ความผิดพลาดประเภทที่ 1

ความผิดพลาดประเภทที่ 2 คือกรณีที่ความเร็วที่แท้จริงของยานพาหนะเกิน 120 กิโลเมตรต่อชั่วโมง แต่คนขับไม่ถูกปรับ ตัวอย่างเช่น ถ้าความเร็วที่แท้จริงของยานพาหนะ μ=125 ความน่าจะเป็นที่คนขับจะไม่ถูกปรับสามารถคำนวณได้ดังนี้

$P=(T<121.9|\mu =125)=P\left({\frac {T-125}{\frac {2}{\sqrt {3}}}}<{\frac {121.9-125}{\frac {2}{\sqrt {3}}}}\right)=\phi (-2.68)=0.0036$

ซึ่งหมายความว่า หากความเร็วที่แท้จริงของยานพาหนะคือ 125 ผู้ขับขี่จะมีโอกาส 0.36% ที่จะหลีกเลี่ยงค่าปรับเมื่อทำการวิเคราะห์ทางสถิติที่ระดับ α=0.05 เนื่องจากความเร็วเฉลี่ยที่บันทึกไว้ต่ำกว่า 121.9 หากความเร็วที่แท้จริงใกล้เคียงกับ 121.9 มากกว่า 125 โอกาสที่จะหลีกเลี่ยงค่าปรับก็จะสูงขึ้นด้วย

ควรพิจารณาถึงความสมดุลระหว่างความผิดพลาดประเภทที่ 1 และความผิดพลาดประเภทที่ 2 ด้วย กล่าวคือ ในกรณีนี้ หากตำรวจจราจรไม่ต้องการปรับผู้ขับขี่ที่บริสุทธิ์โดยไม่ถูกต้อง ระดับ α สามารถตั้งค่าให้มีค่าน้อยลง เช่น 0.01 อย่างไรก็ตาม หากเป็นเช่นนั้น ผู้ขับขี่ที่มีความเร็วที่แท้จริงเกิน 120 กิโลเมตรต่อชั่วโมง เช่น 125 กิโลเมตรต่อชั่วโมง ก็จะมีโอกาสหลีกเลี่ยงการถูกปรับมากขึ้น

นิรุกติศาสตร์

คำว่า "ข้อผิดพลาดประเภทที่ 1" และ "ข้อผิดพลาดประเภทที่ 2" มาจากบทความของNeymanและPearson ในปี พ.ศ. 2476 ^{[ 8 ]}

คำศัพท์ที่เกี่ยวข้อง

สมมติฐานว่าง

เป็นเรื่องปกติที่นักสถิติจะทำการทดสอบ เพื่อตรวจสอบ ว่า " สมมติฐาน เชิงคาดการณ์ " เกี่ยวกับปรากฏการณ์ที่สังเกตได้ในโลก (หรือผู้คนในโลก) นั้นสามารถสนับสนุนได้หรือไม่ ผลลัพธ์ของการทดสอบดังกล่าวจะกำหนดว่าชุดผลลัพธ์เฉพาะนั้นสอดคล้อง (หรือไม่สอดคล้อง) กับสมมติฐานเชิงคาดการณ์หรือไม่

โดยหลักการทางสถิติแล้ว มักจะถือว่าสมมติฐานที่คาดการณ์ไว้นั้นผิดเสมอ และสมมติฐานที่เรียกว่า "สมมติฐานว่าง" (null hypothesis) คือปรากฏการณ์ที่สังเกตได้เกิดขึ้นโดยบังเอิญ (และผลที่ตามมาคือ ตัวการที่คาดการณ์ไว้ไม่มีผลใดๆ) – การทดสอบจะตรวจสอบว่าสมมติฐานนี้ถูกต้องหรือผิด นี่คือเหตุผลที่สมมติฐานที่กำลังทดสอบมักเรียกว่าสมมติฐานว่าง (น่าจะมาจาก Fisher (1935, p. 19)) เพราะเป็น สมมติฐาน นี้ที่จะถูกพิสูจน์ว่าถูกต้องหรือไม่ถูกต้องโดยการทดสอบ เมื่อสมมติฐานว่างถูกพิสูจน์ว่าไม่ถูกต้อง ก็สามารถสรุปได้ว่าข้อมูลสนับสนุน "สมมติฐานทางเลือก" (ซึ่งก็คือสมมติฐานที่คาดการณ์ไว้แต่แรก)

การประยุกต์ใช้แบบแผนของ Neyman และ Pearson อย่างสม่ำเสมอโดยนักสถิติในการแสดง "สมมติฐานที่จะทดสอบ" (หรือ "สมมติฐานที่จะพิสูจน์ว่าไม่มีผล") ด้วยนิพจน์H ₀ทำให้เกิดสถานการณ์ที่หลายคนเข้าใจคำว่า "สมมติฐานว่าง" ว่าหมายถึง "สมมติฐานศูนย์" ซึ่งเป็นข้อความที่ระบุว่าผลลัพธ์ที่เกิดขึ้นนั้นเกิดจากความบังเอิญ นี่ไม่ใช่กรณีเสมอไป ข้อจำกัดที่สำคัญ ตามที่ Fisher (1966) กล่าวไว้คือ "สมมติฐานว่างต้องแม่นยำ กล่าวคือ ปราศจากความคลุมเครือและความกำกวม เพราะต้องเป็นพื้นฐานของ 'ปัญหาของการกระจาย' ซึ่งการทดสอบนัยสำคัญเป็นวิธีแก้ปัญหา" ^{[ 9 ]}ผลที่ตามมาคือ ในวิทยาศาสตร์เชิงทดลอง สมมติฐานว่างโดยทั่วไปคือข้อความที่ระบุว่าการรักษาเฉพาะอย่างไม่มีผล ในวิทยาศาสตร์เชิงสังเกต สมมติฐานว่างคือไม่มีความแตกต่างระหว่างค่าของตัวแปรที่วัดได้เฉพาะอย่างกับค่าของการทำนายเชิงทดลอง

นัยสำคัญทางสถิติ

หากความน่าจะเป็นที่จะได้ผลลัพธ์ที่รุนแรงเช่นเดียวกับที่ได้ โดยสมมติว่าสมมติฐานว่างเป็นจริง ต่ำกว่าความน่าจะเป็นที่กำหนดไว้ล่วงหน้า (ตัวอย่างเช่น 5%) ผลลัพธ์นั้นจะถือว่ามีนัยสำคัญทางสถิติและสมมติฐานว่างจะถูกปฏิเสธ

เซอร์ โรนัลด์ ไอลเมอร์ ฟิชเชอร์ (ค.ศ. 1890–1962) นักสถิติชาวอังกฤษเน้นย้ำว่าสมมติฐานว่าง (null hypothesis)

สมมติฐานหลักนั้นไม่สามารถพิสูจน์หรือยืนยันได้อย่างเด็ดขาด แต่มีโอกาสที่จะหักล้างได้ในระหว่างการทดลอง การทดลองทุกครั้งอาจกล่าวได้ว่ามีอยู่เพื่อให้ข้อเท็จจริงมีโอกาสที่จะหักล้างสมมติฐานหลักนั้น

— ฟิชเชอร์, 1935, หน้า 19

ข้อผิดพลาดประเภท S และ M

เพื่อแก้ไขปัญหาเกี่ยวกับการทดสอบสมมติฐานว่างแอนดรูว์ เกลแมนจอห์น คาร์ลินและคนอื่นๆ ได้แนะนำให้เพิ่มข้อผิดพลาดประเภท S และประเภท M เข้าไปในการพิจารณาผลลัพธ์ที่มีนัยสำคัญ^{[ 10 ]}

ข้อผิดพลาดประเภท S คือข้อผิดพลาดเกี่ยวกับเครื่องหมาย อัตราข้อผิดพลาดประเภท S สอดคล้องกับความน่าจะเป็นที่หากได้ผลลัพธ์ที่มีนัยสำคัญ ผลกระทบจะถูกประเมินไปในทิศทางที่ผิดจากผลกระทบที่แท้จริง ซึ่งมักเกิดขึ้นได้กับการตั้งค่าการทดสอบที่มีกำลังต่ำ

ข้อผิดพลาดประเภท M คือข้อผิดพลาดเกี่ยวกับขนาด ซึ่งแก้ไขได้โดยใช้ "ปัจจัยการประมาณค่าเกินจริง" ซึ่งเป็นการประเมินอัตราส่วนที่คาดหวังของค่าสัมบูรณ์ของการประมาณค่าต่อค่าจริง โดยมีเงื่อนไขว่าต้องได้ผลลัพธ์ที่มีนัยสำคัญ สิ่งนี้สำคัญเพราะการใช้การทดสอบนัยสำคัญเพื่อคัดกรองผลลัพธ์จะทำให้เกิดอคติในการเลือก ซึ่งอาจนำไปสู่การประเมินขนาดผลกระทบสูงเกินจริงอย่างมาก

โดเมนแอปพลิเคชัน

ยา

ในทางการแพทย์ ความแตกต่างระหว่างการคัดกรองและการทดสอบนั้นมีมาก

การตรวจสุขภาพ

การตรวจคัดกรองเกี่ยวข้องกับการทดสอบราคาไม่แพงที่ดำเนินการกับประชากรจำนวนมาก ซึ่งไม่มีใครแสดงอาการทางคลินิกของโรคใดๆ (เช่นการตรวจมะเร็งปากมดลูก )

การตรวจวินิจฉัยนั้นมีค่าใช้จ่ายสูงกว่ามาก และมักเป็นขั้นตอนที่รุกรานร่างกาย ซึ่งจะทำเฉพาะกับผู้ที่มีอาการทางคลินิกบ่งชี้ของโรคเท่านั้น และส่วนใหญ่มักใช้เพื่อยืนยันการวินิจฉัยที่สงสัยไว้

ตัวอย่างเช่น รัฐส่วนใหญ่ในสหรัฐอเมริกา กำหนดให้ทารกแรกเกิดต้องได้รับการตรวจคัดกรองโรคฟีนิลคีโตนูเรียและภาวะไทรอยด์ฮอร์โมนต่ำรวมถึงความผิดปกติแต่กำเนิด อื่นๆ ด้วย

สมมติฐาน: "ทารกแรกเกิดมีภาวะฟีนิลคีโตนูเรียและภาวะไทรอยด์ฮอร์โมนต่ำ"
สมมติฐานว่าง (H₀ ₎ : "ทารกแรกเกิดไม่มีภาวะฟีนิลคีโตนูเรียและภาวะไทรอยด์ฮอร์โมนต่ำ"
ความผิดพลาดประเภทที่ 1 (ผลบวกเท็จ): ความจริงก็คือ ทารกแรกเกิดไม่ได้เป็นโรคฟีนิลคีโตนูเรียและภาวะไทรอยด์ฮอร์โมนต่ำ แต่เรากลับพิจารณาว่าพวกเขามีความผิดปกติดังกล่าวตามข้อมูลที่ได้มา
ข้อผิดพลาดประเภทที่ 2 (ผลลบเท็จ): ข้อเท็จจริงคือทารกแรกเกิดมีภาวะฟีนิลคีโตนูเรียและภาวะไทรอยด์ฮอร์โมนต่ำ แต่เราพิจารณาว่าพวกเขาไม่มีความผิดปกติดังกล่าวตามข้อมูลที่มีอยู่

แม้ว่าการตรวจคัดกรองจะมีอัตราผลบวกเท็จสูง แต่ก็ถือว่าการตรวจคัดกรองเหล่านี้มีคุณค่า เนื่องจากช่วยเพิ่มโอกาสในการตรวจพบความผิดปกติเหล่านี้ได้ในระยะเริ่มต้นมากยิ่งขึ้น

การตรวจเลือดแบบง่ายๆที่ใช้คัดกรองผู้บริจาคโลหิตเพื่อหาเชื้อ HIVและไวรัสตับอักเสบมีอัตราผลบวกปลอมสูง อย่างไรก็ตาม แพทย์ใช้การตรวจที่แพงกว่าและแม่นยำกว่ามากเพื่อตรวจสอบว่าบุคคลนั้นติดเชื้อไวรัสเหล่านี้จริงหรือไม่

บางทีผลตรวจผิดพลาดที่ถูกพูดถึงมากที่สุดในการตรวจคัดกรองทางการแพทย์ มาจากขั้นตอนการตรวจคัดกรองมะเร็งเต้านมด้วยแมมโมแกรมอัตราผลตรวจแมมโมแกรมผิดพลาดในสหรัฐอเมริกาสูงถึง 15% ซึ่งสูงที่สุดในโลก ผลที่ตามมาอย่างหนึ่งจากอัตราผลตรวจผิดพลาดที่สูงในสหรัฐอเมริกาคือ ในช่วง 10 ปี ผู้หญิงอเมริกันครึ่งหนึ่งที่ได้รับการตรวจคัดกรองจะได้รับผลตรวจแมมโมแกรมผิดพลาด ผลตรวจแมมโมแกรมผิดพลาดนั้นมีค่าใช้จ่ายสูง โดยมีการใช้จ่ายเงินกว่า 100 ล้านดอลลาร์สหรัฐต่อปีในสหรัฐอเมริกาสำหรับการตรวจติดตามและการรักษา นอกจากนี้ยังทำให้ผู้หญิงเกิดความวิตกกังวลโดยไม่จำเป็น ผลจากอัตราผลตรวจผิดพลาดที่สูงในสหรัฐอเมริกา ทำให้ผู้หญิงมากถึง 90-95% ที่ได้รับผลตรวจแมมโมแกรมเป็นบวกไม่ได้เป็นโรค อัตราที่ต่ำที่สุดในโลกอยู่ที่ประเทศเนเธอร์แลนด์ 1% โดยทั่วไปแล้วอัตราที่ต่ำที่สุดจะอยู่ในยุโรปเหนือ ซึ่งมีการอ่านฟิล์มแมมโมแกรมสองครั้งและมีการกำหนดเกณฑ์ที่สูงสำหรับการตรวจเพิ่มเติม (เกณฑ์ที่สูงจะลดประสิทธิภาพของการทดสอบ)

การตรวจคัดกรองประชากรในอุดมคติควรมีราคาถูก ทำได้ง่าย และหากเป็นไปได้ควรมีผลลบเท็จเป็นศูนย์ แต่โดยทั่วไปแล้ว การตรวจแบบนี้มักให้ผลบวกเท็จมากกว่า ซึ่งสามารถคัดออกได้ในภายหลังด้วยวิธีการตรวจที่ซับซ้อนกว่า (และมีราคาแพงกว่า)

การตรวจทางการแพทย์

ผลลบเท็จและผลบวกเท็จเป็นปัญหาสำคัญในการตรวจทางการแพทย์

สมมติฐาน: "ผู้ป่วยมีโรคเฉพาะเจาะจงนั้น"
สมมติฐานว่าง (H₀ ₎ : "ผู้ป่วยไม่ได้เป็นโรคเฉพาะนั้น"
ความผิดพลาดประเภทที่ 1 (ผลบวกเท็จ): ความจริงก็คือผู้ป่วยไม่ได้เป็นโรคใดโรคหนึ่งโดยเฉพาะ แต่แพทย์วินิจฉัยว่าผู้ป่วยป่วยตามผลการตรวจ
ข้อผิดพลาดประเภทที่ 2 (ผลลบเท็จ): ความจริงก็คือ โรคนั้นมีอยู่จริง แต่รายงานผลการตรวจกลับให้ข้อมูลที่ทำให้ผู้ป่วยและแพทย์เข้าใจผิดว่าไม่มีโรคดังกล่าว

ผลบวกเท็จอาจก่อให้เกิดปัญหาที่ร้ายแรงและขัดแย้งกับสามัญสำนึกได้เช่นกัน เมื่อโรคที่กำลังค้นหาเป็นโรคที่พบได้ยาก เช่น ในการตรวจคัดกรอง หากการทดสอบมีอัตราผลบวกเท็จหนึ่งในหมื่น แต่มีเพียงหนึ่งในล้านตัวอย่าง (หรือคน) เท่านั้นที่เป็นผลบวกจริง ผลบวกส่วนใหญ่ที่ตรวจพบโดยการทดสอบนั้นจะเป็นผลบวกเท็จ ความน่าจะเป็นที่ผลบวกที่สังเกตได้เป็นผลบวกเท็จสามารถคำนวณได้โดยใช้ทฤษฎีบทของเบย์ส

ผลลบเท็จก่อให้เกิดปัญหาที่ร้ายแรงและขัดกับสามัญสำนึก โดยเฉพาะอย่างยิ่งเมื่อโรคที่กำลังค้นหาเป็นโรคที่พบได้ทั่วไป หากใช้การทดสอบที่มีอัตราผลลบเท็จเพียง 10% ในการทดสอบประชากรที่มีอัตราการเกิดโรคจริง 70% ผลลบที่ตรวจพบโดยการทดสอบจำนวนมากจะเป็นผลลบเท็จ

บางครั้งสิ่งนี้อาจนำไปสู่การรักษาที่ไม่เหมาะสมหรือไม่เพียงพอทั้งต่อผู้ป่วยและโรคของพวกเขา ตัวอย่างที่พบได้บ่อยคือ การพึ่งพาการทดสอบความเครียดของหัวใจเพื่อตรวจหาภาวะหลอดเลือดหัวใจตีบตัน ทั้งๆ ที่ ทราบกันดีว่าการทดสอบ ความเครียดของหัวใจนั้นตรวจพบได้เฉพาะข้อจำกัดของ การไหลเวียนของเลือด ในหลอดเลือดหัวใจเนื่องจากภาวะตีบตัน ขั้นรุนแรง เท่านั้น

ไบโอเมตริกส์

การจับคู่ข้อมูลชีวมาตร เช่นการจดจำลายนิ้วมือ การจดจำใบหน้าหรือการจดจำม่านตามีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2 ได้

สมมติฐาน: "ข้อมูลที่ป้อนเข้าไปไม่สามารถระบุตัวตนของบุคคลในรายชื่อที่ค้นหาได้"
สมมติฐานว่าง: "ข้อมูลที่ป้อนเข้าไประบุตัวตนของบุคคลในรายชื่อที่ค้นหาได้"
ข้อผิดพลาดประเภทที่ 1 (อัตราการปฏิเสธที่ผิดพลาด): ข้อเท็จจริงคือบุคคลนั้นมีอยู่ในรายชื่อที่ค้นหา แต่ระบบสรุปว่าบุคคลนั้นไม่อยู่ในรายชื่อตามข้อมูลที่ได้มา
ข้อผิดพลาดประเภทที่ 2 (อัตราการจับคู่ผิดพลาด): ความจริงก็คือ บุคคลนั้นไม่ได้อยู่ในรายชื่อที่ค้นหา แต่ระบบสรุปว่าบุคคลนั้นคือคนที่เรากำลังมองหาตามข้อมูลที่ได้มา

ความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 เรียกว่า "อัตราการปฏิเสธที่ผิดพลาด" (FRR) หรืออัตราการไม่ตรงกันที่ผิดพลาด (FNMR) ในขณะที่ความน่าจะเป็นของข้อผิดพลาดประเภทที่ 2 เรียกว่า "อัตราการยอมรับที่ผิดพลาด" (FAR) หรืออัตราการจับคู่ที่ผิดพลาด (FMR)

หากระบบถูกออกแบบมาให้จับคู่กับผู้ต้องสงสัยได้น้อยมาก ความน่าจะเป็นของข้อผิดพลาดประเภทที่สองสามารถเรียกว่า " อัตราการแจ้งเตือนที่ผิดพลาด" ( False Alarm Rate: FAR) ในทางกลับกัน หากระบบถูกใช้เพื่อการตรวจสอบความถูกต้อง (และการยอมรับเป็นเรื่องปกติ) FAR จะเป็นตัววัดความปลอดภัยของระบบ ในขณะที่ FRR จะวัดระดับความไม่สะดวกของผู้ใช้

กฎ

ในกระบวนการทางกฎหมายอาญา มีการเน้นย้ำอย่างมากในการตรวจสอบให้แน่ใจว่า หากเกิดข้อผิดพลาดใด ๆ ขึ้น จะเป็นข้อผิดพลาดประเภทที่ 2 (ปล่อยตัวจำเลยที่อาจมีความผิดไป) มากกว่าข้อผิดพลาดประเภทที่ 1 (ลงโทษบุคคลผู้บริสุทธิ์ในความผิดที่ตนไม่ได้กระทำ) การเน้นย้ำนี้เป็นเหตุผลที่ทำให้มีภาระการพิสูจน์ที่สูง (มีความผิดเกินกว่าข้อสงสัยอันสมเหตุสมผล) การตรวจสอบอย่างละเอียดถี่ถ้วนเกี่ยวกับการนำเสนอหลักฐานหรือคำให้การที่บ่งชี้ความผิดของฝ่ายโจทก์ และความสงสัยหรือการยกเว้นหลักฐานที่อาจก่อให้เกิดอคติมากกว่าประโยชน์ (การทดสอบความสมดุลตามกฎข้อ 403)

งานวิจัยจำนวนมากที่สืบทอดมาหลายศตวรรษได้กล่าวถึงผลร้ายแรงของการตัดสินที่ไม่เป็นธรรมในคดีอาญา ไม่เพียงแต่สำหรับจำเลยเท่านั้น แต่ยังส่งผลต่อความรู้สึกถึงความยุติธรรมของระบบยุติธรรมทั้งหมด และความเชื่อมั่นจากผู้มีส่วนได้ส่วนเสียในชุมชนว่าข้อกล่าวหาเกี่ยวกับการกระทำผิดทางอาญาจะได้รับการพิจารณาอย่างจริงจังและเป็นธรรมวิลเลียม แบล็กสโตน นักกฎหมายชาวอังกฤษ ได้คิดค้นอัตราส่วน 10:1 ของแบล็กสโตน เพื่ออธิบายแนวคิดที่ว่าระบบยุติธรรมอาจปล่อยให้จำเลยที่กระทำผิด 10 คนพ้นผิด แทนที่จะปล่อยให้คนบริสุทธิ์มากกว่าหนึ่งคนถูกจำคุก

ในช่วงไม่กี่ปีที่ผ่านมา งานวิจัยทางกฎหมายและนิติศาสตร์กระแสหลักได้นำการจำแนกประเภทความผิดพลาดประเภทที่ 1 และประเภทที่ 2 มาใช้เพื่อให้มีคำศัพท์ที่เข้มงวดมากขึ้นในการอภิปรายเกี่ยวกับความผิดพลาดของศาลและการตัดสินลงโทษที่ผิดพลาด ศาลฎีกาสหรัฐฯ ใช้การจำแนกประเภทที่ 1 เทียบกับประเภทที่ 2 ในการอภิปรายเกี่ยวกับความผิดพลาดในคดีBallew v. Georgia ^{[ 12 ]}และผู้พิพากษาและอาจารย์กฎหมายใช้การกำหนดแบบสองขั้วนี้มากขึ้นเรื่อยๆ แทนที่จะใช้คำว่า "ตัดสินลงโทษผิดพลาด" หรือ "พ้นผิดโดยไม่ถูกต้อง" ซึ่งเป็นคำที่ใช้กันบ่อยในงานวิจัยก่อนหน้านี้

งานวิจัยและข้อกังวลทางด้านกฎหมายในปัจจุบันมักมุ่งเน้นไปที่ขนาดและความเป็นเอกฉันท์ของคณะลูกขุนในฐานะมาตรการป้องกันความผิดพลาดประเภทที่ 1 (การตัดสินลงโทษจำเลยผู้บริสุทธิ์โดยไม่ถูกต้อง)

คณะลูกขุนขนาดเล็กที่มีสมาชิกน้อยกว่าสิบสองคนถูกวิพากษ์วิจารณ์โดยศาลฎีกาสหรัฐฯ ว่ามีแนวโน้มที่จะก่อให้เกิดข้อผิดพลาดประเภทที่ 1 มากกว่า^{[ 13 ]}ในขณะเดียวกัน ผู้พิพากษาบางคนก็วิพากษ์วิจารณ์การแต่งตั้งลูกขุนมากกว่าสิบสองคนตามปกติว่าเป็นปัญหา (ผู้พิพากษาแอนเดอร์สันแห่งศาลอุทธรณ์วิสคอนซินได้เขียนคำคัดค้านที่น่าสนใจในหัวข้อนี้ในปี 1993 ว่า "หากไม่มีการประกาศนโยบายสาธารณะของฝ่ายนิติบัญญัติที่อนุญาตให้จำเลยยินยอมให้ถูกพิจารณาคดีโดยคณะลูกขุนที่มีสมาชิกมากกว่าสิบสองคน การอนุญาตให้ลูกขุนมากกว่าสิบสองคนพิจารณาคดีถือเป็นความผิดพลาดอย่างชัดเจน" ^{[ 14 ]} ) ส่วนเรื่องความเป็นเอกฉันท์ เมื่อวันที่ 20 เมษายน 2020 ศาลฎีกาสหรัฐฯ ได้ตัดสินว่าการแก้ไขเพิ่มเติมครั้งที่หกกำหนดให้ต้องมีคำตัดสินของคณะลูกขุนเป็นเอกฉันท์เพื่อตัดสินว่าจำเลยมีความผิดในคดีอาญาร้ายแรง โดยอ้างถึงความกังวลเกี่ยวกับข้อผิดพลาดประเภทที่ 1 เป็นหนึ่งในเหตุผลหลักที่กำหนดให้ต้องมีคำตัดสินเป็นเอกฉันท์ในคดีอาญาร้ายแรง^{[ 15 ]}

การตรวจสอบความปลอดภัย

การตรวจจับผิดพลาดเกิดขึ้นเป็นประจำทุกวันในการตรวจสอบความปลอดภัยของสนามบินซึ่งท้ายที่สุดแล้วเป็น ระบบ ตรวจสอบด้วยสายตาสัญญาณเตือนภัยที่ติดตั้งไว้มีจุดประสงค์เพื่อป้องกันการนำอาวุธขึ้นเครื่องบิน แต่บ่อยครั้งที่ตั้งค่าความไวไว้สูงเกินไป ทำให้สัญญาณเตือนภัยดังขึ้นหลายครั้งต่อวันสำหรับสิ่งของเล็กๆ น้อยๆ เช่น กุญแจ หัวเข็มขัด เหรียญ โทรศัพท์มือถือ และตะปูในรองเท้า

สมมติฐาน: "สิ่งของชิ้นนี้คืออาวุธ"
สมมติฐานว่าง: "สิ่งของชิ้นนี้ไม่ใช่อาวุธ"
ข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ): ความจริงก็คือสิ่งของนั้นไม่ใช่อาวุธ แต่ระบบยังคงส่งสัญญาณเตือนอยู่
ข้อผิดพลาดประเภทที่ 2 (ผลลบเท็จ) ความจริงก็คือสิ่งของนั้นเป็นอาวุธ แต่ระบบกลับไม่แสดงอาการใดๆ ในขณะนี้

ดังนั้น อัตราส่วนของผลบวกเท็จ (การระบุตัวผู้เดินทางที่ไม่เกี่ยวข้องว่าเป็นผู้ก่อการร้าย) ต่อผลบวกจริง (การตรวจพบผู้ที่อาจเป็นผู้ก่อการร้าย) จึงสูงมาก และเนื่องจากสัญญาณเตือนเกือบทุกครั้งเป็นผลบวกเท็จค่าการทำนายผลบวกของการทดสอบคัดกรองเหล่านี้จึงต่ำมาก

ต้นทุนสัมพัทธ์ของผลลัพธ์ที่ผิดพลาดเป็นตัวกำหนดโอกาสที่ผู้สร้างการทดสอบจะยอมให้เหตุการณ์เหล่านี้เกิดขึ้น เนื่องจากต้นทุนของผลลบเท็จในสถานการณ์นี้สูงมาก (การไม่ตรวจพบระเบิดที่ถูกนำขึ้นเครื่องบินอาจส่งผลให้มีผู้เสียชีวิตหลายร้อยคน) ในขณะที่ต้นทุนของผลบวกเท็จค่อนข้างต่ำ (การตรวจสอบเพิ่มเติมที่ค่อนข้างง่าย) ดังนั้นการทดสอบที่เหมาะสมที่สุดคือการทดสอบที่มีความจำเพาะทางสถิติต่ำ แต่มีความไวทางสถิติสูง (การทดสอบที่ยอมรับอัตราผลบวกเท็จสูงเพื่อแลกกับผลลบเท็จน้อยที่สุด)

คอมพิวเตอร์

แนวคิดเรื่องผลบวกเท็จและผลลบเท็จเป็นที่แพร่หลายในแวดวงคอมพิวเตอร์และแอปพลิเคชันคอมพิวเตอร์ รวมถึงความปลอดภัยของคอมพิวเตอร์การกรองสแปม มัลแวร์ การรู้จำอักษร ด้วยแสงและอื่นๆ อีกมากมาย

ตัวอย่างเช่น ในกรณีของการกรองสแปม:

สมมติฐาน: "ข้อความนี้เป็นสแปม"
สมมติฐานว่าง: "ข้อความนี้ไม่ใช่สแปม"
ข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ): เทคนิคการกรองสแปมหรือการบล็อกสแปมจัดประเภทอีเมลที่ถูกต้องว่าเป็นสแปมโดยไม่ถูกต้อง และส่งผลให้การส่งอีเมลนั้นถูกขัดขวาง
ข้อผิดพลาดประเภทที่ 2 (ผลลัพธ์ผิดพลาดเชิงลบ): อีเมลสแปมไม่ถูกตรวจจับว่าเป็นสแปม แต่ถูกจัดประเภทเป็นอีเมลที่ไม่ใช่สแปม

แม้ว่ากลยุทธ์ป้องกันสแปมส่วนใหญ่จะสามารถบล็อกหรือกรองอีเมลที่ไม่พึงประสงค์ได้ในเปอร์เซ็นต์สูง แต่การทำเช่นนั้นโดยไม่ก่อให้เกิดผลลัพธ์ที่เป็นเท็จ (false-positive) จำนวนมากนั้นเป็นงานที่ยากกว่ามาก จำนวนผลลัพธ์ที่เป็นเท็จที่ต่ำเป็นตัวบ่งชี้ถึงประสิทธิภาพของการกรองสแปม

ดูเพิ่มเติม

การจำแนกแบบไบนารี – การแบ่งสิ่งต่างๆ ออกเป็นสองประเภท
ทฤษฎีการตรวจจับ – วิธีการวัดความสามารถในการประมวลผลสัญญาณ
จริยธรรมในคณิตศาสตร์ – สาขาใหม่ของจริยธรรมประยุกต์
อัตราการค้นพบที่ผิดพลาด – วิธีทางสถิติสำหรับจัดการกับการเปรียบเทียบหลายรายการ
ปรากฏการณ์ผลบวกเท็จ – ข้อผิดพลาดทางตรรกะเนื่องจากการละเลยอัตราพื้นฐาน
อัตราความผิดพลาดโดยรวมของกลุ่มตัวอย่าง – ความน่าจะเป็นของการเกิดความผิดพลาดประเภทที่ 1 เมื่อทำการทดสอบสมมติฐานหลายรายการ
การวัดประสิทธิภาพการค้นหาข้อมูล – การค้นหาข้อมูลเพื่อตอบสนองความต้องการข้อมูล
บทพิสูจน์เสริม (คณิตศาสตร์) – ทฤษฎีบทที่ใช้ในการพิสูจน์ทฤษฎีบทที่ซับซ้อนกว่า
เจอร์ซี เนย์แมน – นักคณิตศาสตร์ชาวโปแลนด์-อเมริกัน
ทฤษฎีบทเนย์แมน-เพียร์สัน – ทฤษฎีบทเกี่ยวกับกำลังของการทดสอบอัตราส่วนความน่าจะเป็น
สมมติฐานว่าง – ข้อสมมติฐานที่ว่าไม่มีความสัมพันธ์ระหว่างปรากฏการณ์สองอย่าง
ความน่าจะเป็นของสมมติฐานสำหรับการอนุมานแบบเบย์เซียน – วิธีการอนุมานทางสถิติ
เอ็กอน เพียร์สัน – นักสถิติชาวอังกฤษ (ค.ศ. 1895–1980)
ความแม่นยำและการเรียกคืน – ตัวชี้วัดประสิทธิภาพการจดจำรูปแบบ
ความผิดพลาดของอัยการ – ข้อผิดพลาดทางตรรกะเนื่องจากการละเลยอัตราพื้นฐาน
ปรากฏการณ์โปรโซน – ปรากฏการณ์ทางภูมิคุ้มกันที่เกิดขึ้นในระดับแอนติเจนหรือแอนติบอดีสูง
ลักษณะการทำงานของตัวรับ – แผนภาพการวินิจฉัยความสามารถของตัวจำแนกไบนารี
ความไวและความจำเพาะ – การวัดทางสถิติของการจำแนกแบบไบนารี
คำศัพท์ทางสถิติที่ใช้โดยนักสถิติและวิศวกร – คำศัพท์ที่วิศวกรไฟฟ้าใช้ในการศึกษาการประมวลผลสัญญาณทางสถิติ
การทดสอบสมมติฐานที่ได้จากข้อมูล – ปัญหาของการให้เหตุผลแบบวนลูปในทางสถิติ
ข้อผิดพลาดประเภทที่ 3 – ศัพท์ที่ใช้ในการทดสอบสมมติฐานทางสถิติ

บรรณานุกรม

Betz, MA และGabriel, KR , "ข้อผิดพลาดประเภทที่ 4 และการวิเคราะห์ผลกระทบแบบง่าย", วารสารสถิติการศึกษา , เล่ม 3, ฉบับที่ 2, (ฤดูร้อน 1978), หน้า 121–144.
David, FN, "ฟังก์ชันกำลังสำหรับการทดสอบความสุ่มในลำดับของทางเลือก", Biometrika , เล่มที่ 34, ฉบับที่ 3/4, (ธันวาคม 1947), หน้า 335–339
Fisher, RA, การออกแบบการทดลอง , Oliver & Boyd (เอดินบะระ), 1935.
Gambrill, W., "ผลบวกเท็จในการทดสอบโรคของทารกแรกเกิดทำให้ผู้ปกครองกังวล", Health Day (5 มิถุนายน 2549). [1] เก็บถาวรเมื่อ 17 พฤษภาคม 2561 ที่Wayback Machine
Kaiser, HF, "การตัดสินใจเชิงสถิติแบบมีทิศทาง", Psychological Review , Vol.67, No.3, (พฤษภาคม 1960), หน้า 160–167
Kimball, AW, "ข้อผิดพลาดประเภทที่สามในการให้คำปรึกษาทางสถิติ", วารสารสมาคมสถิติอเมริกัน , เล่มที่ 52, ฉบับที่ 278, (มิถุนายน 1957), หน้า 133–142
Lubin, A., "การตีความปฏิสัมพันธ์ที่มีนัยสำคัญ", การวัดทางการศึกษาและจิตวิทยา , เล่มที่ 21, ฉบับที่ 4, (ฤดูหนาว 1961), หน้า 807–817
Marascuilo, LA & Levin, JR, "การเปรียบเทียบแบบ Post Hoc ที่เหมาะสมสำหรับปฏิสัมพันธ์และสมมติฐานแบบซ้อนกันในการออกแบบการวิเคราะห์ความแปรปรวน: การกำจัดข้อผิดพลาดประเภทที่ 4", American Educational Research Journal , Vol.7., No.3, (พฤษภาคม 1970), หน้า 397–421
Mitroff, II และ Featheringham, TR, "ว่าด้วยการแก้ปัญหาเชิงระบบและข้อผิดพลาดประเภทที่สาม", วิทยาศาสตร์พฤติกรรม , เล่มที่ 19, ฉบับที่ 6, (พฤศจิกายน 1974), หน้า 383–393
Mosteller, F., " การทดสอบการเลื่อน kตัวอย่างสำหรับประชากรสุดขั้ว", The Annals of Mathematical Statistics , Vol.19, No.1, (มีนาคม 1948), หน้า 58–65
Moulton, RT, "ความปลอดภัยของเครือข่าย", Datamation , Vol.29, No.7, (กรกฎาคม 1983), หน้า 121–127.
Raiffa, H., การวิเคราะห์การตัดสินใจ: บทนำเกี่ยวกับทางเลือกภายใต้ความไม่แน่นอน , Addison–Wesley, (Reading), 1968.

ลิงก์ภายนอก

อคติและปัจจัยรบกวน – การนำเสนอโดย ไนเจล พาเนธ บัณฑิตวิทยาลัยสาธารณสุข มหาวิทยาลัยพิตต์สเบิร์ก
[2] – หน้าเว็บของศาสตราจารย์ Ronny Gunnarsson พร้อมเครื่องคำนวณออนไลน์เพื่อปรับระดับนัยสำคัญสำหรับการทดสอบหลายรายการ

[ 1 ]

[

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]