ความเข้าใจผิดเกี่ยวกับอัตราพื้นฐาน

Q: ข้อมูลสำคัญเกี่ยวกับ ความเข้าใจผิดเกี่ยวกับอัตราพื้นฐาน

ความเข้าใจผิดเรื่องอัตราพื้นฐานหรือที่เรียกว่าการละเลยอัตราพื้นฐานหรืออคติอัตราพื้นฐานเป็นความเข้าใจผิด ประเภทหนึ่ง ที่ผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐาน (เช่นการแพร่กระจาย ทั่วไป )

Q: ตัวอย่างที่ 1: โรคภัยไข้เจ็บ

ลองนึกภาพว่าเรากำลังทำการทดสอบโรคติดต่อในประชากร A จำนวน 1,000 คน โดย 40% ของประชากรนี้ติดเชื้อ การทดสอบนี้มีอัตราผลบวกเท็จ 5% (0.05) และอัตราผลลบเท็จเป็นศูนย์ ผลลัพธ์ที่คาดหวัง จากการทดสอบ 1,000 ครั้งในประชากร A จะเป็นดังนี้:

ความเข้าใจผิดเรื่องอัตราพื้นฐานหรือที่เรียกว่าการละเลยอัตราพื้นฐาน^{[ 2 ]}หรืออคติอัตราพื้นฐานเป็นความเข้าใจผิด ประเภทหนึ่ง ที่ผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐาน (เช่นการแพร่กระจาย ทั่วไป ) โดยให้ความสำคัญกับข้อมูลที่เกี่ยวข้องกับกรณีเฉพาะเท่านั้น^{[ 3 ]}การละเลยอัตราพื้นฐานเป็นรูปแบบเฉพาะของ การ ละเลย ส่วนขยาย ที่ทั่วไปกว่า

เรียกอีกอย่างว่าความผิดพลาดของอัยการหรือความผิดพลาดของทนายฝ่ายจำเลยเมื่อนำไปใช้กับผลลัพธ์ของการทดสอบทางสถิติ (เช่น การทดสอบ DNA) ในบริบทของกระบวนการทางกฎหมาย คำศัพท์เหล่านี้ได้รับการแนะนำโดย William C. Thompson และ Edward Schumann ในปี 1987 ^{[ 4 ]}^{[ 5 ]}แม้ว่าจะมีการโต้แย้งว่าคำจำกัดความของความผิดพลาดของอัยการนั้นครอบคลุมถึงการกล่าวหาความผิดหรือความรับผิดที่ไม่ถูกต้องเพิ่มเติมอีกมากมายที่ไม่สามารถวิเคราะห์ได้ว่าเป็นข้อผิดพลาดในอัตราพื้นฐานหรือทฤษฎีบทของเบย์ส^{[ 6 ]}

ปรากฏการณ์ผลบวกเท็จ

ตัวอย่างหนึ่งของความผิดพลาดเรื่องอัตราพื้นฐานคือปรากฏการณ์ผลบวกเท็จ (หรือที่รู้จักกันในชื่อปรากฏการณ์ความแม่นยำ ) ปรากฏการณ์นี้อธิบายถึงสถานการณ์ที่มี ผลการทดสอบผล บวกเท็จ มากกว่าผลบวกจริง (ซึ่งหมายความว่าตัวจำแนกมี ความแม่นยำต่ำ) ตัวอย่างเช่น หากกล้องจดจำใบหน้าสามารถระบุตัวอาชญากรที่ต้องการตัวได้อย่างแม่นยำ 99% แต่ทำการวิเคราะห์คน 10,000 คนต่อวัน ความแม่นยำสูงนั้นจะถูกบดบังด้วยจำนวนการทดสอบ เนื่องจากเหตุนี้ รายชื่ออาชญากรของโปรแกรมจึงมีแนวโน้มที่จะมีผู้บริสุทธิ์ (ผลบวกเท็จ) มากกว่าอาชญากร (ผลบวกจริง) เพราะโดยรวมแล้วมีผู้บริสุทธิ์มากกว่าอาชญากรมาก ความน่าจะเป็นของผลการทดสอบที่เป็นบวกนั้นไม่ได้ถูกกำหนดโดยความแม่นยำของการทดสอบเท่านั้น แต่ยังขึ้นอยู่กับลักษณะของประชากรตัวอย่างด้วย^{[ 7 ]}ปัญหาพื้นฐานคืออัตราการเกิดผลลบที่แท้จริงที่สูงกว่ามากหมายความว่ากลุ่มคนที่ตรวจพบผลบวกจะถูกครอบงำด้วยผลบวกเท็จ เนื่องจากแม้แต่เศษส่วนเล็กๆ ของกลุ่ม [ลบ] ที่ใหญ่กว่ามากก็จะสร้างผลบวกที่ระบุได้มากกว่าเศษส่วนที่ใหญ่กว่าของกลุ่ม [บวก] ที่เล็กกว่ามาก

เมื่ออัตราการเกิดโรค สัดส่วนของผู้ที่มีภาวะดังกล่าว ต่ำกว่าอัตราการเกิดผลบวกเท็จ ของการทดสอบ แม้แต่การทดสอบที่มีความเสี่ยงต่ำมากที่จะให้ผลบวกเท็จในแต่ละกรณีก็จะให้ผลบวกเท็จมากกว่าผลบวกจริงโดยรวม^{[ 8 ]}

การตีความผลลัพธ์ที่เป็นบวกในการทดสอบใน ประชากรที่มีอัตราการแพร่ระบาดต่ำหลังจากจัดการกับผลลัพธ์ที่เป็นบวกจากประชากรที่มีอัตราการแพร่ระบาดสูงนั้น ขัดแย้งกับ สัญชาตญาณอย่างยิ่ง ^{[ 8 ]}หากอัตราการเกิดผลบวกเท็จของการทดสอบสูงกว่าสัดส่วนของ ประชากรกลุ่ม ใหม่ที่มีภาวะดังกล่าว ผู้ดูแลการทดสอบซึ่งมีประสบการณ์จากการทดสอบในประชากรที่มีอัตราการแพร่ระบาดสูงอาจสรุปจากประสบการณ์ว่าผลการทดสอบที่เป็นบวกมักบ่งชี้ว่าผู้ป่วยมีผลเป็นบวก ทั้งที่ความจริงแล้วมีโอกาสเกิดผลบวกเท็จมากกว่ามาก

ตัวอย่าง

ตัวอย่างที่ 1: โรคภัยไข้เจ็บ

ประชากรที่มีอัตราการแพร่ระบาดสูง

จำนวนคน	ติดเชื้อแล้ว	ไม่ติดเชื้อ	ทั้งหมด
ผลตรวจเป็นบวก	400 (ผลบวกจริง)	30 (ผลบวกเท็จ)	430
ผลตรวจเป็นลบ	0 (ผลลบเท็จ)	570 (ผลลบจริง)	570
ทั้งหมด	400	600	1000

ลองนึกภาพว่าเรากำลังทำการทดสอบโรคติดต่อในประชากรAจำนวน 1,000 คน โดย 40% ของประชากรนี้ติดเชื้อ การทดสอบนี้มีอัตราผลบวกเท็จ 5% (0.05) และอัตราผลลบเท็จเป็นศูนย์ผลลัพธ์ที่คาดหวังจากการทดสอบ 1,000 ครั้งในประชากรAจะเป็นดังนี้:

ติดเชื้อและผลตรวจบ่งชี้ว่าเป็นโรค ( ผลบวกจริง )

1000 × ⁠40100= 400 คนจะได้รับผลตรวจเป็นบวกจริง

ไม่ติดเชื้อ แต่ผลตรวจแสดงว่าติดเชื้อ (ผลบวกปลอม)

1000 × ⁠100 – 40100⁠ × 0.05 = 30 คนจะได้รับผลบวกปลอม

ผลการตรวจที่เหลืออีก 570 รายการเป็นลบอย่างถูกต้อง

ดังนั้น ในประชากรกลุ่มAบุคคลที่ได้รับผลตรวจเป็นบวกจะมีความมั่นใจได้มากกว่า 93% ( ⁠400/30 + 400)ซึ่งบ่งชี้ถึงการติดเชื้อได้อย่างถูกต้อง

ประชากรที่มีอัตราการเกิดต่ำ

จำนวนคน	ติดเชื้อแล้ว	ไม่ติดเชื้อ	ทั้งหมด
ผลตรวจเป็นบวก	20 (ผลบวกจริง)	49 (ผลบวกเท็จ)	69
ผลตรวจเป็นลบ	0 (ผลลบเท็จ)	931 (ผลลบจริง)	931
ทั้งหมด	20	980	1000

ทีนี้ลองพิจารณาการทดสอบแบบเดียวกันกับประชากรกลุ่มBซึ่งมีผู้ติดเชื้อเพียง 2% ผลลัพธ์ที่คาดหวังจากการทดสอบ 1,000 ครั้งในประชากรกลุ่มBจะเป็นดังนี้:

ติดเชื้อและผลตรวจบ่งชี้ว่าเป็นโรค (ผลบวกจริง)

1000 × ⁠2100= 20 คนจะได้รับผลตรวจเป็นบวกจริง

ไม่ติดเชื้อ แต่ผลตรวจแสดงว่าติดเชื้อ (ผลบวกปลอม)

1000 × ⁠100 – 2100⁠ × 0.05 = 49 คนจะได้รับผลบวกปลอม

ผลการตรวจที่เหลืออีก 931 รายการเป็นลบอย่างถูกต้อง

ในประชากรกลุ่มBจากทั้งหมด 69 คนที่มีผลตรวจเป็นบวก มีเพียง 20 คนเท่านั้นที่ติดเชื้อจริง ดังนั้น ความน่าจะเป็นที่จะติดเชื้อจริงหลังจากได้รับแจ้งว่าติดเชื้อแล้วจึงมีเพียง 29% ( ⁠20/20 + 49)สำหรับการทดสอบที่ดูเหมือนจะมี "ความแม่นยำ 95%"

ผู้ทดสอบที่มีประสบการณ์กับกลุ่มAอาจพบว่าเป็นเรื่องที่ขัดแย้งกันที่ในกลุ่มBผลลัพธ์ที่ปกติแล้วบ่งชี้การติดเชื้อได้อย่างถูกต้อง กลับกลายเป็นผลบวกปลอมเสียส่วนใหญ่ ความสับสนระหว่างความน่าจะเป็นภายหลังของการติดเชื้อกับความน่าจะเป็นก่อนหน้าของการได้รับผลบวกปลอม เป็นความผิดพลาด ตามธรรมชาติ หลังจากได้รับผลการทดสอบที่อาจเป็นอันตรายต่อสุขภาพ

ตัวอย่างที่ 2: ผู้ขับขี่ที่เมาสุรา

ลองจินตนาการว่ากลุ่มเจ้าหน้าที่ตำรวจมีเครื่องตรวจวัดแอลกอฮอล์ในลมหายใจ ซึ่งแสดงผลผิดพลาดว่าเมาสุราใน 5% ของกรณีที่ผู้ขับขี่ไม่ได้เมาสุรา อย่างไรก็ตาม เครื่องตรวจวัดแอลกอฮอล์จะไม่เคยพลาดการตรวจจับคนเมาสุราจริง ๆ มีผู้ขับขี่ที่เมาสุรา 1 ใน 1,000 คน สมมติว่าเจ้าหน้าที่ตำรวจหยุดรถผู้ขับขี่คนหนึ่งโดยสุ่มเพื่อทำการตรวจวัดแอลกอฮอล์ และผลปรากฏว่าผู้ขับขี่เมาสุรา โดยไม่มีข้อมูลอื่นใดเกี่ยวกับผู้ขับขี่คนนั้น

หลายคนอาจประเมินโอกาสที่คนขับจะเมาสุราไว้สูงถึง 95% แต่ความจริงแล้วโอกาสที่ถูกต้องอยู่ที่ประมาณ 2% เท่านั้น

คำอธิบายสำหรับเรื่องนี้มีดังนี้ โดยเฉลี่ยแล้ว ในการทดสอบผู้ขับขี่ 1,000 คน

คนขับรถ 1 คนเมาสุรา และเป็นที่แน่ชัด 100% ว่าผลการตรวจแอลกอฮอล์ในเลือดของคนขับรถคนนั้นเป็นบวกดังนั้นจึงมีผลการตรวจแอลกอฮอล์ในเลือดเป็นบวก 1 ครั้ง
มีผู้ขับขี่ 999 คนที่ไม่เมาสุรา และในจำนวนนั้นมี ผลตรวจ ผิดพลาด 5% ดังนั้นจึงมีผลตรวจผิดพลาดทั้งหมด 49.95 ราย

ดังนั้น ความน่าจะเป็นที่ผู้ขับขี่คนใดคนหนึ่งในจำนวน 1 + 49.95 = 50.95 คนที่มีผลตรวจเป็นบวก จะเมาสุราจริง ๆ คือ. $1/50.95\approx 1.9627\%$

อย่างไรก็ตาม ความถูกต้องของผลลัพธ์นี้ขึ้นอยู่กับความถูกต้องของสมมติฐานเบื้องต้นที่ว่าเจ้าหน้าที่ตำรวจหยุดรถคนขับโดยสุ่มอย่างแท้จริง ไม่ใช่เพราะการขับขี่ที่ไม่ดี หากมีเหตุผลดังกล่าวหรือเหตุผลอื่นที่ไม่ใช่การสุ่มหยุดรถ การคำนวณก็จะเกี่ยวข้องกับความน่าจะเป็นที่ผู้ขับขี่ที่เมาสุราจะขับรถได้อย่างมีประสิทธิภาพ และผู้ขับขี่ที่ไม่เมาสุราจะขับรถได้อย่าง (ไม่) มีประสิทธิภาพด้วย

กล่าวอย่างเป็นทางการมากขึ้น ความน่าจะเป็นประมาณ 0.02 เดียวกันนี้สามารถหาได้โดยใช้ทฤษฎีบทของเบย์สเป้าหมายคือการหาความน่าจะเป็นที่ผู้ขับขี่เมาสุราเมื่อเครื่องตรวจวัดแอลกอฮอล์บ่งชี้ว่าผู้ขับขี่เมาสุรา ซึ่งสามารถแสดงได้ดังนี้

$p(\mathrm {drunk} \mid D)$

โดยที่Dหมายความว่าเครื่องตรวจวัดแอลกอฮอล์ในลมหายใจบ่งชี้ว่าผู้ขับขี่เมาสุรา โดยใช้ทฤษฎีบทของเบย์ส

$p(\mathrm {drunk} \mid D)={\frac {p(D\mid \mathrm {drunk} )\,p(\mathrm {drunk} )}{p(D)}}.$

ในสถานการณ์นี้ ข้อมูลที่ทราบมีดังต่อไปนี้:

${\begin{aligned}p(\mathrm {drunk} )&=0.001,\\p(\mathrm {sober} )&=0.999,\\p(D\mid \mathrm {drunk} )&=1.00,\\p(D\mid \mathrm {sober} )&=0.05.\end{aligned}}$

จากสูตรจะเห็นได้ว่า จำเป็นต้องใช้p ( D ) สำหรับทฤษฎีบทของเบย์ส ซึ่งสามารถคำนวณได้จากค่าก่อนหน้าโดยใช้กฎความน่าจะเป็นรวม :

$p(D)=p(D\mid \mathrm {เมา} )\,p(\mathrm {เมา} )+p(D\mid \mathrm {เงียบขรึม} )\,p(\mathrm {เมา} )$

ซึ่งให้

$p(D)=(1.00\times 0.001)+(0.05\times 0.999)=0.05095.$

เมื่อแทนค่าตัวเลขเหล่านี้ลงในทฤษฎีบทของเบย์ส จะพบว่า

$p(\mathrm {drunk} \mid D)={\frac {1.00\times 0.001}{0.05095}}\approx 0.019627,$

ซึ่งก็คือความแม่นยำของการทดสอบ

ตัวอย่างที่ 3: การระบุตัวผู้ก่อการร้าย

สมมติว่าในเมืองที่มีประชากร 1 ล้านคน มีผู้ก่อการร้าย 100 คน และผู้ที่ไม่ใช่ผู้ก่อการร้าย 999,900 คน เพื่อให้ตัวอย่างง่ายขึ้น ให้ถือว่าทุกคนที่อยู่ในเมืองเป็นประชากร ดังนั้น ความน่าจะเป็นพื้นฐานที่ประชากรที่สุ่มเลือกมาคนหนึ่งจะเป็นผู้ก่อการร้ายคือ 0.0001 และความน่าจะเป็นพื้นฐานที่ประชากรคนเดียวกันนั้นจะเป็นผู้ที่ไม่ใช่ผู้ก่อการร้ายคือ 0.9999 เพื่อพยายามจับกุมผู้ก่อการร้าย เมืองจึงติดตั้งระบบเตือนภัยพร้อมกล้องวงจรปิดและซอฟต์แวร์จดจำใบหน้าอัตโนมัติ

ซอฟต์แวร์นี้มีอัตราความล้มเหลว 1% สองครั้ง:

อัตราการตรวจจับผิดพลาดแบบลบ: หากกล้องตรวจจับพบผู้ก่อการร้าย สัญญาณเตือนจะดังขึ้น 99% ของเวลา และจะไม่ดัง 1% ของเวลา
อัตราการตรวจจับผิดพลาด: หากกล้องสแกนพบบุคคลที่ไม่ใช่ผู้ก่อการร้าย สัญญาณเตือนจะไม่ดัง 99% ของเวลา แต่จะดัง 1% ของเวลา

สมมติว่าตอนนี้มีคนในบ้านกดสัญญาณเตือนภัย คนที่ใช้เหตุผลผิดพลาดแบบอัตราพื้นฐานจะสรุปว่ามีความน่าจะเป็น 99% ที่คนที่ถูกตรวจพบเป็นผู้ก่อการร้าย แม้ว่าการสรุปเช่นนั้นดูเหมือนจะสมเหตุสมผล แต่จริงๆ แล้วมันเป็นเหตุผลที่ผิดพลาด และการคำนวณด้านล่างจะแสดงให้เห็นว่าความน่าจะเป็นที่ผู้ก่อการร้ายจะเป็นผู้ก่อการร้ายนั้นอยู่ที่ประมาณ 1% ไม่ใช่ 99%

ความเข้าใจผิดนี้เกิดขึ้นจากการสับสนระหว่างลักษณะของอัตราความล้มเหลวสองแบบที่แตกต่างกัน 'จำนวนครั้งที่สัญญาณเตือนภัยไม่ดังต่อผู้ก่อการร้าย 100 คน' (P(¬B | T) หรือความน่าจะเป็นที่สัญญาณเตือนภัยจะไม่ดังเมื่อตรวจพบว่าผู้อยู่อาศัยเป็นผู้ก่อการร้าย) และ 'จำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายต่อสัญญาณเตือนภัย 100 ครั้ง' (P(¬T | B) หรือความน่าจะเป็นที่ผู้อยู่อาศัยไม่ใช่ผู้ก่อการร้ายเมื่อตรวจพบว่าสัญญาณเตือนภัยดัง) เป็นปริมาณที่ไม่เกี่ยวข้องกัน ปริมาณหนึ่งไม่จำเป็นต้องเท่ากัน หรือแม้แต่ใกล้เคียงกัน เพื่อแสดงให้เห็นถึงเรื่องนี้ ลองพิจารณาสิ่งที่เกิดขึ้นหากมีการติดตั้งระบบเตือนภัยแบบเดียวกันในเมืองที่สองซึ่งไม่มีผู้ก่อการร้ายเลย เช่นเดียวกับในเมืองแรก สัญญาณเตือนภัยจะดังสำหรับผู้ที่ไม่ใช่ผู้ก่อการร้าย 1 ใน 100 คนที่ตรวจพบ แต่แตกต่างจากในเมืองแรกตรงที่สัญญาณเตือนภัยจะไม่ดังสำหรับผู้ก่อการร้ายเลย ดังนั้น 100% ของทุกครั้งที่สัญญาณเตือนภัยดังจึงเป็นกรณีของผู้ที่ไม่ใช่ผู้ก่อการร้าย แต่เราไม่สามารถคำนวณอัตราความผิดพลาดเชิงลบได้เลย ในเมืองนั้น 'จำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายต่อระฆัง 100 ครั้ง' คือ 100 คน แต่ P(T | B) = 0% นั่นหมายความว่า โอกาสที่จะตรวจพบผู้ก่อการร้ายจากการตีระฆังนั้นเป็นศูนย์

ลองจินตนาการว่าประชากรทั้งหมดหนึ่งล้านคนของเมืองแรกเดินผ่านหน้ากล้องวงจรปิด ประมาณ 99 ใน 100 คนที่เป็นผู้ก่อการร้ายจะกดสัญญาณเตือนภัย และประมาณ 9,999 ใน 999,900 คนที่ไม่ใช่ผู้ก่อการร้ายจะกดสัญญาณเตือนภัยเช่นกัน ดังนั้นจะมีคนประมาณ 10,098 คนที่กดสัญญาณเตือนภัย ซึ่งในจำนวนนี้ประมาณ 99 คนจะเป็นผู้ก่อการร้าย ความน่าจะเป็นที่คนที่กดสัญญาณเตือนภัยจะเป็นผู้ก่อการร้ายนั้นมีเพียงประมาณ 99 ใน 10,098 ซึ่งน้อยกว่า 1% และต่ำกว่าที่คาดการณ์ไว้ในตอนแรกที่ 99% มากๆ

ความเข้าใจผิดเรื่องอัตราพื้นฐานนั้นทำให้เกิดความเข้าใจผิดอย่างมากในตัวอย่างนี้ เพราะมีจำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายมากกว่าผู้ก่อการร้าย และจำนวนผลบวกเท็จ (ผู้ที่ไม่ใช่ผู้ก่อการร้ายถูกสแกนว่าเป็นผู้ก่อการร้าย) มีจำนวนมากกว่าผลบวกจริง (ผู้ก่อการร้ายถูกสแกนว่าเป็นผู้ก่อการร้าย) มากมาย

ผู้ปฏิบัติงานหลายคนโต้แย้งว่า เนื่องจากอัตราการก่อการร้ายพื้นฐานต่ำมาก การใช้การขุดข้อมูลและอัลกอริทึมการทำนายเพื่อระบุผู้ก่อการร้ายจึงไม่สามารถใช้งานได้จริงเนื่องจากความขัดแย้งของผลบวกเท็จ^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}^{[ 12 ]}การประมาณจำนวนผลบวกเท็จสำหรับผลลัพธ์ที่ถูกต้องแต่ละครั้งแตกต่างกันไปตั้งแต่มากกว่าหมื่น^{[ 12 ]}ถึงหนึ่งพันล้าน^{[ 10 ]}ดังนั้น การตรวจสอบเบาะแสแต่ละรายการจึงมีค่าใช้จ่ายและเวลาสูงเกินไป^{[ 9 ]}^{[ 11 ]}ระดับความแม่นยำที่จำเป็นเพื่อให้แบบจำลองเหล่านี้ใช้งานได้นั้นอาจเป็นไปไม่ได้ ประการแรก อัตราการก่อการร้ายพื้นฐานที่ต่ำยังหมายความว่าขาดข้อมูลที่จะใช้สร้างอัลกอริทึมที่แม่นยำ^{[ 11 ]}นอกจากนี้ ในบริบทของการตรวจจับการก่อการร้าย ผลลบเท็จเป็นสิ่งที่ไม่พึงประสงค์อย่างยิ่ง ดังนั้นจึงต้องลดให้น้อยที่สุดเท่าที่จะเป็นไปได้ อย่างไรก็ตาม สิ่งนี้จำเป็นต้องเพิ่มความไวโดยแลกกับความจำเพาะซึ่งจะเพิ่มผลบวกเท็จ^{[ 12 ]}นอกจากนี้ยังเป็นที่น่าสงสัยว่าการใช้แบบจำลองดังกล่าวโดยหน่วยงานบังคับใช้กฎหมายจะตรงตามภาระการพิสูจน์ ที่จำเป็นหรือ ไม่ เนื่องจากผลลัพธ์มากกว่า 99% เป็นผลบวกเท็จ^{[ 12 ]}

กลไกที่แตกต่างกันจะขยายผลกระทบนี้ในการคัดกรองคุณลักษณะหลายอย่าง ในขณะที่การจับคู่คุณลักษณะที่กำหนดไว้ล่วงหน้า 15 รายการมีความน่าจะเป็น 10 ⁻³⁵ (หนึ่งใน 30 เดซิลเลียน) ระบบที่ระบุบุคคลที่ตรงกับ คุณลักษณะ ใดๆ 15 รายการจาก 1,000 รายการจะมีความน่าจะเป็นของการแจ้งเตือนผิดพลาดต่อคนประมาณ 10 ⁻⁴ซึ่งเป็นความแตกต่าง 31 ลำดับขนาดที่เกิดจากการรวมกันของกฎเกณฑ์ ไม่ใช่อัตราพื้นฐานที่ต่ำเพียงอย่างเดียว ในเมืองที่มีประชากรหนึ่งล้านคน สิ่งนี้จะสร้างการแจ้งเตือนผิดพลาดประมาณ 226 ครั้ง ความน่าจะเป็นของ การแจ้งเตือนผิด พลาดเป็น ศูนย์ อยู่ที่ประมาณ 10 ⁻⁹⁹ระบบดังกล่าวแสดงการเปลี่ยนเฟสที่คมชัดที่ขนาดประชากรวิกฤต ซึ่งเกินกว่านั้นความล้มเหลวจะกลายเป็นเรื่องแน่นอนและไม่สามารถป้องกันได้ด้วยการปรับเกณฑ์^{[ 13 ]}

ตัวอย่างที่ 4: การตรวจทางชีวภาพของผู้ต้องสงสัย

เกิดอาชญากรรมขึ้น การวิเคราะห์ทางนิติวิทยาศาสตร์ระบุว่าผู้กระทำผิดมีกรุ๊ปเลือดชนิดหนึ่ง ซึ่งพบได้ในประชากรเพียง 10% เท่านั้น ผู้ต้องสงสัยถูกจับกุม และพบว่ามีกรุ๊ปเลือดเดียวกันกับผู้กระทำผิด

อัยการอาจตั้งข้อหาผู้ต้องสงสัยโดยอาศัยหลักฐานดังกล่าวเพียงอย่างเดียว และอ้างในการพิจารณาคดีว่าโอกาสที่จำเลยจะมีความผิดอยู่ที่ 90%

อย่างไรก็ตาม ข้อสรุปนี้จะใกล้เคียงกับความถูกต้องก็ต่อเมื่อจำเลยถูกเลือกเป็นผู้ต้องสงสัยหลักโดยอาศัยหลักฐานที่แน่ชัดซึ่งค้นพบก่อนการตรวจเลือดและไม่เกี่ยวข้องกับการตรวจเลือด มิเช่นนั้น เหตุผลที่นำเสนอจะบกพร่อง เพราะมองข้ามความน่าจะเป็นสูงก่อนหน้า (นั่นคือ ก่อนการตรวจเลือด) ที่เขาเป็นคนบริสุทธิ์โดยบังเอิญ สมมติว่ามีคน 1,000 คนอาศัยอยู่ในเมืองที่เกิดอาชญากรรม นั่นหมายความว่ามี 100 คนที่มีกรุ๊ปเลือดเดียวกับผู้กระทำความผิด ซึ่งมีเพียงคนเดียวเท่านั้นที่เป็นผู้กระทำความผิดที่แท้จริง ดังนั้น ความน่าจะเป็นที่แท้จริงที่จำเลยมีความผิด – โดยอาศัยเพียงข้อเท็จจริงที่ว่ากรุ๊ปเลือดของเขาตรงกับของฆาตกร – จึงมีเพียง 1% ซึ่งน้อยกว่า 90% ที่อัยการกล่าวอ้างมาก

ความผิดพลาดของอัยการเกี่ยวข้องกับการสมมติว่าความน่าจะเป็นก่อนหน้าของการจับคู่แบบสุ่มเท่ากับความน่าจะเป็นที่จำเลยเป็นผู้บริสุทธิ์ เมื่อใช้ความผิดพลาดนี้ อัยการที่ซักถามพยานผู้เชี่ยวชาญอาจถามว่า: "โอกาสที่จะพบหลักฐานนี้ในตัวคนบริสุทธิ์นั้นน้อยมากจนคณะลูกขุนสามารถเพิกเฉยต่อความเป็นไปได้ที่จำเลยคนนี้เป็นผู้บริสุทธิ์ได้อย่างปลอดภัย ถูกต้องหรือไม่?" ^{[ 14 ]}ข้ออ้างนี้สมมติว่าความน่าจะเป็นที่จะพบหลักฐานในตัวคนบริสุทธิ์นั้นเท่ากับความน่าจะเป็นที่คนคนนั้นเป็นผู้บริสุทธิ์เมื่อพิจารณาจากหลักฐานที่พบในตัวเขา ซึ่งไม่เป็นความจริง ในขณะที่ความน่าจะเป็นแรกมักจะน้อย (10% ในตัวอย่างก่อนหน้านี้) เนื่องจาก ขั้นตอนการ ตรวจสอบหลักฐานทางนิติวิทยาศาสตร์ ที่ดี แต่ความน่าจะเป็นหลัง (99% ในตัวอย่างนั้น) ไม่ได้เกี่ยวข้องโดยตรงกับความน่าจะเป็นแรก และมักจะสูงกว่ามาก เนื่องจากในความเป็นจริงแล้วขึ้นอยู่กับความน่าจะ เป็นก่อนหน้าที่ค่อนข้างสูงที่จำเลยจะเป็นบุคคลบริสุทธิ์แบบสุ่ม

ตัวอย่างในทางกฎหมาย

การพิจารณาคดีของโอเจ ซิมป์สัน

โอเจ ซิมป์สันถูกนำตัวขึ้นศาลและพ้นผิดในปี 1995 ในข้อหาฆาตกรรมนิโคล บราวน์ ซิมป์สัน อดีตภรรยาของเขา และโรนัลด์ โกลด์แมน เพื่อนของเธอ

เลือดในที่เกิดเหตุตรงกับเลือดของซิมป์สัน โดยมีลักษณะที่พบได้เพียง 1 ใน 400 คน อย่างไรก็ตาม ฝ่ายจำเลยโต้แย้งว่าจำนวนคนจากลอสแอนเจลิสที่มีลักษณะตรงกับตัวอย่างนั้นสามารถเติมเต็มสนามฟุตบอลได้ และตัวเลข 1 ใน 400 นั้นไม่มีประโยชน์^{[ 15 ]}^{[ 16 ]}การพึ่งพาตัวเลข "1 ใน 400" เพียงอย่างเดียวเพื่อสรุปว่าบุคคลที่มีลักษณะตรงกับตัวอย่างนั้นมีแนวโน้มที่จะเป็นผู้กระทำผิดนั้น ถือเป็นความผิดพลาดของอัยการ และเป็นตัวอย่างของความผิดพลาดของอัยการ

ในการพิจารณาคดีเดียวกัน อัยการได้นำเสนอหลักฐานว่าซิมป์สันใช้ความรุนแรงต่อภรรยาของเขา ฝ่ายจำเลยโต้แย้งว่ามีผู้หญิงเพียง 1 คนที่ถูกฆาตกรรมต่อผู้หญิง 2,500 คนที่ถูกทำร้ายร่างกายโดยคู่สมรส และประวัติการใช้ความรุนแรงของซิมป์สันต่อภรรยาของเขานั้นไม่เกี่ยวข้องกับการพิจารณาคดี อย่างไรก็ตาม เหตุผลเบื้องหลังการคำนวณของฝ่ายจำเลยนั้นผิดพลาด ตามที่ผู้เขียนGerd Gigerenzer กล่าว ไว้ ความน่าจะเป็นที่ถูกต้องนั้นต้องการบริบทเพิ่มเติม: ภรรยาของซิมป์สันไม่เพียงแต่ถูกทำร้ายร่างกายในครอบครัวเท่านั้น แต่ยังถูกทำร้ายร่างกายในครอบครัว (โดยซิมป์สัน) และถูกฆ่า (โดยคนอื่น) Gigerenzer เขียนว่า "โอกาสที่ผู้ทำร้ายร่างกายจะฆ่าคู่ของตนจริง ๆ เมื่อพิจารณาว่าเธอถูกฆ่าแล้วนั้นอยู่ที่ประมาณ 8 ใน 9 หรือประมาณ 90%" ^{[ 17 ]}ในขณะที่กรณีการทำร้ายร่างกายคู่สมรสส่วนใหญ่ไม่ได้จบลงด้วยการฆาตกรรม แต่กรณีฆาตกรรมส่วนใหญ่ที่มีประวัติการทำร้ายร่างกายคู่สมรส มักกระทำโดยคู่สมรส

คดีของแซลลี่ คลาร์ก

แซลลี่ คลาร์กหญิงชาวอังกฤษ ถูกกล่าวหาในปี 1998 ว่าฆ่าลูกคนแรกของเธอเมื่ออายุ 11 สัปดาห์ และฆ่าลูกคนที่สองเมื่ออายุ 8 สัปดาห์ อัยการได้ให้พยานผู้เชี่ยวชาญคือ เซอร์รอย เมโดว์ศาสตราจารย์และกุมารแพทย์ที่ปรึกษา^{[ 18 ]}ให้การว่าโอกาสที่เด็กสองคนในครอบครัวเดียวกันจะเสียชีวิตจากSIDSนั้นอยู่ที่ประมาณ 1 ใน 73 ล้าน ซึ่งน้อยกว่าอัตราจริงที่วัดได้จากข้อมูลในอดีต มาก เมโดว์ประมาณการจากข้อมูลการเสียชีวิตจาก SIDS เพียงครั้งเดียว และสมมติฐานที่ว่าความน่าจะเป็นของการเสียชีวิตดังกล่าวไม่ควรมีความสัมพันธ์กันระหว่างทารก^{[ 19 ]}

Meadow ยอมรับว่า 1 ใน 73 ล้านไม่ใช่เรื่องที่เป็นไปไม่ได้ แต่แย้งว่าอุบัติเหตุเช่นนี้จะเกิดขึ้น "ครั้งเดียวในรอบร้อยปี" และในประเทศที่มีครอบครัวที่มีลูกสองคนจำนวน 15 ล้านครอบครัว โอกาสที่การเสียชีวิตพร้อมกันสองคนจะเป็นผลมาจากกลุ่มอาการมุนเชาเซนโดยอ้อมนั้นมีมากกว่าอุบัติเหตุที่หายากเช่นนี้ อย่างไรก็ตาม มีเหตุผลที่ดีที่จะสันนิษฐานว่าโอกาสที่จะเสียชีวิตจาก SIDS ในครอบครัวจะสูงขึ้นอย่างมีนัยสำคัญหากเด็กคนก่อนหน้าเสียชีวิตในสถานการณ์เช่นนี้ ( ความโน้มเอียงทางพันธุกรรมต่อ SIDS มีแนวโน้มที่จะทำให้ ความเป็น อิสระทางสถิติ ที่สันนิษฐานไว้นั้นเป็นโมฆะ ^{[ 20 ]} ) ทำให้บางครอบครัวมีความเสี่ยงต่อ SIDS มากขึ้น และข้อผิดพลาดเป็นผลมาจาก ความผิดพลาด ทางนิเวศวิทยา^{[ 21 ]} ไม่สามารถ ประมาณโอกาสที่จะเสียชีวิตจาก SIDS สองครั้งในครอบครัวเดียวกันได้อย่างถูกต้องโดยการยกกำลังสองโอกาสที่จะเสียชีวิตเพียงครั้งเดียวในครอบครัวที่คล้ายคลึงกันทั้งหมด^{[ 22 ]}

ตัวเลข 1 ใน 73 ล้านนั้นประเมินโอกาสที่จะเกิดอุบัติเหตุสองครั้งติดต่อกันต่ำเกินไปมาก แต่ถึงแม้การประเมินนั้นจะถูกต้อง ศาลก็ดูเหมือนจะมองข้ามข้อเท็จจริงที่ว่าตัวเลข 1 ใน 73 ล้านนั้นไม่มีความหมายอะไรในตัวมันเอง ในฐานะที่เป็น ความน่าจะ เป็นเบื้องต้นมันควรจะถูกนำมาเปรียบเทียบกับ ความน่าจะ เป็นเบื้องต้นของทางเลือกอื่นๆ เนื่องจากมีผู้เสียชีวิตสองรายแล้ว คำอธิบายอย่างใดอย่างหนึ่งต่อไปนี้จะต้องเป็นจริง และทั้งหมดนี้ล้วนมี ความน่าจะเป็น เบื้องต้นต่ำมาก:

มีผู้เสียชีวิตสองรายติดต่อกันในครอบครัวเดียวกัน โดยทั้งสองรายเสียชีวิตจากภาวะ SIDS (กลุ่มอาการเสียชีวิตเฉียบพลันในทารก)
คดีฆาตกรรมสองศพ (ข้อกล่าวหาของฝ่ายโจทก์)
ความเป็นไปได้อื่นๆ (รวมถึงคดีฆาตกรรม 1 คดี และคดีเสียชีวิตเฉียบพลันในทารก 1 คดี)

ยังไม่ชัดเจนว่ามีการเสนอค่าประมาณความน่าจะเป็นสำหรับความเป็นไปได้ที่สองในระหว่างการพิจารณาคดีหรือไม่ หรือว่าการเปรียบเทียบความน่าจะเป็นสองข้อแรกนั้นถือเป็นค่าประมาณสำคัญที่จะนำมาใช้ในการวิเคราะห์ทางสถิติเพื่อประเมินข้อกล่าวหาของฝ่ายโจทก์เทียบกับข้อกล่าวหาว่าจำเลยบริสุทธิ์

คลาร์กถูกตัดสินว่ามีความผิดในปี พ.ศ. 2542 ส่งผลให้ สมาคมสถิติแห่งราชวงศ์ออกแถลงการณ์ชี้แจงถึงข้อผิดพลาด^{[ 23 ]}

ในปี พ.ศ. 2545 เรย์ ฮิลล์ (ศาสตราจารย์คณิตศาสตร์ที่ซัลฟอร์ด ) พยายามเปรียบเทียบโอกาสของคำอธิบายที่เป็นไปได้สองข้อนี้อย่างแม่นยำ เขาได้สรุปว่าอุบัติเหตุที่เกิดขึ้นต่อเนื่องกันมีโอกาสเกิดขึ้นมากกว่าการฆาตกรรมที่เกิดขึ้นต่อเนื่องกันถึง 4.5 ถึง 9 เท่า ดังนั้นโอกาสที่คลาร์กจะมีความผิดจึงอยู่ระหว่าง 4.5 ต่อ 1 ถึง 9 ต่อ 1 ^{[ 24 ]}

หลังจากที่ศาลพบว่าแพทย์นิติเวชที่ตรวจทารกทั้งสองคนได้ปกปิดหลักฐานที่แสดงว่าไม่มีความผิด ศาลที่สูงกว่าจึงได้ยกเลิกคำพิพากษาลงโทษคลาร์กในวันที่ 29 มกราคม พ.ศ. 2546 ^{[ 25 ]}

ผลการค้นพบในด้านจิตวิทยา

จากการทดลองพบว่าผู้คนมักชอบข้อมูลเฉพาะบุคคลมากกว่าข้อมูลทั่วไปเมื่อมีข้อมูลเฉพาะบุคคลให้เลือก^{[ 26 ]}^{[ 27 ]}^{[ 28 ]}

ในการทดลองบางอย่าง นักเรียนถูกขอให้ประเมินเกรดเฉลี่ย (GPA) ของนักเรียนสมมติ เมื่อได้รับสถิติที่เกี่ยวข้องเกี่ยวกับการกระจาย GPA นักเรียนมักจะเพิกเฉยต่อสถิติเหล่านั้นหากได้รับข้อมูลเชิงพรรณนาเกี่ยวกับนักเรียนคนนั้น แม้ว่าข้อมูลเชิงพรรณนาใหม่จะเห็นได้ชัดว่ามีความเกี่ยวข้องเพียงเล็กน้อยหรือไม่เกี่ยวข้องกับผลการเรียนในโรงเรียนเลยก็ตาม^{[ 27 ]}ผลการค้นพบนี้ถูกนำมาใช้เพื่อโต้แย้งว่าการสัมภาษณ์เป็นส่วนที่ไม่จำเป็นของ กระบวนการ รับเข้าเรียนในวิทยาลัยเนื่องจากผู้สัมภาษณ์ไม่สามารถเลือกผู้สมัครที่ประสบความสำเร็จได้ดีกว่าสถิติพื้นฐาน

นักจิตวิทยาDaniel KahnemanและAmos Tverskyพยายามอธิบายการค้นพบนี้ในแง่ของกฎง่ายๆ หรือ "ฮิวริสติก"ที่เรียกว่าการเป็นตัวแทนพวกเขาโต้แย้งว่าการตัดสินหลายอย่างที่เกี่ยวข้องกับความเป็นไปได้ หรือสาเหตุและผลกระทบ ขึ้นอยู่กับว่าสิ่งหนึ่งเป็นตัวแทนของอีกสิ่งหนึ่ง หรือของหมวดหมู่มากน้อยเพียงใด^{[ 27 ]} Kahneman ถือว่าการละเลยอัตราพื้นฐานเป็นรูปแบบเฉพาะของการละเลยส่วนขยาย [ ^{29 ] Richard} Nisbettได้โต้แย้งว่าอคติในการระบุสาเหตุ บางอย่าง เช่นข้อผิดพลาดในการระบุสาเหตุพื้นฐานเป็นตัวอย่างของความผิดพลาดของอัตราพื้นฐาน: ผู้คนไม่ได้ใช้ "ข้อมูลฉันทามติ" ("อัตราพื้นฐาน") เกี่ยวกับพฤติกรรมของผู้อื่นในสถานการณ์ที่คล้ายคลึงกัน แต่กลับชอบ การระบุสาเหตุ ตามลักษณะนิสัย ที่ง่ายกว่า ^{[ 30 ]}

มีการถกเถียงกันอย่างมากในสาขาจิตวิทยาเกี่ยวกับเงื่อนไขที่ผู้คนจะหรือไม่อาจชื่นชมข้อมูลอัตราพื้นฐาน^{[ 31 ]}^{[ 32 ]}นักวิจัยในโครงการฮิวริสติกส์และอคติได้เน้นย้ำถึงผลการค้นพบเชิงประจักษ์ที่แสดงให้เห็นว่าผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐานและทำการอนุมานที่ละเมิดบรรทัดฐานบางประการของการให้เหตุผลเชิงความน่าจะเป็น เช่นทฤษฎีบทของเบย์สข้อสรุปที่ได้จากการวิจัยนี้คือ การคิดเชิงความน่าจะเป็นของมนุษย์นั้นมีข้อบกพร่องพื้นฐานและมีแนวโน้มที่จะเกิดข้อผิดพลาด^{[ 33 ]}นักวิจัยคนอื่นๆ ได้เน้นย้ำถึงความเชื่อมโยงระหว่างกระบวนการทางปัญญาและรูปแบบข้อมูล โดยโต้แย้งว่าข้อสรุปดังกล่าวโดยทั่วไปไม่ได้รับการรับรอง^{[ 34 ]}^{[ 35 ]}

ลองพิจารณาตัวอย่างที่ 2 จากข้างต้นอีกครั้ง การอนุมานที่ต้องการคือการประมาณความน่าจะเป็น (ภายหลัง) ที่ผู้ขับขี่ (ที่สุ่มเลือก) จะเมาสุรา เมื่อทราบว่าผลการตรวจวัดแอลกอฮอล์ในลมหายใจเป็นบวก ในทางทฤษฎี ความน่าจะเป็นนี้สามารถคำนวณได้โดยใช้ทฤษฎีบทของเบย์ส ดังที่แสดงไว้ข้างต้น อย่างไรก็ตาม มีวิธีการนำเสนอข้อมูลที่เกี่ยวข้องที่แตกต่างกันออกไป ลองพิจารณาตัวอย่างต่อไปนี้ ซึ่งมีรูปแบบที่เทียบเท่ากันในเชิงทฤษฎี:

ในจำนวนผู้ขับขี่ 1,000 คน เมาแล้วขับ มี 1 คนที่ขับรถขณะเมาสุรา เครื่องตรวจวัดแอลกอฮอล์ในลมหายใจไม่เคยพลาดที่จะตรวจจับคนเมาจริง ๆ ส่วนในจำนวนผู้ขับขี่ 999 คน ที่ไม่ได้เมาสุรา มี 50 คนที่เครื่องตรวจวัดแสดงผลผิดพลาดว่าเมา สมมติว่าตำรวจสุ่มหยุดรถผู้ขับขี่คนหนึ่ง และบังคับให้เขาทำการทดสอบด้วยเครื่องตรวจวัดแอลกอฮอล์ ผลการทดสอบระบุว่าเขาเมาสุรา โดยไม่มีข้อมูลอื่นใดเกี่ยวกับเขา จงประมาณความน่าจะเป็นที่ผู้ขับขี่คนนั้นเมาสุราจริง ๆ

ในกรณีนี้ ข้อมูลตัวเลขที่เกี่ยวข้อง— p (เมา), p ( D | เมา), p ( D | ไม่เมา)—จะถูกนำเสนอในรูปของความถี่ตามธรรมชาติโดยสัมพันธ์กับกลุ่มอ้างอิงที่กำหนด (ดูปัญหาของกลุ่มอ้างอิง ) การศึกษาเชิงประจักษ์แสดงให้เห็นว่าการอนุมานของผู้คนสอดคล้องกับกฎของเบย์สมากขึ้นเมื่อนำเสนอข้อมูลในลักษณะนี้ ซึ่งช่วยเอาชนะการละเลยอัตราพื้นฐานในคนทั่วไป^{[ 35 ]}และผู้เชี่ยวชาญ^{[ 36 ]}ด้วยเหตุนี้ องค์กรต่างๆ เช่นCochrane Collaborationจึงแนะนำให้ใช้รูปแบบนี้ในการสื่อสารสถิติสุขภาพ^{[ 37 ]}การสอนให้ผู้คนแปลปัญหาการให้เหตุผลแบบเบย์สเหล่านี้ให้เป็นรูปแบบความถี่ตามธรรมชาติมีประสิทธิภาพมากกว่าการสอนให้พวกเขาใส่ค่าความน่าจะเป็น (หรือเปอร์เซ็นต์) ลงในทฤษฎีบทของเบย์สเพียงอย่างเดียว^{[ 38 ]}นอกจากนี้ยังแสดงให้เห็นว่าการแสดงความถี่ตามธรรมชาติในรูปแบบกราฟิก (เช่น อาร์เรย์ไอคอน แผนภาพผลลัพธ์สมมติ) ช่วยให้ผู้คนอนุมานได้ดีขึ้น^{[ 38 ]}^{[ 39 ]}^{[ 40 ]}^{[ 41 ]}

เหตุผลสำคัญประการหนึ่งที่รูปแบบความถี่ธรรมชาติมีประโยชน์คือ รูปแบบข้อมูลนี้ช่วยอำนวยความสะดวกในการอนุมานที่จำเป็น เนื่องจากช่วยลดความซับซ้อนของการคำนวณที่จำเป็น สามารถเห็นได้จากการใช้อีกวิธีหนึ่งในการคำนวณความน่าจะเป็นที่ต้องการp (เมา| D ):

p(\mathrm {drunk} \mid D)={\frac {N(\mathrm {drunk} \cap D)}{N(D)}}={\frac {1}{51}}=0.0196

โดยที่N (เมา ∩ D ) หมายถึงจำนวนผู้ขับขี่ที่เมาสุราและได้ผลตรวจลมหายใจเป็นบวก และN ( D ) หมายถึงจำนวนกรณีทั้งหมดที่ได้ผลตรวจลมหายใจเป็นบวก ความเท่าเทียมกันของสมการนี้กับสมการข้างต้นเป็นไปตามสัจพจน์ของทฤษฎีความน่าจะเป็น ซึ่งN (เมา ∩ D ) = N × p ( D | เมา) × p (เมา) ที่สำคัญคือ แม้ว่าสมการนี้จะเทียบเท่ากับกฎของเบย์สในเชิงรูปแบบ แต่ก็ไม่เทียบเท่ากันในเชิงจิตวิทยา การใช้ความถี่ธรรมชาติทำให้การอนุมานง่ายขึ้น เนื่องจากสามารถดำเนินการทางคณิตศาสตร์ที่จำเป็นกับจำนวนธรรมชาติได้ แทนที่จะเป็นเศษส่วนมาตรฐาน (เช่น ความน่าจะเป็น) เนื่องจากทำให้จำนวนผลบวกเท็จที่สูงมีความโปร่งใสมากขึ้น และเนื่องจากความถี่ธรรมชาติแสดง "โครงสร้างเซตซ้อน" ^{[ 42 ]}^{[ 43 ]}

รูปแบบความถี่ทุกรูปแบบไม่ได้เอื้อต่อการให้เหตุผลแบบเบย์เซียนเสมอไป^{[ 43 ]}^{[ 44 ]}ความถี่ตามธรรมชาติหมายถึงข้อมูลความถี่ที่ได้จากการสุ่มตัวอย่างตามธรรมชาติ [ ^{45 ] ซึ่ง}รักษาข้อมูลอัตราพื้นฐานไว้ (เช่น จำนวนผู้ขับขี่ที่เมาสุราเมื่อสุ่มตัวอย่างผู้ขับขี่) ซึ่งแตกต่างจากการสุ่มตัวอย่างแบบเป็นระบบซึ่งอัตราพื้นฐานถูกกำหนดไว้ล่วงหน้า (เช่น ในการทดลองทางวิทยาศาสตร์) ในกรณีหลังนี้ เป็นไปไม่ได้ที่จะอนุมานความน่าจะเป็นภายหลังp (เมาสุรา | ผลการทดสอบเป็นบวก) จากการเปรียบเทียบจำนวนผู้ขับขี่ที่เมาสุราและผลการทดสอบเป็นบวกกับจำนวนคนทั้งหมดที่ได้ผลการทดสอบลมหายใจเป็นบวก เนื่องจากข้อมูลอัตราพื้นฐานไม่ได้รับการรักษาไว้และต้องนำกลับมาใช้ใหม่โดยชัดเจนโดยใช้ทฤษฎีบทของเบย์เซียน

ดูเพิ่มเติม

ความแม่นยำและการเรียกคืน
การขุดค้นข้อมูล – การใช้การวิเคราะห์ข้อมูลในทางที่ผิด
หลักฐานภายใต้ทฤษฎีบทของเบย์ส
การให้เหตุผลแบบอุปนัย – วิธีการให้เหตุผลเชิงตรรกะ
รายชื่ออคติทางความคิด
รายชื่อของความขัดแย้ง – รายชื่อของข้อความที่ดูเหมือนจะขัดแย้งในตัวเอง
ความชัดเจนที่ทำให้เข้าใจผิด – หลักฐานที่อาศัยคำให้การส่วนบุคคล
ปรากฏการณ์ความขัดแย้งในการป้องกัน – สถานการณ์ในระบาดวิทยา
ปรากฏการณ์ซิมป์สัน – ข้อผิดพลาดในการให้เหตุผลทางสถิติเกี่ยวกับกลุ่ม
สถิติเชิงสัญชาตญาณ
อาร์ วี อดัมส์
การละเลยตัวหาร

ลิงก์ภายนอก

ความเข้าใจผิดเกี่ยวกับอัตราดอกเบี้ยพื้นฐานแฟ้มความเข้าใจผิด

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

29 ] Richard

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

45 ] ซึ่ง