กลับไปหน้าบทความ

อ่าน 13 นาที

ความเข้าใจผิดเกี่ยวกับอัตราพื้นฐาน

ความเข้าใจผิดเรื่องอัตราพื้นฐานหรือที่เรียกว่าการละเลยอัตราพื้นฐานหรืออคติอัตราพื้นฐานเป็นความเข้าใจผิด ประเภทหนึ่ง ที่ผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐาน (เช่นการแพร่กระจาย ทั่วไป )

ความเข้าใจผิดเกี่ยวกับอัตราพื้นฐาน

โรงพยาบาลที่รับ ผู้ป่วย โควิด-19 ที่ได้รับการฉีดวัคซีน มากกว่าผู้ป่วยที่ไม่ได้รับการฉีดวัคซีน อาจบ่งชี้ว่าวัคซีนไม่มีประสิทธิภาพ แต่ความไม่สมดุลดังกล่าวเป็นสิ่งที่คาดหวังได้ในประชากรที่ได้รับการฉีดวัคซีนจำนวนมาก[ 1 ]

ความเข้าใจผิดเรื่องอัตราพื้นฐานหรือที่เรียกว่าการละเลยอัตราพื้นฐาน[ 2 ]หรืออคติอัตราพื้นฐานเป็นความเข้าใจผิด ประเภทหนึ่ง ที่ผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐาน (เช่นการแพร่กระจาย ทั่วไป ) โดยให้ความสำคัญกับข้อมูลที่เกี่ยวข้องกับกรณีเฉพาะเท่านั้น[ 3 ]การละเลยอัตราพื้นฐานเป็นรูปแบบเฉพาะของ การ ละเลย ส่วนขยาย ที่ทั่วไปกว่า

เรียกอีกอย่างว่าความผิดพลาดของอัยการหรือความผิดพลาดของทนายฝ่ายจำเลยเมื่อนำไปใช้กับผลลัพธ์ของการทดสอบทางสถิติ (เช่น การทดสอบ DNA) ในบริบทของกระบวนการทางกฎหมาย คำศัพท์เหล่านี้ได้รับการแนะนำโดย William C. Thompson และ Edward Schumann ในปี 1987 [ 4 ] [ 5 ]แม้ว่าจะมีการโต้แย้งว่าคำจำกัดความของความผิดพลาดของอัยการนั้นครอบคลุมถึงการกล่าวหาความผิดหรือความรับผิดที่ไม่ถูกต้องเพิ่มเติมอีกมากมายที่ไม่สามารถวิเคราะห์ได้ว่าเป็นข้อผิดพลาดในอัตราพื้นฐานหรือทฤษฎีบทของเบย์[ 6 ]

ปรากฏการณ์ผลบวกเท็จ

ตัวอย่างหนึ่งของความผิดพลาดเรื่องอัตราพื้นฐานคือปรากฏการณ์ผลบวกเท็จ (หรือที่รู้จักกันในชื่อปรากฏการณ์ความแม่นยำ ) ปรากฏการณ์นี้อธิบายถึงสถานการณ์ที่มี ผลการทดสอบผล บวกเท็จ มากกว่าผลบวกจริง (ซึ่งหมายความว่าตัวจำแนกมี ความแม่นยำต่ำ) ตัวอย่างเช่น หากกล้องจดจำใบหน้าสามารถระบุตัวอาชญากรที่ต้องการตัวได้อย่างแม่นยำ 99% แต่ทำการวิเคราะห์คน 10,000 คนต่อวัน ความแม่นยำสูงนั้นจะถูกบดบังด้วยจำนวนการทดสอบ เนื่องจากเหตุนี้ รายชื่ออาชญากรของโปรแกรมจึงมีแนวโน้มที่จะมีผู้บริสุทธิ์ (ผลบวกเท็จ) มากกว่าอาชญากร (ผลบวกจริง) เพราะโดยรวมแล้วมีผู้บริสุทธิ์มากกว่าอาชญากรมาก ความน่าจะเป็นของผลการทดสอบที่เป็นบวกนั้นไม่ได้ถูกกำหนดโดยความแม่นยำของการทดสอบเท่านั้น แต่ยังขึ้นอยู่กับลักษณะของประชากรตัวอย่างด้วย[ 7 ]ปัญหาพื้นฐานคืออัตราการเกิดผลลบที่แท้จริงที่สูงกว่ามากหมายความว่ากลุ่มคนที่ตรวจพบผลบวกจะถูกครอบงำด้วยผลบวกเท็จ เนื่องจากแม้แต่เศษส่วนเล็กๆ ของกลุ่ม [ลบ] ที่ใหญ่กว่ามากก็จะสร้างผลบวกที่ระบุได้มากกว่าเศษส่วนที่ใหญ่กว่าของกลุ่ม [บวก] ที่เล็กกว่ามาก

เมื่ออัตราการเกิดโรค สัดส่วนของผู้ที่มีภาวะดังกล่าว ต่ำกว่าอัตราการเกิดผลบวกเท็จ ของการทดสอบ แม้แต่การทดสอบที่มีความเสี่ยงต่ำมากที่จะให้ผลบวกเท็จในแต่ละกรณีก็จะให้ผลบวกเท็จมากกว่าผลบวกจริงโดยรวม[ 8 ]

การตีความผลลัพธ์ที่เป็นบวกในการทดสอบใน ประชากรที่มีอัตราการแพร่ระบาดต่ำหลังจากจัดการกับผลลัพธ์ที่เป็นบวกจากประชากรที่มีอัตราการแพร่ระบาดสูงนั้น ขัดแย้งกับ สัญชาตญาณอย่างยิ่ง [ 8 ]หากอัตราการเกิดผลบวกเท็จของการทดสอบสูงกว่าสัดส่วนของ ประชากรกลุ่ม ใหม่ที่มีภาวะดังกล่าว ผู้ดูแลการทดสอบซึ่งมีประสบการณ์จากการทดสอบในประชากรที่มีอัตราการแพร่ระบาดสูงอาจสรุปจากประสบการณ์ว่าผลการทดสอบที่เป็นบวกมักบ่งชี้ว่าผู้ป่วยมีผลเป็นบวก ทั้งที่ความจริงแล้วมีโอกาสเกิดผลบวกเท็จมากกว่ามาก

ตัวอย่าง

ตัวอย่างที่ 1: โรคภัยไข้เจ็บ

ประชากรที่มีอัตราการแพร่ระบาดสูง

จำนวนคนติดเชื้อแล้วไม่ติดเชื้อทั้งหมด
ผลตรวจเป็นบวก 400 (ผลบวกจริง)30 (ผลบวกเท็จ) 430
ผลตรวจเป็นลบ 0 (ผลลบเท็จ)570 (ผลลบจริง) 570
ทั้งหมด 400600 1000

ลองนึกภาพว่าเรากำลังทำการทดสอบโรคติดต่อในประชากรAจำนวน 1,000 คน โดย 40% ของประชากรนี้ติดเชื้อ การทดสอบนี้มีอัตราผลบวกเท็จ 5% (0.05) และอัตราผลลบเท็จเป็นศูนย์ผลลัพธ์ที่คาดหวังจากการทดสอบ 1,000 ครั้งในประชากรAจะเป็นดังนี้:

ติดเชื้อและผลตรวจบ่งชี้ว่าเป็นโรค ( ผลบวกจริง )
1000 × 40/100= 400 คนจะได้รับผลตรวจเป็นบวกจริง
ไม่ติดเชื้อ แต่ผลตรวจแสดงว่าติดเชื้อ (ผลบวกปลอม)
1000 × 100 – 40/100 × 0.05 = 30 คนจะได้รับผลบวกปลอม
ผลการตรวจที่เหลืออีก 570 รายการเป็นลบอย่างถูกต้อง

ดังนั้น ในประชากรกลุ่มAบุคคลที่ได้รับผลตรวจเป็นบวกจะมีความมั่นใจได้มากกว่า 93% ( 400/30 + 400)ซึ่งบ่งชี้ถึงการติดเชื้อได้อย่างถูกต้อง

ประชากรที่มีอัตราการเกิดต่ำ

จำนวนคนติดเชื้อแล้วไม่ติดเชื้อทั้งหมด
ผลตรวจเป็นบวก 20 (ผลบวกจริง)49 (ผลบวกเท็จ) 69
ผลตรวจเป็นลบ 0 (ผลลบเท็จ)931 (ผลลบจริง) 931
ทั้งหมด 20980 1000

ทีนี้ลองพิจารณาการทดสอบแบบเดียวกันกับประชากรกลุ่มBซึ่งมีผู้ติดเชื้อเพียง 2% ผลลัพธ์ที่คาดหวังจากการทดสอบ 1,000 ครั้งในประชากรกลุ่มBจะเป็นดังนี้:

ติดเชื้อและผลตรวจบ่งชี้ว่าเป็นโรค (ผลบวกจริง)
1000 × 2/100= 20 คนจะได้รับผลตรวจเป็นบวกจริง
ไม่ติดเชื้อ แต่ผลตรวจแสดงว่าติดเชื้อ (ผลบวกปลอม)
1000 × 100 – 2/100 × 0.05 = 49 คนจะได้รับผลบวกปลอม
ผลการตรวจที่เหลืออีก 931 รายการเป็นลบอย่างถูกต้อง

ในประชากรกลุ่มBจากทั้งหมด 69 คนที่มีผลตรวจเป็นบวก มีเพียง 20 คนเท่านั้นที่ติดเชื้อจริง ดังนั้น ความน่าจะเป็นที่จะติดเชื้อจริงหลังจากได้รับแจ้งว่าติดเชื้อแล้วจึงมีเพียง 29% ( 20/20 + 49)สำหรับการทดสอบที่ดูเหมือนจะมี "ความแม่นยำ 95%"

ผู้ทดสอบที่มีประสบการณ์กับกลุ่มAอาจพบว่าเป็นเรื่องที่ขัดแย้งกันที่ในกลุ่มBผลลัพธ์ที่ปกติแล้วบ่งชี้การติดเชื้อได้อย่างถูกต้อง กลับกลายเป็นผลบวกปลอมเสียส่วนใหญ่ ความสับสนระหว่างความน่าจะเป็นภายหลังของการติดเชื้อกับความน่าจะเป็นก่อนหน้าของการได้รับผลบวกปลอม เป็นความผิดพลาด ตามธรรมชาติ หลังจากได้รับผลการทดสอบที่อาจเป็นอันตรายต่อสุขภาพ

ตัวอย่างที่ 2: ผู้ขับขี่ที่เมาสุรา

ลองจินตนาการว่ากลุ่มเจ้าหน้าที่ตำรวจมีเครื่องตรวจวัดแอลกอฮอล์ในลมหายใจ ซึ่งแสดงผลผิดพลาดว่าเมาสุราใน 5% ของกรณีที่ผู้ขับขี่ไม่ได้เมาสุรา อย่างไรก็ตาม เครื่องตรวจวัดแอลกอฮอล์จะไม่เคยพลาดการตรวจจับคนเมาสุราจริง ๆ มีผู้ขับขี่ที่เมาสุรา 1 ใน 1,000 คน สมมติว่าเจ้าหน้าที่ตำรวจหยุดรถผู้ขับขี่คนหนึ่งโดยสุ่มเพื่อทำการตรวจวัดแอลกอฮอล์ และผลปรากฏว่าผู้ขับขี่เมาสุรา โดยไม่มีข้อมูลอื่นใดเกี่ยวกับผู้ขับขี่คนนั้น

หลายคนอาจประเมินโอกาสที่คนขับจะเมาสุราไว้สูงถึง 95% แต่ความจริงแล้วโอกาสที่ถูกต้องอยู่ที่ประมาณ 2% เท่านั้น

คำอธิบายสำหรับเรื่องนี้มีดังนี้ โดยเฉลี่ยแล้ว ในการทดสอบผู้ขับขี่ 1,000 คน

  • คนขับรถ 1 คนเมาสุรา และเป็นที่แน่ชัด 100% ว่าผลการตรวจแอลกอฮอล์ในเลือดของคนขับรถคนนั้นเป็นบวกดังนั้นจึงมีผลการตรวจแอลกอฮอล์ในเลือดเป็นบวก 1 ครั้ง
  • มีผู้ขับขี่ 999 คนที่ไม่เมาสุรา และในจำนวนนั้นมี ผลตรวจ ผิดพลาด 5% ดังนั้นจึงมีผลตรวจผิดพลาดทั้งหมด 49.95 ราย

ดังนั้น ความน่าจะเป็นที่ผู้ขับขี่คนใดคนหนึ่งในจำนวน 1 + 49.95 = 50.95 คนที่มีผลตรวจเป็นบวก จะเมาสุราจริง ๆ คือ.

อย่างไรก็ตาม ความถูกต้องของผลลัพธ์นี้ขึ้นอยู่กับความถูกต้องของสมมติฐานเบื้องต้นที่ว่าเจ้าหน้าที่ตำรวจหยุดรถคนขับโดยสุ่มอย่างแท้จริง ไม่ใช่เพราะการขับขี่ที่ไม่ดี หากมีเหตุผลดังกล่าวหรือเหตุผลอื่นที่ไม่ใช่การสุ่มหยุดรถ การคำนวณก็จะเกี่ยวข้องกับความน่าจะเป็นที่ผู้ขับขี่ที่เมาสุราจะขับรถได้อย่างมีประสิทธิภาพ และผู้ขับขี่ที่ไม่เมาสุราจะขับรถได้อย่าง (ไม่) มีประสิทธิภาพด้วย

กล่าวอย่างเป็นทางการมากขึ้น ความน่าจะเป็นประมาณ 0.02 เดียวกันนี้สามารถหาได้โดยใช้ทฤษฎีบทของเบย์สเป้าหมายคือการหาความน่าจะเป็นที่ผู้ขับขี่เมาสุราเมื่อเครื่องตรวจวัดแอลกอฮอล์บ่งชี้ว่าผู้ขับขี่เมาสุรา ซึ่งสามารถแสดงได้ดังนี้

โดยที่Dหมายความว่าเครื่องตรวจวัดแอลกอฮอล์ในลมหายใจบ่งชี้ว่าผู้ขับขี่เมาสุรา โดยใช้ทฤษฎีบทของเบย์ส

ในสถานการณ์นี้ ข้อมูลที่ทราบมีดังต่อไปนี้:

จากสูตรจะเห็นได้ว่า จำเป็นต้องใช้p ( D ) สำหรับทฤษฎีบทของเบย์ส ซึ่งสามารถคำนวณได้จากค่าก่อนหน้าโดยใช้กฎความน่าจะเป็นรวม :

ซึ่งให้

เมื่อแทนค่าตัวเลขเหล่านี้ลงในทฤษฎีบทของเบย์ส จะพบว่า

ซึ่งก็คือความแม่นยำของการทดสอบ

ตัวอย่างที่ 3: การระบุตัวผู้ก่อการร้าย

สมมติว่าในเมืองที่มีประชากร 1 ล้านคน มีผู้ก่อการร้าย 100 คน และผู้ที่ไม่ใช่ผู้ก่อการร้าย 999,900 คน เพื่อให้ตัวอย่างง่ายขึ้น ให้ถือว่าทุกคนที่อยู่ในเมืองเป็นประชากร ดังนั้น ความน่าจะเป็นพื้นฐานที่ประชากรที่สุ่มเลือกมาคนหนึ่งจะเป็นผู้ก่อการร้ายคือ 0.0001 และความน่าจะเป็นพื้นฐานที่ประชากรคนเดียวกันนั้นจะเป็นผู้ที่ไม่ใช่ผู้ก่อการร้ายคือ 0.9999 เพื่อพยายามจับกุมผู้ก่อการร้าย เมืองจึงติดตั้งระบบเตือนภัยพร้อมกล้องวงจรปิดและซอฟต์แวร์จดจำใบหน้าอัตโนมัติ

ซอฟต์แวร์นี้มีอัตราความล้มเหลว 1% สองครั้ง:

  • อัตราการตรวจจับผิดพลาดแบบลบ: หากกล้องตรวจจับพบผู้ก่อการร้าย สัญญาณเตือนจะดังขึ้น 99% ของเวลา และจะไม่ดัง 1% ของเวลา
  • อัตราการตรวจจับผิดพลาด: หากกล้องสแกนพบบุคคลที่ไม่ใช่ผู้ก่อการร้าย สัญญาณเตือนจะไม่ดัง 99% ของเวลา แต่จะดัง 1% ของเวลา

สมมติว่าตอนนี้มีคนในบ้านกดสัญญาณเตือนภัย คนที่ใช้เหตุผลผิดพลาดแบบอัตราพื้นฐานจะสรุปว่ามีความน่าจะเป็น 99% ที่คนที่ถูกตรวจพบเป็นผู้ก่อการร้าย แม้ว่าการสรุปเช่นนั้นดูเหมือนจะสมเหตุสมผล แต่จริงๆ แล้วมันเป็นเหตุผลที่ผิดพลาด และการคำนวณด้านล่างจะแสดงให้เห็นว่าความน่าจะเป็นที่ผู้ก่อการร้ายจะเป็นผู้ก่อการร้ายนั้นอยู่ที่ประมาณ 1% ไม่ใช่ 99%

ความเข้าใจผิดนี้เกิดขึ้นจากการสับสนระหว่างลักษณะของอัตราความล้มเหลวสองแบบที่แตกต่างกัน 'จำนวนครั้งที่สัญญาณเตือนภัยไม่ดังต่อผู้ก่อการร้าย 100 คน' (P(¬B | T) หรือความน่าจะเป็นที่สัญญาณเตือนภัยจะไม่ดังเมื่อตรวจพบว่าผู้อยู่อาศัยเป็นผู้ก่อการร้าย) และ 'จำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายต่อสัญญาณเตือนภัย 100 ครั้ง' (P(¬T | B) หรือความน่าจะเป็นที่ผู้อยู่อาศัยไม่ใช่ผู้ก่อการร้ายเมื่อตรวจพบว่าสัญญาณเตือนภัยดัง) เป็นปริมาณที่ไม่เกี่ยวข้องกัน ปริมาณหนึ่งไม่จำเป็นต้องเท่ากัน หรือแม้แต่ใกล้เคียงกัน เพื่อแสดงให้เห็นถึงเรื่องนี้ ลองพิจารณาสิ่งที่เกิดขึ้นหากมีการติดตั้งระบบเตือนภัยแบบเดียวกันในเมืองที่สองซึ่งไม่มีผู้ก่อการร้ายเลย เช่นเดียวกับในเมืองแรก สัญญาณเตือนภัยจะดังสำหรับผู้ที่ไม่ใช่ผู้ก่อการร้าย 1 ใน 100 คนที่ตรวจพบ แต่แตกต่างจากในเมืองแรกตรงที่สัญญาณเตือนภัยจะไม่ดังสำหรับผู้ก่อการร้ายเลย ดังนั้น 100% ของทุกครั้งที่สัญญาณเตือนภัยดังจึงเป็นกรณีของผู้ที่ไม่ใช่ผู้ก่อการร้าย แต่เราไม่สามารถคำนวณอัตราความผิดพลาดเชิงลบได้เลย ในเมืองนั้น 'จำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายต่อระฆัง 100 ครั้ง' คือ 100 คน แต่ P(T | B) = 0% นั่นหมายความว่า โอกาสที่จะตรวจพบผู้ก่อการร้ายจากการตีระฆังนั้นเป็นศูนย์

ลองจินตนาการว่าประชากรทั้งหมดหนึ่งล้านคนของเมืองแรกเดินผ่านหน้ากล้องวงจรปิด ประมาณ 99 ใน 100 คนที่เป็นผู้ก่อการร้ายจะกดสัญญาณเตือนภัย และประมาณ 9,999 ใน 999,900 คนที่ไม่ใช่ผู้ก่อการร้ายจะกดสัญญาณเตือนภัยเช่นกัน ดังนั้นจะมีคนประมาณ 10,098 คนที่กดสัญญาณเตือนภัย ซึ่งในจำนวนนี้ประมาณ 99 คนจะเป็นผู้ก่อการร้าย ความน่าจะเป็นที่คนที่กดสัญญาณเตือนภัยจะเป็นผู้ก่อการร้ายนั้นมีเพียงประมาณ 99 ใน 10,098 ซึ่งน้อยกว่า 1% และต่ำกว่าที่คาดการณ์ไว้ในตอนแรกที่ 99% มากๆ

ความเข้าใจผิดเรื่องอัตราพื้นฐานนั้นทำให้เกิดความเข้าใจผิดอย่างมากในตัวอย่างนี้ เพราะมีจำนวนผู้ที่ไม่ใช่ผู้ก่อการร้ายมากกว่าผู้ก่อการร้าย และจำนวนผลบวกเท็จ (ผู้ที่ไม่ใช่ผู้ก่อการร้ายถูกสแกนว่าเป็นผู้ก่อการร้าย) มีจำนวนมากกว่าผลบวกจริง (ผู้ก่อการร้ายถูกสแกนว่าเป็นผู้ก่อการร้าย) มากมาย

ผู้ปฏิบัติงานหลายคนโต้แย้งว่า เนื่องจากอัตราการก่อการร้ายพื้นฐานต่ำมาก การใช้การขุดข้อมูลและอัลกอริทึมการทำนายเพื่อระบุผู้ก่อการร้ายจึงไม่สามารถใช้งานได้จริงเนื่องจากความขัดแย้งของผลบวกเท็จ[ 9 ] [ 10 ] [ 11 ] [ 12 ]การประมาณจำนวนผลบวกเท็จสำหรับผลลัพธ์ที่ถูกต้องแต่ละครั้งแตกต่างกันไปตั้งแต่มากกว่าหมื่น[ 12 ]ถึงหนึ่งพันล้าน[ 10 ]ดังนั้น การตรวจสอบเบาะแสแต่ละรายการจึงมีค่าใช้จ่ายและเวลาสูงเกินไป[ 9 ] [ 11 ]ระดับความแม่นยำที่จำเป็นเพื่อให้แบบจำลองเหล่านี้ใช้งานได้นั้นอาจเป็นไปไม่ได้ ประการแรก อัตราการก่อการร้ายพื้นฐานที่ต่ำยังหมายความว่าขาดข้อมูลที่จะใช้สร้างอัลกอริทึมที่แม่นยำ[ 11 ]นอกจากนี้ ในบริบทของการตรวจจับการก่อการร้าย ผลลบเท็จเป็นสิ่งที่ไม่พึงประสงค์อย่างยิ่ง ดังนั้นจึงต้องลดให้น้อยที่สุดเท่าที่จะเป็นไปได้ อย่างไรก็ตาม สิ่งนี้จำเป็นต้องเพิ่มความไวโดยแลกกับความจำเพาะซึ่งจะเพิ่มผลบวกเท็จ[ 12 ]นอกจากนี้ยังเป็นที่น่าสงสัยว่าการใช้แบบจำลองดังกล่าวโดยหน่วยงานบังคับใช้กฎหมายจะตรงตามภาระการพิสูจน์ ที่จำเป็นหรือ ไม่ เนื่องจากผลลัพธ์มากกว่า 99% เป็นผลบวกเท็จ[ 12 ]

กลไกที่แตกต่างกันจะขยายผลกระทบนี้ในการคัดกรองคุณลักษณะหลายอย่าง ในขณะที่การจับคู่คุณลักษณะที่กำหนดไว้ล่วงหน้า 15 รายการมีความน่าจะเป็น 10 −35 (หนึ่งใน 30 เดซิลเลียน) ระบบที่ระบุบุคคลที่ตรงกับ คุณลักษณะ ใดๆ 15 รายการจาก 1,000 รายการจะมีความน่าจะเป็นของการแจ้งเตือนผิดพลาดต่อคนประมาณ 10 −4ซึ่งเป็นความแตกต่าง 31 ลำดับขนาดที่เกิดจากการรวมกันของกฎเกณฑ์ ไม่ใช่อัตราพื้นฐานที่ต่ำเพียงอย่างเดียว ในเมืองที่มีประชากรหนึ่งล้านคน สิ่งนี้จะสร้างการแจ้งเตือนผิดพลาดประมาณ 226 ครั้ง ความน่าจะเป็นของ การแจ้งเตือนผิด พลาดเป็น ศูนย์ อยู่ที่ประมาณ 10 −99ระบบดังกล่าวแสดงการเปลี่ยนเฟสที่คมชัดที่ขนาดประชากรวิกฤต ซึ่งเกินกว่านั้นความล้มเหลวจะกลายเป็นเรื่องแน่นอนและไม่สามารถป้องกันได้ด้วยการปรับเกณฑ์[ 13 ]

ตัวอย่างที่ 4: การตรวจทางชีวภาพของผู้ต้องสงสัย

เกิดอาชญากรรมขึ้น การวิเคราะห์ทางนิติวิทยาศาสตร์ระบุว่าผู้กระทำผิดมีกรุ๊ปเลือดชนิดหนึ่ง ซึ่งพบได้ในประชากรเพียง 10% เท่านั้น ผู้ต้องสงสัยถูกจับกุม และพบว่ามีกรุ๊ปเลือดเดียวกันกับผู้กระทำผิด

อัยการอาจตั้งข้อหาผู้ต้องสงสัยโดยอาศัยหลักฐานดังกล่าวเพียงอย่างเดียว และอ้างในการพิจารณาคดีว่าโอกาสที่จำเลยจะมีความผิดอยู่ที่ 90%

อย่างไรก็ตาม ข้อสรุปนี้จะใกล้เคียงกับความถูกต้องก็ต่อเมื่อจำเลยถูกเลือกเป็นผู้ต้องสงสัยหลักโดยอาศัยหลักฐานที่แน่ชัดซึ่งค้นพบก่อนการตรวจเลือดและไม่เกี่ยวข้องกับการตรวจเลือด มิเช่นนั้น เหตุผลที่นำเสนอจะบกพร่อง เพราะมองข้ามความน่าจะเป็นสูงก่อนหน้า (นั่นคือ ก่อนการตรวจเลือด) ที่เขาเป็นคนบริสุทธิ์โดยบังเอิญ สมมติว่ามีคน 1,000 คนอาศัยอยู่ในเมืองที่เกิดอาชญากรรม นั่นหมายความว่ามี 100 คนที่มีกรุ๊ปเลือดเดียวกับผู้กระทำความผิด ซึ่งมีเพียงคนเดียวเท่านั้นที่เป็นผู้กระทำความผิดที่แท้จริง ดังนั้น ความน่าจะเป็นที่แท้จริงที่จำเลยมีความผิด – โดยอาศัยเพียงข้อเท็จจริงที่ว่ากรุ๊ปเลือดของเขาตรงกับของฆาตกร – จึงมีเพียง 1% ซึ่งน้อยกว่า 90% ที่อัยการกล่าวอ้างมาก

ความผิดพลาดของอัยการเกี่ยวข้องกับการสมมติว่าความน่าจะเป็นก่อนหน้าของการจับคู่แบบสุ่มเท่ากับความน่าจะเป็นที่จำเลยเป็นผู้บริสุทธิ์ เมื่อใช้ความผิดพลาดนี้ อัยการที่ซักถามพยานผู้เชี่ยวชาญอาจถามว่า: "โอกาสที่จะพบหลักฐานนี้ในตัวคนบริสุทธิ์นั้นน้อยมากจนคณะลูกขุนสามารถเพิกเฉยต่อความเป็นไปได้ที่จำเลยคนนี้เป็นผู้บริสุทธิ์ได้อย่างปลอดภัย ถูกต้องหรือไม่?" [ 14 ]ข้ออ้างนี้สมมติว่าความน่าจะเป็นที่จะพบหลักฐานในตัวคนบริสุทธิ์นั้นเท่ากับความน่าจะเป็นที่คนคนนั้นเป็นผู้บริสุทธิ์เมื่อพิจารณาจากหลักฐานที่พบในตัวเขา ซึ่งไม่เป็นความจริง ในขณะที่ความน่าจะเป็นแรกมักจะน้อย (10% ในตัวอย่างก่อนหน้านี้) เนื่องจาก ขั้นตอนการ ตรวจสอบหลักฐานทางนิติวิทยาศาสตร์ ที่ดี แต่ความน่าจะเป็นหลัง (99% ในตัวอย่างนั้น) ไม่ได้เกี่ยวข้องโดยตรงกับความน่าจะเป็นแรก และมักจะสูงกว่ามาก เนื่องจากในความเป็นจริงแล้วขึ้นอยู่กับความน่าจะ เป็นก่อนหน้าที่ค่อนข้างสูงที่จำเลยจะเป็นบุคคลบริสุทธิ์แบบสุ่ม

ตัวอย่างในทางกฎหมาย

การพิจารณาคดีของโอเจ ซิมป์สัน

โอเจ ซิมป์สันถูกนำตัวขึ้นศาลและพ้นผิดในปี 1995 ในข้อหาฆาตกรรมนิโคล บราวน์ ซิมป์สัน อดีตภรรยาของเขา และโรนัลด์ โกลด์แมน เพื่อนของเธอ

เลือดในที่เกิดเหตุตรงกับเลือดของซิมป์สัน โดยมีลักษณะที่พบได้เพียง 1 ใน 400 คน อย่างไรก็ตาม ฝ่ายจำเลยโต้แย้งว่าจำนวนคนจากลอสแอนเจลิสที่มีลักษณะตรงกับตัวอย่างนั้นสามารถเติมเต็มสนามฟุตบอลได้ และตัวเลข 1 ใน 400 นั้นไม่มีประโยชน์[ 15 ] [ 16 ]การพึ่งพาตัวเลข "1 ใน 400" เพียงอย่างเดียวเพื่อสรุปว่าบุคคลที่มีลักษณะตรงกับตัวอย่างนั้นมีแนวโน้มที่จะเป็นผู้กระทำผิดนั้น ถือเป็นความผิดพลาดของอัยการ และเป็นตัวอย่างของความผิดพลาดของอัยการ

แผนภูมิความถี่ของหญิงชาวอเมริกันที่ถูกทำร้าย 100,000 คน แสดงให้เห็นถึงความผิดพลาดของอัตราพื้นฐานที่ฝ่ายจำเลยใช้ในคดีฆาตกรรมโอเจ ซิมป์สัน

ในการพิจารณาคดีเดียวกัน อัยการได้นำเสนอหลักฐานว่าซิมป์สันใช้ความรุนแรงต่อภรรยาของเขา ฝ่ายจำเลยโต้แย้งว่ามีผู้หญิงเพียง 1 คนที่ถูกฆาตกรรมต่อผู้หญิง 2,500 คนที่ถูกทำร้ายร่างกายโดยคู่สมรส และประวัติการใช้ความรุนแรงของซิมป์สันต่อภรรยาของเขานั้นไม่เกี่ยวข้องกับการพิจารณาคดี อย่างไรก็ตาม เหตุผลเบื้องหลังการคำนวณของฝ่ายจำเลยนั้นผิดพลาด ตามที่ผู้เขียนGerd Gigerenzer กล่าว ไว้ ความน่าจะเป็นที่ถูกต้องนั้นต้องการบริบทเพิ่มเติม: ภรรยาของซิมป์สันไม่เพียงแต่ถูกทำร้ายร่างกายในครอบครัวเท่านั้น แต่ยังถูกทำร้ายร่างกายในครอบครัว (โดยซิมป์สัน) และถูกฆ่า (โดยคนอื่น) Gigerenzer เขียนว่า "โอกาสที่ผู้ทำร้ายร่างกายจะฆ่าคู่ของตนจริง ๆ เมื่อพิจารณาว่าเธอถูกฆ่าแล้วนั้นอยู่ที่ประมาณ 8 ใน 9 หรือประมาณ 90%" [ 17 ]ในขณะที่กรณีการทำร้ายร่างกายคู่สมรสส่วนใหญ่ไม่ได้จบลงด้วยการฆาตกรรม แต่กรณีฆาตกรรมส่วนใหญ่ที่มีประวัติการทำร้ายร่างกายคู่สมรส มักกระทำโดยคู่สมรส

คดีของแซลลี่ คลาร์ก

แซลลี่ คลาร์กหญิงชาวอังกฤษ ถูกกล่าวหาในปี 1998 ว่าฆ่าลูกคนแรกของเธอเมื่ออายุ 11 สัปดาห์ และฆ่าลูกคนที่สองเมื่ออายุ 8 สัปดาห์ อัยการได้ให้พยานผู้เชี่ยวชาญคือ เซอร์รอย เมโดว์ศาสตราจารย์และกุมารแพทย์ที่ปรึกษา[ 18 ]ให้การว่าโอกาสที่เด็กสองคนในครอบครัวเดียวกันจะเสียชีวิตจากSIDSนั้นอยู่ที่ประมาณ 1 ใน 73 ล้าน ซึ่งน้อยกว่าอัตราจริงที่วัดได้จากข้อมูลในอดีต มาก  เมโดว์ประมาณการจากข้อมูลการเสียชีวิตจาก SIDS เพียงครั้งเดียว และสมมติฐานที่ว่าความน่าจะเป็นของการเสียชีวิตดังกล่าวไม่ควรมีความสัมพันธ์กันระหว่างทารก[ 19 ]

Meadow ยอมรับว่า 1 ใน 73 ล้านไม่ใช่เรื่องที่เป็นไปไม่ได้ แต่แย้งว่าอุบัติเหตุเช่นนี้จะเกิดขึ้น "ครั้งเดียวในรอบร้อยปี" และในประเทศที่มีครอบครัวที่มีลูกสองคนจำนวน 15 ล้านครอบครัว โอกาสที่การเสียชีวิตพร้อมกันสองคนจะเป็นผลมาจากกลุ่มอาการมุนเชาเซนโดยอ้อมนั้นมีมากกว่าอุบัติเหตุที่หายากเช่นนี้ อย่างไรก็ตาม มีเหตุผลที่ดีที่จะสันนิษฐานว่าโอกาสที่จะเสียชีวิตจาก SIDS ในครอบครัวจะสูงขึ้นอย่างมีนัยสำคัญหากเด็กคนก่อนหน้าเสียชีวิตในสถานการณ์เช่นนี้ ( ความโน้มเอียงทางพันธุกรรมต่อ SIDS มีแนวโน้มที่จะทำให้ ความเป็น อิสระทางสถิติ ที่สันนิษฐานไว้นั้นเป็นโมฆะ [ 20 ] ) ทำให้บางครอบครัวมีความเสี่ยงต่อ SIDS มากขึ้น และข้อผิดพลาดเป็นผลมาจาก ความผิดพลาด ทางนิเวศวิทยา[ 21 ] ไม่สามารถ ประมาณโอกาสที่จะเสียชีวิตจาก SIDS สองครั้งในครอบครัวเดียวกันได้อย่างถูกต้องโดยการยกกำลังสองโอกาสที่จะเสียชีวิตเพียงครั้งเดียวในครอบครัวที่คล้ายคลึงกันทั้งหมด[ 22 ]

ตัวเลข 1 ใน 73 ล้านนั้นประเมินโอกาสที่จะเกิดอุบัติเหตุสองครั้งติดต่อกันต่ำเกินไปมาก แต่ถึงแม้การประเมินนั้นจะถูกต้อง ศาลก็ดูเหมือนจะมองข้ามข้อเท็จจริงที่ว่าตัวเลข 1 ใน 73 ล้านนั้นไม่มีความหมายอะไรในตัวมันเอง ในฐานะที่เป็น ความน่าจะ เป็นเบื้องต้นมันควรจะถูกนำมาเปรียบเทียบกับ ความน่าจะ เป็นเบื้องต้นของทางเลือกอื่นๆ เนื่องจากมีผู้เสียชีวิตสองรายแล้ว คำอธิบายอย่างใดอย่างหนึ่งต่อไปนี้จะต้องเป็นจริง และทั้งหมดนี้ล้วนมี ความน่าจะเป็น เบื้องต้นต่ำมาก:

  1. มีผู้เสียชีวิตสองรายติดต่อกันในครอบครัวเดียวกัน โดยทั้งสองรายเสียชีวิตจากภาวะ SIDS (กลุ่มอาการเสียชีวิตเฉียบพลันในทารก)
  2. คดีฆาตกรรมสองศพ (ข้อกล่าวหาของฝ่ายโจทก์)
  3. ความเป็นไปได้อื่นๆ (รวมถึงคดีฆาตกรรม 1 คดี และคดีเสียชีวิตเฉียบพลันในทารก 1 คดี)

ยังไม่ชัดเจนว่ามีการเสนอค่าประมาณความน่าจะเป็นสำหรับความเป็นไปได้ที่สองในระหว่างการพิจารณาคดีหรือไม่ หรือว่าการเปรียบเทียบความน่าจะเป็นสองข้อแรกนั้นถือเป็นค่าประมาณสำคัญที่จะนำมาใช้ในการวิเคราะห์ทางสถิติเพื่อประเมินข้อกล่าวหาของฝ่ายโจทก์เทียบกับข้อกล่าวหาว่าจำเลยบริสุทธิ์

คลาร์กถูกตัดสินว่ามีความผิดในปี พ.ศ. 2542 ส่งผลให้ สมาคมสถิติแห่งราชวงศ์ออกแถลงการณ์ชี้แจงถึงข้อผิดพลาด[ 23 ]

ในปี พ.ศ. 2545 เรย์ ฮิลล์ (ศาสตราจารย์คณิตศาสตร์ที่ซัลฟอร์ด ) พยายามเปรียบเทียบโอกาสของคำอธิบายที่เป็นไปได้สองข้อนี้อย่างแม่นยำ เขาได้สรุปว่าอุบัติเหตุที่เกิดขึ้นต่อเนื่องกันมีโอกาสเกิดขึ้นมากกว่าการฆาตกรรมที่เกิดขึ้นต่อเนื่องกันถึง 4.5 ถึง 9 เท่า ดังนั้นโอกาสที่คลาร์กจะมีความผิดจึงอยู่ระหว่าง 4.5 ต่อ 1 ถึง 9 ต่อ 1 [ 24 ]

หลังจากที่ศาลพบว่าแพทย์นิติเวชที่ตรวจทารกทั้งสองคนได้ปกปิดหลักฐานที่แสดงว่าไม่มีความผิด ศาลที่สูงกว่าจึงได้ยกเลิกคำพิพากษาลงโทษคลาร์กในวันที่ 29 มกราคม พ.ศ. 2546 [ 25 ]

ผลการค้นพบในด้านจิตวิทยา

จากการทดลองพบว่าผู้คนมักชอบข้อมูลเฉพาะบุคคลมากกว่าข้อมูลทั่วไปเมื่อมีข้อมูลเฉพาะบุคคลให้เลือก[ 26 ] [ 27 ] [ 28 ]

ในการทดลองบางอย่าง นักเรียนถูกขอให้ประเมินเกรดเฉลี่ย (GPA) ของนักเรียนสมมติ เมื่อได้รับสถิติที่เกี่ยวข้องเกี่ยวกับการกระจาย GPA นักเรียนมักจะเพิกเฉยต่อสถิติเหล่านั้นหากได้รับข้อมูลเชิงพรรณนาเกี่ยวกับนักเรียนคนนั้น แม้ว่าข้อมูลเชิงพรรณนาใหม่จะเห็นได้ชัดว่ามีความเกี่ยวข้องเพียงเล็กน้อยหรือไม่เกี่ยวข้องกับผลการเรียนในโรงเรียนเลยก็ตาม[ 27 ]ผลการค้นพบนี้ถูกนำมาใช้เพื่อโต้แย้งว่าการสัมภาษณ์เป็นส่วนที่ไม่จำเป็นของ กระบวนการ รับเข้าเรียนในวิทยาลัยเนื่องจากผู้สัมภาษณ์ไม่สามารถเลือกผู้สมัครที่ประสบความสำเร็จได้ดีกว่าสถิติพื้นฐาน

นักจิตวิทยาDaniel KahnemanและAmos Tverskyพยายามอธิบายการค้นพบนี้ในแง่ของกฎง่ายๆ หรือ "ฮิวริสติก"ที่เรียกว่าการเป็นตัวแทนพวกเขาโต้แย้งว่าการตัดสินหลายอย่างที่เกี่ยวข้องกับความเป็นไปได้ หรือสาเหตุและผลกระทบ ขึ้นอยู่กับว่าสิ่งหนึ่งเป็นตัวแทนของอีกสิ่งหนึ่ง หรือของหมวดหมู่มากน้อยเพียงใด[ 27 ] Kahneman ถือว่าการละเลยอัตราพื้นฐานเป็นรูปแบบเฉพาะของการละเลยส่วนขยาย [ 29 ] Richard Nisbettได้โต้แย้งว่าอคติในการระบุสาเหตุ บางอย่าง เช่นข้อผิดพลาดในการระบุสาเหตุพื้นฐานเป็นตัวอย่างของความผิดพลาดของอัตราพื้นฐาน: ผู้คนไม่ได้ใช้ "ข้อมูลฉันทามติ" ("อัตราพื้นฐาน") เกี่ยวกับพฤติกรรมของผู้อื่นในสถานการณ์ที่คล้ายคลึงกัน แต่กลับชอบ การระบุสาเหตุ ตามลักษณะนิสัย ที่ง่ายกว่า [ 30 ]

มีการถกเถียงกันอย่างมากในสาขาจิตวิทยาเกี่ยวกับเงื่อนไขที่ผู้คนจะหรือไม่อาจชื่นชมข้อมูลอัตราพื้นฐาน[ 31 ] [ 32 ]นักวิจัยในโครงการฮิวริสติกส์และอคติได้เน้นย้ำถึงผลการค้นพบเชิงประจักษ์ที่แสดงให้เห็นว่าผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐานและทำการอนุมานที่ละเมิดบรรทัดฐานบางประการของการให้เหตุผลเชิงความน่าจะเป็น เช่นทฤษฎีบทของเบย์สข้อสรุปที่ได้จากการวิจัยนี้คือ การคิดเชิงความน่าจะเป็นของมนุษย์นั้นมีข้อบกพร่องพื้นฐานและมีแนวโน้มที่จะเกิดข้อผิดพลาด[ 33 ]นักวิจัยคนอื่นๆ ได้เน้นย้ำถึงความเชื่อมโยงระหว่างกระบวนการทางปัญญาและรูปแบบข้อมูล โดยโต้แย้งว่าข้อสรุปดังกล่าวโดยทั่วไปไม่ได้รับการรับรอง[ 34 ] [ 35 ]

ลองพิจารณาตัวอย่างที่ 2 จากข้างต้นอีกครั้ง การอนุมานที่ต้องการคือการประมาณความน่าจะเป็น (ภายหลัง) ที่ผู้ขับขี่ (ที่สุ่มเลือก) จะเมาสุรา เมื่อทราบว่าผลการตรวจวัดแอลกอฮอล์ในลมหายใจเป็นบวก ในทางทฤษฎี ความน่าจะเป็นนี้สามารถคำนวณได้โดยใช้ทฤษฎีบทของเบย์ส ดังที่แสดงไว้ข้างต้น อย่างไรก็ตาม มีวิธีการนำเสนอข้อมูลที่เกี่ยวข้องที่แตกต่างกันออกไป ลองพิจารณาตัวอย่างต่อไปนี้ ซึ่งมีรูปแบบที่เทียบเท่ากันในเชิงทฤษฎี:

 ในจำนวนผู้ขับขี่ 1,000 คน เมาแล้วขับ มี 1 คนที่ขับรถขณะเมาสุรา เครื่องตรวจวัดแอลกอฮอล์ในลมหายใจไม่เคยพลาดที่จะตรวจจับคนเมาจริง ๆ ส่วนในจำนวนผู้ขับขี่ 999 คน ที่ไม่ได้เมาสุรา มี 50 คนที่เครื่องตรวจวัดแสดงผลผิดพลาดว่าเมา สมมติว่าตำรวจสุ่มหยุดรถผู้ขับขี่คนหนึ่ง และบังคับให้เขาทำการทดสอบด้วยเครื่องตรวจวัดแอลกอฮอล์ ผลการทดสอบระบุว่าเขาเมาสุรา โดยไม่มีข้อมูลอื่นใดเกี่ยวกับเขา จงประมาณความน่าจะเป็นที่ผู้ขับขี่คนนั้นเมาสุราจริง ๆ

ในกรณีนี้ ข้อมูลตัวเลขที่เกี่ยวข้อง— p (เมา), p ( D | เมา), p ( D | ไม่เมา)—จะถูกนำเสนอในรูปของความถี่ตามธรรมชาติโดยสัมพันธ์กับกลุ่มอ้างอิงที่กำหนด (ดูปัญหาของกลุ่มอ้างอิง ) การศึกษาเชิงประจักษ์แสดงให้เห็นว่าการอนุมานของผู้คนสอดคล้องกับกฎของเบย์สมากขึ้นเมื่อนำเสนอข้อมูลในลักษณะนี้ ซึ่งช่วยเอาชนะการละเลยอัตราพื้นฐานในคนทั่วไป[ 35 ]และผู้เชี่ยวชาญ[ 36 ]ด้วยเหตุนี้ องค์กรต่างๆ เช่นCochrane Collaborationจึงแนะนำให้ใช้รูปแบบนี้ในการสื่อสารสถิติสุขภาพ[ 37 ]การสอนให้ผู้คนแปลปัญหาการให้เหตุผลแบบเบย์สเหล่านี้ให้เป็นรูปแบบความถี่ตามธรรมชาติมีประสิทธิภาพมากกว่าการสอนให้พวกเขาใส่ค่าความน่าจะเป็น (หรือเปอร์เซ็นต์) ลงในทฤษฎีบทของเบย์สเพียงอย่างเดียว[ 38 ]นอกจากนี้ยังแสดงให้เห็นว่าการแสดงความถี่ตามธรรมชาติในรูปแบบกราฟิก (เช่น อาร์เรย์ไอคอน แผนภาพผลลัพธ์สมมติ) ช่วยให้ผู้คนอนุมานได้ดีขึ้น[ 38 ] [ 39 ] [ 40 ] [ 41 ]

เหตุผลสำคัญประการหนึ่งที่รูปแบบความถี่ธรรมชาติมีประโยชน์คือ รูปแบบข้อมูลนี้ช่วยอำนวยความสะดวกในการอนุมานที่จำเป็น เนื่องจากช่วยลดความซับซ้อนของการคำนวณที่จำเป็น สามารถเห็นได้จากการใช้อีกวิธีหนึ่งในการคำนวณความน่าจะเป็นที่ต้องการp (เมา| D ):

โดยที่N (เมา ∩ D ) หมายถึงจำนวนผู้ขับขี่ที่เมาสุราและได้ผลตรวจลมหายใจเป็นบวก และN ( D ) หมายถึงจำนวนกรณีทั้งหมดที่ได้ผลตรวจลมหายใจเป็นบวก ความเท่าเทียมกันของสมการนี้กับสมการข้างต้นเป็นไปตามสัจพจน์ของทฤษฎีความน่าจะเป็น ซึ่งN (เมา ∩ D ) = N × p ( D | เมา) × p (เมา) ที่สำคัญคือ แม้ว่าสมการนี้จะเทียบเท่ากับกฎของเบย์สในเชิงรูปแบบ แต่ก็ไม่เทียบเท่ากันในเชิงจิตวิทยา การใช้ความถี่ธรรมชาติทำให้การอนุมานง่ายขึ้น เนื่องจากสามารถดำเนินการทางคณิตศาสตร์ที่จำเป็นกับจำนวนธรรมชาติได้ แทนที่จะเป็นเศษส่วนมาตรฐาน (เช่น ความน่าจะเป็น) เนื่องจากทำให้จำนวนผลบวกเท็จที่สูงมีความโปร่งใสมากขึ้น และเนื่องจากความถี่ธรรมชาติแสดง "โครงสร้างเซตซ้อน" [ 42 ] [ 43 ]

รูปแบบความถี่ทุกรูปแบบไม่ได้เอื้อต่อการให้เหตุผลแบบเบย์เซียนเสมอไป[ 43 ] [ 44 ]ความถี่ตามธรรมชาติหมายถึงข้อมูลความถี่ที่ได้จากการสุ่มตัวอย่างตามธรรมชาติ [ 45 ] ซึ่งรักษาข้อมูลอัตราพื้นฐานไว้ (เช่น จำนวนผู้ขับขี่ที่เมาสุราเมื่อสุ่มตัวอย่างผู้ขับขี่) ซึ่งแตกต่างจากการสุ่มตัวอย่างแบบเป็นระบบซึ่งอัตราพื้นฐานถูกกำหนดไว้ล่วงหน้า (เช่น ในการทดลองทางวิทยาศาสตร์) ในกรณีหลังนี้ เป็นไปไม่ได้ที่จะอนุมานความน่าจะเป็นภายหลังp (เมาสุรา | ผลการทดสอบเป็นบวก) จากการเปรียบเทียบจำนวนผู้ขับขี่ที่เมาสุราและผลการทดสอบเป็นบวกกับจำนวนคนทั้งหมดที่ได้ผลการทดสอบลมหายใจเป็นบวก เนื่องจากข้อมูลอัตราพื้นฐานไม่ได้รับการรักษาไว้และต้องนำกลับมาใช้ใหม่โดยชัดเจนโดยใช้ทฤษฎีบทของเบย์เซียน

ดูเพิ่มเติม

  • ความเข้าใจผิดเกี่ยวกับอัตราดอกเบี้ยพื้นฐานแฟ้มความเข้าใจผิด
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Base_rate_fallacy&oldid=1353035317 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความเข้าใจผิดเกี่ยวกับอัตราพื้นฐาน

ความเข้าใจผิดเรื่องอัตราพื้นฐานหรือที่เรียกว่าการละเลยอัตราพื้นฐานหรืออคติอัตราพื้นฐานเป็นความเข้าใจผิด ประเภทหนึ่ง ที่ผู้คนมักจะเพิกเฉยต่ออัตราพื้นฐาน (เช่นการแพร่กระจาย ทั่วไป )

ปรากฏการณ์ผลบวกเท็จ

ตัวอย่างหนึ่งของความผิดพลาดเรื่องอัตราพื้นฐานคือ ปรากฏการณ์ผลบวกเท็จ (หรือที่รู้จักกันในชื่อ ปรากฏการณ์ความแม่นยำ ) ปรากฏการณ์นี้อธิบายถึงสถานการณ์ที่มี ผลการทดสอบผล บวกเท็จ มากกว่าผลบวกจริง (ซึ่งหมายความว่าตัวจำแนกมี ความแม่นยำ ต่ำ) ตัวอย่างเช่น...

ตัวอย่างที่ 1: โรคภัยไข้เจ็บ

ลองนึกภาพว่าเรากำลังทำการทดสอบโรคติดต่อในประชากร A จำนวน 1,000 คน โดย 40% ของประชากรนี้ติดเชื้อ การทดสอบนี้มีอัตราผลบวกเท็จ 5% (0.05) และอัตราผลลบเท็จเป็นศูนย์ ผลลัพธ์ที่คาดหวัง จากการทดสอบ 1,000 ครั้งในประชากร A จะเป็นดังนี้:

ตัวอย่างที่ 2: ผู้ขับขี่ที่เมาสุรา

ลองจินตนาการว่ากลุ่มเจ้าหน้าที่ตำรวจมี เครื่องตรวจวัดแอลกอฮอล์ในลม หายใจ ซึ่งแสดงผลผิดพลาดว่าเมาสุราใน 5% ของกรณีที่ผู้ขับขี่ไม่ได้เมาสุรา อย่างไรก็ตาม เครื่องตรวจวัดแอลกอฮอล์จะไม่เคยพลาดการตรวจจับคนเมาสุราจริง ๆ มีผู้ขับขี่ที่เมาสุรา 1 ใน 1,000 คน...