การใช้สถิติในทางที่ผิด

สถิติเมื่อนำมาใช้ในลักษณะที่ทำให้เข้าใจผิด อาจทำให้ผู้สังเกตการณ์ทั่วไปเชื่อในสิ่งที่แตกต่างจากสิ่งที่ข้อมูลแสดงให้เห็น กล่าวคือการใช้สถิติในทางที่ผิดเกิดขึ้นเมื่อข้อโต้แย้งทางสถิติกล่าวอ้างถึงความเท็จในบางกรณี การใช้ในทางที่ผิดอาจเกิดขึ้นโดยไม่ได้ตั้งใจ ในบางกรณี อาจเป็นการกระทำโดยเจตนาเพื่อผลประโยชน์ของผู้กระทำ เมื่อเหตุผลทางสถิติที่เกี่ยวข้องเป็นเท็จหรือนำไปใช้ผิดวิธี นี่ถือเป็นความผิดพลาดทาง สถิติ

ผลที่ตามมาจากการตีความผิดพลาดดังกล่าวอาจร้ายแรงมาก ตัวอย่างเช่น ในวิทยาศาสตร์การแพทย์ การแก้ไขความเท็จอาจใช้เวลาหลายทศวรรษและอาจทำให้เสียชีวิตได้ ในทำนองเดียวกัน ในสังคมประชาธิปไตย สถิติที่ถูกนำไปใช้ในทางที่ผิดอาจบิดเบือนความเข้าใจของสาธารณชน ฝังรากข้อมูลที่ผิดพลาด และทำให้รัฐบาลสามารถดำเนินนโยบายที่เป็นอันตรายได้โดยไม่ต้องรับผิดชอบ^{[ 1 ]}

การใช้สถิติอย่างผิดวิธีนั้นเกิดขึ้นได้ง่าย นักวิทยาศาสตร์ นักคณิตศาสตร์ หรือแม้แต่นักสถิติมืออาชีพ ก็อาจถูกหลอกได้ด้วยวิธีการง่ายๆ บางอย่าง ถึงแม้จะตรวจสอบทุกอย่างอย่างระมัดระวังแล้วก็ตาม นักวิทยาศาสตร์หลายคนเคยถูกหลอกด้วยสถิติเนื่องจากขาดความรู้ในทฤษฎีความน่าจะเป็นและขาดมาตรฐานในการทดสอบ ของ ตน

คำจำกัดความ ข้อจำกัด และบริบท

คำจำกัดความที่ใช้ได้ข้อหนึ่งคือ: "การใช้สถิติในทางที่ผิด: การใช้ตัวเลขในลักษณะที่ – ไม่ว่าจะโดยเจตนาหรือโดยความไม่รู้หรือความประมาท – ทำให้ข้อสรุปไม่สมเหตุสมผลหรือไม่ถูกต้อง" ^{[ 2 ]} "ตัวเลข" รวมถึงกราฟิกที่ทำให้เข้าใจผิดซึ่งกล่าวถึงในแหล่งข้อมูลอื่น คำนี้ไม่ค่อยพบในตำราสถิติ และไม่มีคำจำกัดความที่เป็นทางการเพียงคำเดียว เป็นการสรุปโดยทั่วไปของการโกหกด้วยสถิติซึ่งได้รับการอธิบายอย่างละเอียดด้วยตัวอย่างจากนักสถิติเมื่อ 60 ปีที่แล้ว

คำจำกัดความนี้เผชิญกับปัญหาบางประการ (บางส่วนได้รับการแก้ไขโดยแหล่งที่มา): ^{[ 3 ]}

โดยทั่วไปแล้วสถิติจะให้ค่าความน่าจะเป็น ส่วนข้อสรุปนั้นเป็นเพียงเบื้องต้น
ข้อสรุปเบื้องต้นมีข้อผิดพลาดและอัตราข้อผิดพลาด โดยทั่วไปแล้ว 5% ของข้อสรุปเบื้องต้นของการทดสอบนัยสำคัญจะผิดพลาด
นักสถิติยังไม่เห็นพ้องต้องกันอย่างสมบูรณ์เกี่ยวกับวิธีการที่เหมาะสมที่สุด
วิธีการทางสถิติตั้งอยู่บนสมมติฐานซึ่งมักจะไม่เป็นไปตามที่คาดไว้โดยสมบูรณ์
การเก็บรวบรวมข้อมูลมักถูกจำกัดด้วยข้อจำกัดด้านจริยธรรม ความเป็นจริง และงบประมาณ

หนังสือ How to Lie with Statisticsยอมรับว่าสถิติสามารถ มีได้หลายรูปแบบอย่าง ถูกต้องตามกฎหมายไม่ว่าสถิติจะแสดงให้เห็นว่าผลิตภัณฑ์นั้น "เบาและประหยัด" หรือ "บอบบางและราคาถูก" ก็สามารถถกเถียงกันได้ไม่ว่าตัวเลขจะเป็นอย่างไรก็ตาม บางคนคัดค้านการนำความถูกต้องทางสถิติมาแทนที่ความเป็นผู้นำทางศีลธรรม (เป็นต้น) ในฐานะเป้าหมาย การหาผู้รับผิดชอบต่อการใช้สถิติในทางที่ผิดมักเป็นเรื่องยาก เพราะนักวิทยาศาสตร์ นักสำรวจความคิดเห็น นักสถิติ และนักข่าว มักเป็นพนักงานหรือที่ปรึกษา

การใช้สถิติในทางที่ผิดอย่างร้ายแรงนั้นเกิดขึ้นได้จากผู้ฟัง ผู้สังเกตการณ์ ผู้ชม หรือคณะลูกขุน ผู้ให้ข้อมูลนำเสนอ "สถิติ" ในรูปแบบตัวเลขหรือกราฟ (หรือภาพถ่ายก่อน/หลัง) ทำให้ผู้บริโภคสามารถสรุปผลที่ไม่เป็นธรรมหรือไม่ถูกต้องได้ความรู้ความเข้าใจด้านสถิติ ของประชาชนที่อยู่ในระดับต่ำ และสัญชาตญาณของมนุษย์ที่ไม่เกี่ยวข้องกับสถิติ ทำให้สามารถหลอกลวงได้โดยไม่ต้องสรุปผลที่ผิดพลาดอย่างชัดเจน คำจำกัดความเกี่ยวกับความรับผิดชอบของผู้บริโภคสถิตินั้นอ่อนแอ

นักประวัติศาสตร์ได้ระบุข้อผิดพลาดมากกว่า 100 รายการใน 12 หมวดหมู่ รวมถึงข้อผิดพลาดเกี่ยวกับการสรุปทั่วไปและข้อผิดพลาดเกี่ยวกับสาเหตุ^{[ 4 ]} ข้อผิดพลาดบางประการเป็นข้อผิดพลาดทางสถิติอย่างชัดเจนหรืออาจเป็นไปได้ รวมถึงการสุ่มตัวอย่าง ความไร้สาระทางสถิติ ความน่าจะเป็นทางสถิติ การคาดการณ์ที่ผิดพลาด การประมาณค่าที่ผิดพลาด และการสรุปทั่วไปที่แฝงเร้น ปัญหาทางเทคนิค/คณิตศาสตร์ทั้งหมดของความน่าจะเป็นประยุกต์จะอยู่ในข้อผิดพลาดเดียวที่ระบุไว้คือความน่าจะเป็นทางสถิติ ข้อผิดพลาดหลายประการสามารถเชื่อมโยงกับการวิเคราะห์ทางสถิติ ทำให้เกิดความเป็นไปได้ที่จะได้ข้อสรุปที่ผิดพลาดจากการวิเคราะห์ทางสถิติที่ถูกต้อง

ตัวอย่างการใช้สถิติคือการวิเคราะห์งานวิจัยทางการแพทย์ กระบวนการนี้รวมถึง^{[ 5 ]}^{[ 6 ]}การวางแผนการทดลอง การดำเนินการทดลอง การวิเคราะห์ข้อมูล การสรุปผลอย่างมีเหตุผล และการนำเสนอ/การรายงาน รายงานจะถูกสรุปโดยสื่อมวลชนและผู้โฆษณา การใช้สถิติในทางที่ผิดอาจเกิดจากปัญหาในขั้นตอนใดๆ ของกระบวนการ มาตรฐานทางสถิติที่กำหนดไว้สำหรับรายงานทางวิทยาศาสตร์นั้นแตกต่างจากมาตรฐานที่กำหนดไว้สำหรับสื่อมวลชนและผู้โฆษณามาก อย่างไรก็ตาม มีกรณีของการโฆษณาที่ปลอมตัวเป็นวิทยาศาสตร์ เช่นAustralasian Journal of Bone & Joint Medicineคำจำกัดความของการใช้สถิติในทางที่ผิดนั้นอ่อนแอในเรื่องความครบถ้วนของการรายงานทางสถิติที่จำเป็น มีการแสดงความคิดเห็นว่าหนังสือพิมพ์ต้องระบุแหล่งที่มาของสถิติที่รายงานอย่างน้อยที่สุด

สาเหตุง่ายๆ

การนำสถิติไปใช้ในทางที่ผิดมักเกิดขึ้นเนื่องจาก...

แหล่งข้อมูลนี้เป็นผู้เชี่ยวชาญเฉพาะเรื่อง ไม่ใช่ผู้เชี่ยวชาญด้านสถิติ^{[ 7 ]} แหล่งข้อมูลนี้อาจใช้วิธีการหรือตีความผลลัพธ์ไม่ถูกต้อง
แหล่งที่มาคือนักสถิติ ไม่ใช่ผู้เชี่ยวชาญเฉพาะเรื่อง^{[ 8 ]} ผู้เชี่ยวชาญควรรู้ว่าเมื่อใดที่ตัวเลขที่นำมาเปรียบเทียบกันนั้นอธิบายถึงสิ่งต่างๆ ที่แตกต่างกัน ตัวเลขจะเปลี่ยนแปลงไป ในขณะที่ความเป็นจริงไม่เปลี่ยนแปลง เมื่อคำจำกัดความทางกฎหมายหรือขอบเขตทางการเมืองเปลี่ยนแปลงไป
หัวข้อที่กำลังศึกษาไม่ได้ถูกกำหนดไว้อย่างชัดเจน^{[ 9 ]}หรือบางแง่มุมสามารถวัดปริมาณได้ง่าย ในขณะที่บางแง่มุมนั้นวัดปริมาณได้ยาก หรือไม่มีวิธีการวัดปริมาณที่เป็นที่รู้จัก (ดูข้อผิดพลาดของ McNamara ) ตัวอย่างเช่น:
- แม้ว่า จะมี แบบทดสอบ IQที่ให้ผลลัพธ์เป็นตัวเลข แต่ก็ยากที่จะระบุว่าแบบทดสอบเหล่านั้นวัดอะไร เนื่องจากสติปัญญาเป็นแนวคิดที่เข้าใจยาก
- การตีพิมพ์ "ผลกระทบ" ก็มีปัญหาเช่นเดียวกัน^{[ 10 ]}บทความทางวิทยาศาสตร์และวารสารวิชาการมักได้รับการจัดอันดับโดย "ผลกระทบ" ซึ่งวัดได้จากจำนวนการอ้างอิงโดยสิ่งพิมพ์ในภายหลัง นักคณิตศาสตร์และนักสถิติสรุปว่าผลกระทบ (แม้ว่าจะค่อนข้างเป็นกลาง) ไม่ใช่มาตรวัดที่มีความหมายมากนัก "การพึ่งพาข้อมูลการอ้างอิงเพียงอย่างเดียวทำให้เข้าใจงานวิจัย ได้ไม่สมบูรณ์และมักจะตื้นเขิน ซึ่งเป็นความเข้าใจที่ถูกต้องก็ต่อเมื่อได้รับการสนับสนุนจากการพิจารณาอื่นๆ ตัวเลขไม่ได้เหนือกว่าการพิจารณาที่สมเหตุสมผลเสมอไป"
- คำถามง่ายๆ เกี่ยวกับจำนวนคำในภาษาอังกฤษจะนำไปสู่คำถามเกี่ยวกับรูปแบบโบราณ การนับคำนำหน้าและคำต่อท้าย ความหมายที่หลากหลายของคำ การสะกดคำที่แตกต่างกัน ภาษาถิ่น การสร้างคำที่แปลกประหลาด (เช่น ectoplastistics จาก ectoplasm และ statistics) ^{[ 11 ]}คำศัพท์ทางเทคนิค และอื่นๆ
คุณภาพข้อมูลไม่ดี^{[ 12 ]}เครื่องแต่งกายเป็นตัวอย่างหนึ่ง ผู้คนมีขนาดและรูปร่างของร่างกายที่หลากหลาย เห็นได้ชัดว่าการกำหนดขนาดเครื่องแต่งกายต้องมีหลายมิติ แต่กลับมีความซับซ้อนในแบบที่ไม่คาด คิด เครื่องแต่งกาย บางชนิด ขายตามขนาดเท่านั้น (โดยไม่ได้พิจารณารูปร่างของร่างกายอย่างชัดเจน) ขนาดแตกต่างกันไปตามประเทศและผู้ผลิต และบางขนาดก็จงใจทำให้เข้าใจผิด แม้ว่าขนาดจะเป็นตัวเลข แต่การวิเคราะห์ทางสถิติอย่างหยาบที่สุดเท่านั้นที่สามารถทำได้โดยใช้ตัวเลขขนาดอย่างระมัดระวัง
สื่อกระแสหลักมีความเชี่ยวชาญจำกัดและมีแรงจูงใจที่หลากหลาย^{[ 13 ]}หากข้อเท็จจริงไม่ "น่าสนใจ" (ซึ่งอาจต้องมีการกล่าวเกินจริง) ก็อาจจะไม่ได้รับการตีพิมพ์ แรงจูงใจของผู้โฆษณายิ่งหลากหลายมากขึ้นไปอีก
“นักการเมืองใช้สถิติในลักษณะเดียวกับที่คนเมาใช้เสาไฟ—เพื่อพยุงตัวมากกว่าเพื่อให้แสงสว่าง” – แอนดรูว์ แลง (WikiQuote) “เราเรียนรู้อะไรจากสองวิธีในการมองตัวเลขเดียวกันนี้? เราเรียนรู้ว่านักโฆษณาชวนเชื่อที่ฉลาด ไม่ว่าจะเป็นฝ่ายขวาหรือฝ่ายซ้าย มักจะหาวิธีนำเสนอข้อมูลเกี่ยวกับการเติบโตทางเศรษฐกิจที่ดูเหมือนจะสนับสนุนข้อโต้แย้งของตนได้เสมอ และด้วยเหตุนี้เราจึงเรียนรู้ที่จะพิจารณาการวิเคราะห์ทางสถิติใดๆ จากแหล่งข้อมูลทางการเมืองอย่างเข้มข้นด้วยความระมัดระวัง” ^{[ 14 ]}คำว่าสถิติมีที่มาจากตัวเลขที่สร้างขึ้นและนำไปใช้โดยรัฐ รัฐบาลที่ดีอาจต้องการตัวเลขที่ถูกต้อง แต่รัฐบาลที่เป็นที่นิยมอาจต้องการตัวเลขที่สนับสนุน (ไม่จำเป็นต้องเหมือนกัน) “การใช้และการใช้สถิติในทางที่ผิดโดยรัฐบาลเป็นศิลปะโบราณ” ^{[ 15 ]}

ประเภทของการใช้ในทางที่ผิด

ละทิ้งข้อสังเกตที่ไม่พึงประประสงค์

ในการส่งเสริมผลิตภัณฑ์ที่เป็นกลาง (ไม่มีประโยชน์) บริษัทจะต้องค้นหาหรือดำเนินการศึกษา เช่น 40 การศึกษาที่มีระดับความเชื่อมั่น 95% หากผลิตภัณฑ์นั้นไม่มีประโยชน์ ก็จะมีผลการศึกษาหนึ่งชิ้นที่แสดงว่าผลิตภัณฑ์นั้นมีประโยชน์ ผลการศึกษาหนึ่งชิ้นที่แสดงว่ามีอันตราย และผลการศึกษาที่ไม่สามารถสรุปได้ 38 ชิ้น (38 คิดเป็น 95% ของ 40) กลยุทธ์นี้จะมีประสิทธิภาพมากขึ้นเมื่อมีจำนวนการศึกษามากขึ้น องค์กรที่ไม่เผยแพร่ผลการศึกษาทุกชิ้นที่ดำเนินการ เช่น บริษัทผลิตยาสูบที่ปฏิเสธความเชื่อมโยงระหว่างการสูบบุหรี่กับมะเร็ง กลุ่มรณรงค์ต่อต้านการสูบบุหรี่และสื่อต่างๆ ที่พยายามพิสูจน์ความเชื่อมโยงระหว่างการสูบบุหรี่กับโรคต่างๆ หรือผู้ขายยาที่อ้างว่าเป็นยาครอบคลุมทุกโรค มักจะใช้กลยุทธ์นี้

โรนัลด์ ฟิชเชอร์ได้พิจารณาประเด็นนี้ในตัวอย่างการทดลองชิมชาของสุภาพสตรี ที่มีชื่อเสียงของเขา (จากหนังสือ " การออกแบบการทดลอง " ปี 1935 ) เกี่ยวกับการทดลองซ้ำ เขากล่าวว่า "มันจะไม่มีความชอบธรรมและจะทำให้การคำนวณของเราขาดพื้นฐาน หากผลลัพธ์ที่ไม่ประสบความสำเร็จทั้งหมดไม่ได้ถูกนำมาพิจารณาด้วย"

อีกคำหนึ่งที่เกี่ยวข้องกับแนวคิดนี้คือการเลือกเฉพาะสิ่งที่ดีๆ (cherry picking )

การละเลยคุณสมบัติที่สำคัญ

ชุดข้อมูลหลายตัวแปรมี คุณลักษณะ/มิติสองอย่างขึ้นไปหากเลือกคุณลักษณะเหล่านี้มาวิเคราะห์น้อยเกินไป (ตัวอย่างเช่น หากเลือกเพียงคุณลักษณะเดียวและทำการถดถอยเชิงเส้นแบบง่าย แทนที่จะเป็นการ ถดถอยเชิงเส้นหลายตัวแปร ) ผลลัพธ์อาจทำให้เข้าใจผิดได้ ซึ่งทำให้ผู้ทำการวิเคราะห์เสี่ยงต่อความขัดแย้งทางสถิติ ต่างๆ หรือในบางกรณี (ไม่ใช่ทุกกรณี) อาจเกิดความสัมพันธ์เชิงสาเหตุที่ผิดพลาดดังที่กล่าวไว้ด้านล่าง

คำถามที่ชี้นำ

คำตอบจากการสำรวจมักถูกบิดเบือนได้โดยการตั้งคำถามในลักษณะที่ชักจูงให้ผู้ตอบเลือกคำตอบใดคำตอบหนึ่งเป็นพิเศษ ตัวอย่างเช่น ในการสำรวจความคิดเห็นเกี่ยวกับการสนับสนุนสงคราม คำถามที่ใช้คือ:

คุณสนับสนุนความพยายามของสหรัฐฯ ในการนำเสรีภาพและประชาธิปไตยไปสู่ประเทศอื่นๆ ทั่วโลกหรือไม่?
คุณสนับสนุนการใช้กำลังทหารโดยไม่มีเหตุผลอันสมควรของสหรัฐอเมริกาหรือไม่?

ถึงแม้ว่าทั้งสองแบบสอบถามจะถามถึงการสนับสนุนสงครามเหมือนกัน แต่ก็อาจทำให้ข้อมูลที่ได้มีความคลาดเคลื่อนไปในทิศทางที่แตกต่างกันได้ วิธีตั้งคำถามที่ดีกว่าอาจจะเป็น "คุณสนับสนุนปฏิบัติการทางทหารของสหรัฐฯ ในต่างประเทศในปัจจุบันหรือไม่?" หรือวิธีที่ค่อนข้างเป็นกลางกว่าคือ "คุณมีความคิดเห็นอย่างไรเกี่ยวกับปฏิบัติการทางทหารของสหรัฐฯ ในต่างประเทศในปัจจุบัน?" ประเด็นสำคัญคือ ผู้ถูกถามไม่สามารถเดาได้จากคำถามว่าผู้ถามต้องการได้ยินอะไร

อีกวิธีหนึ่งคือ การให้ข้อมูลสนับสนุนคำตอบที่ "ต้องการ" ก่อนคำถาม ตัวอย่างเช่น ผู้คนมักจะตอบว่า "ใช่" มากกว่าหากถามว่า "เมื่อพิจารณาถึงภาระภาษีที่เพิ่มขึ้นของครอบครัวชนชั้นกลาง คุณสนับสนุนการลดภาษีเงินได้หรือไม่" มากกว่าคำถามที่ว่า "เมื่อพิจารณาถึงการขาดดุลงบประมาณของรัฐบาลกลางที่เพิ่มขึ้นและความจำเป็นอย่างยิ่งที่จะต้องมีรายได้เพิ่ม คุณสนับสนุนการลดภาษีเงินได้หรือไม่"

การกำหนดคำถามที่เหมาะสมอาจมีความละเอียดอ่อนมาก แต่ถึงกระนั้นก็อาจส่งผลให้เกิดความแตกต่างอย่างมีนัยสำคัญในผลลัพธ์ นอกจากนี้ คำตอบของคำถามสองข้ออาจแตกต่างกันอย่างมาก ขึ้นอยู่กับลำดับที่ถาม^{[ 16 ]} "แบบสำรวจที่ถามเกี่ยวกับ 'การเป็นเจ้าของหุ้น' พบว่าเจ้าของฟาร์มปศุสัตว์ส่วนใหญ่ในเท็กซัสเป็นเจ้าของหุ้น แม้ว่าอาจจะไม่ใช่หุ้นประเภทที่ซื้อขายในตลาดหลักทรัพย์นิวยอร์กก็ตาม" ^{[ 17 ]}

การสรุปเกินจริง

การสรุปเกินจริงเป็นความผิดพลาดทางตรรกะที่เกิดขึ้นเมื่อมีการนำสถิติเกี่ยวกับประชากรกลุ่มหนึ่งไปกล่าวอ้างว่าใช้ได้กับสมาชิกของกลุ่มอื่นที่ไม่ใช่กลุ่มตัวอย่างที่เป็นตัวแทนของประชากรกลุ่มนั้น

ตัวอย่างเช่น สมมติว่าพบว่าแอปเปิลทั้งหมด 100% เป็นสีแดงในฤดูร้อน การกล่าวอ้างว่า "แอปเปิลทุกผลเป็นสีแดง" จะเป็นการสรุปเกินจริง เพราะสถิติเดิมเป็นจริงเฉพาะกับแอปเปิลกลุ่มย่อยเฉพาะกลุ่ม (แอปเปิลในฤดูร้อน) ซึ่งไม่คาดว่าจะแสดงถึงประชากรแอปเปิลทั้งหมด

ตัวอย่างในโลกแห่งความเป็นจริงของความผิดพลาดในการสรุปเกินจริง สามารถสังเกตได้จากเทคนิคการสำรวจความคิดเห็นสมัยใหม่ ซึ่งห้ามการโทรไปยังโทรศัพท์มือถือสำหรับการสำรวจความคิดเห็นทางการเมืองทางโทรศัพท์ เนื่องจากคนหนุ่มสาวมีแนวโน้มที่จะไม่มีโทรศัพท์บ้านมากกว่ากลุ่มประชากรอื่นๆ การสำรวจความคิดเห็นทางโทรศัพท์ที่สำรวจเฉพาะผู้ตอบแบบสอบถามที่ใช้โทรศัพท์บ้าน อาจทำให้ผลการสำรวจไม่ครอบคลุมความคิดเห็นของคนหนุ่มสาวอย่างเพียงพอ หากไม่มีมาตรการอื่นๆ มาแก้ไขความคลาดเคลื่อนของการสุ่มตัวอย่างนี้ ดังนั้น การสำรวจความคิดเห็นเกี่ยวกับความชอบในการลงคะแนนเสียงของคนหนุ่มสาวโดยใช้เทคนิคนี้ อาจไม่ใช่ตัวแทนที่ถูกต้องแม่นยำของความชอบในการลงคะแนนเสียงที่แท้จริงของคนหนุ่มสาวโดยรวมโดยไม่สรุปเกินจริง เพราะกลุ่มตัวอย่างที่ใช้ไม่รวมคนหนุ่มสาวที่ใช้โทรศัพท์มือถือเท่านั้น ซึ่งอาจมีหรือไม่มีความชอบในการลงคะแนนเสียงที่แตกต่างจากประชากรส่วนที่เหลือ

การสรุปเกินจริงมักเกิดขึ้นเมื่อข้อมูลถูกส่งต่อผ่านแหล่งข้อมูลที่ไม่ใช่เชิงเทคนิค โดยเฉพาะสื่อมวลชน

ตัวอย่างที่มีอคติ

นักวิทยาศาสตร์ได้เรียนรู้ด้วยต้นทุนมหาศาลว่าการรวบรวมข้อมูลการทดลองที่ดีสำหรับการวิเคราะห์ทางสถิติเป็นเรื่องยาก ตัวอย่างเช่น ผลของ ยาหลอก (จิตใจเหนือร่างกาย) มีอิทธิพลมาก ผู้ถูกทดลอง 100% เกิดผื่นขึ้นเมื่อสัมผัสกับสารเฉื่อยที่ถูกเรียกอย่างผิดๆ ว่าต้นไอวี่พิษ ในขณะที่มีเพียงไม่กี่รายที่เกิดผื่นขึ้นเมื่อสัมผัสกับวัตถุที่ "ไม่เป็นอันตราย" ซึ่งจริงๆ แล้วเป็นต้นไอวี่พิษ^{[ 18 ]} นักวิจัยต่อสู้กับผลกระทบนี้ด้วย การทดลองเปรียบเทียบแบบสุ่มแบบตาบอดสองทางนักสถิติมักจะกังวลเกี่ยวกับความถูกต้องของข้อมูลมากกว่าการวิเคราะห์ ซึ่งสะท้อนให้เห็นในสาขาวิชาหนึ่งในสถิติที่เรียกว่าการออกแบบการทดลอง

นักสำรวจได้เรียนรู้ด้วยต้นทุนมหาศาลว่าการรวบรวมข้อมูลสำรวจที่ดีสำหรับการวิเคราะห์ทางสถิตินั้นเป็นเรื่องยาก ผลกระทบแบบเลือกสรรของโทรศัพท์มือถือในการเก็บรวบรวมข้อมูล (ที่กล่าวถึงในส่วนการสรุปเกินจริง) เป็นตัวอย่างหนึ่งที่เป็นไปได้ หากคนหนุ่มสาวที่ใช้โทรศัพท์แบบดั้งเดิมไม่เป็นตัวแทน ตัวอย่างอาจมีความลำเอียง การสำรวจตัวอย่างมีข้อผิดพลาดมากมายและต้องใช้ความระมัดระวังอย่างมากในการดำเนินการ^{[ 19 ]} ความพยายามครั้งหนึ่งต้องใช้การโทรศัพท์เกือบ 3,000 ครั้งเพื่อให้ได้คำตอบ 1,000 คำตอบ ตัวอย่างสุ่มอย่างง่ายของประชากร "ไม่ใช่เรื่องง่ายและอาจไม่เป็นแบบสุ่ม" ^{[ 20 ]}

การรายงานผิดพลาดหรือความเข้าใจผิดเกี่ยวกับค่าความคลาดเคลื่อนที่ประเมินไว้

หากทีมวิจัยต้องการทราบว่าคน 300 ล้านคนมีความคิดเห็นอย่างไรเกี่ยวกับหัวข้อใดหัวข้อหนึ่ง การสอบถามความคิดเห็นจากทุกคนนั้นเป็นเรื่องที่ไม่สามารถทำได้จริง อย่างไรก็ตาม หากทีมวิจัยเลือกกลุ่มตัวอย่างแบบสุ่มประมาณ 1,000 คน พวกเขาสามารถมั่นใจได้ว่าผลลัพธ์ที่ได้จากกลุ่มตัวอย่างนี้เป็นตัวแทนของความคิดเห็นจากคนส่วนใหญ่ หากพวกเขาได้รับการสอบถามความคิดเห็นจากทุกคน

ความมั่นใจนี้สามารถวัดปริมาณได้จริงโดยใช้ทฤษฎีบทลิมิตกลางและผลลัพธ์ทางคณิตศาสตร์อื่นๆ ความมั่นใจแสดงออกมาในรูปของความน่าจะเป็นที่ผลลัพธ์ที่แท้จริง (สำหรับกลุ่มที่ใหญ่กว่า) จะอยู่ในช่วงที่กำหนดของค่าประมาณ (ตัวเลขสำหรับกลุ่มที่เล็กกว่า) นี่คือตัวเลข "บวกหรือลบ" ที่มักอ้างถึงในการสำรวจทางสถิติ ส่วนที่เป็นความน่าจะเป็นของระดับความมั่นใจมักไม่ได้กล่าวถึง หากกล่าวถึงก็มักจะถือว่าเป็นตัวเลขมาตรฐาน เช่น 95%

ตัวเลขทั้งสองมีความสัมพันธ์กัน หากแบบสำรวจมีค่าความคลาดเคลื่อนโดยประมาณ ±5% ที่ระดับความเชื่อมั่น 95% ก็จะมีค่าความคลาดเคลื่อนโดยประมาณ ±6.6% ที่ระดับความเชื่อมั่น 99% เช่นกัน ค่า ± % ที่ระดับความเชื่อมั่น 95% จะเป็นค่า ± % ที่ระดับความเชื่อมั่น 99% เสมอ สำหรับประชากรที่มีการกระจายแบบปกติ $x$ $1.32x$

ยิ่งค่าความคลาดเคลื่อนที่ประเมินได้น้อยลงเท่าใด ขนาดตัวอย่างที่ต้องการก็จะยิ่งใหญ่ขึ้นเท่านั้น ที่ระดับความเชื่อมั่นที่กำหนด ตัวอย่างเช่น ที่ ระดับความเชื่อมั่น 95.4% :

ความคลาดเคลื่อน ±1% จะต้องใช้คนถึง 10,000 คน
ความคลาดเคลื่อน ±2% จะต้องใช้คนถึง 2,500 คน
ความคลาดเคลื่อน ±3% จะต้องใช้คนถึง 1,111 คน
ความคลาดเคลื่อน ±4% จะต้องใช้คนถึง 625 คน
ความคลาดเคลื่อน ±5% จะต้องใช้คนถึง 400 คน
ความคลาดเคลื่อน ±10% จะต้องใช้คนถึง 100 คน
ความคลาดเคลื่อน ±20% จะต้องใช้คน 25 คน
ความคลาดเคลื่อน ±25% จะต้องใช้คน 16 คน
±50% จะต้องใช้คน 4 คน

คนอาจเข้าใจผิดว่า เนื่องจากไม่ได้ระบุค่าช่วงความเชื่อมั่น จึงมั่นใจได้ว่าผลลัพธ์ที่แท้จริงจะอยู่ในช่วงความคลาดเคลื่อนที่ประเมินไว้ 100% ซึ่งไม่ถูกต้องทางคณิตศาสตร์

หลายคนอาจไม่ตระหนักว่าความสุ่มของกลุ่มตัวอย่างนั้นมีความสำคัญมาก ในทางปฏิบัติ การสำรวจความคิดเห็นจำนวนมากดำเนินการทางโทรศัพท์ ซึ่งทำให้กลุ่มตัวอย่างบิดเบือนไปในหลายด้าน เช่น การตัดผู้ที่ไม่มีโทรศัพท์ออกไป การเลือกกลุ่มตัวอย่างที่มีโทรศัพท์มากกว่าหนึ่งเครื่อง การเลือกกลุ่มตัวอย่างที่ยินดีเข้าร่วมการสำรวจทางโทรศัพท์มากกว่าผู้ที่ปฏิเสธ เป็นต้น การสุ่มตัวอย่างที่ไม่เป็นแบบสุ่มทำให้ค่าความคลาดเคลื่อนที่ประเมินได้ไม่น่าเชื่อถือ

ในทางกลับกัน ผู้คนอาจมองว่าสถิตินั้นเชื่อถือไม่ได้โดยเนื้อแท้ เพราะไม่ได้มีการเรียกทุกคนมาสอบถาม หรือเพราะพวกเขาเองไม่เคยถูกสำรวจความคิดเห็นเลย ผู้คนอาจคิดว่าเป็นไปไม่ได้ที่จะได้ข้อมูลเกี่ยวกับความคิดเห็นของคนหลายสิบล้านคนโดยการสำรวจเพียงไม่กี่พันคน ความคิดนี้ก็ไม่ถูกต้องเช่นกัน^[ก] การสำรวจความคิดเห็นที่มีการสุ่มตัวอย่างที่สมบูรณ์แบบและปราศจากอคติ รวมถึงคำตอบที่ตรงไปตรงมา จะมี ค่าความคลาดเคลื่อนทางคณิตศาสตร์ที่กำหนดได้ซึ่งขึ้นอยู่กับจำนวนคนที่ถูกสำรวจเท่านั้น

อย่างไรก็ตาม บ่อยครั้งที่มีการรายงานค่าความคลาดเคลื่อนเพียงค่าเดียวสำหรับการสำรวจ เมื่อมีการรายงานผลสำหรับกลุ่มย่อยของประชากร ค่าความคลาดเคลื่อนที่นำมาใช้จะมีค่ามากกว่า แต่สิ่งนี้อาจไม่ได้ถูกระบุไว้อย่างชัดเจน ตัวอย่างเช่น การสำรวจผู้คน 1,000 คน อาจมี 100 คนจากกลุ่มชาติพันธุ์หรือกลุ่มเศรษฐกิจใดกลุ่มหนึ่ง ผลลัพธ์ที่เน้นกลุ่มนั้นจะมีความน่าเชื่อถือน้อยกว่าผลลัพธ์สำหรับประชากรทั้งหมด หากค่าความคลาดเคลื่อนสำหรับกลุ่มตัวอย่างทั้งหมดคือ 4% ค่าความคลาดเคลื่อนสำหรับกลุ่มย่อยดังกล่าวอาจอยู่ที่ประมาณ 13%

นอกจากนี้ยังมีปัญหาด้านการวัดอื่นๆ อีกมากมายในการสำรวจประชากร

ปัญหาที่กล่าวมาข้างต้นนั้นใช้ได้กับงานทดลองทางสถิติทุกประเภท ไม่ใช่เฉพาะการสำรวจประชากรเท่านั้น

ความสัมพันธ์เชิงสาเหตุที่ผิดพลาด

เมื่อการทดสอบทางสถิติแสดงให้เห็นถึงความสัมพันธ์ระหว่าง A และ B โดยทั่วไปจะมีหกความเป็นไปได้ดังนี้:

A ก่อให้เกิด B
B ก่อให้เกิด A
A และ B ต่างเป็นสาเหตุส่วนหนึ่งซึ่งกันและกัน
ทั้ง A และ B ต่างเกิดจากปัจจัยที่สาม คือ C
B เกิดจาก C ซึ่งมีความสัมพันธ์กับ A
ความสัมพันธ์ที่สังเกตได้นั้นเกิดจากความบังเอิญล้วนๆ

ความเป็นไปได้ที่หกสามารถวัดปริมาณได้ด้วยการทดสอบทางสถิติที่สามารถคำนวณความน่าจะเป็นที่ความสัมพันธ์ที่สังเกตได้จะมีขนาดใหญ่เช่นนี้โดยบังเอิญ หากในความเป็นจริงแล้วไม่มีความสัมพันธ์ระหว่างตัวแปร อย่างไรก็ตาม แม้ว่าความเป็นไปได้นั้นจะมีโอกาสน้อย แต่ก็ยังมีอีกห้าความเป็นไปได้ที่เหลือ

หากจำนวนคนที่ซื้อไอศกรีมที่ชายหาดมีความสัมพันธ์ทางสถิติกับจำนวนคนที่จมน้ำเสียชีวิตที่ชายหาดแล้ว ก็คงไม่มีใครอ้างว่าไอศกรีมเป็นสาเหตุของการจมน้ำ เพราะเห็นได้ชัดว่าไม่ใช่เช่นนั้น (ในกรณีนี้ ทั้งการจมน้ำและการซื้อไอศกรีมมีความสัมพันธ์กันอย่างชัดเจนด้วยปัจจัยที่สาม นั่นคือ จำนวนคนบนชายหาด)

ความผิดพลาดนี้สามารถนำมาใช้ได้ เช่น เพื่อพิสูจน์ว่าการสัมผัสสารเคมีทำให้เกิดมะเร็ง แทนที่ "จำนวนคนซื้อไอศกรีม" ด้วย "จำนวนคนสัมผัสสารเคมี X" และ "จำนวนคนจมน้ำ" ด้วย "จำนวนคนที่เป็นมะเร็ง" แล้วหลายคนจะเชื่อคุณ ในสถานการณ์เช่นนี้ อาจมีความสัมพันธ์ทางสถิติแม้ว่าจะไม่มีผลกระทบที่แท้จริงก็ตาม ตัวอย่างเช่น หากมีการรับรู้ว่าสถานที่ที่มีสารเคมีนั้น "อันตราย" (แม้ว่าจริงๆ แล้วจะไม่เป็นเช่นนั้น) มูลค่าทรัพย์สินในพื้นที่นั้นจะลดลง ซึ่งจะดึงดูดให้ครอบครัวที่มีรายได้น้อยย้ายเข้ามาอยู่ในพื้นที่นั้นมากขึ้น หากครอบครัวที่มีรายได้น้อยมีแนวโน้มที่จะเป็นมะเร็งมากกว่าครอบครัวที่มีรายได้สูง (เนื่องจากอาหารที่ไม่ดี หรือการเข้าถึงการดูแลทางการแพทย์ที่น้อยกว่า) อัตราการเกิดมะเร็งก็จะสูงขึ้น แม้ว่าสารเคมีนั้นจะไม่เป็นอันตรายก็ตาม เชื่อกันว่า^{[ 23 ]}นี่คือสิ่งที่เกิดขึ้นกับงานวิจัยในช่วงแรกๆ ที่แสดงให้เห็นถึงความเชื่อมโยงระหว่าง EMF ( สนามแม่เหล็กไฟฟ้า ) จากสายส่งไฟฟ้ากับมะเร็ง^{[ 24 ]}

ในการศึกษาที่ออกแบบมาอย่างดี ผลกระทบของความสัมพันธ์เชิงสาเหตุที่ผิดพลาดสามารถกำจัดได้โดยการสุ่มจัดกลุ่มคนบางส่วนให้อยู่ใน "กลุ่มทดลอง" และบางส่วนให้อยู่ใน "กลุ่มควบคุม" แล้วให้กลุ่มทดลองได้รับการรักษา แต่ไม่ให้กลุ่มควบคุมได้รับการรักษา ในตัวอย่างข้างต้น นักวิจัยอาจให้กลุ่มคนกลุ่มหนึ่งสัมผัสกับสารเคมี X และปล่อยให้กลุ่มที่สองไม่ได้รับสาร หากกลุ่มแรกมีอัตราการเกิดมะเร็งสูงกว่า นักวิจัยจะรู้ว่าไม่มีปัจจัยที่สามที่ส่งผลต่อการได้รับสารหรือไม่ เพราะเขาควบคุมว่าใครได้รับสารหรือไม่ และเขาสุ่มจัดกลุ่มคนเข้ากลุ่มที่ได้รับสารและไม่ได้รับสาร อย่างไรก็ตาม ในหลายกรณี การทำการทดลองในลักษณะนี้มีค่าใช้จ่ายสูงมาก เป็นไปไม่ได้ ผิดจริยธรรม ผิดกฎหมาย หรือเป็นไปไม่ได้อย่างสิ้นเชิง ตัวอย่างเช่น เป็นไปได้ยากมากที่คณะกรรมการจริยธรรมการวิจัย (IRB)จะยอมรับการทดลองที่เกี่ยวข้องกับการจงใจให้คนสัมผัสกับสารอันตรายเพื่อทดสอบความเป็นพิษ ผลกระทบทางจริยธรรมที่ชัดเจนของการทดลองประเภทนี้จำกัดความสามารถของนักวิจัยในการทดสอบความสัมพันธ์เชิงสาเหตุในเชิงประจักษ์

การพิสูจน์สมมติฐานว่าง

ในการทดสอบทางสถิติสมมติฐานว่าง ( ) ถือว่าถูกต้องจนกว่าจะมีข้อมูลเพียงพอพิสูจน์ว่าไม่ถูกต้อง จากนั้น สมมติฐานว่าง จะถูกปฏิเสธ และสมมติฐานทางเลือก ( ) จะถือว่าถูกต้อง โดยบังเอิญอาจเกิดขึ้นได้ แม้ว่าสมมติฐานว่างจะเป็นจริงก็ตาม ด้วยความน่าจะเป็นที่ระบุด้วย(ระดับนัยสำคัญ) ซึ่งสามารถเปรียบเทียบได้กับกระบวนการยุติธรรม ที่ผู้ถูกกล่าวหาถือว่าบริสุทธิ์ ( ) จนกว่าจะได้รับการพิสูจน์ว่ามีความผิด ( ) โดยปราศจากข้อสงสัยใดๆ ( ) $H_{0}$ $H_{0}$ $H_{A}$ $H_{0}$ $\alpha$ $H_{0}$ $H_{A}$ $\alpha$

แต่ถ้าข้อมูลไม่เพียงพอที่จะพิสูจน์ว่าสมมติฐานนั้น เป็นจริง ก็ไม่ได้หมายความว่าสมมติฐานนั้นถูกต้องโดยอัตโนมัติตัวอย่างเช่น หากผู้ผลิตยาสูบต้องการแสดงให้เห็นว่าผลิตภัณฑ์ของตนปลอดภัย พวกเขาสามารถทำการทดสอบกับกลุ่มตัวอย่างผู้สูบบุหรี่จำนวนน้อยเทียบกับกลุ่มตัวอย่างผู้ไม่สูบบุหรี่จำนวนน้อยได้อย่างง่ายดาย เป็นไปได้ยากที่คนเหล่านั้นจะป่วยเป็นมะเร็งปอด (และถึงแม้จะป่วย ความแตกต่างระหว่างกลุ่มต้องมากจริงๆ จึงจะสามารถปฏิเสธสมมติฐานนั้นได้) ดังนั้น จึงเป็นไปได้ว่า แม้ว่าการสูบบุหรี่จะเป็นอันตราย การทดสอบของเราจะไม่ปฏิเสธสมมติฐานนั้นหากยอมรับสมมติฐานนั้น ก็ไม่ได้หมายความว่าการสูบบุหรี่ได้รับการพิสูจน์แล้วว่าไม่เป็นอันตราย การทดสอบมีกำลังไม่เพียงพอที่จะปฏิเสธสมมติฐานนั้นดังนั้นการทดสอบจึงไร้ประโยชน์ และคุณค่าของ "การพิสูจน์" สมมติฐานนั้นก็เป็นศูนย์เช่นกัน $H_{0}$ $H_{0}$ $H_{0}$ $H_{0}$ $H_{0}$ $H_{0}$ $H_{0}$

หากใช้หลักการทางกฎหมายที่กล่าวมาข้างต้น จะสามารถเปรียบเทียบได้กับจำเลยที่กระทำผิดจริงแต่ได้รับการปล่อยตัวเพียงเพราะหลักฐานไม่เพียงพอที่จะตัดสินว่ามีความผิด นี่ไม่ได้พิสูจน์ว่าจำเลยบริสุทธิ์ แต่เป็นเพียงการแสดงให้เห็นว่าไม่มีหลักฐานเพียงพอที่จะตัดสินว่ามีความผิดเท่านั้น

"...สมมติฐานว่าง (null hypothesis) ไม่เคยได้รับการพิสูจน์หรือยืนยัน แต่มีโอกาสที่จะถูกหักล้างได้ในระหว่างการทดลอง การทดลองทุกครั้งอาจกล่าวได้ว่ามีอยู่เพื่อให้ข้อเท็จจริงมีโอกาสที่จะหักล้างสมมติฐานว่าง" (ฟิชเชอร์ ในการออกแบบการทดลอง ) มีหลายสาเหตุที่ทำให้เกิดความสับสน รวมถึงการใช้ตรรกะเชิงลบสองชั้นและศัพท์เฉพาะที่เกิดจากการรวมกันของ "การทดสอบนัยสำคัญ" ของฟิชเชอร์ (ซึ่งสมมติฐานว่างไม่เคยได้รับการยอมรับ) กับ "การทดสอบสมมติฐาน" (ซึ่งสมมติฐานบางอย่างได้รับการยอมรับเสมอ)

สับสนระหว่างนัยสำคัญทางสถิติกับนัยสำคัญในทางปฏิบัติ

ความสำคัญทางสถิติเป็นการวัดความน่าจะเป็น ความสำคัญในทางปฏิบัติเป็นการวัดผลกระทบ^{[ 25 ]}การรักษาอาการหัวล้านจะมีความสำคัญทางสถิติก็ต่อเมื่อมีขนอ่อนๆ ขึ้นปกคลุมหนังศีรษะที่เคยโล่งเตียน การรักษาจะมีความสำคัญในทางปฏิบัติเมื่อไม่จำเป็นต้องสวมหมวกในสภาพอากาศหนาวเย็นอีกต่อไป และช่างตัดผมถามว่าควรตัดผมด้านบนออกมากแค่ไหน คนหัวล้านต้องการการรักษาที่มีความสำคัญทั้งทางสถิติและในทางปฏิบัติ มันน่าจะได้ผล และถ้าได้ผล มันก็จะมีผลอย่างมาก การตีพิมพ์ทางวิทยาศาสตร์มักต้องการเพียงความสำคัญทางสถิติเท่านั้น ซึ่งนำไปสู่การร้องเรียน (ตลอด 50 ปีที่ผ่านมา) ว่าการทดสอบความสำคัญทางสถิติเป็นการใช้สถิติในทางที่ผิด^{[ 26 ]}

การขุดค้นข้อมูล

การขุดค้นข้อมูล (Data dredging)เป็นการใช้การขุดค้นข้อมูล ในทางที่ผิด ในการขุดค้นข้อมูลนั้น จะมีการตรวจสอบข้อมูลจำนวนมากเพื่อหาความสัมพันธ์ โดยไม่มีการกำหนดสมมติฐานที่จะทดสอบไว้ล่วงหน้า เนื่องจากช่วงความเชื่อ มั่นที่จำเป็น ในการสร้างความสัมพันธ์ระหว่างตัวแปรสองตัวมักจะถูกเลือกไว้ที่ 95% (หมายความว่ามีโอกาส 95% ที่ความสัมพันธ์ที่สังเกตได้นั้นไม่ได้เกิดจากความบังเอิญ) ดังนั้นจึงมีโอกาส 5% ที่จะพบความสัมพันธ์ระหว่างชุดตัวแปรสุ่มสองชุดใดๆ เนื่องจากความพยายามในการขุดค้นข้อมูลมักจะตรวจสอบชุดข้อมูลขนาดใหญ่ที่มีตัวแปรจำนวนมาก และด้วยเหตุนี้จึงมีคู่ตัวแปรจำนวนมากยิ่งขึ้น ผลลัพธ์ที่ดูเหมือนมีนัยสำคัญทางสถิติแต่ไม่จริงนั้นจึงมักจะถูกพบในการศึกษาใดๆ ก็ตาม

โปรดทราบว่าการค้นหาข้อมูลแบบสุ่ม (data dredging) เป็นวิธีที่ถูกต้องในการค้นหาข้อสมมติฐานที่เป็นไปได้ แต่ข้อสมมติฐานนั้นจะต้องได้รับการทดสอบด้วยข้อมูลที่ไม่ได้ใช้ในการค้นหาข้อมูลแบบสุ่มในครั้งแรก การใช้ในทางที่ผิดเกิดขึ้นเมื่อระบุข้อสมมติฐานนั้นเป็นข้อเท็จจริงโดยไม่มีการตรวจสอบเพิ่มเติม

"คุณไม่สามารถทดสอบสมมติฐานโดยใช้ข้อมูลชุดเดียวกับที่เสนอสมมติฐานนั้นได้ การแก้ไขนั้นชัดเจน เมื่อคุณมีสมมติฐานแล้ว ให้ออกแบบการศึกษาเพื่อค้นหาผลกระทบที่คุณคิดว่ามีอยู่โดยเฉพาะ หากผลการทดสอบนี้มีนัยสำคัญทางสถิติ คุณก็จะมีหลักฐานที่แท้จริงในที่สุด" ^{[ 27 ]}

การจัดการข้อมูล

การกระทำนี้ซึ่งเรียกกันอย่างไม่เป็นทางการว่า "การบิดเบือนข้อมูล" รวมถึงการรายงานแบบเลือกสรร (ดูเพิ่มเติมที่ อคติในการตีพิมพ์ ) และแม้กระทั่งการสร้างข้อมูลเท็จขึ้นมา

ตัวอย่างของการรายงานแบบเลือกสรรมีอยู่มากมาย ตัวอย่างที่ง่ายที่สุดและพบได้บ่อยที่สุดคือการเลือกกลุ่มผลลัพธ์ที่สอดคล้องกับสมมติฐานที่ต้องการในขณะที่เพิกเฉยต่อผลลัพธ์หรือ "ชุดข้อมูล" อื่นๆ ที่ขัดแย้งกับสมมติฐานนั้น

โดยทั่วไป นักวิทยาศาสตร์มักตั้งคำถามถึงความถูกต้องของผลการศึกษาที่ไม่สามารถทำซ้ำได้โดยนักวิจัยคนอื่น อย่างไรก็ตาม นักวิทยาศาสตร์บางคนปฏิเสธที่จะเผยแพร่ข้อมูลและวิธีการของตน^{[ 28 ]}

การจัดการข้อมูลเป็นประเด็น/ข้อพิจารณาที่สำคัญในการวิเคราะห์ทางสถิติที่ซื่อสัตย์ที่สุด ค่าผิดปกติ ข้อมูลที่หายไป และความไม่เป็นปกติ ล้วนส่งผลเสียต่อความถูกต้องของการวิเคราะห์ทางสถิติ การศึกษาข้อมูลและแก้ไขปัญหาที่แท้จริงก่อนเริ่มการวิเคราะห์จึงเป็นเรื่องที่เหมาะสม^{[ 29 ]}

ความเข้าใจผิดอื่นๆ

การทำซ้ำเทียม (Pseudoreplication)เป็นข้อผิดพลาดทางเทคนิคที่เกี่ยวข้องกับการวิเคราะห์ความแปรปรวนความซับซ้อนบดบังข้อเท็จจริงที่ว่าการวิเคราะห์ทางสถิตินั้นพยายามทำกับตัวอย่างเพียงตัวเดียว (N=1) สำหรับกรณีที่บกพร่องนี้ ไม่สามารถคำนวณความแปรปรวนได้ (หารด้วยศูนย์) ค่า (N=1) จะให้ค่าสหสัมพันธ์ทางสถิติสูงสุดระหว่างอคติที่ตั้งใจไว้กับผลการค้นพบจริงแก่ผู้วิจัยเสมอ

ความเข้าใจผิดของนักพนันคือการสมมติว่าเหตุการณ์ใดๆ ที่สามารถวัดความน่าจะเป็นในอนาคตได้นั้น จะมีความน่าจะเป็นที่จะเกิดขึ้นเท่ากันกับเมื่อเหตุการณ์นั้นเกิดขึ้นแล้ว ดังนั้น หากใครบางคนโยนเหรียญไปแล้ว 9 ครั้ง และทุกครั้งออกหัว คนส่วนใหญ่มักจะคิดว่าความน่าจะเป็นที่การโยนครั้งที่สิบจะออกหัวอีกนั้นคือ 1023 ต่อ 1 (ซึ่งเป็นความน่าจะเป็นก่อนโยนเหรียญครั้งแรก) ในขณะที่ความเป็นจริงแล้ว โอกาสที่จะออกหัวในครั้งที่สิบคือ 50% (โดยสมมติว่าเหรียญนั้นเป็นกลาง)

ความผิดพลาดของอัยการ [ ^{30 ] ถือว่า}ความน่าจะเป็นของเหตุการณ์ที่ดูเหมือนจะเป็นอาชญากรรมเป็นโอกาสแบบสุ่มเท่ากับโอกาสที่ผู้ต้องสงสัยจะเป็นผู้บริสุทธิ์ ตัวอย่างที่โดดเด่นในสหราชอาณาจักรคือการตัดสินลงโทษSally Clark อย่างไม่ถูกต้อง ในข้อหาฆ่าลูกชายสองคนของเธอซึ่งดูเหมือนจะเสียชีวิตจากโรคไหลตายในทารก (SIDS) ในคำให้การของผู้เชี่ยวชาญ ศาสตราจารย์ Sir Roy Meadow ซึ่งปัจจุบันไม่น่าเชื่อถือ แล้ว อ้างว่าเนื่องจาก SIDS เป็นโรคที่หายาก ความน่าจะเป็นที่ Clark จะเป็นผู้บริสุทธิ์คือ 1 ใน 73 ล้าน ต่อมาเรื่องนี้ถูกตั้งคำถามโดย^Royal Statistical Society [ ³¹^]สมมติว่าตัวเลขของ Meadows ถูกต้อง เราต้องชั่งน้ำหนักคำอธิบายที่เป็นไปได้ทั้งหมดเข้าด้วยกันเพื่อสรุปว่าสิ่งใดน่าจะเป็นสาเหตุของการเสียชีวิตโดยไม่ทราบสาเหตุของเด็กทั้งสองคน ข้อมูลที่มีอยู่แสดงให้เห็นว่าโอกาสที่จะเกิด SIDS สองครั้งมากกว่าการฆาตกรรมสองครั้งถึงเก้าเท่า^[³²^]ตัวเลข 1 ใน 73 ล้านนั้นก็ทำให้เข้าใจผิดเช่นกัน เพราะได้มาจากการหาความน่าจะเป็นที่ทารกจากครอบครัวที่ร่ำรวยและไม่สูบบุหรี่จะเสียชีวิตจาก SIDS แล้วยกกำลังสองซึ่งเป็นการถือว่าการเสียชีวิตแต่ละครั้งเป็นอิสระทางสถิติ อย่างผิดพลาด โดยสมมติว่าไม่มีปัจจัยใดๆ เช่น พันธุกรรม ที่จะทำให้พี่น้องสองคนมีโอกาสเสียชีวิตจาก SIDS มากขึ้น^[³³^]^[³⁴^]นี่เป็นตัวอย่างของความผิดพลาดทางนิเวศวิทยา เช่นกัน เพราะสมมติว่าความน่าจะเป็นของ SIDS ในครอบครัวของคลาร์กเท่ากับค่าเฉลี่ยของครอบครัวที่ร่ำรวยและไม่สูบบุหรี่ทั้งหมด ชั้นทางสังคมเป็นแนวคิดที่ซับซ้อนและหลากหลายมาก มีตัวแปรอื่นๆ อีกมากมาย เช่น การศึกษา อาชีพ และอื่นๆ อีกมากมาย การสมมติว่าบุคคลจะมีคุณลักษณะเหมือนกับคนอื่นๆ ในกลุ่มที่กำหนดนั้น ไม่ได้คำนึงถึงผลกระทบของตัวแปรอื่นๆ ซึ่งอาจทำให้เข้าใจผิดได้^[³⁴^] ในที่สุด คำพิพากษาของแซลลี่ คลาร์กก็ถูกยกเลิก และเมโดว์ก็ถูกถอดชื่อออกจากทะเบียนแพทย์^[³⁵^]

ความเข้าใจผิดเรื่องความสนุกสนานความน่าจะเป็นนั้นอิงอยู่กับแบบจำลองง่ายๆ ที่ละเลยความเป็นไปได้จริง (แม้จะน้อยก็ตาม) ผู้เล่นโป๊กเกอร์ไม่ได้พิจารณาว่าคู่ต่อสู้อาจจั่วได้ปืนแทนที่จะเป็นไพ่ ผู้เอาประกัน (และรัฐบาล) สันนิษฐานว่าบริษัทประกันจะยังคงมีฐานะทางการเงินที่มั่นคง แต่โปรดดูตัวอย่างAIGและ ความเสี่ยง เชิง ระบบ

การใช้ในทางที่ผิดประเภทอื่นๆ

การใช้ในทางที่ผิดอื่นๆ ได้แก่ การเปรียบเทียบแอปเปิ้ลกับส้มการใช้ค่าเฉลี่ยที่ไม่ถูกต้อง^{[ 36 ]}การถดถอยเข้าหาค่าเฉลี่ย [ ³⁷^]และวลี รวมๆ ว่า ข้อมูล ขยะเข้า ข้อมูลขยะออก [ ³⁸^]^{สถิติ}บางอย่างไม่เกี่ยวข้องกับประเด็นใดๆ^เลย^[³⁹^]

วลีโฆษณาบางวลี เช่น “มากกว่า 99 ใน 100” อาจถูกตีความผิดเป็น 100% ^{[ 40 ]}

ชุดข้อมูล ควอเต็ตของแอนสคอมบ์เป็นชุดข้อมูลสมมติที่แสดงให้เห็นถึงข้อจำกัดของสถิติเชิงพรรณนา แบบง่าย (และคุณค่าของการสร้างกราฟข้อมูลก่อนการวิเคราะห์เชิงตัวเลข)

ดูเพิ่มเติม

อ่านเพิ่มเติม

แคมป์เบลล์, สตีเฟน (1974). ข้อบกพร่องและข้อผิดพลาดในการคิดเชิงสถิติ . เพรนติส ฮอลล์. ISBN 0-486-43598-9.
Christensen, R.; Reichert, T. (1976). "การละเมิดหน่วยวัดในการรู้จำรูปแบบ ความกำกวม และความไม่เกี่ยวข้อง" การรู้จำรูปแบบ8 (4): 239– 245. Bibcode : 1976PatRe...8..239C . doi : 10.1016/0031-3203(76)90044-3 .
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "การใช้สถิติผิดวิธีในการวิจัยทางการแพทย์" (PDF)วารสาร การ แพทย์ทั่วไปของยุโรป4 (3): 127– 133. doi : 10.29333/ejgm/82507 . เก็บถาวรจากต้นฉบับเมื่อวันที่ 13 พฤศจิกายน 2014
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "การทบทวนความน่าเชื่อถือและปัจจัยที่มีผลต่อความน่าเชื่อถือ" (PDF) . InterStat . เก็บถาวรจากต้นฉบับเมื่อวันที่ 28 สิงหาคม 2013
ฟรีดแมน, เดวิด; พิซานี, โรเบิร์ต; เพอร์เวส, โรเจอร์ (1998). สถิติ (ฉบับที่ 3). WW Norton. ISBN 978-0-393-97083-8.
ฮุค, โรเบิร์ต (1983). วิธีแยกแยะคนโกหกออกจากนักสถิติ . นิวยอร์ก: เอ็ม. เดคเกอร์. ISBN 0-8247-1817-8.
Huff, Darrell (1954). วิธีการโกหกด้วยสถิติ . WW Norton & Company. LCCN 53013322. OL 6138576M .
คาห์เนมัน, แดเนียล (2013). การคิดอย่างรวดเร็วและช้า . นิวยอร์ก: ฟาร์ราร์ สเตราส์ แอนด์ จิรูซ์. ISBN 9780374533557.
มัวร์, เดวิด เอส. ; แมคเคบ, จอร์จ พี. (2003). บทนำสู่การปฏิบัติทางสถิติ (ฉบับที่ 4). นิวยอร์ก: ดับเบิลยูเอช ฟรีแมน แอนด์ โค. ISBN 0716796570.
มัวร์, เดวิด เอส. ; น็อตซ์, วิลเลียม ไอ. (2006). สถิติ: แนวคิดและข้อโต้แย้ง (ฉบับที่ 6). นิวยอร์ก: ดับเบิลยูเอช ฟรีแมน. ISBN 9780716786368.
สไปเรอร์, เฮอร์เบิร์ต; สไปเรอร์, ลูอิส; จาฟเฟ, เอ.เจ. (1998). สถิติที่ถูกนำไปใช้ในทางที่ผิด (ฉบับปรับปรุงและขยายความ ครั้งที่ 2). นิวยอร์ก: เอ็ม. เดคเกอร์. ISBN 978-0824702113.หนังสือเล่มนี้อ้างอิงจากตัวอย่างการใช้งานในทางที่ผิดหลายร้อยกรณี
Oldberg, T. และ R. Christensen (1995) "การวัดที่ผิดปกติ" ในNDE สำหรับอุตสาหกรรมพลังงาน 1995สมาคมวิศวกรเครื่องกลแห่งอเมริกาISBN 0-7918-1298-7(หน้า 1–6) เผยแพร่ซ้ำทางเว็บโดย ndt.net
โอลด์เบิร์ก, ที. (2005) "ปัญหาทางจริยธรรมในสถิติความน่าเชื่อถือของการทดสอบการตรวจจับข้อบกพร่อง" สุนทรพจน์ในการประชุม Golden Gate Chapter ของสมาคมการทดสอบแบบไม่ทำลายแห่งอเมริกาเผยแพร่ทางเว็บโดย ndt.net
สโตน, เอ็ม. (2009) ความล้มเหลวในการคำนวณ: การละเลยการใช้เหตุผลทางสถิติอันมีค่าใช้จ่ายสูงของไวท์ฮอลล์ , ซิวิตัส, ลอนดอน. ISBN 1-906837-07-4
Ntentas, Raphael; Tsilingiris, Nikolaos (4 พฤศจิกายน 2020). "สถิติที่ถูกนำไปใช้ในทางที่ผิดสามารถทำลายประชาธิปไตยได้อย่างไร" . บล็อกนโยบายสังคมของ LSE . สืบค้นเมื่อ12 กรกฎาคม 2025 .
Galbraith, J.; Stone, M. (2011). "การใช้การถดถอยในทางที่ผิดในสูตรการจัดสรรบริการสุขภาพแห่งชาติ: การตอบสนองต่อ 'เอกสารวิจัยการจัดสรรทรัพยากร' ปี 2007 ของกระทรวงสาธารณสุข"" . วารสารของราชสมาคมสถิติ, ซีรีส์ A . 174 (3): 517– 528. doi : 10.1111/j.1467-985X.2010.00700.x . S2CID 118029429 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ก]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

30 ] ถือว่า

Royal

[

[

[

[ 36 ]

37

38

[ 40 ]