อ่าน 6 นาที
ค่าผิดปกติ
ในทางสถิติค่าผิดปกติคือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อมูลสังเกตอื่นๆ ค่าผิดปกติอาจเกิดจากความแปรปรวนในการวัด บ่งชี้ถึงข้อมูลใหม่ หรืออาจเป็นผลมาจากข้อผิดพลาดในการทดลอง...
ค่าผิดปกติ

ในทางสถิติค่าผิดปกติคือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อมูลสังเกตอื่นๆ[ 1 ] [ 2 ]ค่าผิดปกติอาจเกิดจากความแปรปรวนในการวัด บ่งชี้ถึงข้อมูลใหม่ หรืออาจเป็นผลมาจากข้อผิดพลาดในการทดลอง ซึ่งบางครั้งจะถูกตัดออกจากชุดข้อมูล[ 3 ] [ 4 ] ค่าผิดปกติอาจเป็นสัญญาณของความเป็นไปได้ที่น่าตื่นเต้น แต่ก็อาจทำให้เกิดปัญหาอย่างร้ายแรงในการวิเคราะห์ทางสถิติ ได้ เช่นกัน
ค่าผิดปกติสามารถเกิดขึ้นได้โดยบังเอิญในทุกการแจกแจง แต่ค่าผิดปกติอาจบ่งชี้ถึงพฤติกรรมหรือโครงสร้างใหม่ๆ ในชุดข้อมูลข้อผิดพลาดในการวัดหรือว่าประชากรมีการแจกแจงแบบหางหนักในกรณีของข้อผิดพลาดในการวัด เราควรละทิ้งค่าผิดปกติเหล่านั้น หรือใช้สถิติที่ทนทานต่อค่าผิดปกติ ในขณะที่ในกรณีของการแจกแจงแบบหางหนัก ค่าผิดปกติจะบ่งชี้ว่าการแจกแจงนั้นมีความเบี่ยงเบน สูง และเราควรระมัดระวังอย่างมากในการใช้เครื่องมือหรือสัญชาตญาณที่สมมติว่าเป็นการแจกแจงแบบปกติสาเหตุที่พบบ่อยของค่าผิดปกติคือการผสมผสานของการแจกแจงสองแบบ ซึ่งอาจเป็นประชากรย่อยสองกลุ่มที่แตกต่างกัน หรืออาจบ่งชี้ถึง 'การทดลองที่ถูกต้อง' เทียบกับ 'ข้อผิดพลาดในการวัด' ซึ่งจำลองโดย แบบจำลอง แบบ ผสม
ในการสุ่มตัวอย่างข้อมูลขนาดใหญ่ส่วนใหญ่ จุดข้อมูลบางจุดจะอยู่ห่างจากค่าเฉลี่ยของตัวอย่างมากกว่าที่ถือว่าสมเหตุสมผล นี่อาจเกิดจากข้อผิดพลาดเชิงระบบ โดยบังเอิญ หรือข้อบกพร่องในทฤษฎีที่สร้างกลุ่มการแจกแจงความน่าจะเป็น ที่สมมติ ขึ้น หรืออาจเป็นเพราะการสังเกตบางค่าอยู่ห่างจากจุดศูนย์กลางของข้อมูลมาก ดังนั้น จุดข้อมูลที่ผิดปกติจึงอาจบ่งชี้ถึงข้อมูลที่ผิดพลาด กระบวนการที่ผิดพลาด หรือพื้นที่ที่ทฤษฎีบางอย่างอาจไม่ถูกต้อง อย่างไรก็ตาม ในตัวอย่างขนาดใหญ่ การมีค่าผิดปกติจำนวนเล็กน้อยนั้นเป็นสิ่งที่คาดหวังได้ (และไม่ได้เกิดจากสภาวะผิดปกติใดๆ)
ค่าผิดปกติ คือค่าสังเกตที่สูงที่สุดหรือต่ำที่สุดในกลุ่มตัวอย่าง ซึ่งอาจรวมถึงค่าสูงสุดหรือค่าต่ำสุดของกลุ่มตัวอย่างหรือทั้งสองอย่าง ขึ้นอยู่กับว่าค่าเหล่านั้นสูงมากหรือต่ำมากเป็นพิเศษ อย่างไรก็ตาม ค่าสูงสุดและค่าต่ำสุดของกลุ่มตัวอย่างไม่จำเป็นต้องเป็นค่าผิดปกติเสมอไป เพราะค่าเหล่านั้นอาจไม่ได้อยู่ห่างจากค่าสังเกตอื่นๆ มากผิดปกติก็ได้
การตีความสถิติอย่างง่ายๆ จากชุดข้อมูลที่มีค่าผิดปกติอาจทำให้เกิดความเข้าใจผิดได้ ตัวอย่างเช่น หากเราคำนวณ อุณหภูมิ เฉลี่ยของวัตถุ 10 ชิ้นในห้อง และ 9 ชิ้นมีอุณหภูมิระหว่าง 20 ถึง 25 องศาเซลเซียสแต่เตาอบมีอุณหภูมิ 175 องศาเซลเซียส ค่ามัธยฐานของข้อมูลจะอยู่ระหว่าง 20 ถึง 25 องศาเซลเซียส แต่ค่าเฉลี่ยจะอยู่ระหว่าง 35.5 ถึง 40 องศาเซลเซียส ในกรณีนี้ ค่ามัธยฐานสะท้อนอุณหภูมิของวัตถุที่สุ่มตัวอย่างได้ดีกว่า (แต่ไม่ใช่อุณหภูมิในห้อง) กว่าค่าเฉลี่ย การตีความค่าเฉลี่ยอย่างง่ายๆ ว่าเป็น "ตัวอย่างทั่วไป" ที่เทียบเท่ากับค่ามัธยฐานนั้นไม่ถูกต้อง ดังที่แสดงในกรณีนี้ ค่าผิดปกติอาจบ่งชี้ถึงจุดข้อมูลที่อยู่ในประชากร ที่แตกต่าง จากส่วนที่เหลือของชุด ตัวอย่าง
ตัวประมาณค่าที่สามารถรับมือกับค่าผิดปกติได้เรียกว่าตัวประมาณค่าที่แข็งแกร่ง: ค่ามัธยฐานเป็นสถิติที่แข็งแกร่งของแนวโน้มศูนย์กลางในขณะที่ค่าเฉลี่ยไม่ใช่[ 5 ]
การเกิดขึ้นและสาเหตุ

ในกรณีของข้อมูลที่มีการกระจายแบบปกติกฎสามซิกมาหมายความว่าโดยประมาณ 1 ใน 22 การสังเกตจะแตกต่างจากค่าเฉลี่ยมากกว่าสองเท่า ของค่า เบี่ยงเบนมาตรฐานและ 1 ใน 370 จะเบี่ยงเบนมากกว่าสามเท่าของค่าเบี่ยงเบนมาตรฐาน[ 6 ]ในตัวอย่าง 1,000 การสังเกต การมีค่าสังเกตที่เบี่ยงเบนจากค่าเฉลี่ยมากกว่าสามเท่าของค่าเบี่ยงเบนมาตรฐานไม่เกินห้าค่า ถือว่าอยู่ในช่วงที่คาดหวังได้ ซึ่งน้อยกว่าสองเท่าของจำนวนที่คาดหวัง และอยู่ในช่วง 1 ค่าเบี่ยงเบนมาตรฐานของจำนวนที่คาดหวัง – ดูการกระจายแบบปัวซง – และไม่ได้บ่งชี้ถึงความผิดปกติ อย่างไรก็ตาม หากขนาดตัวอย่างมีเพียง 100 การมีค่าผิดปกติเพียงสามค่าก็ถือเป็นเหตุให้ต้องกังวลแล้ว ซึ่งมากกว่า 11 เท่าของจำนวนที่คาดหวัง
โดยทั่วไป หากทราบลักษณะการกระจายตัวของประชากรล่วงหน้าก็สามารถทดสอบได้ว่าจำนวนค่าผิดปกติเบี่ยงเบนไปจากที่คาดหวังได้มากน้อย เพียงใด: สำหรับค่าตัดที่กำหนด (ดังนั้นตัวอย่างจะตกอยู่นอกเหนือค่าตัดด้วยความน่าจะเป็น p ) ของการกระจายตัวที่กำหนด จำนวนค่าผิดปกติจะมีการกระจายแบบทวินามที่มีพารามิเตอร์pซึ่งโดยทั่วไปสามารถประมาณได้ดีด้วยการกระจายแบบปัวซงที่มี λ = pnดังนั้น หากใช้การกระจายแบบปกติโดยมีค่าตัดที่ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยpจะมีค่าประมาณ 0.3% และด้วยเหตุนี้ สำหรับการทดลอง 1000 ครั้ง จึงสามารถประมาณจำนวนตัวอย่างที่มีค่าเบี่ยงเบนเกิน 3 ซิกมาได้ด้วยการกระจายแบบปัวซงที่มี λ = 3
สาเหตุ
ค่าผิดปกติอาจมีสาเหตุที่ผิดปกติได้หลายประการ อุปกรณ์วัดอาจเกิดความผิดปกติชั่วคราว อาจมีข้อผิดพลาดในการส่งหรือบันทึกข้อมูล ค่าผิดปกติเกิดขึ้นเนื่องจากการเปลี่ยนแปลงพฤติกรรมของระบบ การกระทำที่ทุจริต ความผิดพลาดของมนุษย์ ความผิดพลาดของเครื่องมือ หรือเพียงแค่ความเบี่ยงเบนตามธรรมชาติในประชากร ตัวอย่างอาจปนเปื้อนด้วยองค์ประกอบจากภายนอกประชากรที่กำลังตรวจสอบ หรืออีกทางหนึ่ง ค่าผิดปกติอาจเป็นผลมาจากข้อบกพร่องในทฤษฎีที่สมมติขึ้น ซึ่งจำเป็นต้องมีการตรวจสอบเพิ่มเติมโดยนักวิจัย นอกจากนี้ การปรากฏของค่าผิดปกติในรูปแบบใดรูปแบบหนึ่งที่ผิดปกติปรากฏในชุดข้อมูลที่หลากหลาย ซึ่งบ่งชี้ว่ากลไกที่เป็นสาเหตุของข้อมูลอาจแตกต่างกันไปในแต่ละกรณี ( ปรากฏการณ์คิง )
คำจำกัดความและการตรวจจับ
ไม่มีคำจำกัดความทางคณิตศาสตร์ที่ตายตัวว่าสิ่งใดถือเป็นค่าผิดปกติ การพิจารณาว่าการสังเกตใดเป็นค่าผิดปกติหรือไม่นั้นขึ้นอยู่กับดุลพินิจส่วนตัวเป็นหลัก[ 7 ]
มีวิธีการตรวจจับค่าผิดปกติหลายวิธี ซึ่งบางวิธีถือว่ามีความหมายเหมือนกับการตรวจจับค่าแปลกใหม่[ 3 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ]บางวิธีเป็นแบบกราฟิก เช่นแผนภาพความน่าจะเป็นปกติบางวิธีเป็นแบบอิงตามแบบจำลองแผนภาพกล่องเป็นแบบผสมผสาน
วิธีการที่ใช้แบบจำลองซึ่งนิยมใช้ในการระบุข้อมูลนั้น สันนิษฐานว่าข้อมูลมาจากการแจกแจงแบบปกติ และระบุข้อมูลที่ถือว่า "ไม่น่าจะเป็นไปได้" โดยพิจารณาจากค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน:
- เกณฑ์ของโชเวเนต์
- การทดสอบของ Grubbs สำหรับค่าผิดปกติ
- การทดสอบQของดิกสัน
- ASTM E178: แนวปฏิบัติมาตรฐานสำหรับการจัดการกับข้อสังเกตที่ผิดปกติ[ 12 ]
- ระยะทางมาฮาลาโนบิสและค่าเลเวอเรจมักถูกใช้เพื่อตรวจหาค่าผิดปกติ โดยเฉพาะอย่างยิ่งในการพัฒนาแบบจำลองการถดถอยเชิงเส้น
- เทคนิคตามปริภูมิย่อยและความสัมพันธ์สำหรับข้อมูลเชิงตัวเลขมิติสูง[ 11 ]
เกณฑ์ของเพียร์ซ
มีการเสนอให้กำหนดขีดจำกัดของข้อผิดพลาดในการสังเกตการณ์ชุดหนึ่ง ซึ่งหากเกินกว่าขีดจำกัดนี้ การสังเกตการณ์ทั้งหมดที่เกี่ยวข้องกับข้อผิดพลาดมากขนาดนั้นอาจถูกปฏิเสธได้ โดยมีเงื่อนไขว่าต้องมีการสังเกตการณ์ดังกล่าวจำนวนมาก หลักการที่เสนอเพื่อแก้ปัญหานี้คือ การสังเกตการณ์ที่เสนอควรถูกปฏิเสธเมื่อความน่าจะเป็นของระบบข้อผิดพลาดที่ได้จากการเก็บรักษาการสังเกตการณ์เหล่านั้นมีค่าน้อยกว่าความน่าจะเป็นของระบบข้อผิดพลาดที่ได้จากการปฏิเสธการสังเกตการณ์เหล่านั้น คูณด้วยความน่าจะเป็นของการสังเกตการณ์ที่ผิดปกติจำนวนดังกล่าว และไม่เกินกว่านั้น (อ้างอิงจากหมายเหตุบรรณาธิการในหน้า 516 ของ Peirce (ฉบับปี 1982) จากA Manual of Astronomy 2:558 โดย Chauvenet) [ 13 ] [ 14 ] [ 15 ] [ 16 ]
รั้วของทูคีย์
วิธีการอื่นๆ จะระบุค่าผิดปกติโดยพิจารณาจากมาตรวัดต่างๆ เช่นช่วงควาร์ไทล์ตัวอย่างเช่น ถ้าและคือควาร์ไทล์ล่างและควาร์ไทล์ บน ตามลำดับ เราสามารถกำหนดให้ค่าผิดปกติคือค่าสังเกตใดๆ ที่อยู่นอกช่วงนั้นได้
สำหรับค่าคงที่ที่ไม่เป็นลบบางค่าจอ ห์น ทูคีย์เสนอการทดสอบนี้ โดยที่บ่งชี้ถึง "ค่าผิดปกติ" และบ่งชี้ถึงข้อมูลที่ "ผิดปกติมาก" [ 17 ]
ในการตรวจจับความผิดปกติ
ในโดเมน ต่างๆเช่นสถิติการประมวลผลสัญญาณการเงินเศรษฐศาสตร์การผลิตเครือข่ายและการขุดข้อมูลงานการตรวจจับความผิดปกติอาจใช้วิธีการอื่นๆ บางวิธีอาจใช้ระยะทางเป็นเกณฑ์[ 18 ] [ 19 ]และใช้ความหนาแน่นเป็นเกณฑ์ เช่นLocal Outlier Factor (LOF) [ 20 ]บางวิธีอาจใช้ระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุด k ตัวเพื่อติดป้ายกำกับ ข้อมูลว่าเป็นค่าผิดปกติหรือไม่ผิดปกติ[ 21 ]
การทดสอบ Thompson Tau ที่ได้รับการดัดแปลง
การทดสอบ Thompson Tau ที่ได้รับการดัดแปลงเป็นวิธีการที่ใช้ในการพิจารณาว่ามีค่าผิดปกติในชุดข้อมูลหรือ ไม่ [ 22 ]จุดแข็งของวิธีการนี้อยู่ที่การคำนึงถึงค่าเบี่ยงเบนมาตรฐาน ค่าเฉลี่ยของชุดข้อมูล และให้โซนการปฏิเสธที่กำหนดทางสถิติ ดังนั้นจึงเป็นวิธีการที่เป็นกลางในการพิจารณาว่าจุดข้อมูลใดเป็นค่าผิดปกติ[ 23 ] วิธีการทำงาน: ขั้นแรก จะคำนวณค่าเฉลี่ยของชุดข้อมูล ต่อมาจะคำนวณค่าเบี่ยงเบนสัมบูรณ์ระหว่างแต่ละจุดข้อมูลกับค่าเฉลี่ย ประการที่สาม จะกำหนดพื้นที่การปฏิเสธโดยใช้สูตร:
โดย ที่ δ คือค่าวิกฤตจากการแจกแจงแบบt ของนักเรียนที่มี องศาอิสระn - 2, nคือขนาดตัวอย่าง และ s คือส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง ในการตรวจสอบว่าค่าใดเป็นค่าผิดปกติหรือไม่ ให้คำนวณ δ ถ้าδ > บริเวณปฏิเสธ แสดงว่าจุดข้อมูลนั้นเป็นค่าผิดปกติ ถ้าδ ≤ บริเวณปฏิเสธ แสดงว่าจุดข้อมูลนั้นไม่ใช่ค่าผิดปกติ
การทดสอบ Thompson Tau ที่ปรับปรุงแล้วใช้เพื่อค้นหาค่าผิดปกติทีละค่า (ค่าδ ที่มากที่สุด จะถูกลบออกหากเป็นค่าผิดปกติ) กล่าวคือ หากพบว่าจุดข้อมูลใดเป็นค่าผิดปกติ จุดข้อมูลนั้นจะถูกลบออกจากชุดข้อมูล และทำการทดสอบอีกครั้งด้วยค่าเฉลี่ยและขอบเขตการปฏิเสธใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่าจะไม่มีค่าผิดปกติเหลืออยู่ในชุดข้อมูล
งานวิจัยบางชิ้นยังได้ตรวจสอบค่าผิดปกติสำหรับข้อมูลนาม (หรือข้อมูลเชิงหมวดหมู่) ด้วย ในบริบทของชุดตัวอย่าง (หรืออินสแตนซ์) ในชุดข้อมูล ความยากของอินสแตนซ์จะวัดความน่าจะเป็นที่อินสแตนซ์จะถูกจำแนกผิด ( โดยที่yคือป้ายกำกับคลาสที่กำหนด และxแทนค่าคุณลักษณะอินพุตสำหรับอินสแตนซ์ในชุดฝึกอบรมt ) [ 24 ]ในอุดมคติแล้ว ความยากของอินสแตนซ์จะคำนวณโดยการรวมค่าของสมมติฐานที่เป็นไปได้ทั้งหมดH :
ในทางปฏิบัติ การกำหนดสูตรนี้เป็นไปไม่ได้ เนื่องจากHอาจมีค่าเป็นอนันต์ และการคำนวณก็ไม่เป็นที่ทราบแน่ชัดสำหรับอัลกอริทึมจำนวนมาก ดังนั้น ความยากของปัญหาจึงสามารถประมาณได้โดยใช้เซตย่อยที่หลากหลาย:
สมมติฐานที่ได้จากการเรียนรู้ด้วยอัลกอริธึมที่ฝึกฝนบนชุดข้อมูลฝึกฝนtพร้อมพารามิเตอร์ไฮเปอร์นั้นอยู่ที่ใดความยากของอินสแตนซ์จะให้ค่าต่อเนื่องเพื่อพิจารณาว่าอินสแตนซ์นั้นเป็นอินสแตนซ์ที่ผิดปกติหรือไม่
การทำงานกับค่าผิดปกติ
การเลือกวิธีการจัดการกับค่าผิดปกติควรขึ้นอยู่กับสาเหตุ ตัวประมาณค่าบางตัวมีความไวต่อค่าผิดปกติสูง โดยเฉพาะอย่างยิ่งการประมาณค่าเมทริกซ์ความแปรปรวนร่วม
การรักษา
แม้ว่าแบบจำลองการแจกแจงปกติจะเหมาะสมกับข้อมูลที่กำลังวิเคราะห์อยู่ก็ตาม คาดว่าจะพบค่าผิดปกติสำหรับขนาดตัวอย่างขนาดใหญ่ และไม่ควรละทิ้งค่าผิดปกติโดยอัตโนมัติหากเป็นเช่นนั้น[ 25 ] แต่ควรใช้วิธีการที่ทนทานต่อค่าผิดปกติเพื่อสร้างแบบจำลองหรือวิเคราะห์ข้อมูลที่มีค่าผิดปกติเกิดขึ้นตามธรรมชาติ[ 25 ]
การยกเว้น
เมื่อตัดสินใจว่าจะลบค่าผิดปกติออกหรือไม่ ต้องพิจารณาถึงสาเหตุ ดังที่กล่าวไว้ก่อนหน้านี้ หากต้นกำเนิดของค่าผิดปกติสามารถระบุได้ว่าเป็นข้อผิดพลาดในการทดลอง หรือหากสามารถระบุได้ว่าจุดข้อมูลที่ผิดปกตินั้นผิดพลาด โดยทั่วไปแล้วแนะนำให้ลบออก[ 25 ] [ 26 ]อย่างไรก็ตาม การแก้ไขค่าที่ผิดพลาดนั้นเป็นสิ่งที่พึงปรารถนามากกว่า หากเป็นไปได้
ในทางกลับกัน การลบจุดข้อมูลเพียงเพราะเป็นค่าผิดปกติถือเป็นแนวปฏิบัติที่เป็นที่ถกเถียงกัน ซึ่งมักถูกนักวิทยาศาสตร์และอาจารย์สอนวิทยาศาสตร์หลายคนไม่เห็นด้วย เนื่องจากโดยทั่วไปแล้วจะทำให้ผลลัพธ์ทางสถิติไม่ถูกต้อง[ 25 ] [ 26 ]แม้ว่าเกณฑ์ทางคณิตศาสตร์จะให้วิธีการที่เป็นกลางและเชิงปริมาณสำหรับการปฏิเสธข้อมูล แต่ก็ไม่ได้ทำให้แนวปฏิบัตินั้นมีความถูกต้องทางวิทยาศาสตร์หรือระเบียบวิธีมากขึ้น โดยเฉพาะอย่างยิ่งในชุดข้อมูลขนาดเล็กหรือในกรณีที่ไม่สามารถสันนิษฐานได้ว่ามีการกระจายแบบปกติ การปฏิเสธค่าผิดปกติเป็นที่ยอมรับได้มากกว่าในพื้นที่การปฏิบัติที่ทราบแบบจำลองพื้นฐานของกระบวนการที่กำลังวัดและการกระจายปกติของข้อผิดพลาดในการวัดอย่างมั่นใจ
แนวทางทั่วไปสองวิธีในการตัดค่าผิดปกติออกคือการตัดทิ้ง (หรือการเล็ม) และการกรองค่าผิดปกติการเล็มจะทิ้งค่าผิดปกติ ในขณะที่การกรองค่าผิดปกติจะแทนที่ค่าผิดปกติด้วยข้อมูล "ไม่น่าสงสัย" ที่ใกล้เคียงที่สุด[ 27 ]การตัดออกอาจเป็นผลมาจากกระบวนการวัด เช่น เมื่อการทดลองไม่สามารถวัดค่าสุดขั้วดังกล่าวได้อย่างสมบูรณ์ ส่งผลให้ข้อมูลถูกตัดทอน[ 28 ]
ใน ปัญหา การถดถอยแนวทางอื่นอาจเป็นการยกเว้นเฉพาะจุดที่มีอิทธิพลมากต่อสัมประสิทธิ์ที่ประมาณการไว้ โดยใช้มาตรวัดเช่น ระยะทาง ของCook [ 29 ]
หากมีการยกเว้นข้อมูลจุดใดจุดหนึ่ง (หรือหลายจุด) จากการวิเคราะห์ข้อมูลจะต้องระบุให้ชัดเจนในรายงานฉบับต่อๆ ไป
การแจกแจงที่ไม่ปกติ
ควรพิจารณาความเป็นไปได้ที่การกระจายข้อมูลพื้นฐานจะไม่เป็นแบบปกติโดยประมาณ โดยมี " หางที่หนา " ตัวอย่างเช่น เมื่อสุ่มตัวอย่างจากการกระจายแบบ Cauchy [ 30 ]ความแปรปรวนของตัวอย่างจะเพิ่มขึ้นตามขนาดของตัวอย่าง ค่าเฉลี่ยของตัวอย่างจะไม่ลู่เข้าเมื่อขนาดของตัวอย่างเพิ่มขึ้น และคาดว่าจะมีค่าผิดปกติในอัตราที่สูงกว่าการกระจายแบบปกติมาก แม้แต่ความแตกต่างเล็กน้อยในความหนาของหางก็สามารถสร้างความแตกต่างอย่างมากในจำนวนค่าสุดขั้วที่คาดหวังได้
ความไม่แน่นอนของการเป็นสมาชิกเซต
แนวทางการเป็นสมาชิกเซตพิจารณาว่าความไม่แน่นอนที่สอดคล้องกับ การวัดครั้งที่ iของเวกเตอร์สุ่มที่ไม่ทราบค่าxนั้นแสดงด้วยเซตX (แทนที่จะเป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น) หากไม่มีค่าผิดปกติเกิดขึ้นxควรอยู่ในส่วนที่ตัดกันของX ทั้งหมด เมื่อมีค่าผิดปกติเกิดขึ้น ส่วนที่ตัดกันนี้อาจว่างเปล่า และเราควรผ่อนปรนเซตX จำนวนเล็กน้อย (ให้น้อยที่สุดเท่าที่จะเป็นไปได้) เพื่อหลีกเลี่ยงความไม่สอดคล้องกัน[ 31 ]สามารถทำได้โดยใช้แนวคิดของส่วนที่ตัดกันแบบผ่อนปรน q ดังที่แสดงในรูป ส่วนที่ตัดกันแบบผ่อนปรน qสอดคล้องกับเซตของx ทั้งหมด ที่อยู่ในทุกเซตยกเว้นqเซตX ที่ไม่ตัดกับ ส่วนที่ตัดกันแบบผ่อนปรน qอาจถูกสงสัยว่าเป็นค่าผิดปกติ

แบบจำลองทางเลือก
ในกรณีที่ทราบสาเหตุของค่าผิดปกติ อาจเป็นไปได้ที่จะรวมผลกระทบนี้เข้ากับโครงสร้างแบบจำลอง เช่น โดยการใช้แบบจำลอง Bayes แบบลำดับชั้นหรือ แบบ จำลองผสม[ 32 ] [ 33 ]
การเลือกหน่วยวัดระยะทาง
ในการวิเคราะห์แบบกลุ่มข้อมูลที่ผิดปกติสามารถบิดเบือนผลลัพธ์ได้อย่างมาก ดังนั้น การจัดการกับข้อมูลที่ผิดปกติจึงเป็นประเด็นที่มีการถกเถียงกันอย่างมาก
การวิเคราะห์คลัสเตอร์อาศัยการวัดระยะทางเป็นอย่างมาก มีการเสนอแนะว่าระยะทางแมนฮัตตัน น่าจะจัดการกับค่าผิดปกติได้ดีกว่า ระยะทางยูคลิดเนื่องจากไม่มีการยกกำลังสองของค่าความแตกต่างที่มากเกินสัดส่วน[ 34 ]
ดูเพิ่มเติม
เอกสารอ้างอิง
- ^ Grubbs, FE (กุมภาพันธ์ 1969). "ขั้นตอนการตรวจจับข้อมูลที่ผิดปกติในตัวอย่าง" Technometrics . 11 (1): 1– 21. doi : 10.1080/00401706.1969.10490657 .
ข้อมูลที่ผิดปกติ หรือ "ค่าผิดปกติ" คือข้อมูลที่ดูเหมือนจะเบี่ยงเบนอย่างเห็นได้ชัดจากสมาชิกอื่นๆ ในตัวอย่างที่มันปรากฏอยู่
- ^ Maddala, GS (1992). "Outliers" . Introduction to Econometrics (ฉบับที่ 2). นิวยอร์ก: MacMillan. หน้า 89 . ISBN 978-0-02-374545-4ค่าผิดปกติ คือ ข้อมูล ที่
อยู่ห่างไกลจากข้อมูลอื่นๆ อย่างมาก
- ^ a b Pimentel, MA, Clifton, DA, Clifton, L., & Tarassenko, L. (2014). การทบทวนการตรวจจับความแปลกใหม่ การประมวลผลสัญญาณ, 99, 215-249.
- ^ Grubbs 1969 , หน้า 1 ระบุว่า "ค่าสังเกตที่ผิดปกติอาจเป็นเพียงการแสดงออกอย่างสุดขั้วของความแปรปรวนแบบสุ่มที่มีอยู่ในข้อมูล ... ในทางกลับกัน ค่าสังเกตที่ผิดปกติอาจเป็นผลมาจากการเบี่ยงเบนอย่างมากจากขั้นตอนการทดลองที่กำหนดไว้ หรือข้อผิดพลาดในการคำนวณหรือบันทึกค่าตัวเลข"
- ^ Ripley, Brian D. 2004.สถิติที่แข็งแกร่งเก็บถาวรเมื่อ 2012-10-21 ที่ Wayback Machine
- ^ Ruan, Da ; Chen, Guoqing ; Kerre, Etienne (2005). Wets, G. (บรรณาธิการ). การขุดค้นข้อมูลอัจฉริยะ: เทคนิคและการประยุกต์ใช้การศึกษาด้านปัญญาประดิษฐ์เชิงคำนวณ เล่ม 5. Springer. หน้า 318. ISBN 978-3-540-26256-5.
- ^ Zimek, Arthur; Filzmoser, Peter (2018). "ไปและกลับอีกครั้ง: การตรวจจับค่าผิดปกติระหว่างการให้เหตุผลทางสถิติและอัลกอริทึมการขุดข้อมูล" (PDF) . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery . 8 (6) e1280. doi : 10.1002/widm.1280 . ISSN 1942-4787 . S2CID 53305944 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2021-11-14 . สืบค้นเมื่อ2019-12-11 .
- ^ Rousseeuw, P ; Leroy, A. (1996), Robust Regression and Outlier Detection (ฉบับที่ 3), John Wiley & Sons
- ^ Hodge, Victoria J.; Austin, Jim (2004), "การสำรวจวิธีการตรวจจับค่าผิดปกติ", Artificial Intelligence Review , 22 (2): 85– 126, CiteSeerX 10.1.1.109.1943 , doi : 10.1023/B:AIRE.0000045502.10941.a9 , S2CID 3330313
- ^ Barnett, Vic; Lewis, Toby (1994) [1978], Outliers in Statistical Data (ฉบับที่ 3), Wiley, ISBN 978-0-471-93094-5
- ^ a b Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "การสำรวจการตรวจจับค่าผิดปกติแบบไม่ใช้การกำกับดูแลในข้อมูลตัวเลขมิติสูง" การวิเคราะห์ทางสถิติและ การทำเหมืองข้อมูล5 (5): 363– 387. doi : 10.1002/sam.11161 . S2CID 6724536 .
- ^ E178: แนวปฏิบัติมาตรฐานสำหรับการจัดการกับข้อมูลที่ผิดปกติ
- ^เบนจามิน เพียร์ซ "เกณฑ์สำหรับการปฏิเสธการสังเกตการณ์ที่น่าสงสัย"วารสารดาราศาสตร์ II 45 (1852) และข้อแก้ไขเพิ่มเติมในบทความต้นฉบับ
- ^ เพียร์ซ, เบนจามิน (พฤษภาคม 1877 – พฤษภาคม 1878). "เกี่ยวกับเกณฑ์ของเพียร์ซ". วารสารการประชุมวิชาการของสถาบันศิลปะและวิทยาศาสตร์แห่งอเมริกา 13 : 348– 351. doi : 10.2307/25138498 . JSTOR 25138498 .
- ^ Peirce, Charles Sanders (1873) [1870]. "ภาคผนวกหมายเลข 21. ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" รายงานของผู้กำกับดูแลการสำรวจชายฝั่งของสหรัฐอเมริกา แสดงความคืบหน้าของการสำรวจในระหว่างปี 1870 : 200– 224.เอกสารอิเล็กทรอนิกส์ (PDF)ของ NOAA (ไปที่รายงานหน้า 200, ไฟล์ PDF หน้า 215)
- ^ Peirce, Charles Sanders (1986) [1982]. "ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" ใน Kloesel, Christian JW และคณะ (บรรณาธิการ). งานเขียนของ Charles S. Peirce: ฉบับเรียงตามลำดับเวลาเล่ม 3, 1872–1878 .บลูมิงตัน รัฐอินเดียนา: สำนักพิมพ์มหาวิทยาลัยอินเดียนา หน้า 140–160 ISBN 978-0-253-37201-7.– ภาคผนวก 21 ตามหมายเหตุบรรณาธิการในหน้า 515
- ^ Tukey, John W (1977). การวิเคราะห์ข้อมูลเชิงสำรวจ . Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187 .
- ^ Knorr, EM; Ng, RT; Tucakov, V. (2000). "ค่าผิดปกติตามระยะทาง: อัลกอริทึมและการประยุกต์ใช้" วารสาร VLDB วารสารนานาชาติเกี่ยวกับฐานข้อมูลขนาดใหญ่มาก 8 ( 3– 4 ): 237. CiteSeerX 10.1.1.43.1842 . doi : 10.1007/s007780050006 . S2CID 11707259 .
- ^ Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). อัลกอริทึมที่มีประสิทธิภาพสำหรับการค้นหาค่าผิดปกติจากชุดข้อมูลขนาดใหญ่ Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. หน้า 427. doi : 10.1145/342009.335437 . ISBN 1-58113-217-4.
- ^ Breunig, MM; Kriegel, H.-P. ; Ng, RT; Sander, J. (2000). LOF: การระบุค่าผิดปกติเฉพาะที่ตามความหนาแน่น (PDF) . รายงานการประชุมนานาชาติ ACM SIGMOD ว่าด้วยการจัดการข้อมูล ปี 2000 . SIGMOD . หน้า 93– 104. doi : 10.1145/335191.335388 . ISBN 1-58113-217-4เก็บถาวรจากต้นฉบับ(PDF)เมื่อวันที่ 23 กันยายน 2015 เรียกดูเมื่อวันที่ 28 สิงหาคม 2015
- ^ Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "การพิจารณาการตรวจจับค่าผิดปกติเฉพาะที่อีกครั้ง: มุมมองทั่วไปเกี่ยวกับความเป็นท้องถิ่นพร้อมการประยุกต์ใช้กับการตรวจจับค่าผิดปกติเชิงพื้นที่ วิดีโอ และเครือข่าย" Data Mining and Knowledge Discovery . 28 : 190– 237. doi : 10.1007/s10618-012-0300-z . S2CID 19036098 .
- ^ Wheeler, Donald J. (11 มกราคม 2021). "การทดสอบค่าผิดปกติบางประการ: ตอนที่ 2" . Quality Digest . สืบค้นเมื่อ9 กุมภาพันธ์ 2025 .
- ^ Thompson .R. (1985). "หมายเหตุเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดแบบจำกัดด้วยแบบจำลองค่าผิดปกติทางเลือก " วารสารของราชสมาคมสถิติ ซีรีส์ B (ระเบียบวิธี) เล่มที่ 47 ฉบับที่ 1 หน้า 53-55
- ^ Smith, MR; Martinez, T.; Giraud-Carrier, C. (2014). "การวิเคราะห์ความซับซ้อนของข้อมูลในระดับอินสแตนซ์ ". Machine Learning, 95(2): 225-256.
- ^ a b c d Karch, Julian D. (2023). "ค่าผิดปกติอาจไม่ถูกกำจัดออกโดยอัตโนมัติ" . วารสารจิตวิทยาการทดลอง: ทั่วไป . 152 (6): 1735– 1753. doi : 10.1037/xge0001357 . hdl : 1887/4103722 . PMID 37104797 . S2CID 258376426 .
- ^ a b Bakker, Marjan; Wicherts, Jelte M. (2014). "การกำจัดค่าผิดปกติ คะแนนรวม และการเพิ่มขึ้นของอัตราความผิดพลาดประเภทที่ 1 ในการทดสอบ t ของกลุ่มตัวอย่างอิสระ: พลังของทางเลือกและคำแนะนำ" วิธีการทางจิตวิทยา19 (3): 409– 427. doi : 10.1037/met0000014 . PMID 24773354 .
- ^ Wike, Edward L. (2006). การวิเคราะห์ข้อมูล: คู่มือสถิติเบื้องต้นสำหรับนักศึกษาจิตวิทยา สำนัก พิมพ์Transaction Publishers หน้า 24–25 ISBN 978-0-202-36535-0.
- ^ Dixon, WJ (มิถุนายน 1960). "การประมาณค่าแบบง่ายจากตัวอย่างปกติที่ถูกตัดทอน" . The Annals of Mathematical Statistics . 31 (2): 385– 391. doi : 10.1214/aoms/1177705900 .
- ^ Cook, R. Dennis (กุมภาพันธ์ 1977). "การตรวจจับการสังเกตที่มีอิทธิพลในการถดถอยเชิงเส้น" Technometrics (American Statistical Association) 19 (1): 15–18.
- ^ Weisstein, Eric W.การแจกแจงแบบ Cauchy จาก MathWorld--แหล่งข้อมูลบนเว็บของ Wolfram
- ^ Jaulin, L. (2010). "วิธีการกำหนดสมาชิกภาพแบบเซตเชิงความน่าจะเป็นสำหรับการถดถอยที่แข็งแกร่ง" (PDF)วารสารทฤษฎีและปฏิบัติทางสถิติ 4 : 155– 167. doi : 10.1080 /15598608.2010.10411978 . S2CID 16500768 .
- ^ Roberts, S. และ Tarassenko, L.: 1995, เครือข่ายการจัดสรรทรัพยากรเชิงความน่าจะเป็นสำหรับการตรวจจับสิ่งแปลกใหม่ Neural Computation 6, 270–284.
- ^ Bishop, CM (สิงหาคม 1994). "การตรวจจับความแปลกใหม่และการตรวจสอบความถูกต้องของเครือข่ายประสาทเทียม". IEE Proceedings - Vision, Image, and Signal Processing . 141 (4): 217– 222. doi : 10.1049/ip-vis:19941330 (ไม่ใช้งาน 12 กรกฎาคม 2025).
{{cite journal}}: CS1 maint: DOI ไม่ใช้งานแล้วตั้งแต่เดือนกรกฎาคม 2025 ( ลิงก์ ) - ^ตัวอย่าง: Mukhamedova, F. และ Tyukin, I., 2024. การวิเคราะห์การเรียนรู้ของเครื่องจักรเกี่ยวกับผลกระทบของ COVID-19 ต่อรูปแบบการย้ายถิ่น Scientific Reports , 14(1), หน้า 29815. พวกเขาระบุว่า: "ข้อได้เปรียบนี้สามารถอธิบายได้จากการที่ระยะทางแมนฮัตตันอาศัยการรวมผลต่างสัมบูรณ์ ซึ่งทำให้มีความไวต่อค่าผิดปกติลดลงและรับประกันว่าทุกมิติได้รับการปฏิบัติอย่างเท่าเทียมกัน"
ลิงก์ภายนอก
- เรนเซ, จอห์น. "คนนอก" . แมทเวิลด์ .
- Balakrishnan, N.; Childs, A. (2001) [1994], "Outlier" , Encyclopedia of Mathematics , EMS Press
- การทดสอบ Grubbsตามที่อธิบายไว้ในคู่มือ NIST
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ค่าผิดปกติ
ในทางสถิติค่าผิดปกติคือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อมูลสังเกตอื่นๆ ค่าผิดปกติอาจเกิดจากความแปรปรวนในการวัด บ่งชี้ถึงข้อมูลใหม่ หรืออาจเป็นผลมาจากข้อผิดพลาดในการทดลอง...
การเกิดขึ้นและสาเหตุ
ความน่าจะเป็นสัมพัทธ์ในการแจกแจงแบบปกติในกรณีของข้อมูลที่มีการกระจายแบบปกติกฎสามซิกมาหมายความว่าโดยประมาณ 1 ใน 22 การสังเกตจะแตกต่างจากค่าเฉลี่ยมากกว่าสองเท่า ของค่า เบี่ยงเบนมาตรฐานและ 1 ใน 370 จะเบี่ยงเบนมากกว่าสามเท่าของค่าเบี่ยงเบนมาตรฐาน[ 6 ]ในตัวอย่าง...
สาเหตุ
ค่าผิดปกติอาจมีสาเหตุที่ผิดปกติได้หลายประการ อุปกรณ์วัดอาจเกิดความผิดปกติชั่วคราว อาจมีข้อผิดพลาดในการส่งหรือบันทึกข้อมูล ค่าผิดปกติเกิดขึ้นเนื่องจากการเปลี่ยนแปลงพฤติกรรมของระบบ การกระทำที่ทุจริต ความผิดพลาดของมนุษย์ ความผิดพลาดของเครื่องมือ...
คำจำกัดความและการตรวจจับ
ไม่มีคำจำกัดความทางคณิตศาสตร์ที่ตายตัวว่าสิ่งใดถือเป็นค่าผิดปกติ การพิจารณาว่าการสังเกตใดเป็นค่าผิดปกติหรือไม่นั้นขึ้นอยู่กับดุลพินิจส่วนตัวเป็นหลัก[ 7 ]มีวิธีการตรวจจับค่าผิดปกติหลายวิธี ซึ่งบางวิธีถือว่ามีความหมายเหมือนกับการตรวจจับค่าแปลกใหม่[ 3 ] [ 8 ] [...