ค่าผิดปกติ

ในทางสถิติค่าผิดปกติคือจุดข้อมูลที่แตกต่างอย่างมีนัยสำคัญจากข้อมูลสังเกตอื่นๆ^{[ 1 ]}^{[ 2 ]}ค่าผิดปกติอาจเกิดจากความแปรปรวนในการวัด บ่งชี้ถึงข้อมูลใหม่ หรืออาจเป็นผลมาจากข้อผิดพลาดในการทดลอง ซึ่งบางครั้งจะถูกตัดออกจากชุดข้อมูล^{[ 3 ]}^{[ 4 ]} ค่าผิดปกติอาจเป็นสัญญาณของความเป็นไปได้ที่น่าตื่นเต้น แต่ก็อาจทำให้เกิดปัญหาอย่างร้ายแรงในการวิเคราะห์ทางสถิติ ได้ เช่นกัน

ค่าผิดปกติสามารถเกิดขึ้นได้โดยบังเอิญในทุกการแจกแจง แต่ค่าผิดปกติอาจบ่งชี้ถึงพฤติกรรมหรือโครงสร้างใหม่ๆ ในชุดข้อมูลข้อผิดพลาดในการวัดหรือว่าประชากรมีการแจกแจงแบบหางหนักในกรณีของข้อผิดพลาดในการวัด เราควรละทิ้งค่าผิดปกติเหล่านั้น หรือใช้สถิติที่ทนทานต่อค่าผิดปกติ ในขณะที่ในกรณีของการแจกแจงแบบหางหนัก ค่าผิดปกติจะบ่งชี้ว่าการแจกแจงนั้นมีความเบี่ยงเบน สูง และเราควรระมัดระวังอย่างมากในการใช้เครื่องมือหรือสัญชาตญาณที่สมมติว่าเป็นการแจกแจงแบบปกติสาเหตุที่พบบ่อยของค่าผิดปกติคือการผสมผสานของการแจกแจงสองแบบ ซึ่งอาจเป็นประชากรย่อยสองกลุ่มที่แตกต่างกัน หรืออาจบ่งชี้ถึง 'การทดลองที่ถูกต้อง' เทียบกับ 'ข้อผิดพลาดในการวัด' ซึ่งจำลองโดย แบบจำลอง แบบ ผสม

ในการสุ่มตัวอย่างข้อมูลขนาดใหญ่ส่วนใหญ่ จุดข้อมูลบางจุดจะอยู่ห่างจากค่าเฉลี่ยของตัวอย่างมากกว่าที่ถือว่าสมเหตุสมผล นี่อาจเกิดจากข้อผิดพลาดเชิงระบบ โดยบังเอิญ หรือข้อบกพร่องในทฤษฎีที่สร้างกลุ่มการแจกแจงความน่าจะเป็น ที่สมมติ ขึ้น หรืออาจเป็นเพราะการสังเกตบางค่าอยู่ห่างจากจุดศูนย์กลางของข้อมูลมาก ดังนั้น จุดข้อมูลที่ผิดปกติจึงอาจบ่งชี้ถึงข้อมูลที่ผิดพลาด กระบวนการที่ผิดพลาด หรือพื้นที่ที่ทฤษฎีบางอย่างอาจไม่ถูกต้อง อย่างไรก็ตาม ในตัวอย่างขนาดใหญ่ การมีค่าผิดปกติจำนวนเล็กน้อยนั้นเป็นสิ่งที่คาดหวังได้ (และไม่ได้เกิดจากสภาวะผิดปกติใดๆ)

ค่าผิดปกติ คือค่าสังเกตที่สูงที่สุดหรือต่ำที่สุดในกลุ่มตัวอย่าง ซึ่งอาจรวมถึงค่าสูงสุดหรือค่าต่ำสุดของกลุ่มตัวอย่างหรือทั้งสองอย่าง ขึ้นอยู่กับว่าค่าเหล่านั้นสูงมากหรือต่ำมากเป็นพิเศษ อย่างไรก็ตาม ค่าสูงสุดและค่าต่ำสุดของกลุ่มตัวอย่างไม่จำเป็นต้องเป็นค่าผิดปกติเสมอไป เพราะค่าเหล่านั้นอาจไม่ได้อยู่ห่างจากค่าสังเกตอื่นๆ มากผิดปกติก็ได้

การตีความสถิติอย่างง่ายๆ จากชุดข้อมูลที่มีค่าผิดปกติอาจทำให้เกิดความเข้าใจผิดได้ ตัวอย่างเช่น หากเราคำนวณ อุณหภูมิ เฉลี่ยของวัตถุ 10 ชิ้นในห้อง และ 9 ชิ้นมีอุณหภูมิระหว่าง 20 ถึง 25 องศาเซลเซียสแต่เตาอบมีอุณหภูมิ 175 องศาเซลเซียส ค่ามัธยฐานของข้อมูลจะอยู่ระหว่าง 20 ถึง 25 องศาเซลเซียส แต่ค่าเฉลี่ยจะอยู่ระหว่าง 35.5 ถึง 40 องศาเซลเซียส ในกรณีนี้ ค่ามัธยฐานสะท้อนอุณหภูมิของวัตถุที่สุ่มตัวอย่างได้ดีกว่า (แต่ไม่ใช่อุณหภูมิในห้อง) กว่าค่าเฉลี่ย การตีความค่าเฉลี่ยอย่างง่ายๆ ว่าเป็น "ตัวอย่างทั่วไป" ที่เทียบเท่ากับค่ามัธยฐานนั้นไม่ถูกต้อง ดังที่แสดงในกรณีนี้ ค่าผิดปกติอาจบ่งชี้ถึงจุดข้อมูลที่อยู่ในประชากร ที่แตกต่าง จากส่วนที่เหลือของชุด ตัวอย่าง

ตัวประมาณค่าที่สามารถรับมือกับค่าผิดปกติได้เรียกว่าตัวประมาณค่าที่แข็งแกร่ง: ค่ามัธยฐานเป็นสถิติที่แข็งแกร่งของแนวโน้มศูนย์กลางในขณะที่ค่าเฉลี่ยไม่ใช่^{[ 5 ]}

การเกิดขึ้นและสาเหตุ

ในกรณีของข้อมูลที่มีการกระจายแบบปกติ กฎสามซิกมาหมายความว่าโดยประมาณ 1 ใน 22 การสังเกตจะแตกต่างจากค่าเฉลี่ยมากกว่าสองเท่า ของค่า เบี่ยงเบนมาตรฐานและ 1 ใน 370 จะเบี่ยงเบนมากกว่าสามเท่าของค่าเบี่ยงเบนมาตรฐาน^{[ 6 ]}ในตัวอย่าง 1,000 การสังเกต การมีค่าสังเกตที่เบี่ยงเบนจากค่าเฉลี่ยมากกว่าสามเท่าของค่าเบี่ยงเบนมาตรฐานไม่เกินห้าค่า ถือว่าอยู่ในช่วงที่คาดหวังได้ ซึ่งน้อยกว่าสองเท่าของจำนวนที่คาดหวัง และอยู่ในช่วง 1 ค่าเบี่ยงเบนมาตรฐานของจำนวนที่คาดหวัง – ดูการกระจายแบบปัวซง – และไม่ได้บ่งชี้ถึงความผิดปกติ อย่างไรก็ตาม หากขนาดตัวอย่างมีเพียง 100 การมีค่าผิดปกติเพียงสามค่าก็ถือเป็นเหตุให้ต้องกังวลแล้ว ซึ่งมากกว่า 11 เท่าของจำนวนที่คาดหวัง

โดยทั่วไป หากทราบลักษณะการกระจายตัวของประชากรล่วงหน้าก็สามารถทดสอบได้ว่าจำนวนค่าผิดปกติเบี่ยงเบนไปจากที่คาดหวังได้มากน้อย เพียงใด: สำหรับค่าตัดที่กำหนด (ดังนั้นตัวอย่างจะตกอยู่นอกเหนือค่าตัดด้วยความน่าจะเป็น p ) ของการกระจายตัวที่กำหนด จำนวนค่าผิดปกติจะมีการกระจายแบบทวินามที่มีพารามิเตอร์pซึ่งโดยทั่วไปสามารถประมาณได้ดีด้วยการกระจายแบบปัวซงที่มี λ = pnดังนั้น หากใช้การกระจายแบบปกติโดยมีค่าตัดที่ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยpจะมีค่าประมาณ 0.3% และด้วยเหตุนี้ สำหรับการทดลอง 1000 ครั้ง จึงสามารถประมาณจำนวนตัวอย่างที่มีค่าเบี่ยงเบนเกิน 3 ซิกมาได้ด้วยการกระจายแบบปัวซงที่มี λ = 3

สาเหตุ

ค่าผิดปกติอาจมีสาเหตุที่ผิดปกติได้หลายประการ อุปกรณ์วัดอาจเกิดความผิดปกติชั่วคราว อาจมีข้อผิดพลาดในการส่งหรือบันทึกข้อมูล ค่าผิดปกติเกิดขึ้นเนื่องจากการเปลี่ยนแปลงพฤติกรรมของระบบ การกระทำที่ทุจริต ความผิดพลาดของมนุษย์ ความผิดพลาดของเครื่องมือ หรือเพียงแค่ความเบี่ยงเบนตามธรรมชาติในประชากร ตัวอย่างอาจปนเปื้อนด้วยองค์ประกอบจากภายนอกประชากรที่กำลังตรวจสอบ หรืออีกทางหนึ่ง ค่าผิดปกติอาจเป็นผลมาจากข้อบกพร่องในทฤษฎีที่สมมติขึ้น ซึ่งจำเป็นต้องมีการตรวจสอบเพิ่มเติมโดยนักวิจัย นอกจากนี้ การปรากฏของค่าผิดปกติในรูปแบบใดรูปแบบหนึ่งที่ผิดปกติปรากฏในชุดข้อมูลที่หลากหลาย ซึ่งบ่งชี้ว่ากลไกที่เป็นสาเหตุของข้อมูลอาจแตกต่างกันไปในแต่ละกรณี ( ปรากฏการณ์คิง )

คำจำกัดความและการตรวจจับ

ไม่มีคำจำกัดความทางคณิตศาสตร์ที่ตายตัวว่าสิ่งใดถือเป็นค่าผิดปกติ การพิจารณาว่าการสังเกตใดเป็นค่าผิดปกติหรือไม่นั้นขึ้นอยู่กับดุลพินิจส่วนตัวเป็นหลัก^{[ 7 ]}

มีวิธีการตรวจจับค่าผิดปกติหลายวิธี ซึ่งบางวิธีถือว่ามีความหมายเหมือนกับการตรวจจับค่าแปลกใหม่^{[ 3 ]}^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}บางวิธีเป็นแบบกราฟิก เช่นแผนภาพความน่าจะเป็นปกติบางวิธีเป็นแบบอิงตามแบบจำลองแผนภาพกล่องเป็นแบบผสมผสาน

วิธีการที่ใช้แบบจำลองซึ่งนิยมใช้ในการระบุข้อมูลนั้น สันนิษฐานว่าข้อมูลมาจากการแจกแจงแบบปกติ และระบุข้อมูลที่ถือว่า "ไม่น่าจะเป็นไปได้" โดยพิจารณาจากค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน:

เกณฑ์ของโชเวเนต์
การทดสอบของ Grubbs สำหรับค่าผิดปกติ
การทดสอบQของดิกสัน
ASTM E178: แนวปฏิบัติมาตรฐานสำหรับการจัดการกับข้อสังเกตที่ผิดปกติ^{[ 12 ]}
ระยะทางมาฮาลาโนบิสและค่าเลเวอเรจมักถูกใช้เพื่อตรวจหาค่าผิดปกติ โดยเฉพาะอย่างยิ่งในการพัฒนาแบบจำลองการถดถอยเชิงเส้น
เทคนิคตามปริภูมิย่อยและความสัมพันธ์สำหรับข้อมูลเชิงตัวเลขมิติสูง^{[ 11 ]}

เกณฑ์ของเพียร์ซ

มีการเสนอให้กำหนดขีดจำกัดของข้อผิดพลาดในการสังเกตการณ์ชุดหนึ่ง ซึ่งหากเกินกว่าขีดจำกัดนี้ การสังเกตการณ์ทั้งหมดที่เกี่ยวข้องกับข้อผิดพลาดมากขนาดนั้นอาจถูกปฏิเสธได้ โดยมีเงื่อนไขว่าต้องมีการสังเกตการณ์ดังกล่าวจำนวนมาก หลักการที่เสนอเพื่อแก้ปัญหานี้คือ การสังเกตการณ์ที่เสนอควรถูกปฏิเสธเมื่อความน่าจะเป็นของระบบข้อผิดพลาดที่ได้จากการเก็บรักษาการสังเกตการณ์เหล่านั้นมีค่าน้อยกว่าความน่าจะเป็นของระบบข้อผิดพลาดที่ได้จากการปฏิเสธการสังเกตการณ์เหล่านั้น คูณด้วยความน่าจะเป็นของการสังเกตการณ์ที่ผิดปกติจำนวนดังกล่าว และไม่เกินกว่านั้น (อ้างอิงจากหมายเหตุบรรณาธิการในหน้า 516 ของ Peirce (ฉบับปี 1982) จากA Manual of Astronomy 2:558 โดย Chauvenet) ^[¹³^]^[¹⁴^]^[¹⁵^]^[¹⁶^] $m$ $n$

รั้วของทูคีย์

วิธีการอื่นๆ จะระบุค่าผิดปกติโดยพิจารณาจากมาตรวัดต่างๆ เช่นช่วงควาร์ไทล์ตัวอย่างเช่น ถ้าและคือควาร์ไทล์ล่างและควาร์ไทล์ บน ตามลำดับ เราสามารถกำหนดให้ค่าผิดปกติคือค่าสังเกตใดๆ ที่อยู่นอกช่วงนั้นได้ $Q_{1}$ $Q_{3}$

{\big [}Q_{1}-k(Q_{3}-Q_{1}),Q_{3}+k(Q_{3}-Q_{1}){\big ]}

สำหรับค่าคงที่ที่ไม่เป็นลบบางค่าจอ ห์น ทูคีย์เสนอการทดสอบนี้ โดยที่บ่งชี้ถึง "ค่าผิดปกติ" และบ่งชี้ถึงข้อมูลที่ "ผิดปกติมาก" ^[¹⁷^] $k$ $k=1.5$ $k=3$

ในการตรวจจับความผิดปกติ

ในโดเมน ต่างๆเช่นสถิติ การประมวลผลสัญญาณการเงินเศรษฐศาสตร์การผลิต เครือ ข่ายและการขุดข้อมูลงานการตรวจจับความผิดปกติอาจใช้วิธีการอื่นๆ บางวิธีอาจใช้ระยะทางเป็นเกณฑ์[ ¹⁸^]^[¹⁹^]และใช้ความหนาแน่นเป็นเกณฑ์ เช่นLocal Outlier Factor (LOF) ^[²⁰^]บางวิธีอาจใช้ระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุด k ตัวเพื่อติดป้ายกำกับ ^{ข้อมูล}ว่าเป็นค่าผิดปกติหรือไม่ผิดปกติ^[²¹^]

การทดสอบ Thompson Tau ที่ได้รับการดัดแปลง

การทดสอบ Thompson Tau ที่ได้รับการดัดแปลงเป็นวิธีการที่ใช้ในการพิจารณาว่ามีค่าผิดปกติในชุดข้อมูลหรือ ไม่ ^{[ 22 ]}จุดแข็งของวิธีการนี้อยู่ที่การคำนึงถึงค่าเบี่ยงเบนมาตรฐาน ค่าเฉลี่ยของชุดข้อมูล และให้โซนการปฏิเสธที่กำหนดทางสถิติ ดังนั้นจึงเป็นวิธีการที่เป็นกลางในการพิจารณาว่าจุดข้อมูลใดเป็นค่าผิดปกติ^{[ 23 ]} วิธีการทำงาน: ขั้นแรก จะคำนวณค่าเฉลี่ยของชุดข้อมูล ต่อมาจะคำนวณค่าเบี่ยงเบนสัมบูรณ์ระหว่างแต่ละจุดข้อมูลกับค่าเฉลี่ย ประการที่สาม จะกำหนดพื้นที่การปฏิเสธโดยใช้สูตร:

{\text{บริเวณการปฏิเสธ}}{=}{\frac {{t_{\alpha /2}}{\left(n-1\right)}}{{\sqrt {n}}{\sqrt {n-2+{t_{\alpha /2}^{2}}}}}}

;

โดย ที่ δ คือค่าวิกฤตจากการแจกแจงแบบ $t$ ของนักเรียนที่มี องศาอิสระn - 2, nคือขนาดตัวอย่าง และ s คือส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง ในการตรวจสอบว่าค่าใดเป็นค่าผิดปกติหรือไม่ ให้คำนวณ δ ถ้าδ > บริเวณปฏิเสธ แสดงว่าจุดข้อมูลนั้นเป็นค่าผิดปกติ ถ้าδ ≤ บริเวณปฏิเสธ แสดงว่าจุดข้อมูลนั้นไม่ใช่ค่าผิดปกติ $\scriptstyle {t_{\alpha /2}}$ $\scriptstyle \delta =|(X-mean(X))/s|$

การทดสอบ Thompson Tau ที่ปรับปรุงแล้วใช้เพื่อค้นหาค่าผิดปกติทีละค่า (ค่าδ ที่มากที่สุด จะถูกลบออกหากเป็นค่าผิดปกติ) กล่าวคือ หากพบว่าจุดข้อมูลใดเป็นค่าผิดปกติ จุดข้อมูลนั้นจะถูกลบออกจากชุดข้อมูล และทำการทดสอบอีกครั้งด้วยค่าเฉลี่ยและขอบเขตการปฏิเสธใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่าจะไม่มีค่าผิดปกติเหลืออยู่ในชุดข้อมูล

งานวิจัยบางชิ้นยังได้ตรวจสอบค่าผิดปกติสำหรับข้อมูลนาม (หรือข้อมูลเชิงหมวดหมู่) ด้วย ในบริบทของชุดตัวอย่าง (หรืออินสแตนซ์) ในชุดข้อมูล ความยากของอินสแตนซ์จะวัดความน่าจะเป็นที่อินสแตนซ์จะถูกจำแนกผิด ( โดยที่ $y$ คือป้ายกำกับคลาสที่กำหนด และ $x$ แทนค่าคุณลักษณะอินพุตสำหรับอินสแตนซ์ในชุดฝึกอบรม $t$ ) ^[²⁴^]ในอุดมคติแล้ว ความยากของอินสแตนซ์จะคำนวณโดยการรวมค่าของสมมติฐานที่เป็นไปได้ทั้งหมด $H$ : $1-p(y|x)$

{\begin{aligned}IH(\langle x,y\rangle )&=\sum _{H}(1-p(y,x,h))p(h|t)\\&=\sum _{H}p(h|t)-p(y,x,h)p(h|t)\\&=1-\sum _{H}p(y,x,h)p(h|t).\end{aligned}}

ในทางปฏิบัติ การกำหนดสูตรนี้เป็นไปไม่ได้ เนื่องจาก $H$ อาจมีค่าเป็นอนันต์ และการคำนวณก็ไม่เป็นที่ทราบแน่ชัดสำหรับอัลกอริทึมจำนวนมาก ดังนั้น ความยากของปัญหาจึงสามารถประมาณได้โดยใช้เซตย่อยที่หลากหลาย: $p(h|t)$ $L\subset H$

IH_{L}(\langle x,y\rangle )=1-{\frac {1}{|L|}}\sum _{j=1}^{|L|}p(y|x,g_{j}(t,\alpha ))

สมมติฐานที่ได้จากการเรียนรู้ด้วยอัลกอริธึมที่ฝึกฝนบนชุดข้อมูลฝึกฝน $t$ พร้อมพารามิเตอร์ไฮเปอร์นั้นอยู่ที่ใดความยากของอินสแตนซ์จะให้ค่าต่อเนื่องเพื่อพิจารณาว่าอินสแตนซ์นั้นเป็นอินสแตนซ์ที่ผิดปกติหรือไม่ $g_{j}(t,\alpha )$ $g_{j}$ $\alpha$

การทำงานกับค่าผิดปกติ

การเลือกวิธีการจัดการกับค่าผิดปกติควรขึ้นอยู่กับสาเหตุ ตัวประมาณค่าบางตัวมีความไวต่อค่าผิดปกติสูง โดยเฉพาะอย่างยิ่งการประมาณค่าเมทริกซ์ความแปรปรวนร่วม

การรักษา

แม้ว่าแบบจำลองการแจกแจงปกติจะเหมาะสมกับข้อมูลที่กำลังวิเคราะห์อยู่ก็ตาม คาดว่าจะพบค่าผิดปกติสำหรับขนาดตัวอย่างขนาดใหญ่ และไม่ควรละทิ้งค่าผิดปกติโดยอัตโนมัติหากเป็นเช่นนั้น^{[ 25 ]} แต่ควรใช้วิธีการที่ทนทานต่อค่าผิดปกติเพื่อสร้างแบบจำลองหรือวิเคราะห์ข้อมูลที่มีค่าผิดปกติเกิดขึ้นตามธรรมชาติ^{[ 25 ]}

การยกเว้น

เมื่อตัดสินใจว่าจะลบค่าผิดปกติออกหรือไม่ ต้องพิจารณาถึงสาเหตุ ดังที่กล่าวไว้ก่อนหน้านี้ หากต้นกำเนิดของค่าผิดปกติสามารถระบุได้ว่าเป็นข้อผิดพลาดในการทดลอง หรือหากสามารถระบุได้ว่าจุดข้อมูลที่ผิดปกตินั้นผิดพลาด โดยทั่วไปแล้วแนะนำให้ลบออก^{[ 25 ]}^{[ 26 ]}อย่างไรก็ตาม การแก้ไขค่าที่ผิดพลาดนั้นเป็นสิ่งที่พึงปรารถนามากกว่า หากเป็นไปได้

ในทางกลับกัน การลบจุดข้อมูลเพียงเพราะเป็นค่าผิดปกติถือเป็นแนวปฏิบัติที่เป็นที่ถกเถียงกัน ซึ่งมักถูกนักวิทยาศาสตร์และอาจารย์สอนวิทยาศาสตร์หลายคนไม่เห็นด้วย เนื่องจากโดยทั่วไปแล้วจะทำให้ผลลัพธ์ทางสถิติไม่ถูกต้อง^{[ 25 ]}^{[ 26 ]}แม้ว่าเกณฑ์ทางคณิตศาสตร์จะให้วิธีการที่เป็นกลางและเชิงปริมาณสำหรับการปฏิเสธข้อมูล แต่ก็ไม่ได้ทำให้แนวปฏิบัตินั้นมีความถูกต้องทางวิทยาศาสตร์หรือระเบียบวิธีมากขึ้น โดยเฉพาะอย่างยิ่งในชุดข้อมูลขนาดเล็กหรือในกรณีที่ไม่สามารถสันนิษฐานได้ว่ามีการกระจายแบบปกติ การปฏิเสธค่าผิดปกติเป็นที่ยอมรับได้มากกว่าในพื้นที่การปฏิบัติที่ทราบแบบจำลองพื้นฐานของกระบวนการที่กำลังวัดและการกระจายปกติของข้อผิดพลาดในการวัดอย่างมั่นใจ

แนวทางทั่วไปสองวิธีในการตัดค่าผิดปกติออกคือการตัดทิ้ง (หรือการเล็ม) และการกรองค่าผิดปกติการเล็มจะทิ้งค่าผิดปกติ ในขณะที่การกรองค่าผิดปกติจะแทนที่ค่าผิดปกติด้วยข้อมูล "ไม่น่าสงสัย" ที่ใกล้เคียงที่สุด^{[ 27 ]}การตัดออกอาจเป็นผลมาจากกระบวนการวัด เช่น เมื่อการทดลองไม่สามารถวัดค่าสุดขั้วดังกล่าวได้อย่างสมบูรณ์ ส่งผลให้ข้อมูลถูกตัดทอน^{[ 28 ]}

ใน ปัญหา การถดถอยแนวทางอื่นอาจเป็นการยกเว้นเฉพาะจุดที่มีอิทธิพลมากต่อสัมประสิทธิ์ที่ประมาณการไว้ โดยใช้มาตรวัดเช่น ระยะทาง ของCook ^{[ 29 ]}

หากมีการยกเว้นข้อมูลจุดใดจุดหนึ่ง (หรือหลายจุด) จากการวิเคราะห์ข้อมูลจะต้องระบุให้ชัดเจนในรายงานฉบับต่อๆ ไป

การแจกแจงที่ไม่ปกติ

ควรพิจารณาความเป็นไปได้ที่การกระจายข้อมูลพื้นฐานจะไม่เป็นแบบปกติโดยประมาณ โดยมี " ^หางที่หนา " ตัวอย่างเช่น เมื่อสุ่มตัวอย่างจากการกระจายแบบ Cauchy [ ³⁰^]ความแปรปรวนของตัวอย่างจะเพิ่มขึ้นตามขนาดของตัวอย่าง ค่าเฉลี่ยของตัวอย่างจะไม่ลู่เข้าเมื่อขนาดของตัวอย่างเพิ่มขึ้น และคาดว่าจะมีค่าผิดปกติในอัตราที่สูงกว่าการกระจายแบบปกติมาก แม้แต่ความแตกต่างเล็กน้อยในความหนาของหางก็สามารถสร้างความแตกต่างอย่างมากในจำนวนค่าสุดขั้วที่คาดหวังได้

ความไม่แน่นอนของการเป็นสมาชิกเซต

แนวทางการเป็นสมาชิกเซตพิจารณาว่าความไม่แน่นอนที่สอดคล้องกับ การวัดครั้งที่ iของเวกเตอร์สุ่มที่ไม่ทราบค่าxนั้นแสดงด้วยเซตX (แทนที่จะเป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น) หากไม่มีค่าผิดปกติเกิดขึ้นxควรอยู่ในส่วนที่ตัดกันของX ทั้งหมด เมื่อมีค่าผิดปกติเกิดขึ้น ส่วนที่ตัดกันนี้อาจว่างเปล่า และเราควรผ่อนปรนเซตX จำนวนเล็กน้อย (ให้น้อยที่สุดเท่าที่จะเป็นไปได้) เพื่อหลีกเลี่ยงความไม่สอดคล้องกัน^{[ 31 ]}สามารถทำได้โดยใช้แนวคิดของส่วนที่ตัดกันแบบผ่อนปรน q ดังที่แสดงในรูป ส่วนที่ตัดกันแบบผ่อนปรน qสอดคล้องกับเซตของx ทั้งหมด ที่อยู่ในทุกเซตยกเว้นqเซตX ที่ไม่ตัดกับ ส่วนที่ตัดกันแบบผ่อนปรน qอาจถูกสงสัยว่าเป็นค่าผิดปกติ

แบบจำลองทางเลือก

ในกรณีที่ทราบสาเหตุของค่าผิดปกติ อาจเป็นไปได้ที่จะรวมผลกระทบนี้เข้ากับโครงสร้างแบบจำลอง เช่น โดยการใช้แบบจำลอง Bayes แบบลำดับชั้นหรือ แบบ จำลองผสม^{[ 32 ]}^{[ 33 ]}

การเลือกหน่วยวัดระยะทาง

ในการวิเคราะห์แบบกลุ่มข้อมูลที่ผิดปกติสามารถบิดเบือนผลลัพธ์ได้อย่างมาก ดังนั้น การจัดการกับข้อมูลที่ผิดปกติจึงเป็นประเด็นที่มีการถกเถียงกันอย่างมาก

การวิเคราะห์คลัสเตอร์อาศัยการวัดระยะทางเป็นอย่างมาก มีการเสนอแนะว่าระยะทางแมนฮัตตัน น่าจะจัดการกับค่าผิดปกติได้ดีกว่า ระยะทางยูคลิดเนื่องจากไม่มีการยกกำลังสองของค่าความแตกต่างที่มากเกินสัดส่วน^{[ 34 ]}

ดูเพิ่มเติม

เอกสารอ้างอิง

^ Grubbs, FE (กุมภาพันธ์ 1969). "ขั้นตอนการตรวจจับข้อมูลที่ผิดปกติในตัวอย่าง" Technometrics . 11 (1): 1– 21. doi : 10.1080/00401706.1969.10490657 . ข้อมูลที่ผิดปกติ หรือ "ค่าผิดปกติ" คือข้อมูลที่ดูเหมือนจะเบี่ยงเบนอย่างเห็นได้ชัดจากสมาชิกอื่นๆ ในตัวอย่างที่มันปรากฏอยู่
^ Maddala, GS (1992). "Outliers" . Introduction to Econometrics (ฉบับที่ 2). นิวยอร์ก: MacMillan. หน้า 89 . ISBN 978-0-02-374545-4ค่าผิดปกติ คือ ข้อมูล ที่อยู่ห่างไกลจากข้อมูลอื่นๆ อย่างมาก
^ ^a ^b Pimentel, MA, Clifton, DA, Clifton, L., & Tarassenko, L. (2014). การทบทวนการตรวจจับความแปลกใหม่ การประมวลผลสัญญาณ, 99, 215-249.
^ Grubbs 1969 , หน้า 1 ระบุว่า "ค่าสังเกตที่ผิดปกติอาจเป็นเพียงการแสดงออกอย่างสุดขั้วของความแปรปรวนแบบสุ่มที่มีอยู่ในข้อมูล ... ในทางกลับกัน ค่าสังเกตที่ผิดปกติอาจเป็นผลมาจากการเบี่ยงเบนอย่างมากจากขั้นตอนการทดลองที่กำหนดไว้ หรือข้อผิดพลาดในการคำนวณหรือบันทึกค่าตัวเลข"
^ Ripley, Brian D. 2004.สถิติที่แข็งแกร่ง เก็บถาวรเมื่อ 2012-10-21 ที่ Wayback Machine
^ Ruan, Da ; Chen, Guoqing ; Kerre, Etienne (2005). Wets, G. (บรรณาธิการ). การขุดค้นข้อมูลอัจฉริยะ: เทคนิคและการประยุกต์ใช้การศึกษาด้านปัญญาประดิษฐ์เชิงคำนวณ เล่ม 5. Springer. หน้า 318. ISBN 978-3-540-26256-5.
^ Zimek, Arthur; Filzmoser, Peter (2018). "ไปและกลับอีกครั้ง: การตรวจจับค่าผิดปกติระหว่างการให้เหตุผลทางสถิติและอัลกอริทึมการขุดข้อมูล" (PDF) . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery . 8 (6) e1280. doi : 10.1002/widm.1280 . ISSN 1942-4787 . S2CID 53305944 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2021-11-14 . สืบค้นเมื่อ2019-12-11 .
^ Rousseeuw, P ; Leroy, A. (1996), Robust Regression and Outlier Detection (ฉบับที่ 3), John Wiley & Sons
^ Hodge, Victoria J.; Austin, Jim (2004), "การสำรวจวิธีการตรวจจับค่าผิดปกติ", Artificial Intelligence Review , 22 (2): 85– 126, CiteSeerX 10.1.1.109.1943 , doi : 10.1023/B:AIRE.0000045502.10941.a9 , S2CID 3330313
^ Barnett, Vic; Lewis, Toby (1994) [1978], Outliers in Statistical Data (ฉบับที่ 3), Wiley, ISBN 978-0-471-93094-5
^ ^a ^b Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "การสำรวจการตรวจจับค่าผิดปกติแบบไม่ใช้การกำกับดูแลในข้อมูลตัวเลขมิติสูง" การวิเคราะห์ทางสถิติและ การทำเหมืองข้อมูล5 (5): 363– 387. doi : 10.1002/sam.11161 . S2CID 6724536 .
^ E178: แนวปฏิบัติมาตรฐานสำหรับการจัดการกับข้อมูลที่ผิดปกติ
^เบนจามิน เพียร์ซ "เกณฑ์สำหรับการปฏิเสธการสังเกตการณ์ที่น่าสงสัย"วารสารดาราศาสตร์ II 45 (1852) และข้อแก้ไขเพิ่มเติมในบทความต้นฉบับ
^ เพียร์ซ, เบนจามิน (พฤษภาคม 1877 – พฤษภาคม 1878). "เกี่ยวกับเกณฑ์ของเพียร์ซ". วารสารการประชุมวิชาการของสถาบันศิลปะและวิทยาศาสตร์แห่งอเมริกา 13 : 348– 351. doi : 10.2307/25138498 . JSTOR 25138498 .
^ Peirce, Charles Sanders (1873) [1870]. "ภาคผนวกหมายเลข 21. ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" รายงานของผู้กำกับดูแลการสำรวจชายฝั่งของสหรัฐอเมริกา แสดงความคืบหน้าของการสำรวจในระหว่างปี 1870 : 200– 224.เอกสารอิเล็กทรอนิกส์ (PDF)ของ NOAA (ไปที่รายงานหน้า 200, ไฟล์ PDF หน้า 215)
^ Peirce, Charles Sanders (1986) [1982]. "ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" ใน Kloesel, Christian JW และคณะ (บรรณาธิการ). งานเขียนของ Charles S. Peirce: ฉบับเรียงตามลำดับเวลาเล่ม 3, 1872–1878 .บลูมิงตัน รัฐอินเดียนา: สำนักพิมพ์มหาวิทยาลัยอินเดียนา หน้า 140–160 ISBN 978-0-253-37201-7.– ภาคผนวก 21 ตามหมายเหตุบรรณาธิการในหน้า 515
^ Tukey, John W (1977). การวิเคราะห์ข้อมูลเชิงสำรวจ . Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187 .
^ Knorr, EM; Ng, RT; Tucakov, V. (2000). "ค่าผิดปกติตามระยะทาง: อัลกอริทึมและการประยุกต์ใช้" วารสาร VLDB วารสารนานาชาติเกี่ยวกับฐานข้อมูลขนาดใหญ่มาก 8 ( 3– 4 ): 237. CiteSeerX 10.1.1.43.1842 . doi : 10.1007/s007780050006 . S2CID 11707259 .
^ Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). อัลกอริทึมที่มีประสิทธิภาพสำหรับการค้นหาค่าผิดปกติจากชุดข้อมูลขนาดใหญ่ Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. หน้า 427. doi : 10.1145/342009.335437 . ISBN 1-58113-217-4.
^ Breunig, MM; Kriegel, H.-P. ; Ng, RT; Sander, J. (2000). LOF: การระบุค่าผิดปกติเฉพาะที่ตามความหนาแน่น (PDF) . รายงานการประชุมนานาชาติ ACM SIGMOD ว่าด้วยการจัดการข้อมูล ปี 2000 . SIGMOD . หน้า 93– 104. doi : 10.1145/335191.335388 . ISBN 1-58113-217-4เก็บถาวรจากต้นฉบับ(PDF)เมื่อวันที่ 23 กันยายน 2015 เรียกดูเมื่อวันที่ 28 สิงหาคม 2015
^ Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "การพิจารณาการตรวจจับค่าผิดปกติเฉพาะที่อีกครั้ง: มุมมองทั่วไปเกี่ยวกับความเป็นท้องถิ่นพร้อมการประยุกต์ใช้กับการตรวจจับค่าผิดปกติเชิงพื้นที่ วิดีโอ และเครือข่าย" Data Mining and Knowledge Discovery . 28 : 190– 237. doi : 10.1007/s10618-012-0300-z . S2CID 19036098 .
^ Wheeler, Donald J. (11 มกราคม 2021). "การทดสอบค่าผิดปกติบางประการ: ตอนที่ 2" . Quality Digest . สืบค้นเมื่อ9 กุมภาพันธ์ 2025 .
^ Thompson .R. (1985). "หมายเหตุเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดแบบจำกัดด้วยแบบจำลองค่าผิดปกติทางเลือก " วารสารของราชสมาคมสถิติ ซีรีส์ B (ระเบียบวิธี) เล่มที่ 47 ฉบับที่ 1 หน้า 53-55
^ Smith, MR; Martinez, T.; Giraud-Carrier, C. (2014). "การวิเคราะห์ความซับซ้อนของข้อมูลในระดับอินสแตนซ์ ". Machine Learning, 95(2): 225-256.
^ ^a ^b ^c ^d Karch, Julian D. (2023). "ค่าผิดปกติอาจไม่ถูกกำจัดออกโดยอัตโนมัติ" . วารสารจิตวิทยาการทดลอง: ทั่วไป . 152 (6): 1735– 1753. doi : 10.1037/xge0001357 . hdl : 1887/4103722 . PMID 37104797 . S2CID 258376426 .
^ ^a ^b Bakker, Marjan; Wicherts, Jelte M. (2014). "การกำจัดค่าผิดปกติ คะแนนรวม และการเพิ่มขึ้นของอัตราความผิดพลาดประเภทที่ 1 ในการทดสอบ t ของกลุ่มตัวอย่างอิสระ: พลังของทางเลือกและคำแนะนำ" วิธีการทางจิตวิทยา19 (3): 409– 427. doi : 10.1037/met0000014 . PMID 24773354 .
^ Wike, Edward L. (2006). การวิเคราะห์ข้อมูล: คู่มือสถิติเบื้องต้นสำหรับนักศึกษาจิตวิทยา สำนัก พิมพ์Transaction Publishers หน้า 24–25 ISBN 978-0-202-36535-0.
^ Dixon, WJ (มิถุนายน 1960). "การประมาณค่าแบบง่ายจากตัวอย่างปกติที่ถูกตัดทอน" . The Annals of Mathematical Statistics . 31 (2): 385– 391. doi : 10.1214/aoms/1177705900 .
^ Cook, R. Dennis (กุมภาพันธ์ 1977). "การตรวจจับการสังเกตที่มีอิทธิพลในการถดถอยเชิงเส้น" Technometrics (American Statistical Association) 19 (1): 15–18.
^ Weisstein, Eric W.การแจกแจงแบบ Cauchy จาก MathWorld--แหล่งข้อมูลบนเว็บของ Wolfram
^ Jaulin, L. (2010). "วิธีการกำหนดสมาชิกภาพแบบเซตเชิงความน่าจะเป็นสำหรับการถดถอยที่แข็งแกร่ง" (PDF)วารสารทฤษฎีและปฏิบัติทางสถิติ 4 : 155– 167. doi : 10.1080 /15598608.2010.10411978 . S2CID 16500768 .
^ Roberts, S. และ Tarassenko, L.: 1995, เครือข่ายการจัดสรรทรัพยากรเชิงความน่าจะเป็นสำหรับการตรวจจับสิ่งแปลกใหม่ Neural Computation 6, 270–284.
^ Bishop, CM (สิงหาคม 1994). "การตรวจจับความแปลกใหม่และการตรวจสอบความถูกต้องของเครือข่ายประสาทเทียม". IEE Proceedings - Vision, Image, and Signal Processing . 141 (4): 217– 222. doi : 10.1049/ip-vis:19941330 (ไม่ใช้งาน 12 กรกฎาคม 2025).{{cite journal}}: CS1 maint: DOI ไม่ใช้งานแล้วตั้งแต่เดือนกรกฎาคม 2025 ( ลิงก์ )
^ตัวอย่าง: Mukhamedova, F. และ Tyukin, I., 2024. การวิเคราะห์การเรียนรู้ของเครื่องจักรเกี่ยวกับผลกระทบของ COVID-19 ต่อรูปแบบการย้ายถิ่น Scientific Reports , 14(1), หน้า 29815. พวกเขาระบุว่า: "ข้อได้เปรียบนี้สามารถอธิบายได้จากการที่ระยะทางแมนฮัตตันอาศัยการรวมผลต่างสัมบูรณ์ ซึ่งทำให้มีความไวต่อค่าผิดปกติลดลงและรับประกันว่าทุกมิติได้รับการปฏิบัติอย่างเท่าเทียมกัน"

ลิงก์ภายนอก

เรนเซ, จอห์น. "คนนอก" . แมทเวิลด์ .
Balakrishnan, N.; Childs, A. (2001) [1994], "Outlier" , Encyclopedia of Mathematics , EMS Press
การทดสอบ Grubbsตามที่อธิบายไว้ในคู่มือ NIST

[1] Grubbs, FE (กุมภาพันธ์ 1969). "ขั้นตอนการตรวจจับข้อมูลที่ผิดปกติในตัวอย่าง" Technometrics . 11 (1): 1– 21. doi : 10.1080/00401706.1969.10490657 . ข้อมูลที่ผิดปกติ หรือ "ค่าผิดปกติ" คือข้อมูลที่ดูเหมือนจะเบี่ยงเบนอย่างเห็นได้ชัดจากสมาชิกอื่นๆ ในตัวอย่างที่มันปรากฏอยู่

[2] Maddala, GS (1992). "Outliers" . Introduction to Econometrics (ฉบับที่ 2). นิวยอร์ก: MacMillan. หน้า 89 . ISBN 978-0-02-374545-4ค่าผิดปกติ คือ ข้อมูล ที่อยู่ห่างไกลจากข้อมูลอื่นๆ อย่างมาก

[Pimentel,_M._A._2014-3] Pimentel, MA, Clifton, DA, Clifton, L., & Tarassenko, L. (2014). การทบทวนการตรวจจับความแปลกใหม่ การประมวลผลสัญญาณ, 99, 215-249.

[4] Grubbs 1969 , หน้า 1 ระบุว่า "ค่าสังเกตที่ผิดปกติอาจเป็นเพียงการแสดงออกอย่างสุดขั้วของความแปรปรวนแบบสุ่มที่มีอยู่ในข้อมูล ... ในทางกลับกัน ค่าสังเกตที่ผิดปกติอาจเป็นผลมาจากการเบี่ยงเบนอย่างมากจากขั้นตอนการทดลองที่กำหนดไว้ หรือข้อผิดพลาดในการคำนวณหรือบันทึกค่าตัวเลข"

[5] Ripley, Brian D. 2004.สถิติที่แข็งแกร่ง เก็บถาวรเมื่อ 2012-10-21 ที่ Wayback Machine

[6] Ruan, Da ; Chen, Guoqing ; Kerre, Etienne (2005). Wets, G. (บรรณาธิการ). การขุดค้นข้อมูลอัจฉริยะ: เทคนิคและการประยุกต์ใช้การศึกษาด้านปัญญาประดิษฐ์เชิงคำนวณ เล่ม 5. Springer. หน้า 318. ISBN 978-3-540-26256-5.

[ZimekFilzmoser2018-7] Zimek, Arthur; Filzmoser, Peter (2018). "ไปและกลับอีกครั้ง: การตรวจจับค่าผิดปกติระหว่างการให้เหตุผลทางสถิติและอัลกอริทึมการขุดข้อมูล" (PDF) . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery . 8 (6) e1280. doi : 10.1002/widm.1280 . ISSN 1942-4787 . S2CID 53305944 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2021-11-14 . สืบค้นเมื่อ2019-12-11 .

[8] Rousseeuw, P ; Leroy, A. (1996), Robust Regression and Outlier Detection (ฉบับที่ 3), John Wiley & Sons

[9] Hodge, Victoria J.; Austin, Jim (2004), "การสำรวจวิธีการตรวจจับค่าผิดปกติ", Artificial Intelligence Review , 22 (2): 85– 126, CiteSeerX 10.1.1.109.1943 , doi : 10.1023/B:AIRE.0000045502.10941.a9 , S2CID 3330313

[10] Barnett, Vic; Lewis, Toby (1994) [1978], Outliers in Statistical Data (ฉบับที่ 3), Wiley, ISBN 978-0-471-93094-5

[subspace-11] Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "การสำรวจการตรวจจับค่าผิดปกติแบบไม่ใช้การกำกับดูแลในข้อมูลตัวเลขมิติสูง" การวิเคราะห์ทางสถิติและ การทำเหมืองข้อมูล5 (5): 363– 387. doi : 10.1002/sam.11161 . S2CID 6724536 .

[12] E178: แนวปฏิบัติมาตรฐานสำหรับการจัดการกับข้อมูลที่ผิดปกติ

[13] เบนจามิน เพียร์ซ "เกณฑ์สำหรับการปฏิเสธการสังเกตการณ์ที่น่าสงสัย"วารสารดาราศาสตร์ II 45 (1852) และข้อแก้ไขเพิ่มเติมในบทความต้นฉบับ

[14] เพียร์ซ, เบนจามิน (พฤษภาคม 1877 – พฤษภาคม 1878). "เกี่ยวกับเกณฑ์ของเพียร์ซ". วารสารการประชุมวิชาการของสถาบันศิลปะและวิทยาศาสตร์แห่งอเมริกา 13 : 348– 351. doi : 10.2307/25138498 . JSTOR 25138498 .

[15] Peirce, Charles Sanders (1873) [1870]. "ภาคผนวกหมายเลข 21. ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" รายงานของผู้กำกับดูแลการสำรวจชายฝั่งของสหรัฐอเมริกา แสดงความคืบหน้าของการสำรวจในระหว่างปี 1870 : 200– 224.เอกสารอิเล็กทรอนิกส์ (PDF)ของ NOAA (ไปที่รายงานหน้า 200, ไฟล์ PDF หน้า 215)

[16] Peirce, Charles Sanders (1986) [1982]. "ว่าด้วยทฤษฎีข้อผิดพลาดในการสังเกต" ใน Kloesel, Christian JW และคณะ (บรรณาธิการ). งานเขียนของ Charles S. Peirce: ฉบับเรียงตามลำดับเวลาเล่ม 3, 1872–1878 .บลูมิงตัน รัฐอินเดียนา: สำนักพิมพ์มหาวิทยาลัยอินเดียนา หน้า 140–160 ISBN 978-0-253-37201-7.– ภาคผนวก 21 ตามหมายเหตุบรรณาธิการในหน้า 515

[17] Tukey, John W (1977). การวิเคราะห์ข้อมูลเชิงสำรวจ . Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187 .

[18] Knorr, EM; Ng, RT; Tucakov, V. (2000). "ค่าผิดปกติตามระยะทาง: อัลกอริทึมและการประยุกต์ใช้" วารสาร VLDB วารสารนานาชาติเกี่ยวกับฐานข้อมูลขนาดใหญ่มาก 8 ( 3– 4 ): 237. CiteSeerX 10.1.1.43.1842 . doi : 10.1007/s007780050006 . S2CID 11707259 .

[19] Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). อัลกอริทึมที่มีประสิทธิภาพสำหรับการค้นหาค่าผิดปกติจากชุดข้อมูลขนาดใหญ่ Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. หน้า 427. doi : 10.1145/342009.335437 . ISBN 1-58113-217-4.

[20] Breunig, MM; Kriegel, H.-P. ; Ng, RT; Sander, J. (2000). LOF: การระบุค่าผิดปกติเฉพาะที่ตามความหนาแน่น (PDF) . รายงานการประชุมนานาชาติ ACM SIGMOD ว่าด้วยการจัดการข้อมูล ปี 2000 . SIGMOD . หน้า 93– 104. doi : 10.1145/335191.335388 . ISBN 1-58113-217-4เก็บถาวรจากต้นฉบับ(PDF)เมื่อวันที่ 23 กันยายน 2015 เรียกดูเมื่อวันที่ 28 สิงหาคม 2015

[21] Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "การพิจารณาการตรวจจับค่าผิดปกติเฉพาะที่อีกครั้ง: มุมมองทั่วไปเกี่ยวกับความเป็นท้องถิ่นพร้อมการประยุกต์ใช้กับการตรวจจับค่าผิดปกติเชิงพื้นที่ วิดีโอ และเครือข่าย" Data Mining and Knowledge Discovery . 28 : 190– 237. doi : 10.1007/s10618-012-0300-z . S2CID 19036098 .

[22] Wheeler, Donald J. (11 มกราคม 2021). "การทดสอบค่าผิดปกติบางประการ: ตอนที่ 2" . Quality Digest . สืบค้นเมื่อ9 กุมภาพันธ์ 2025 .

[23] Thompson .R. (1985). "หมายเหตุเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดแบบจำกัดด้วยแบบจำลองค่าผิดปกติทางเลือก " วารสารของราชสมาคมสถิติ ซีรีส์ B (ระเบียบวิธี) เล่มที่ 47 ฉบับที่ 1 หน้า 53-55

[24] Smith, MR; Martinez, T.; Giraud-Carrier, C. (2014). "การวิเคราะห์ความซับซ้อนของข้อมูลในระดับอินสแตนซ์ ". Machine Learning, 95(2): 225-256.

[karch2023-25] Karch, Julian D. (2023). "ค่าผิดปกติอาจไม่ถูกกำจัดออกโดยอัตโนมัติ" . วารสารจิตวิทยาการทดลอง: ทั่วไป . 152 (6): 1735– 1753. doi : 10.1037/xge0001357 . hdl : 1887/4103722 . PMID 37104797 . S2CID 258376426 .

[bakker2014-26] Bakker, Marjan; Wicherts, Jelte M. (2014). "การกำจัดค่าผิดปกติ คะแนนรวม และการเพิ่มขึ้นของอัตราความผิดพลาดประเภทที่ 1 ในการทดสอบ t ของกลุ่มตัวอย่างอิสระ: พลังของทางเลือกและคำแนะนำ" วิธีการทางจิตวิทยา19 (3): 409– 427. doi : 10.1037/met0000014 . PMID 24773354 .

[27] Wike, Edward L. (2006). การวิเคราะห์ข้อมูล: คู่มือสถิติเบื้องต้นสำหรับนักศึกษาจิตวิทยา สำนัก พิมพ์Transaction Publishers หน้า 24–25 ISBN 978-0-202-36535-0.

[28] Dixon, WJ (มิถุนายน 1960). "การประมาณค่าแบบง่ายจากตัวอย่างปกติที่ถูกตัดทอน" . The Annals of Mathematical Statistics . 31 (2): 385– 391. doi : 10.1214/aoms/1177705900 .

[29] Cook, R. Dennis (กุมภาพันธ์ 1977). "การตรวจจับการสังเกตที่มีอิทธิพลในการถดถอยเชิงเส้น" Technometrics (American Statistical Association) 19 (1): 15–18.

[30] Weisstein, Eric W.การแจกแจงแบบ Cauchy จาก MathWorld--แหล่งข้อมูลบนเว็บของ Wolfram

[31] Jaulin, L. (2010). "วิธีการกำหนดสมาชิกภาพแบบเซตเชิงความน่าจะเป็นสำหรับการถดถอยที่แข็งแกร่ง" (PDF)วารสารทฤษฎีและปฏิบัติทางสถิติ 4 : 155– 167. doi : 10.1080 /15598608.2010.10411978 . S2CID 16500768 .

[32] Roberts, S. และ Tarassenko, L.: 1995, เครือข่ายการจัดสรรทรัพยากรเชิงความน่าจะเป็นสำหรับการตรวจจับสิ่งแปลกใหม่ Neural Computation 6, 270–284.

[33] Bishop, CM (สิงหาคม 1994). "การตรวจจับความแปลกใหม่และการตรวจสอบความถูกต้องของเครือข่ายประสาทเทียม". IEE Proceedings - Vision, Image, and Signal Processing . 141 (4): 217– 222. doi : 10.1049/ip-vis:19941330 (ไม่ใช้งาน 12 กรกฎาคม 2025).{{cite journal}}: CS1 maint: DOI ไม่ใช้งานแล้วตั้งแต่เดือนกรกฎาคม 2025 ( ลิงก์ )

[34] ตัวอย่าง: Mukhamedova, F. และ Tyukin, I., 2024. การวิเคราะห์การเรียนรู้ของเครื่องจักรเกี่ยวกับผลกระทบของ COVID-19 ต่อรูปแบบการย้ายถิ่น Scientific Reports , 14(1), หน้า 29815. พวกเขาระบุว่า: "ข้อได้เปรียบนี้สามารถอธิบายได้จากการที่ระยะทางแมนฮัตตันอาศัยการรวมผลต่างสัมบูรณ์ ซึ่งทำให้มีความไวต่อค่าผิดปกติลดลงและรับประกันว่าทุกมิติได้รับการปฏิบัติอย่างเท่าเทียมกัน"

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[

[

[

[

[

18

19

20

ข้อมูล

[ 22 ]

[ 23 ]

[

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

หาง

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

ฐานข้อมูลควบคุมอำนาจ
ระหว่างประเทศ	ก.น.
ระดับชาติ	สหรัฐอเมริกา ฝรั่งเศส ข้อมูล BnF อิสราเอล
อื่น	รหัสอ้างอิง 2 เยล ลักซ์