การวิเคราะห์คลัสเตอร์

ผลลัพธ์ของการวิเคราะห์แบบคลัสเตอร์แสดงโดยการระบายสีสี่เหลี่ยมเป็นสามคลัสเตอร์

การวิเคราะห์คลัสเตอร์หรือการจัดคลัสเตอร์เป็นเทคนิคการวิเคราะห์ข้อมูลที่มุ่งเน้นการแบ่งชุดของวัตถุออกเป็นกลุ่ม โดยที่วัตถุภายในกลุ่มเดียวกัน (เรียกว่าคลัสเตอร์ ) จะมีความคล้ายคลึงกันมากกว่า (ในความหมายเฉพาะที่นักวิเคราะห์กำหนด) เมื่อเทียบกับวัตถุในกลุ่มอื่น ๆ การจัดคลัสเตอร์เป็นงานหลักของการวิเคราะห์ข้อมูลเชิงสำรวจและเป็นเทคนิคทั่วไปสำหรับการวิเคราะห์ข้อมูล ทางสถิติ ซึ่งใช้ในหลายสาขา รวมถึงการรู้จำรูปแบบการวิเคราะห์ภาพ การค้นหาข้อมูลชีวสารสนเทศ การบีบอัดข้อมูลกราฟิกคอมพิวเตอร์และการ เรียน รู้ ของเครื่อง

การวิเคราะห์คลัสเตอร์หมายถึงกลุ่มของอัลกอริทึมและงานต่างๆ มากกว่าอัลกอริทึม เฉพาะตัวใดตัวหนึ่ง สามารถทำได้โดยใช้อัลกอริทึมหลายแบบ ซึ่งแตกต่างกันอย่างมากในความเข้าใจเกี่ยวกับองค์ประกอบของคลัสเตอร์และวิธีการค้นหาคลัสเตอร์อย่างมีประสิทธิภาพ แนวคิดที่นิยมใช้เกี่ยวกับคลัสเตอร์ ได้แก่ กลุ่มที่มีระยะห่างระหว่างสมาชิกในคลัสเตอร์น้อย พื้นที่ที่มีความหนาแน่นสูงในพื้นที่ข้อมูล ช่วง หรือการกระจายทางสถิติ แบบเฉพาะ ดังนั้น การจัดคลัสเตอร์จึงสามารถกำหนดเป็น ปัญหา การหาค่าเหมาะสมที่สุดแบบหลายเป้าหมายได้อัลกอริทึมการจัดคลัสเตอร์ที่เหมาะสมและการตั้งค่าพารามิเตอร์ (รวมถึงพารามิเตอร์ต่างๆ เช่นฟังก์ชันระยะทางที่จะใช้ เกณฑ์ความหนาแน่น หรือจำนวนคลัสเตอร์ที่คาดหวัง) ขึ้นอยู่กับชุดข้อมูล แต่ละชุด และการใช้งานผลลัพธ์ที่ตั้งใจไว้ การวิเคราะห์คลัสเตอร์ไม่ใช่กระบวนการอัตโนมัติ แต่เป็นกระบวนการวนซ้ำของการค้นพบความรู้หรือการหาค่าเหมาะสมที่สุดแบบหลายเป้าหมายเชิงโต้ตอบที่เกี่ยวข้องกับการลองผิดลองถูก มักจำเป็นต้องปรับเปลี่ยนการประมวลผลข้อมูลเบื้องต้นและพารามิเตอร์ของแบบจำลองจนกว่าผลลัพธ์จะตรงตามคุณสมบัติที่ต้องการ

นอกจากคำว่าการจัดกลุ่ม (clustering ) แล้ว ยังมีคำศัพท์อื่นๆ ที่มีความหมายคล้ายคลึงกันอีกหลายคำ เช่น การจำแนกประเภท อัตโนมัติ (automatic classification ), อนุกรม วิธานเชิงตัวเลข (numerical taxonomy ) , พฤกษศาสตร์ (botryology จากภาษากรีก : βότρυς ' องุ่น' ), การวิเคราะห์เชิงประเภท (typological analysis ) และการตรวจจับชุมชน (community detection ) ความแตกต่างเล็กน้อยมักอยู่ที่การนำผลลัพธ์ไปใช้: ในขณะที่การทำเหมืองข้อมูล (data mining) กลุ่มที่ได้เป็นสิ่งที่น่าสนใจ แต่ในการจำแนกประเภทอัตโนมัติ พลังในการจำแนก (discriminative power) ที่ได้เป็นสิ่งที่น่าสนใจ

การวิเคราะห์คลัสเตอร์มีต้นกำเนิดมาจากมานุษยวิทยาโดย Driver และ Kroeber ในปี พ.ศ. 2475 ^{[ 1 ]}และนำมาใช้ในจิตวิทยาโดยJoseph Zubinในปี พ.ศ. 2481 ^{[ 2 ]}และRobert Tryonในปี พ.ศ. 2482 ^{[ 3 ]}และCattell นำมาใช้อย่างมีชื่อเสียง ตั้งแต่ปี พ.ศ. 2486 ^{[ 4 ]}เพื่อการจำแนกประเภททฤษฎีลักษณะนิสัยในจิตวิทยา บุคลิกภาพ

คำนิยาม

แนวคิดของ "คลัสเตอร์" ไม่สามารถกำหนดได้อย่างแม่นยำ ซึ่งเป็นหนึ่งในเหตุผลที่ทำให้มีอัลกอริธึมการจัดคลัสเตอร์มากมาย^{[ 5 ]}มีตัวร่วมคือ กลุ่มของวัตถุข้อมูล อย่างไรก็ตาม นักวิจัยแต่ละคนใช้โมเดลคลัสเตอร์ที่แตกต่างกัน และสำหรับแต่ละโมเดลคลัสเตอร์เหล่านี้ ก็สามารถกำหนดอัลกอริธึมที่แตกต่างกันได้อีก แนวคิดของคลัสเตอร์ที่พบโดยอัลกอริธึมที่แตกต่างกันนั้น มีคุณสมบัติที่แตกต่างกันอย่างมาก การทำความเข้าใจ "โมเดลคลัสเตอร์" เหล่านี้เป็นกุญแจสำคัญในการทำความเข้าใจความแตกต่างระหว่างอัลกอริธึมต่างๆ โมเดลคลัสเตอร์ทั่วไป ได้แก่:

แบบ จำลองการเชื่อมต่อ : ตัวอย่างเช่นการจัดกลุ่มแบบลำดับชั้นสร้างแบบจำลองโดยอิงจากการเชื่อมต่อตามระยะทาง
แบบจำลองเซนทรอยด์: ตัวอย่างเช่นอัลกอริทึม k-meansแทนแต่ละคลัสเตอร์ด้วยเวกเตอร์ค่าเฉลี่ยเพียงตัวเดียว
แบบจำลองการกระจาย : กลุ่มต่างๆ จะถูกจำลองโดยใช้การกระจายทางสถิติ เช่นการกระจายแบบปกติหลายตัวแปรซึ่งใช้โดยอัลกอริทึมการคาดการณ์และการทำให้สูงสุด (expectation-maximization algorithm)
แบบจำลองความหนาแน่น : ตัวอย่างเช่นDBSCAN,OPTICSและHDBSCANกำหนดคลัสเตอร์เป็นบริเวณที่มีความหนาแน่นสูงและเชื่อมต่อกันในพื้นที่ข้อมูล
แบบจำลองซับสเปซ: ในการจัดกลุ่มแบบไบคลัสเตอร์(หรือที่เรียกว่าโคคลัสเตอร์หรือการจัดกลุ่มแบบสองโหมด) กลุ่มต่างๆ จะถูกสร้างแบบจำลองโดยใช้ทั้งสมาชิกในกลุ่มและคุณลักษณะที่เกี่ยวข้อง
แบบ จำลองกลุ่ม : อัลกอริทึมบางตัวไม่ได้ให้แบบจำลองที่ละเอียดสำหรับผลลัพธ์ แต่ให้เพียงข้อมูลการจัดกลุ่มเท่านั้น
แบบจำลองกราฟ :กลุ่มย่อยของโหนดในกราฟที่ทุกสองโหนดในกลุ่มย่อยนั้นเชื่อมต่อกันด้วยเส้นขอบ สามารถพิจารณาได้ว่าเป็นรูปแบบต้นแบบของกลุ่ม การผ่อนปรนข้อกำหนดการเชื่อมต่อที่สมบูรณ์ (เส้นขอบบางส่วนอาจขาดหายไปได้) เรียกว่ากลุ่มย่อยเสมือน (quasi-cliques) ดังเช่นในอัลกอริทึมการจัดกลุ่ม HCS
แบบจำลองกราฟแบบมีเครื่องหมาย : เส้นทาง ทุกเส้น ในกราฟแบบมี เครื่องหมายจะมี เครื่องหมาย จากผลคูณของเครื่องหมายบนขอบ ภายใต้สมมติฐานของทฤษฎีสมดุลขอบอาจเปลี่ยนเครื่องหมายและส่งผลให้เกิดกราฟแยกสาขา "สัจพจน์ความสามารถในการจัดกลุ่ม" ที่อ่อนกว่า (ไม่มีวงจร ใด มีขอบลบเพียงขอบเดียว) จะให้ผลลัพธ์ที่มีคลัสเตอร์มากกว่าสองคลัสเตอร์ หรือกราฟย่อยที่มีเฉพาะขอบบวกเท่านั้น^{[ 6 ]}
แบบจำลองโครงข่ายประสาทเทียม :โครงข่ายประสาท ไม่ใช้ ที่เป็นที่รู้จักมากที่สุดคือแผนที่จัดระเบียบตนเอง (Self-Organizing Map)และแบบจำลองเหล่านี้มักจะมีลักษณะคล้ายคลึงกับแบบจำลองข้างต้นอย่างน้อยหนึ่งแบบ รวมถึงแบบจำลองพื้นที่ย่อย (Subspace Model) เมื่อโครงข่ายประสาทเทียมใช้รูปแบบการวิเคราะห์ส่วนประกอบหลัก (Principal Component Analysisหรือการวิเคราะห์ส่วนประกอบอิสระ (Independent Component Analysis)

"การจัดกลุ่ม" โดยพื้นฐานแล้วคือชุดของกลุ่มต่างๆ ซึ่งโดยปกติจะประกอบด้วยวัตถุทั้งหมดในชุดข้อมูล นอกจากนี้ยังอาจระบุความสัมพันธ์ระหว่างกลุ่มต่างๆ ต่อกัน เช่น ลำดับชั้นของกลุ่มที่ซ้อนกันอยู่ การจัดกลุ่มสามารถแบ่งออกได้คร่าวๆ ดังนี้:

การจัดกลุ่มแบบเข้มงวด : วัตถุแต่ละชิ้นจะอยู่ในกลุ่มใดกลุ่มหนึ่งหรือไม่ก็ได้
การจัดกลุ่มแบบอ่อน (หรืออีกนัยหนึ่งคือ:การจัดกลุ่มแบบฟัซซี (Fuzzy Clustering ): วัตถุแต่ละชิ้นจะอยู่ในแต่ละกลุ่มในระดับหนึ่ง (เช่น ความน่าจะเป็นที่จะอยู่ในกลุ่มนั้น)

นอกจากนี้ยังสามารถแบ่งย่อยได้ละเอียดกว่านั้นอีก เช่น:

การจัดกลุ่มแบบแบ่งพาร์ติชันอย่างเข้มงวด : วัตถุแต่ละชิ้นจะอยู่ในกลุ่มคลัสเตอร์เพียงกลุ่มเดียวเท่านั้น
การจัดกลุ่มแบบแบ่งพาร์ติชันอย่างเข้มงวดโดยคำนึงถึงค่าผิดปกติ : วัตถุอาจไม่สังกัดกลุ่มใดเลย ซึ่งในกรณีนี้จะถือว่าเป็นค่าผิดปกติ
การจัดกลุ่มแบบทับซ้อน (เรียกอีกอย่างว่าการจัดกลุ่มแบบทางเลือกการจัดกลุ่มแบบหลายมุมมอง): วัตถุอาจอยู่ในกลุ่มมากกว่าหนึ่งกลุ่ม โดยปกติจะเกี่ยวข้องกับกลุ่มแบบแข็ง (hard clusters)
การจัดกลุ่มแบบลำดับชั้น : วัตถุที่อยู่ในกลุ่มย่อยก็อยู่ในกลุ่มหลักด้วยเช่นกัน
การจัดกลุ่มแบบซับสเปซ : ในขณะที่การจัดกลุ่มแบบทับซ้อนกันนั้น ภายในซับสเปซที่กำหนดไว้อย่างเฉพาะเจาะจง กลุ่มต่างๆ จะไม่ทับซ้อนกัน

อัลกอริทึม

ดังที่กล่าวมาข้างต้น อัลกอริทึมการจัดกลุ่มสามารถแบ่งประเภทได้ตามแบบจำลองการจัดกลุ่ม ภาพรวมต่อไปนี้จะแสดงเฉพาะตัวอย่างที่โดดเด่นที่สุดของอัลกอริทึมการจัดกลุ่มเท่านั้น เนื่องจากอาจมีอัลกอริทึมการจัดกลุ่มที่เผยแพร่แล้วมากกว่า 100 รายการ ไม่ใช่ทุกอัลกอริทึมที่จะมีแบบจำลองสำหรับการจัดกลุ่ม ดังนั้นจึงไม่สามารถจัดประเภทได้อย่างง่ายดาย ภาพรวมของอัลกอริทึมที่อธิบายไว้ในวิกิพีเดียสามารถพบได้ในรายการ อัลกอริทึมทางสถิติ

ไม่มีอัลกอริทึมการจัดกลุ่มที่ "ถูกต้อง" อย่างเป็นกลาง แต่ดังที่ได้กล่าวไว้ว่า "การจัดกลุ่มขึ้นอยู่กับมุมมองของผู้มอง" ^{[ 5 ]}ในความเป็นจริง แนวทางเชิงสัจพจน์ในการจัดกลุ่มแสดงให้เห็นว่า เป็นไปไม่ได้ที่วิธีการจัดกลุ่มใดๆ จะตรงตามคุณสมบัติพื้นฐานสามประการพร้อมกัน ได้แก่ความไม่แปรผันตามมาตราส่วน (ผลลัพธ์ยังคงไม่เปลี่ยนแปลงภายใต้การปรับขนาดตามสัดส่วนของระยะทาง) ความสมบูรณ์ (สามารถแบ่งข้อมูลออกเป็นส่วนย่อยที่เป็นไปได้ทั้งหมด) และความสอดคล้องระหว่างระยะทางและโครงสร้างการจัดกลุ่ม^{[ 7 ]}อัลกอริทึมการจัดกลุ่มที่เหมาะสมที่สุดสำหรับปัญหาเฉพาะมักจะต้องเลือกโดยการทดลอง เว้นแต่จะมีเหตุผลทางคณิตศาสตร์ที่จะเลือกแบบจำลองการจัดกลุ่มแบบหนึ่งมากกว่าอีกแบบหนึ่ง อัลกอริทึมที่ออกแบบมาสำหรับแบบจำลองประเภทหนึ่งมักจะล้มเหลวกับชุดข้อมูลที่มีแบบจำลองที่แตกต่างกันอย่างสิ้นเชิง^{[ 5 ]}ตัวอย่างเช่น k-means ไม่สามารถค้นหากลุ่มที่ไม่นูนได้^{[ 5 ]}วิธีการจัดกลุ่มแบบดั้งเดิมส่วนใหญ่ถือว่ากลุ่มมีรูปร่างทรงกลม วงรี หรือนูน^{[ 8 ]}

การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)

การจัดกลุ่มตามการเชื่อมต่อ หรือที่เรียกว่าการจัดกลุ่มแบบลำดับชั้นนั้น อิงตามแนวคิดที่ว่าวัตถุมีความสัมพันธ์กันมากกว่ากับวัตถุที่อยู่ใกล้เคียง มากกว่าวัตถุที่อยู่ไกลออกไป อัลกอริทึมเหล่านี้สร้างกลุ่มโดยการเชื่อมต่อวัตถุตามระยะทาง กลุ่มสามารถเข้าใจได้ในแง่ของระยะทางสูงสุดที่จำเป็นในการเชื่อมต่อองค์ประกอบต่างๆ ในกลุ่มนั้น

ที่ระยะห่างต่างกัน การจัดกลุ่มคลัสเตอร์ก็จะแตกต่างกันไป การจัดกลุ่มเหล่านี้สามารถแสดงให้เห็นได้โดยใช้เดนโดแกรมซึ่งเป็นแผนภาพคล้ายต้นไม้ที่แสดงให้เห็นว่าคลัสเตอร์ต่างๆ ผสานกันอย่างไรเมื่อระยะห่างเพิ่มขึ้น นี่คือที่มาของคำว่า " การจัดกลุ่มแบบลำดับชั้น " กล่าวคือ แทนที่จะสร้างพาร์ติชันเดียวของชุดข้อมูล อัลกอริทึมจะสร้างลำดับชั้นของคลัสเตอร์ที่ผสานกันที่ระยะห่างต่างกัน ในเดนโดแกรม แกน y แสดงระยะห่างที่คลัสเตอร์ผสานกัน ในขณะที่แกน x จัดเรียงวัตถุเพื่อให้คลัสเตอร์ปรากฏเป็นกิ่งก้านต่อเนื่องกัน

การจัดกลุ่มตามการเชื่อมต่อเป็นกลุ่มของวิธีการที่แตกต่างกันในวิธีการคำนวณระยะห่างระหว่างกลุ่ม นอกจากการเลือกฟังก์ชันระยะทางแล้ว ผู้ใช้ยังต้องเลือกเกณฑ์การเชื่อมโยงซึ่งจะกำหนดวิธีการคำนวณระยะห่างระหว่างกลุ่ม เกณฑ์การเชื่อมโยงที่ใช้กันทั่วไป ได้แก่การจัดกลุ่มแบบเชื่อมโยงเดี่ยว (ระยะห่างขั้นต่ำระหว่างจุด) การจัดกลุ่มแบบเชื่อมโยงสมบูรณ์ (ระยะห่างสูงสุด) และUPGMAหรือWPGMA (การเชื่อมโยงเฉลี่ยตามระยะห่างเฉลี่ย) การจัดกลุ่มแบบลำดับชั้นสามารถเป็นได้ทั้งแบบรวมกลุ่ม (เริ่มต้นจากองค์ประกอบแต่ละส่วนและรวมเข้าด้วยกัน) หรือแบบแยกกลุ่ม (เริ่มต้นจากชุดข้อมูลทั้งหมดและแยกออก)

ในการจัดกลุ่มแบบลำดับชั้นเชิงรวมกลุ่ม (agglomerative hierarchical clustering) โดยทั่วไปแล้วอัลกอริทึมจะดำเนินการดังนี้:

เริ่มต้นด้วยการกำหนดจุดข้อมูลแต่ละจุดเป็นกลุ่มแยกกัน
ระบุคลัสเตอร์สองคลัสเตอร์ที่อยู่ใกล้กันที่สุดโดยใช้มาตรวัดระยะทางที่เลือกไว้
รวมพวกมันเข้าเป็นกลุ่มเดียว
คำนวณระยะห่างระหว่างคลัสเตอร์ใหม่กับคลัสเตอร์ที่เหลืออีกครั้ง โดยใช้เกณฑ์การเชื่อมโยงที่เลือกไว้
ทำซ้ำจนกว่าจุดข้อมูลทั้งหมดจะรวมเข้าเป็นกลุ่มเดียว^{[ 9 ]}

กระบวนการนี้จะสร้างลำดับชั้นของการจัดกลุ่มที่เป็นไปได้ทั้งหมด แทนที่จะเป็นผลลัพธ์สุดท้ายเพียงอย่างเดียว การจัดกลุ่มที่เฉพาะเจาะจงสามารถทำได้โดยการเลือกจุดตัดในเดนโดแกรม ซึ่งจะกำหนดจำนวนกลุ่มที่จะเกิดขึ้น

วิธีการเหล่านี้ไม่ได้สร้างการแบ่งส่วนข้อมูลที่ไม่ซ้ำกัน แต่สร้างลำดับชั้นที่ผู้ใช้ต้องเลือกคลัสเตอร์ที่เหมาะสม นอกจากนี้ยังมีความไวต่อค่าผิดปกติ ซึ่งอาจปรากฏเป็นคลัสเตอร์แยกต่างหากหรือทำให้คลัสเตอร์อื่นรวมกัน ผลกระทบนี้ โดยเฉพาะอย่างยิ่งในการจัดกลุ่มแบบ single-linkageเรียกว่า "ปรากฏการณ์การเชื่อมโยง" ในกรณีทั่วไป ความซับซ้อนสำหรับการจัดกลุ่มแบบรวมกลุ่มและการจัดกลุ่มแบบแยกส่วน^[¹⁰^]ทำให้มีค่าใช้จ่ายในการคำนวณสูงสำหรับชุดข้อมูลขนาดใหญ่ สำหรับบางกรณีพิเศษมีวิธีการที่มีประสิทธิภาพมากกว่า (ด้วยความซับซ้อน ) เช่น SLINK ^[¹¹^]สำหรับ single-linkage และ CLINK ^[¹²^]สำหรับการจัดกลุ่มแบบ complete-linkage ${\คณิตศาสตร์ {O}}(n^{3})$ ${\คณิตศาสตร์ {O}}(2^{n-1})$ ${\คณิตศาสตร์ {O}}(n^{2})$

ตัวอย่างการจัดกลุ่มแบบเชื่อมโยง
การเชื่อมโยงแบบเดี่ยวบนข้อมูลแบบเกาส์เซียน เมื่อมีคลัสเตอร์ 35 คลัสเตอร์ คลัสเตอร์ที่ใหญ่ที่สุดเริ่มแตกออกเป็นส่วนเล็กๆ ในขณะที่ก่อนหน้านี้ยังคงเชื่อมต่อกับคลัสเตอร์ที่ใหญ่เป็นอันดับสองเนื่องจากผลของการเชื่อมโยงแบบเดี่ยว
การจัดกลุ่มแบบ Single-linkage บนคลัสเตอร์ตามความหนาแน่น ได้คลัสเตอร์ออกมา 20 คลัสเตอร์ ซึ่งส่วนใหญ่มีองค์ประกอบเพียงตัวเดียว เนื่องจากวิธีการจัดกลุ่มแบบ Linkage ไม่มีแนวคิดเรื่อง "สัญญาณรบกวน"

การจัดกลุ่มตามจุดศูนย์กลาง

ในการจัดกลุ่มแบบใช้จุดศูนย์กลาง (centroid-based clustering) แต่ละกลุ่มจะถูกแทนด้วยเวกเตอร์ศูนย์กลาง ซึ่งไม่จำเป็นต้องเป็นสมาชิกของชุดข้อมูล เมื่อจำนวนกลุ่มถูกกำหนดไว้ที่k การจัดกลุ่มแบบ k - means จะให้คำจำกัดความอย่างเป็นทางการในรูปของปัญหาการหาค่าที่เหมาะสมที่สุด นั่นคือ ค้นหา จุดศูนย์กลางของกลุ่ม ทั้ง k จุดและกำหนดวัตถุให้กับจุดศูนย์กลางของกลุ่มที่ใกล้ที่สุด โดยให้ระยะทางกำลังสองจากกลุ่มมีค่าน้อยที่สุด

ปัญหาการหาค่าเหมาะสมที่สุดนั้นทราบกันดีว่าเป็นปัญหา^NP -hardดังนั้นวิธีการทั่วไปจึงเป็นการค้นหาเฉพาะวิธีแก้ปัญหาโดยประมาณเท่านั้น วิธีการโดยประมาณที่เป็นที่รู้จักกันดีคืออัลกอริทึมของ Lloyd [ ¹³^]ซึ่งมักเรียกกันว่า " อัลกอริทึม k-means " (แม้ว่าจะมีอัลกอริทึมอื่นที่แนะนำชื่อนี้ก็ตาม ) อย่างไรก็ตาม อัลกอริทึมนี้จะค้นหาเฉพาะค่าเหมาะสมที่สุดเฉพาะที่ เท่านั้น และมักจะทำงานหลายครั้งด้วยการเริ่มต้นแบบสุ่มที่แตกต่างกัน รูปแบบต่างๆ ของk -means มักจะรวมถึงการปรับปรุงประสิทธิภาพ เช่น การเลือกสิ่งที่ดีที่สุดจากการทำงานหลายครั้ง แต่ยังรวมถึงการจำกัดจุดศูนย์กลางให้เป็นสมาชิกในชุดข้อมูล ( k -medoids ) การเลือกค่ามัธยฐาน ( k -medians clustering ) การเลือกจุดศูนย์กลางเริ่มต้นแบบสุ่มน้อยลง ( k -means++ ) หรือการอนุญาตให้มีการกำหนดคลัสเตอร์แบบคลุมเครือ ( fuzzy c-means )

อัลกอริทึมแบบ k -means ส่วนใหญ่ จำเป็นต้องระบุ จำนวนคลัสเตอร์ – k – ล่วงหน้า ซึ่งถือเป็นข้อเสียเปรียบที่สำคัญที่สุดอย่างหนึ่งของอัลกอริทึมเหล่านี้ ยิ่งไปกว่านั้น อัลกอริทึมเหล่านี้มักเลือกคลัสเตอร์ที่มีขนาดใกล้เคียงกัน เนื่องจากจะกำหนดวัตถุให้กับจุดศูนย์กลางที่ใกล้ที่สุดเสมอ ซึ่งมักทำให้ขอบเขตของคลัสเตอร์ถูกตัดอย่างไม่ถูกต้อง สาเหตุหลักมาจากอัลกอริทึมจะปรับค่าจุดศูนย์กลางของคลัสเตอร์ให้เหมาะสม ไม่ใช่ขอบเขตของคลัสเตอร์ ขั้นตอนที่เกี่ยวข้องในอัลกอริทึมการจัดกลุ่มแบบอิงจุดศูนย์กลางมีดังนี้:

เลือก คลัสเตอร์ ที่แตกต่างกันk คลัสเตอร์แบบสุ่ม คลัสเตอร์เหล่านี้จะเป็นจุดศูนย์กลางเริ่มต้นที่จะได้รับการปรับปรุงต่อไป
$สมมติว่า มี$ ชุดข้อมูลสังเกตการณ์ $(x₁, x₂, ..., xₙ) กำหนดให้ข้อมูลสังเกตการณ์แต่ละ รายการ$ อยู่กับจุดศูนย์กลางที่มีระยะทางยูคลิดกำลังสองน้อยที่สุด $ผลลัพธ์$ ที่ได้คือkกลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะมีข้อมูลสังเกตการณ์ที่ไม่ซ้ำกัน
คำนวณจุดศูนย์กลางใหม่ (ดู การจัดกลุ่มแบบ k -means )
หยุดการทำงานก็ต่อเมื่อจุดศูนย์กลางใหม่เท่ากับจุดศูนย์กลางของการวนซ้ำครั้งก่อน มิฉะนั้น ให้ทำซ้ำอัลกอริทึม เนื่องจากจุดศูนย์กลางยังไม่บรรจบกัน

อั ลกอริทึม K-means มีคุณสมบัติทางทฤษฎีที่น่าสนใจหลายประการ ประการแรก มันแบ่งพื้นที่ข้อมูลออกเป็นโครงสร้างที่เรียกว่าแผนภาพโวโรนอยประการที่สอง มันมีความใกล้เคียงกับการจัดกลุ่มแบบเพื่อนบ้านที่ใกล้ที่สุดในเชิงแนวคิด และด้วยเหตุนี้จึงเป็นที่นิยมในด้านการเรียนรู้ของเครื่องประการที่สาม มันสามารถมองได้ว่าเป็นรูปแบบหนึ่งของการจัดกลุ่มตามแบบจำลอง และอัลกอริทึมของลอยด์เป็นรูปแบบหนึ่งของอัลกอริทึมการคาดการณ์และการทำให้สูงสุดสำหรับแบบจำลองนี้ ซึ่งจะกล่าวถึงต่อไป

ตัวอย่างการจัดกลุ่มแบบk -means
k -means แยกข้อมูลออกเป็นเซลล์ Voronoi ซึ่งสมมติว่าคลัสเตอร์มีขนาดเท่ากัน (ซึ่งไม่เหมาะสมในกรณีนี้)
k -means ไม่สามารถแสดงคลัสเตอร์ตามความหนาแน่นได้

รหัสเทียมต่อไปนี้^{[ 14 ]}อธิบายรูปแบบการปรับปรุงแบบวนซ้ำมาตรฐานของk -means อัลกอริทึมจะสลับระหว่างขั้นตอนการกำหนดซึ่งติดป้ายกำกับแต่ละจุดด้วยจุดศูนย์กลางที่ใกล้ที่สุด และขั้นตอนการอัปเดตซึ่งคำนวณจุดศูนย์กลางแต่ละจุดใหม่เป็นค่าเฉลี่ยของจุดที่กำหนด การบรรจบกันรับประกันได้ในจำนวนรอบการวนซ้ำที่จำกัด แม้ว่าผลลัพธ์อาจเป็นค่าเหมาะสมที่สุดเฉพาะที่ก็ตาม

อินพุต:ชุดข้อมูล, ค่าเริ่มต้นสำหรับจุดศูนย์กลาง, จำนวนรอบการทำซ้ำสูงสุด $\mathbf {x} _{1},...,\mathbf {x} _{P}$  $\mathbf {c} _{1},...,\mathbf {c} _{K}$  $J$  สำหรับ $\,\,j=1,\ldots ,J$  # การกำหนดคลัสเตอร์ สำหรับ $\,\,p=1,\ldots ,P$  $a_{p}={\underset {k=1,\ldots ,K}{\mbox{argmin}}}\,\,\left\Vert \mathbf {c} _{k}-\mathbf {x} _{p}\right\Vert _{2}$  # อัปเดตตำแหน่งจุดศูนย์กลาง สำหรับ $\,\,k=1,\ldots ,K$  ${\text{กำหนดให้ }}S_{k}{\text{ เป็นเซตดัชนีของจุด }}X_{p}{\text{ ที่ถูกกำหนดให้กับคลัสเตอร์ที่ }}k ในปัจจุบัน}}$  ${\text{update }}c_{k}{\text{ via }}c_{k}={\frac {1}{\left|S_{k}\right|}}{\underset {p\in S_{k}}{\sum }}\mathbf {x} _{p}$  # อัปเดตการกำหนดคลัสเตอร์โดยใช้ผลลัพธ์สุดท้าย สำหรับ $\,\,p=1,\ldots ,P$  $a_{p}={\underset {k=1,\ldots ,K}{\mbox{argmin}}}\,\,\left\Vert \mathbf {c} _{k}-\mathbf {x} _{p}\right\Vert _{2}$ เอาต์พุต:จุดศูนย์กลางที่เหมาะสมและการกำหนดค่า ^{[ 14 ]}

ปัญหาการจัดกลุ่มแบบอิงจุดศูนย์กลาง เช่นk -means และk -medoids เป็นกรณีพิเศษของปัญหาการกำหนดตำแหน่งสิ่งอำนวย ความสะดวกแบบไม่จำกัดความจุ และเชิงเมตริก ซึ่งเป็นปัญหาพื้นฐานในวงการวิจัยเชิงปฏิบัติการและเรขาคณิตเชิงคำนวณ ในปัญหาการกำหนดตำแหน่งสิ่งอำนวยความสะดวกพื้นฐาน (ซึ่งมีหลายรูปแบบที่จำลองสถานการณ์ที่ซับซ้อนกว่า) งานที่ต้องทำคือการค้นหาตำแหน่งคลังสินค้าที่ดีที่สุดเพื่อให้บริการกลุ่มผู้บริโภคที่กำหนดได้อย่างเหมาะสม เราอาจมอง "คลังสินค้า" เป็นจุดศูนย์กลางของกลุ่ม และ "ตำแหน่งผู้บริโภค" เป็นข้อมูลที่จะถูกจัดกลุ่ม ซึ่งทำให้สามารถนำวิธีการแก้ปัญหาเชิงอัลกอริทึมที่พัฒนามาอย่างดีจากวรรณกรรมด้านการกำหนดตำแหน่งสิ่งอำนวยความสะดวกมาประยุกต์ใช้กับปัญหาการจัดกลุ่มแบบอิงจุดศูนย์กลางที่กำลังพิจารณาอยู่ในปัจจุบันได้

การจัดกลุ่มตามแบบจำลอง

กรอบการทำงานการจัดกลุ่มที่เกี่ยวข้องกับสถิติมากที่สุดคือการจัดกลุ่มตามแบบจำลองซึ่งอิงตามแบบจำลองการกระจายความน่าจะเป็น แนวทางนี้จำลองข้อมูลว่าเกิดจากการผสมผสานของการกระจายความน่าจะเป็น ข้อดีคือให้คำตอบทางสถิติที่เป็นหลักการสำหรับคำถามต่างๆ เช่น มีกลุ่มทั้งหมดกี่กลุ่ม ควรใช้วิธีการหรือแบบจำลองการจัดกลุ่มแบบใด และจะตรวจจับและจัดการกับค่าผิดปกติได้อย่างไร

แม้ว่าพื้นฐานทางทฤษฎีของวิธีการเหล่านี้จะยอดเยี่ยม แต่ก็ประสบ ปัญหา การโอเวอร์ฟิตติ้ง (overfitting)เว้นแต่จะมีการกำหนดข้อจำกัดเกี่ยวกับความซับซ้อนของแบบจำลอง แบบจำลองที่ซับซ้อนกว่ามักจะสามารถอธิบายข้อมูลได้ดีกว่า ซึ่งทำให้การเลือกความซับซ้อนของแบบจำลองที่เหมาะสมเป็นเรื่องยากโดยเนื้อแท้ วิธี การจัดกลุ่มแบบมาตรฐานที่ใช้แบบจำลอง นั้น รวมถึงแบบจำลองที่เรียบง่ายกว่าซึ่งอิงจากการแยกส่วนค่าลักษณะเฉพาะ (eigenvalue decomposition)ของเมทริกซ์ความแปรปรวนร่วม (covariance matrices) ซึ่งให้ความสมดุลระหว่างการโอเวอร์ฟิตติ้งและความถูกต้องแม่นยำต่อข้อมูล

วิธีการที่โดดเด่นวิธีหนึ่งคือแบบจำลองส่วนผสมเกาส์เซียน (โดยใช้อัลกอริธึมการคาดการณ์และการทำให้สูงสุด ) ในที่นี้ ชุดข้อมูลมักจะถูกจำลองด้วยจำนวนการแจกแจงเกาส์เซียน ที่คงที่ (เพื่อหลีกเลี่ยงการโอเวอร์ฟิตติ้ง) ซึ่งเริ่มต้นแบบสุ่ม และพารามิเตอร์จะถูกปรับให้เหมาะสมซ้ำๆ เพื่อให้เข้ากับชุดข้อมูลได้ดียิ่งขึ้น วิธีนี้จะลู่เข้าสู่ค่าเหมาะสมที่สุดเฉพาะที่ดังนั้นการทำงานหลายครั้งอาจให้ผลลัพธ์ที่แตกต่างกัน เพื่อให้ได้การจัดกลุ่มแบบแข็ง (hard clustering) มักจะมีการกำหนดวัตถุให้กับการแจกแจงเกาส์เซียนที่วัตถุนั้นมีแนวโน้มที่จะเป็นส่วนหนึ่งมากที่สุด สำหรับการจัดกลุ่มแบบอ่อน (soft clustering) ไม่จำเป็นต้องทำเช่นนี้

การจัดกลุ่มตามการกระจายตัวสร้างแบบจำลองที่ซับซ้อนสำหรับกลุ่มต่างๆ ซึ่งสามารถจับความสัมพันธ์และการพึ่งพาซึ่งกันและกันระหว่างคุณลักษณะต่างๆ ได้ อย่างไรก็ตาม อัลกอริทึมเหล่านี้สร้างภาระเพิ่มเติมให้กับผู้ใช้ เนื่องจากสำหรับชุดข้อมูลจริงจำนวนมาก อาจไม่มีแบบจำลองทางคณิตศาสตร์ที่กำหนดไว้อย่างกระชับ (เช่น การสมมติว่าข้อมูลมีการกระจายแบบเกาส์เซียนเป็นการสมมติที่ค่อนข้างเข้มงวดสำหรับข้อมูล)

ตัวอย่างการจัดกลุ่มตามแบบจำลองส่วนผสมเกาส์เซียน
สำหรับข้อมูลที่มีการกระจายแบบเกาส์เซียนวิธี EMทำงานได้ดี เนื่องจากใช้การกระจายแบบเกาส์เซียนในการสร้างแบบจำลองกลุ่มข้อมูล
กลุ่มคลัสเตอร์ที่มีความหนาแน่นเป็นเกณฑ์นั้น ไม่สามารถจำลองได้โดยใช้การแจกแจงแบบเกาส์เซียน

การจัดกลุ่มตามความหนาแน่น

ในการจัดกลุ่มตามความหนาแน่น^{[ 15 ]}กลุ่มจะถูกกำหนดเป็นพื้นที่ที่มีความหนาแน่นสูงกว่าส่วนที่เหลือของชุดข้อมูล วัตถุในพื้นที่เบาบาง ซึ่งจำเป็นต่อการแยกกลุ่ม มักจะถูกพิจารณาว่าเป็นสัญญาณรบกวนและจุดขอบ

วิธีการจัดกลุ่มตามความหนาแน่นที่เป็นที่นิยมมากที่สุด^{[ 16 ]}คือDBSCAN ^{[ 17 ]}ซึ่งแตกต่างจากวิธีการใหม่ๆ หลายวิธีตรงที่มันมีโมเดลการจัดกลุ่มที่กำหนดไว้อย่างดีเรียกว่า "การเข้าถึงความหนาแน่น" คล้ายกับการจัดกลุ่มตามการเชื่อมโยง โดยอาศัยการเชื่อมต่อจุดภายในเกณฑ์ระยะทางที่กำหนด อย่างไรก็ตาม มันจะเชื่อมต่อเฉพาะจุดที่ตรงตามเกณฑ์ความหนาแน่นเท่านั้น ซึ่งในรูปแบบดั้งเดิมกำหนดเป็นจำนวนขั้นต่ำของวัตถุอื่นๆ ภายในรัศมีนี้ กลุ่มหนึ่งประกอบด้วยวัตถุทั้งหมดที่เชื่อมต่อกันด้วยความหนาแน่น (ซึ่งสามารถก่อตัวเป็นกลุ่มที่มีรูปร่างใดๆ ก็ได้ ซึ่งแตกต่างจากวิธีการอื่นๆ หลายวิธี) บวกกับวัตถุทั้งหมดที่อยู่ในระยะของวัตถุเหล่านี้ คุณสมบัติที่น่าสนใจอีกอย่างของ DBSCAN คือความซับซ้อนค่อนข้างต่ำ – มันต้องการการสอบถามช่วงในฐานข้อมูลจำนวนเชิงเส้น – และมันจะค้นพบผลลัพธ์ที่เหมือนกันโดยพื้นฐาน (มันเป็นแบบกำหนดได้สำหรับจุดแกนกลางและจุดรบกวน แต่ไม่ใช่สำหรับจุดขอบ) ในแต่ละรอบการทำงาน ดังนั้นจึงไม่จำเป็นต้องเรียกใช้หลายครั้งOPTICS ^{[ 18 ]}เป็นการขยาย DBSCAN ที่ขจัดความจำเป็นในการเลือกค่าที่เหมาะสมสำหรับพารามิเตอร์ช่วงและสร้างผลลัพธ์แบบลำดับชั้นที่เกี่ยวข้องกับการจัดกลุ่มแบบเชื่อมโยง DeLi-Clu ^[¹⁹^] Density-Link-Clustering ผสมผสานแนวคิดจากการจัดกลุ่มแบบเชื่อมโยงเดี่ยวและ OPTICS โดยกำจัดพารามิเตอร์ทั้งหมดและให้ประสิทธิภาพที่ดีขึ้นกว่า OPTICS โดยใช้ดัชนีR-tree HDBSCAN ^[²⁰^]ขยาย DBSCAN โดยแปลงเป็นอัลกอริทึมการจัดกลุ่มแบบลำดับชั้น จากนั้นใช้เทคนิคในการดึงการจัดกลุ่มแบบแบนโดยอิงจากความเสถียรของกลุ่ม $\varepsilon$ $\varepsilon$

ข้อเสียเปรียบที่สำคัญของ DBSCAN และOPTICSคือ พวกมันคาดหวังว่าความหนาแน่นจะลดลงในระดับหนึ่งเพื่อตรวจจับขอบเขตของกลุ่มข้อมูล ในชุดข้อมูลที่มีการทับซ้อนกันของข้อมูลแบบเกาส์เซียน (ซึ่งเป็นกรณีการใช้งานทั่วไปในข้อมูลเทียม) ขอบเขตของกลุ่มข้อมูลที่สร้างโดยอัลกอริทึมเหล่านี้มักจะดูไม่แน่นอน เนื่องจากความหนาแน่นของกลุ่มข้อมูลลดลงอย่างต่อเนื่อง ในชุดข้อมูลที่ประกอบด้วยข้อมูลแบบเกาส์เซียนผสมกัน อัลกอริทึมเหล่านี้มักจะด้อยกว่าวิธีการอื่นๆ เช่นการจัดกลุ่มแบบ EMซึ่งสามารถจำลองข้อมูลประเภทนี้ได้อย่างแม่นยำ

Mean-shiftเป็นวิธีการจัดกลุ่มที่แต่ละวัตถุจะถูกย้ายไปยังพื้นที่ที่มีความหนาแน่นมากที่สุดในบริเวณใกล้เคียง โดยอาศัยการประมาณความหนาแน่นของเคอร์เนลในที่สุด วัตถุจะบรรจบกันที่ค่าความหนาแน่นสูงสุดในท้องถิ่น คล้ายกับการจัดกลุ่มแบบ k-means "ตัวดึงดูดความหนาแน่น" เหล่านี้สามารถใช้เป็นตัวแทนของชุดข้อมูลได้ แต่ mean-shift สามารถตรวจจับกลุ่มที่มีรูปร่างใดๆ ก็ได้คล้ายกับ DBSCAN เนื่องจากกระบวนการวนซ้ำที่มีค่าใช้จ่ายสูงและการประมาณความหนาแน่น mean-shift จึงมักจะช้ากว่า DBSCAN หรือ k-Means นอกจากนี้ ความสามารถในการใช้งานของอัลกอริทึม mean-shift กับข้อมูลหลายมิติยังถูกขัดขวางโดยพฤติกรรมที่ไม่ราบเรียบของการประมาณความหนาแน่นของเคอร์เนล ซึ่งส่งผลให้ส่วนหางของกลุ่มแตกกระจายมากเกินไป^{[ 19 ]}

ตัวอย่างการจัดกลุ่มตามความหนาแน่น
การจัดกลุ่มตามความหนาแน่นด้วย DBSCAN
DBSCAN สันนิษฐานว่าคลัสเตอร์มีความหนาแน่นใกล้เคียงกัน และอาจมีปัญหาในการแยกคลัสเตอร์ที่อยู่ใกล้เคียงกัน
OPTICS เป็นรูปแบบหนึ่งของ DBSCAN ที่ปรับปรุงการจัดการคลัสเตอร์ที่มีความหนาแน่นแตกต่างกันให้ดียิ่งขึ้น

การจัดกลุ่มแบบกริด

เทคนิคแบบกริดใช้สำหรับชุดข้อมูลหลายมิติ^{[ 21 ]}ในเทคนิคนี้ เราสร้างโครงสร้างกริด และการเปรียบเทียบจะดำเนินการบนกริด (หรือที่เรียกว่าเซลล์) เทคนิคแบบกริดนั้นรวดเร็วและมีความซับซ้อนในการคำนวณต่ำ มีวิธีการจัดกลุ่มแบบกริดสองประเภท ได้แก่ STING และ CLIQUE ขั้นตอนที่เกี่ยวข้องในอัลกอริธึม การจัดกลุ่มแบบกริด มีดังนี้:

แบ่งพื้นที่จัดเก็บข้อมูลออกเป็นเซลล์จำนวนจำกัด
สุ่มเลือกเซลล์ 'c' โดยที่เซลล์ c นั้นไม่ควรถูกสำรวจมาก่อน
คำนวณความหนาแน่นของ 'c'
ถ้าความหนาแน่นของ 'c' มากกว่าความหนาแน่นตามเกณฑ์:
1. กำหนดให้เซลล์ 'c' เป็นกลุ่มใหม่
2. คำนวณความหนาแน่นของเพื่อนบ้านทั้งหมดของ 'c'
3. ถ้าความหนาแน่นของเซลล์ข้างเคียงมากกว่าความหนาแน่นที่กำหนดไว้ ให้เพิ่มเซลล์นั้นเข้าไปในคลัสเตอร์ แล้วทำซ้ำขั้นตอนที่ 4.2 และ 4.3 จนกว่าจะไม่มีเซลล์ข้างเคียงใดที่มีความหนาแน่นมากกว่าความหนาแน่นที่กำหนดไว้
ทำซ้ำขั้นตอนที่ 2, 3 และ 4 จนกว่าจะสำรวจเซลล์ทั้งหมดเสร็จสิ้น
หยุด.

ข้อมูลขนาดใหญ่

ด้วยความต้องการที่เพิ่มขึ้นในการประมวลผลข้อมูลขนาดใหญ่ความเต็มใจที่จะแลกเปลี่ยนความหมายเชิงความหมายของคลัสเตอร์ที่สร้างขึ้นกับประสิทธิภาพจึงมีความเกี่ยวข้องมากขึ้น ดังนั้นจึงมีการพยายามปรับปรุงประสิทธิภาพของอัลกอริธึมที่มีอยู่^{[ 22 ] [ 23 ] ในจำนวนนี้ได้แก่ CLARANS [}^{24 ] และ}^{BIRCH [ 25} ] ซึ่งนำ^ไป^สู่การพัฒนา^วิธี^การ^จัดกลุ่มเบื้องต้น เช่นการจัดกลุ่มแบบ Canopy Clustering ซึ่งสามารถประมวลผลชุดข้อมูล ขนาด ใหญ่ได้อย่างมีประสิทธิภาพ แต่ "คลัสเตอร์" ที่ได้นั้นเป็นเพียงการแบ่งส่วนเบื้องต้นอย่างคร่าวๆ ของชุดข้อมูลเพื่อนำไปวิเคราะห์ส่วนต่างๆ ด้วยวิธีการ ที่ ช้ากว่าที่มีอยู่ เช่นการจัดกลุ่มแบบ k-means

การจัดกลุ่มซับสเปซ

สำหรับข้อมูลที่มีมิติสูงวิธีการหลายวิธีล้มเหลวเนื่องจากคำสาปของมิติซึ่งทำให้ฟังก์ชันระยะทางเฉพาะบางอย่างมีปัญหาในพื้นที่ที่มีมิติสูง สิ่งนี้ทำให้เกิดอัลกอริธึมการจัดกลุ่มสำหรับข้อมูลที่มีมิติสูงที่เน้นการจัดกลุ่มแบบซับสเปซ (โดยใช้แอตทริบิวต์บางส่วนเท่านั้น และแบบจำลองการจัดกลุ่มจะรวมแอตทริบิวต์ที่เกี่ยวข้องสำหรับการจัดกลุ่ม) และการจัดกลุ่มแบบสหสัมพันธ์ที่มองหาคลัสเตอร์ซับสเปซที่หมุนโดยพลการ ("สหสัมพันธ์") ซึ่งสามารถสร้างแบบจำลองได้โดยการให้สหสัมพันธ์ของแอตทริบิวต์^{[ 26 ]}ตัวอย่างของอัลกอริธึมการจัดกลุ่มดังกล่าว ได้แก่ CLIQUE ^{[ 27 ]}และSUBCLU ^{[ 28 ]}

แนวคิดจากวิธีการจัดกลุ่มตามความหนาแน่น (โดยเฉพาะตระกูลอัลกอริธึม DBSCAN/OPTICS) ได้รับการปรับให้เข้ากับการจัดกลุ่มแบบซับสเปซ (HiSC, ^{[ 29 ]}การจัดกลุ่มแบบซับสเปซตามลำดับชั้นและ DiSH ^{[ 30 ]} ) และการจัดกลุ่มแบบสหสัมพันธ์ (HiCO, ^{[ 31 ]}การจัดกลุ่มแบบสหสัมพันธ์ตามลำดับชั้น, 4C ^{[ 32 ]}โดยใช้ "การเชื่อมต่อแบบสหสัมพันธ์" และ ERiC ^{[ 33 ]}การสำรวจคลัสเตอร์แบบสหสัมพันธ์ตามความหนาแน่นตามลำดับชั้น)

มีการเสนอระบบการจัดกลุ่มที่แตกต่างกันหลายระบบโดยอาศัยข้อมูลร่วมกัน หนึ่งในนั้นคือ เมตริกข้อมูลแบบแปรผัน ของ Marina Meilă ^{[ 34 ]}อีกระบบหนึ่งให้การจัดกลุ่มแบบลำดับชั้น^{[ 35 ]}การใช้อัลกอริธึมทางพันธุกรรมสามารถปรับฟังก์ชันความเหมาะสมที่แตกต่างกันได้หลากหลาย รวมถึงข้อมูลร่วมกัน^{[ 36 ]}นอกจากนี้การแพร่กระจายความเชื่อซึ่งเป็นการพัฒนาล่าสุดในวิทยาศาสตร์คอมพิวเตอร์และฟิสิกส์เชิงสถิติได้นำไปสู่การสร้างอัลกอริธึมการจัดกลุ่มประเภทใหม่^{[ 37 ]}

การประเมินและการตรวจสอบ

การประเมิน (หรือ "การตรวจสอบความถูกต้อง") ของผลลัพธ์การจัดกลุ่มนั้นยากพอๆ กับการจัดกลุ่มเอง^{[ 38 ]}แนวทางที่นิยม ได้แก่ การประเมิน " ภายใน " ซึ่งสรุปการจัดกลุ่มเป็นคะแนนคุณภาพเดียว การประเมิน " ภายนอก " ซึ่งเปรียบเทียบการจัดกลุ่มกับการจำแนกประเภท "ความจริงพื้นฐาน" ที่มีอยู่ การประเมิน "ด้วย ตนเอง " โดยผู้เชี่ยวชาญ และการประเมิน " ทางอ้อม " โดยการประเมินประโยชน์ของการจัดกลุ่มในการใช้งานที่ตั้งใจไว้^{[ 39 ]}

มาตรการประเมินภายในประสบปัญหาที่ว่ามาตรการเหล่านั้นแสดงถึงฟังก์ชันที่สามารถมองได้ว่าเป็นวัตถุประสงค์ของการจัดกลุ่ม ตัวอย่างเช่น เราสามารถจัดกลุ่มชุดข้อมูลโดยใช้สัมประสิทธิ์ Silhouette ได้ แต่ยังไม่มีอัลกอริทึมที่มีประสิทธิภาพที่เป็นที่รู้จักสำหรับเรื่องนี้ การใช้มาตรการภายในดังกล่าวในการประเมินจะทำให้เราเปรียบเทียบความคล้ายคลึงกันของปัญหาการเพิ่มประสิทธิภาพ^{[ 39 ]}มากกว่าที่จะเปรียบเทียบว่าการจัดกลุ่มนั้นมีประโยชน์มากเพียงใด

การประเมินจากภายนอกก็มีปัญหาคล้ายกัน: ถ้าเรามีป้ายกำกับ "ความจริงพื้นฐาน" เหล่านั้นแล้ว เราก็ไม่จำเป็นต้องจัดกลุ่มข้อมูล และในทางปฏิบัติเรามักไม่มีป้ายกำกับเหล่านั้น ในทางกลับกัน ป้ายกำกับสะท้อนให้เห็นเพียงการแบ่งกลุ่มข้อมูลที่เป็นไปได้เพียงแบบเดียว ซึ่งไม่ได้หมายความว่าไม่มีการจัดกลุ่มแบบอื่น และอาจดีกว่าด้วยซ้ำ

ดังนั้น แนวทางทั้งสองนี้จึงไม่สามารถตัดสินคุณภาพที่แท้จริงของการจัดกลุ่มได้ แต่จำเป็นต้องมีการประเมินโดยมนุษย์^{[ 39 ]}ซึ่งเป็นเรื่องอัตวิสัยอย่างมาก อย่างไรก็ตาม สถิติดังกล่าวสามารถให้ข้อมูลที่เป็นประโยชน์ในการระบุการจัดกลุ่มที่ไม่ดีได้^{[ 40 ]}แต่ไม่ควรละเลยการประเมินโดยมนุษย์ที่เป็นอัตวิสัย^{[ 40 ]}

การประเมินภายใน

เมื่อผลลัพธ์ของการจัดกลุ่มได้รับการประเมินโดยอิงจากข้อมูลที่ถูกจัดกลุ่มนั้นเอง จะเรียกว่าการประเมินภายใน วิธีการเหล่านี้มักจะให้คะแนนที่ดีที่สุดแก่อัลกอริธึมที่สร้างกลุ่มที่มีความคล้ายคลึงกันสูงภายในกลุ่มเดียวกันและมีความคล้ายคลึงกันต่ำระหว่างกลุ่ม ข้อเสียอย่างหนึ่งของการใช้เกณฑ์ภายในในการประเมินการจัดกลุ่มคือ คะแนนสูงในการวัดภายในไม่ได้หมายความว่าจะส่งผลให้แอปพลิเคชันการค้นหาข้อมูลมีประสิทธิภาพเสมอไป^{[ 41 ]}นอกจากนี้ การประเมินนี้ยังเอนเอียงไปทางอัลกอริธึมที่ใช้โมเดลการจัดกลุ่มเดียวกัน ตัวอย่างเช่น การจัดกลุ่มแบบ k-means จะปรับระยะห่างของวัตถุให้เหมาะสมโดยธรรมชาติ และเกณฑ์ภายในที่อิงตามระยะห่างมีแนวโน้มที่จะให้คะแนนการจัดกลุ่มที่ได้สูงเกินไป

ดังนั้น มาตรการประเมินภายในจึงเหมาะสมที่สุดที่จะได้รับข้อมูลเชิงลึกเกี่ยวกับสถานการณ์ที่อัลกอริทึมหนึ่งทำงานได้ดีกว่าอีกอัลกอริทึมหนึ่ง แต่สิ่งนี้ไม่ได้หมายความว่าอัลกอริทึมหนึ่งจะสร้างผลลัพธ์ที่ถูกต้องมากกว่าอีกอัลกอริ ทึมหนึ่ง ^{[ 5 ]}ความถูกต้องที่วัดโดยดัชนีดังกล่าวขึ้นอยู่กับการอ้างว่าโครงสร้างประเภทนี้มีอยู่ในชุดข้อมูล อัลกอริทึมที่ออกแบบมาสำหรับโมเดลบางประเภทจะไม่มีโอกาสเลยหากชุดข้อมูลมีชุดโมเดลที่แตกต่างกันอย่างสิ้นเชิง หรือหากการวัดการประเมินใช้เกณฑ์ที่แตกต่างกันอย่างสิ้นเชิง^{[ 5 ]}ตัวอย่างเช่น การจัดกลุ่มแบบ k-means สามารถค้นหาคลัสเตอร์แบบนูนได้เท่านั้น และดัชนีการประเมินจำนวนมากก็ถือว่าคลัสเตอร์เป็นแบบนูน ในชุดข้อมูลที่มีคลัสเตอร์ที่ไม่เป็นแบบนูน การใช้k -means หรือเกณฑ์การประเมินที่ถือว่ามีความนูนจึงไม่เหมาะสม

มาตรการประเมินภายในหลายอย่างมีพื้นฐานมาจากสัญชาตญาณที่ว่ารายการในกลุ่มเดียวกันควรมีความคล้ายคลึงกันมากกว่ารายการในกลุ่มที่แตกต่างกัน^{[ 42 ]}^{: 115–121}ตัวอย่างเช่น สามารถใช้วิธีการต่อไปนี้เพื่อประเมินคุณภาพของอัลกอริธึมการจัดกลุ่มตามเกณฑ์ภายใน:

ดัชนีเดวีส์-โบลดิน

ดัชนีDavies–Bouldinสามารถคำนวณได้จากสูตรต่อไปนี้: โดยที่nคือจำนวนคลัสเตอร์, คือจุดศูนย์กลางของคลัสเตอร์, คือระยะทางเฉลี่ยขององค์ประกอบทั้งหมดในคลัสเตอร์ไปยังจุดศูนย์กลาง, และคือระยะทางระหว่างจุดศูนย์กลางของคลัสเตอร์และเนื่องจากอัลกอริทึมที่สร้างคลัสเตอร์ที่มีระยะทางภายในคลัสเตอร์ต่ำ (ความคล้ายคลึงภายในคลัสเตอร์สูง) และระยะทางระหว่างคลัสเตอร์สูง (ความคล้ายคลึงระหว่างคลัสเตอร์ต่ำ) จะมีดัชนี Davies–Bouldin ต่ำ ดังนั้นอัลกอริทึมการจัดคลัสเตอร์ที่สร้างชุดคลัสเตอร์ที่มีดัชนี Davies–Bouldin น้อยที่สุด จึงถือว่าเป็นอัลกอริทึมที่ดีที่สุดตามเกณฑ์นี้ $DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)$ $c_{i}$ $i$ $\sigma _{i}$ $i$ $c_{i}$ $d(c_{i},c_{j})$ $c_{i}$ $c_{j}$

ดัชนีดันน์

ดัชนี Dunn มีจุดมุ่งหมายเพื่อระบุคลัสเตอร์ที่มีความหนาแน่นและแยกออกจากกันอย่างชัดเจน โดยกำหนดเป็นอัตราส่วนระหว่างระยะห่างระหว่างคลัสเตอร์ที่น้อยที่สุดกับระยะห่างภายในคลัสเตอร์ที่มากที่สุด สำหรับการแบ่งคลัสเตอร์แต่ละครั้ง สามารถคำนวณดัชนี Dunn ได้โดยใช้สูตรต่อไปนี้: ^{[ 43 ]}

D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,,

โดยที่d ( i , j ) แทนระยะห่างระหว่างคลัสเตอร์iและjและd '( k ) วัดระยะห่างภายในคลัสเตอร์kระยะห่างระหว่างคลัสเตอร์d ( i , j ) ระหว่างสองคลัสเตอร์อาจเป็นการวัดระยะห่างได้หลายวิธี เช่น ระยะห่างระหว่างจุดศูนย์กลางของคลัสเตอร์ ในทำนองเดียวกัน ระยะห่างภายในคลัสเตอร์d '( k ) อาจวัดได้หลายวิธี เช่น ระยะห่างสูงสุดระหว่างองค์ประกอบใดๆ ในคลัสเตอร์ kเนื่องจากเกณฑ์ภายในต้องการคลัสเตอร์ที่มีความคล้ายคลึงกันภายในคลัสเตอร์สูงและความคล้ายคลึงกันระหว่างคลัสเตอร์ต่ำ ดังนั้นอัลกอริทึมที่สร้างคลัสเตอร์ที่มีดัชนี Dunn สูงจึงเป็นที่ต้องการมากกว่า

สัมประสิทธิ์เงา

ค่าสัมประสิทธิ์ Silhouette เปรียบเทียบระยะห่างเฉลี่ยระหว่างองค์ประกอบในกลุ่มเดียวกันกับระยะห่างเฉลี่ยระหว่างองค์ประกอบในกลุ่มอื่น วัตถุที่มีค่า Silhouette สูงถือว่ามีการจัดกลุ่มที่ดี วัตถุที่มีค่าต่ำอาจเป็นค่าผิดปกติ ดัชนีนี้ทำงานได้ดีกับ การจัดกลุ่ม แบบ k -means และยังใช้เพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดอีกด้วย^{[ 44 ]}

พื้นที่ใต้เส้นโค้งสำหรับการจัดกลุ่ม (AUCC)

เมทริกซ์นี้พิจารณาคู่ของวัตถุ: ระยะห่างระหว่างคู่เป็นฟังก์ชันการให้คะแนน และการแบ่งคู่ที่กำหนดเป็นค่าบวกจริง ค่าลบจริง ค่าลบเท็จ และค่าลบจริง โดยพิจารณาว่าคู่เหล่านั้นอยู่ในคลัสเตอร์เดียวกันหรือไม่ ดัชนีนี้ใช้ลักษณะเดียวกันกับAUC ในสถานการณ์ที่มีการ กำกับ ดูแล รวมถึงค่าที่คาดหวัง 0.5 และการแสดงผลลัพธ์^{[ 45 ]}

การประเมินภายนอก

ในการประเมินภายนอก ผลลัพธ์ของการจัดกลุ่มจะถูกประเมินโดยอิงจากข้อมูลที่ไม่ได้ใช้สำหรับการจัดกลุ่ม เช่น ป้ายกำกับคลาสที่ทราบและเกณฑ์มาตรฐานภายนอก เกณฑ์มาตรฐานดังกล่าวประกอบด้วยชุดของรายการที่จัดประเภทไว้ล่วงหน้า และชุดเหล่านี้มักถูกสร้างขึ้นโดยมนุษย์ (ผู้เชี่ยวชาญ) ดังนั้น ชุดเกณฑ์มาตรฐานจึงถือได้ว่าเป็นมาตรฐานทองคำสำหรับการประเมิน^{[ 38 ]}วิธีการประเมินประเภทนี้จะวัดว่าการจัดกลุ่มนั้นใกล้เคียงกับคลาสเกณฑ์มาตรฐานที่กำหนดไว้ล่วงหน้ามากน้อยเพียงใด อย่างไรก็ตาม เมื่อเร็วๆ นี้ได้มีการถกเถียงกันว่าวิธีนี้เพียงพอสำหรับข้อมูลจริงหรือไม่ หรือใช้ได้เฉพาะกับชุดข้อมูลสังเคราะห์ที่มีความจริงพื้นฐานที่เป็นข้อเท็จจริงเท่านั้น เนื่องจากคลาสอาจมีโครงสร้างภายใน คุณลักษณะที่มีอยู่อาจไม่อนุญาตให้แยกกลุ่ม หรือคลาสอาจมีความผิดปกติ [ ^{46 ] นอกจาก}นี้ จาก มุมมองของ การค้นพบความรู้การสร้างความรู้ที่ทราบขึ้นใหม่อาจไม่ใช่ผลลัพธ์ที่ตั้งใจไว้เสมอไป^{[ 46 ]}ในสถานการณ์พิเศษของการจัดกลุ่มแบบมีข้อจำกัดซึ่งมีการใช้ข้อมูลเมตา (เช่น ป้ายกำกับคลาส) ในกระบวนการจัดกลุ่มแล้ว การกันข้อมูลไว้เพื่อวัตถุประสงค์ในการประเมินจึงไม่ใช่เรื่องง่าย^{[ 47 ]}

มาตรการจำนวนหนึ่งได้รับการดัดแปลงมาจากรูปแบบต่างๆ ที่ใช้ในการประเมินงานการจำแนกประเภท แทนที่จะนับจำนวนครั้งที่คลาสได้รับการกำหนดอย่างถูกต้องให้กับจุดข้อมูลเดียว (เรียกว่าtrue positives ) เมตริก การนับคู่ ดังกล่าว จะประเมินว่าจุดข้อมูลแต่ละคู่ที่อยู่ในคลัสเตอร์เดียวกันจริง ๆ นั้นถูกทำนายว่าจะอยู่ในคลัสเตอร์เดียวกันหรือไม่^{[ 38 ]}

เช่นเดียวกับการประเมินภายใน มีมาตรการประเมินภายนอกหลายอย่าง^{[ 42 ]}^{: 125–129}ตัวอย่างเช่น:

ความบริสุทธิ์

ความบริสุทธิ์คือการวัดขอบเขตที่คลัสเตอร์มีคลาสเดียว^{[ 41 ]}การคำนวณสามารถคิดได้ดังนี้: สำหรับแต่ละคลัสเตอร์ ให้นับจำนวนจุดข้อมูลจากคลาสที่พบมากที่สุดในคลัสเตอร์นั้น จากนั้นนำผลรวมของทุกคลัสเตอร์มาหารด้วยจำนวนจุดข้อมูลทั้งหมด ในทางทฤษฎี เมื่อกำหนดเซตของคลัสเตอร์และเซตของคลาสซึ่งทั้งสองอย่างแบ่งจุดข้อมูล ความบริสุทธิ์สามารถกำหนดได้ดังนี้: $M$ $D$ $N$

{\frac {1}{N}}\sum _{m\in M}\max _{d\in D}{|m\cap d|}

มาตรการนี้ไม่ได้ลงโทษการมีคลัสเตอร์จำนวนมาก และคลัสเตอร์ที่มากขึ้นจะทำให้การสร้างค่าความบริสุทธิ์สูงทำได้ง่ายขึ้น ค่าความบริสุทธิ์ 1 นั้นเป็นไปได้เสมอโดยการจัดจุดข้อมูลแต่ละจุดไว้ในคลัสเตอร์ของตัวเอง นอกจากนี้ ความบริสุทธิ์ยังใช้ได้ไม่ดีกับข้อมูลที่ไม่สมดุล ซึ่งแม้แต่ขั้นตอนวิธีจัดกลุ่มที่มีประสิทธิภาพต่ำก็ยังให้ค่าความบริสุทธิ์สูง ตัวอย่างเช่น หากชุดข้อมูลขนาด 1000 ประกอบด้วยสองคลาส คลาสหนึ่งมี 999 จุด และอีกคลาสหนึ่งมี 1 จุด การแบ่งกลุ่มที่เป็นไปได้ทั้งหมดจะมีค่าความบริสุทธิ์อย่างน้อย 99.9%

ดัชนีแรนด์

ดัชนี Rand ^{[ 48 ]}คำนวณว่าคลัสเตอร์ (ที่ส่งคืนโดยอัลกอริทึมการจัดกลุ่ม) มีความคล้ายคลึงกับการจัดกลุ่มมาตรฐานมากน้อยเพียงใด สามารถคำนวณได้โดยใช้สูตรต่อไปนี้:

RI={\frac {TP+TN}{TP+FP+FN+TN}}

โดยที่คือจำนวนผลบวกที่ถูกต้องคือจำนวนผลลบที่ถูกต้องคือจำนวนผลบวกที่ผิดพลาดและคือจำนวน ผล ลบที่ผิดพลาดจำนวนที่นับในที่นี้คือจำนวน การจับ คู่ ที่ถูกต้อง กล่าว คือคือจำนวนคู่ของจุดที่รวมกลุ่มกันในพาร์ติชันที่คาดการณ์และในพาร์ติชันความจริงคือจำนวนคู่ของจุดที่รวมกลุ่มกันในพาร์ติชันที่คาดการณ์แต่ไม่อยู่ในพาร์ติชันความจริง เป็นต้น ถ้าชุดข้อมูลมีขนาด N แล้วปัญหาอย่างหนึ่งของดัชนี Randคือผลบวกที่ผิดพลาดและผลลบที่ผิดพลาด มีน้ำหนักเท่ากัน ซึ่งอาจเป็นลักษณะที่ไม่พึงประสงค์สำหรับการใช้งานการจัดกลุ่มบางอย่าง การวัดค่า F ช่วยแก้ไขปัญหานี้ได้ เช่นเดียวกับ ดัชนี Rand ที่ปรับ แก้โดยคำนึง ถึง โอกาส $TP$ $TN$ $FP$ $FN$ $TP$ $FP$ $TP+TN+FP+FN={\binom {N}{2}}$

ค่า F

ค่า F-measure สามารถใช้เพื่อสร้างสมดุลให้กับการมีส่วนร่วมของผลลบเท็จโดยการถ่วงน้ำหนักการเรียกคืนผ่านพารามิเตอร์ให้ความแม่นยำและการเรียกคืน (ซึ่งเป็นมาตรวัดการประเมินภายนอกทั้งคู่) กำหนดดังนี้: โดยที่คือ อัตรา ความแม่นยำและคือ อัตรา การเรียกคืนเราสามารถคำนวณค่า F-measure ได้โดยใช้สูตรต่อไปนี้: ^[⁴¹^] เมื่อ, . กล่าวอีกนัยหนึ่งการเรียกคืนไม่มีผลกระทบต่อค่า F-measure เมื่อและการเพิ่มจะจัดสรรน้ำหนักให้กับการเรียกคืนในค่า F-measure สุดท้ายมากขึ้น นอกจากนี้ ยังไม่นำมาพิจารณาและสามารถเปลี่ยนแปลงได้ตั้งแต่ 0 ขึ้นไปโดยไม่มีขอบเขต $\beta \geq 0$ $P={\frac {TP}{TP+FP}}$ $R={\frac {TP}{TP+FN}}$ $P$ $R$ $F_{\beta }={\frac {(\beta ^{2}+1)\cdot P\cdot R}{\beta ^{2}\cdot P+R}}$ $\beta =0$ $F_{0}=P$ $\beta =0$ $\beta$ $TN$

ดัชนีแจ็กการ์ด

ดัชนี Jaccard ใช้ในการวัดความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุดดัชนี Jaccardมีค่าอยู่ระหว่าง 0 ถึง 1 ค่าดัชนี 1 หมายความว่าชุดข้อมูลทั้งสองเหมือนกันทุกประการ และค่าดัชนี 0 หมายความว่าชุดข้อมูลทั้งสองไม่มีองค์ประกอบร่วมกัน ดัชนี Jaccard คำนวณได้จากสูตรต่อไปนี้: ซึ่งก็คือจำนวนองค์ประกอบที่ไม่ซ้ำกันที่เหมือนกันในทั้งสองชุด หารด้วยจำนวนองค์ประกอบที่ไม่ซ้ำกันทั้งหมดในทั้งสองชุด โปรดทราบว่าไม่ได้นำมาพิจารณาด้วย $J(A,B)={\frac {|A\cap B|}{|A\cup B|}}={\frac {TP}{TP+FP+FN}}$ $TN$

ดัชนีลูกเต๋า

การวัดแบบสมมาตรของลูกเต๋าจะเพิ่มน้ำหนักเป็นสองเท่าในขณะที่ยังคงไม่สนใจ: . $TP$ $TN$ $DSC={\frac {2TP}{2TP+FP+FN}}$

ดัชนีฟาวล์เคส-มัลโลว์

ดัชนี Fowlkes–Mallows ^{[ 49 ]}คำนวณความคล้ายคลึงกันระหว่างคลัสเตอร์ที่ได้จากอัลกอริทึมการจัดกลุ่มและการจำแนกประเภทมาตรฐาน ยิ่งค่าของดัชนี Fowlkes–Mallows สูงเท่าไร คลัสเตอร์และการจำแนกประเภทมาตรฐานก็จะยิ่งคล้ายคลึงกันมากขึ้นเท่านั้น สามารถคำนวณได้โดยใช้สูตรต่อไปนี้: โดยที่คือจำนวนผลบวกจริงคือจำนวนผลบวกเท็จและคือจำนวนผลลบเท็จดัชนีคือค่าเฉลี่ยเรขาคณิตของความแม่นยำและการเรียกคืนและดังนั้นจึงเรียกอีกอย่างว่าG-measureในขณะที่ F-measure คือค่าเฉลี่ยฮาร์มอนิกของทั้งสอง^[⁵⁰^]^[⁵¹^]นอกจากนี้ความแม่นยำและการเรียกคืนยังเรียกอีกอย่างว่าดัชนีของ Wallace และ[ ⁵²^{] เวอร์ชันที่ปรับค่าแบบสุ่มของการ}^{เรียก}คืน ความแม่นยำ และ G-measure สอดคล้องกับInformedness , MarkednessและMatthews Correlationและมีความสัมพันธ์อย่างมาก^กับ Kappa [ ⁵³^] $FM={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}$ $TP$ $FP$ $FN$ $FM$ $P$ $R$ $B^{I}$ $B^{II}$

ดัชนีไค

ดัชนีไค^{[ 54 ]}เป็นดัชนีการตรวจสอบภายนอกที่วัดผลลัพธ์การจัดกลุ่มโดยใช้สถิติไคกำลังสองดัชนีนี้ให้คะแนนในเชิงบวกต่อข้อเท็จจริงที่ว่าป้ายกำกับมีความเบาบางมากที่สุดเท่าที่จะเป็นไปได้ในแต่ละกลุ่ม กล่าวคือแต่ละกลุ่มมีป้ายกำกับที่แตกต่างกันน้อยที่สุดเท่าที่จะเป็นไปได้ ยิ่งค่าของดัชนีไคสูงเท่าใด ความสัมพันธ์ระหว่างกลุ่มที่ได้กับป้ายกำกับที่ใช้ก็จะยิ่งมากขึ้นเท่านั้น

ข้อมูลร่วมกัน

ข้อมูลร่วม (mutual information) เป็นการ วัด เชิงทฤษฎีสารสนเทศของปริมาณข้อมูลที่ใช้ร่วมกันระหว่างการจัดกลุ่มและการจำแนกประเภทความจริงพื้นฐาน ซึ่งสามารถตรวจจับความคล้ายคลึงที่ไม่เป็นเชิงเส้นระหว่างการจัดกลุ่มสองกลุ่มได้ข้อมูลร่วมแบบนอร์มาไลซ์ (Normalized mutual information)เป็นกลุ่มของตัวแปรที่แก้ไขสำหรับโอกาส ซึ่งมีอคติที่ลดลงสำหรับจำนวนกลุ่มที่แตกต่างกัน^{[ 38 ]}

เมทริกซ์ความสับสน

เมทริกซ์ความสับสนสามารถใช้เพื่อแสดงผลลัพธ์ของอัลกอริทึมการจำแนกประเภท (หรือการจัดกลุ่ม) ได้อย่างรวดเร็ว โดยจะแสดงให้เห็นว่ากลุ่มหนึ่งแตกต่างจากกลุ่มมาตรฐานมากน้อยเพียงใด

การวัดความถูกต้อง

การวัดความถูกต้อง (v-measure แบบย่อ) เป็นเมตริกแบบรวมสำหรับความเป็นเนื้อเดียวกันและความสมบูรณ์ของกลุ่ม^{[ 55 ]}

แนวโน้มการรวมกลุ่ม

การวัดแนวโน้มการจัดกลุ่ม คือการวัดว่าข้อมูลที่จะจัดกลุ่มนั้นมีการจัดกลุ่มในระดับใด และอาจดำเนินการเป็นการทดสอบเบื้องต้นก่อนที่จะพยายามจัดกลุ่ม วิธีหนึ่งในการทำเช่นนี้คือการเปรียบเทียบข้อมูลกับข้อมูลสุ่ม โดยเฉลี่ยแล้ว ข้อมูลสุ่มไม่ควรมีการจัดกลุ่ม

สถิติของฮอปกินส์

มีการกำหนดสูตรสถิติของฮอปกินส์หลายแบบ[ 56 ^{]สูตรทั่วไป}สูตรหนึ่งมีดังนี้^{[ 57 ]}ให้เป็นเซตของจุดข้อมูลในพื้นที่มิติ พิจารณาตัวอย่างสุ่ม (โดยไม่ใส่คืน) ของจุดข้อมูลที่มีสมาชิกและสร้างเซตของจุดข้อมูลที่กระจายแบบสุ่มอย่างสม่ำเสมอ จากนั้นกำหนดมาตรวัดระยะทางสองแบบคือ ระยะทางของจากเพื่อนบ้านที่ใกล้ที่สุดใน X และระยะทางของจากเพื่อนบ้านที่ใกล้ที่สุดใน X จากนั้นเรากำหนดสถิติของฮอปกินส์ดังนี้:

X

n

d

m\ll n

x_{i}

Y

m

u_{i}

y_{i}\in Y

w_{i}

x_{i}\in X

H={\frac {\sum _{i=1}^{m}{u_{i}^{d}}}{\sum _{i=1}^{m}{u_{i}^{d}}+\sum _{i=1}^{m}{w_{i}^{d}}}}\,,

ตามนิยามนี้ ข้อมูลสุ่มแบบสม่ำเสมอควรมีค่าใกล้เคียงกับ 0.5 และข้อมูลแบบกระจุกตัวควรมีค่าใกล้เคียงกับ 1

อย่างไรก็ตาม ข้อมูลที่มีเพียงการแจกแจงแบบเกาส์เซียนเดียวก็จะได้คะแนนใกล้เคียง 1 เช่นกัน เนื่องจากสถิตินี้วัดความเบี่ยงเบนจาก การแจกแจง แบบสม่ำเสมอไม่ใช่การแจกแจงแบบหลายยอดทำให้สถิตินี้แทบจะไม่มีประโยชน์ในการนำไปใช้ (เพราะข้อมูลจริงไม่เคยมีความสม่ำเสมอเลย)

จริยธรรมและความยุติธรรม

เนื่องจากองค์กรธุรกิจและหน่วยงานภาครัฐนำอัลกอริทึมการจัดกลุ่มมาใช้มากขึ้นเรื่อยๆ เพื่อจำแนกประชากรและตัดสินใจโดยอัตโนมัติด้วยข้อมูลจริง ความกังวลเกี่ยวกับอคติของอัลกอริทึมจึงเพิ่มมากขึ้น เพราะการจัดกลุ่มเป็นรูปแบบหนึ่งของการเรียนรู้แบบไม่มีผู้กำกับดูแลจึงเป็นการระบุรูปแบบภายในข้อมูลที่มีอยู่แล้ว ดังนั้น โมเดลเหล่านี้จึงอาจเสริมสร้างความไม่เท่าเทียมกันในอดีตที่มีอยู่แล้วในชุดข้อมูลฝึกฝนโดยไม่ตั้งใจได้

นิยามความเป็นธรรมในการจัดกลุ่ม

การบรรลุความเป็นธรรมในการเรียนรู้แบบไม่กำกับดูแลโดยอาศัยข้อมูลจากโลกแห่งความเป็นจริงนั้นเป็นไปไม่ได้ เนื่องจากไม่มีวิธีการกำหนดความจริงพื้นฐานที่จะระบุว่าอะไรคือ “ถูกต้อง” ในขณะที่อัลกอริธึมการจัดกลุ่มมีลักษณะทางคณิตศาสตร์ แต่ก็มีความอ่อนไหวต่ออคติเชิงระบบเนื่องจากข้อมูลพื้นฐานสะท้อนถึงอคติทั้งทางประวัติศาสตร์และสังคม^{[ 58 ]}ด้วยเหตุนี้ นักวิจัยจึงได้พัฒนากรอบการทำงาน “การจัดกลุ่มที่เป็นธรรม” เช่น แนวทาง Fairlet ซึ่งรับประกันว่าแต่ละกลุ่มจะรักษาสัดส่วนที่สมดุลของกลุ่มที่ได้รับการคุ้มครองเมื่อเทียบกับประชากรโดยรวม^{[ 59 ]}

ผลกระทบที่ไม่เท่าเทียมกันและตัวแทน

ภายใต้หลักการทางกฎหมายของผลกระทบที่ไม่เท่าเทียมกันกระบวนการจะถือว่าเป็นการเลือกปฏิบัติหากส่งผลให้เกิดผลลัพธ์ที่ไม่พึงประสงค์อย่างไม่สมส่วนต่อกลุ่มที่ได้รับการคุ้มครอง แม้ว่าอัลกอริทึมจะดูเป็นกลาง (เช่น ไม่ได้ใช้คุณลักษณะเช่นเชื้อชาติหรือเพศอย่างชัดเจน) ^{[ 60 ]}ความไม่เป็นธรรมมักเกิดขึ้นผ่านตัวแปรตัวแทน ตัวอย่างเช่น แม้ว่าชุดข้อมูลจะถูกลบเชื้อชาติออกไปแล้ว อัลกอริทึมการจัดกลุ่มอาจใช้รหัสไปรษณีย์หรือภูมิหลังทางการศึกษาเป็นคุณลักษณะ เนื่องจากตัวแปรเหล่านี้มักมีความสัมพันธ์อย่างมากกับสถานะทางเศรษฐกิจและชาติพันธุ์ กลุ่มที่ได้จึงจะแบ่งแยกบุคคลตามลักษณะเหล่านี้อย่างมีประสิทธิภาพ

ผลกระทบในโลกแห่งความเป็นจริง

การประยุกต์ใช้การจัดกลุ่มในงานพยากรณ์อาชญากรรมได้แสดงให้เห็นว่าอคติในอดีตของข้อมูลสามารถสร้างวงจรป้อนกลับได้อย่างไร

กรณีศึกษา (ชิคาโก)
- รายชื่อเป้าหมายเชิงกลยุทธ์ของกรมตำรวจชิคาโกใช้การจัดกลุ่มเพื่อระบุบุคคลที่มีแนวโน้มที่จะเกี่ยวข้องกับอาชญากรรมในอนาคต อย่างไรก็ตาม การศึกษาในปี 2016 พบว่าแบบจำลองนี้มุ่งเป้าไปที่บุคคลโดยพิจารณาจากประวัติการติดต่อกับตำรวจในอดีตมากกว่ากิจกรรมทางอาชญากรรมที่แท้จริง ซึ่งส่งผลกระทบต่อชุมชนชนกลุ่มน้อยอย่างไม่สมส่วนโดยไม่ลดอัตราการเกิดอาชญากรรม^{[ 61 ]}ทั้งนี้เนื่องจากแบบจำลองนี้อิงตามข้อมูลของตำรวจ ดังนั้นจึงสามารถจำแนกประเภทได้อย่างแท้จริงตามกิจกรรมของตำรวจแทนที่จะเป็นอาชญากรรมที่แท้จริง

ความเหลื่อมล้ำทางประชากรศาสตร์
- การวิจัยเกี่ยวกับการจัดกลุ่มการจดจำใบหน้าแสดงให้เห็นว่าอัตราข้อผิดพลาดสูงกว่าอย่างมีนัยสำคัญสำหรับผู้หญิงและคนผิวสี ตัวอย่างเช่น โครงการ Gender Shades พบว่าระบบการจำแนกประเภทตามการจัดกลุ่มบางระบบมีอัตราข้อผิดพลาดสูงถึง 34.7% สำหรับผู้หญิงผิวสีเข้ม เมื่อเทียบกับ 0.8% สำหรับผู้ชายผิวขาว^{[ 62 ]}

แอปพลิเคชัน

การวิเคราะห์แบบคลัสเตอร์ถูกนำมาใช้ในการวิเคราะห์ข้อมูลในหลากหลายสาขา

วิทยาศาสตร์ธรรมชาติ

ในสาขาวิทยาศาสตร์ธรรมชาติเทคนิคต่างๆ เช่นการจัดกลุ่มแบบลำดับชั้น (hierarchical clustering ), k -means , การลดมิติ (dimensionality reduction) , การวิเคราะห์องค์ประกอบหลัก (principal component analysis: PCA) และt-SNEมักถูกนำมาใช้เพื่อทำความเข้าใจข้อมูลที่มีความหนาแน่นสูง

ชีววิทยา , ชีววิทยาเชิงคำนวณและชีวสารสนเทศ

นิเวศวิทยาของพืชและสัตว์
- การวิเคราะห์แบบคลัสเตอร์ใช้เพื่ออธิบายและเปรียบเทียบกลุ่มสิ่งมีชีวิตใน สภาพแวดล้อม ที่แตกต่างกันนอกจากนี้ยังใช้กันอย่างแพร่หลายในระบบอนุกรมวิธานของพืชเพื่อสร้างแผนภูมิวิวัฒนาการ เทียม ของกลุ่มสิ่งมีชีวิตที่มีคุณลักษณะคล้ายคลึงกัน

ทรานสคริปโตมิกส์
- การจัดกลุ่มใช้เพื่อสร้างกลุ่มยีน ที่มีรูปแบบ การแสดงออกที่เกี่ยวข้องเช่น อัลกอริทึม การจัดกลุ่ม HCS ^{[ 63 ]}^{[ 64 ]}กลุ่มดังกล่าว มักมีโปรตีน ที่เกี่ยวข้อง เช่นเอนไซม์ สำหรับ วิถีการเผาผลาญเฉพาะหรือยีนที่ถูกควบคุมร่วมกันซึ่งช่วยให้นักวิทยาศาสตร์ได้รับข้อมูลเกี่ยวกับความคล้ายคลึงกันระหว่างยีนที่ไม่เคยรู้จักมาก่อน

การวิเคราะห์ลำดับ
- การจัดกลุ่มลำดับใช้เพื่อจัดกลุ่มลำดับเข้าเป็นกลุ่มยีน^{[ 65 ]}นี่เป็นแนวคิดพื้นฐานในชีวสารสนเทศและชีววิทยาวิวัฒนาการ

การจัดกลุ่มทางพันธุกรรมของมนุษย์
- ในพันธุศาสตร์ประชากรและระบาดวิทยาเชิงจีโนมความคล้ายคลึงกันระหว่างชุดข้อมูลทางพันธุกรรมถูกนำมาใช้เพื่ออธิบายโครงสร้างของประชากร

ยาและข้อมูลทางการแพทย์

การถ่ายภาพทางการแพทย์
- ในการสแกน PETการวิเคราะห์คลัสเตอร์สามารถใช้เพื่อแยกความแตกต่างระหว่างเนื้อเยื่อ ประเภทต่างๆ ในภาพสามมิติเพื่อวัตถุประสงค์ในการวินิจฉัยที่หลากหลาย^{[ 66 ]}มีความสำคัญเท่าเทียมกันใน การวิเคราะห์ MRIและพยาธิวิทยาเนื้อเยื่อซึ่งการแบ่งส่วนอัตโนมัติของบริเวณเหล่านี้ช่วยลดภาระของการระบุตำแหน่งด้วยตนเอง

ภูมิอากาศและวิทยาศาสตร์โลก

ภูมิอากาศ
- การจัดกลุ่มใช้เพื่อค้นหารูปแบบสภาพอากาศและรูปแบบบรรยากาศ ช่วยให้นักอุตุนิยมวิทยาจัดหมวดหมู่การหมุนเวียนของสภาพอากาศขนาดใหญ่ รวมถึงศึกษาผลกระทบของ ความแปรปรวนของ สภาพภูมิอากาศต่อสภาพอากาศใน ระดับภูมิภาค ^{[ 67 ]}

ธรณีเคมีและธรณีวิทยาปิโตรเลียม
- การรวมกลุ่มเชิงพื้นที่ของคุณสมบัติทางเคมีในสถานที่เก็บตัวอย่างที่แตกต่างกันช่วยให้นักธรณีเคมีระบุโซนการเกิดแร่ มลพิษ และขอบเขตทางธรณีวิทยาได้^{[ 68 ]}

เคมีเชิงคณิตศาสตร์
- การจัดกลุ่มช่วยให้มีความคล้ายคลึงกันทางโครงสร้างระหว่างสารประกอบทางเคมี ดัชนีทางโทโพโลยี^{[ 69 ]}

วิทยาศาสตร์ข้อมูลและเทคโนโลยี

ในการคำนวณและการประยุกต์ใช้เทคโนโลยี การจัดกลุ่มเป็นแรงขับเคลื่อนสำคัญเบื้องหลังการเรียนรู้แบบไม่กำกับดูแล ของแมชชีนเลิร์ นนิง และถูกฝังอยู่ในระบบต่างๆ ตั้งแต่เครื่องมือค้นหาไปจนถึงแพลตฟอร์มแนะนำ อัลกอริทึมทั่วไปในสาขานี้ ได้แก่k -means , DBSCAN , mean shiftและspectral clustering ซึ่ง มักจะนำไปใช้หลังจากการสกัดคุณลักษณะหรือการฝังข้อมูล ซึ่งเป็นขั้นตอนที่แปลงข้อมูลดิบ เช่น ข้อความ รูปภาพ บันทึกเซ็นเซอร์ ให้เป็นพื้นที่เวกเตอร์ที่เหมาะสมสำหรับการจัดกลุ่มตามระยะทาง^[⁷⁰^]

การเรียนรู้ของเครื่องและการจดจำรูปแบบ

การแบ่งส่วนภาพ
- การแบ่งส่วนภาพ (Image segmentation) คือกระบวนการแบ่งภาพดิจิทัลออกเป็นหลายส่วนที่มีความหมาย โดยจัดกลุ่มพิกเซลที่มีคุณลักษณะคล้ายกัน เช่น สี ความเข้ม หรือพื้นผิว เข้าด้วยกัน ซึ่งจะทำให้การวิเคราะห์ง่ายขึ้นและสนับสนุนงานต่างๆ ในขั้นตอนต่อไป เช่นการตรวจจับวัตถุและการทำความเข้าใจฉาก โดยมีแอปพลิเคชันในด้านการถ่ายภาพทางการ แพทย์ คอมพิวเตอร์วิชั่น ภาพถ่ายดาวเทียมและเครื่องมือในชีวิตประจำวัน เช่น การตรวจจับใบหน้าและการแก้ไขภาพ

การตรวจจับความผิดปกติ
- โดยทั่วไปแล้ว ความผิดปกติและข้อมูลที่ผิดปกติจะถูกกำหนดโดยพิจารณาจากโครงสร้างการจัดกลุ่มของชุดข้อมูล กล่าวคือ จุดที่อยู่ห่างไกลจากกลุ่มที่กำหนดไว้จะถูกระบุว่าผิดปกติ ดังนั้น การจัดกลุ่มจึงมีความสำคัญอย่างยิ่งต่อการตรวจจับการบุกรุกการตรวจจับการฉ้อโกงและการตรวจสอบความผิดพลาดในภาคอุตสาหกรรม

วิธีการมอนเตคาร์โลแบบลูกโซ่มาร์คอฟ
- การจัดกลุ่มถูกนำมาใช้เพื่อค้นหาและระบุลักษณะเฉพาะของค่าสุดขั้วในการกระจายเป้าหมาย ซึ่งช่วยให้การสุ่มตัวอย่างมีประสิทธิภาพมากขึ้นในการอนุมานความน่าจะเป็นในมิติสูง

หุ่นยนต์ภาคสนาม
- อัลกอริทึมการจัดกลุ่มสนับสนุนการรับรู้สถานการณ์ ของหุ่นยนต์ ทำให้หุ่นยนต์สามารถติดตามวัตถุและตรวจจับสิ่งผิดปกติในสตรีมข้อมูลเซ็นเซอร์แบบเรียลไทม์ได้^{[ 71 ]}

การจัดกลุ่มเอกสารและข้อความ

การประมวลผลภาษาธรรมชาติ
- การจัดกลุ่มสามารถแก้ไขความกำกวมทางคำศัพท์^{[ 72 ]}และจัดระเบียบคลังข้อมูลข้อความที่ไม่มีโครงสร้างขนาดใหญ่โดยอัตโนมัติให้เป็นกลุ่มที่สอดคล้องกันตามหัวข้อ ซึ่งเป็นกระบวนการที่เรียกว่าการจัดกลุ่ม เอกสาร แอปพลิเค ชันต่างๆ ได้แก่ การรวบรวมข่าว การวิเคราะห์ความคิดเห็นของลูกค้า และการทบทวนวรรณกรรมอัตโนมัติ

เดวิออปส์
- การจัดกลุ่มถูกนำมาใช้เพื่อวิเคราะห์ประสิทธิภาพของทีม DevOps และเพื่อจัดกลุ่มไปป์ไลน์การปรับใช้ตามลักษณะการทำงาน^{[ 73 ]}

เครือข่ายเวิลด์ไวด์เว็บและเครือข่ายต่างๆ

การวิเคราะห์ เครือข่ายสังคม
- ในการศึกษาเครือข่ายสังคมการจัดกลุ่มถูกนำมาใช้เพื่อระบุชุมชนภายในกลุ่มคนขนาดใหญ่ ซึ่งเผยให้เห็นห้องสะท้อนความคิด ศูนย์กลางอิทธิพล และกลุ่มความสนใจที่เกิดขึ้นเองตามธรรมชาติ ซึ่งจะไม่สามารถมองเห็นได้ในกราฟผู้ติดตามแบบธรรมดา

การจัดกลุ่มผลการค้นหา
- การจัดกลุ่มสามารถสร้างชุดผลการค้นหาที่เกี่ยวข้องมากกว่ารายการจัดอันดับแบบดั้งเดิม โดยเฉพาะอย่างยิ่งเมื่อคำค้นหามีความกำกวม^{[ 72 ]}ยกตัวอย่างเช่น 'apple' ซึ่งอาจหมายถึงทั้งแอปเปิลหรือบริษัทแอปเปิลเครื่องมือจัดกลุ่มบนเว็บ เช่นClustyจะจัดกลุ่มผลลัพธ์ตามความหมายที่แตกต่างกัน ทำให้ขั้นตอนวิธีจัดอันดับ สามารถ ส่งคืนการครอบคลุมที่ครอบคลุมโดยการเลือกผลลัพธ์อันดับต้น ๆ จากแต่ละกลุ่ม

การเพิ่มประสิทธิภาพแผนที่ลื่น
- แพลตฟอร์มแผนที่ เช่นแผนที่ภาพถ่ายของFlickr ใช้การจัดกลุ่มเพื่อรวมเครื่องหมายที่อยู่ใกล้เคียงกันที่ระดับการซูมต่ำ ^{[ 74 ]}ซึ่งช่วยลดความรกของภาพและปรับปรุงประสิทธิภาพการแสดงผล

ระบบแนะนำ
- ระบบแนะนำใช้การจัดกลุ่มเพื่อคาดการณ์ความชอบที่ไม่ทราบของผู้ใช้ โดยการวิเคราะห์รสนิยมและกิจกรรมของผู้ใช้ที่มีลักษณะคล้ายคลึงกันภายในกลุ่มเดียวกัน

ธุรกิจ เศรษฐศาสตร์และสังคมศาสตร์

ในด้านธุรกิจและสังคมศาสตร์ การจัดกลุ่มมักถูกนำไปใช้กับข้อมูลแบบสำรวจและข้อมูลธุรกรรมในรูปแบบตาราง โดยมีเป้าหมายเพื่อแบ่งประชากรออกเป็นกลุ่มผู้บริโภค สร้างข้อมูลเชิงลึกในการวิเคราะห์ตลาดอย่างละเอียด หรือแสดงให้เห็นถึงความชอบของผู้ลงคะแนนเสียง

ธุรกิจและเศรษฐศาสตร์

การเงิน
- การวิเคราะห์คลัสเตอร์ถูกนำมาใช้เพื่อจัดกลุ่มหุ้นเป็นภาคส่วนตามการเคลื่อนไหวร่วมกันของผลตอบแทน ซึ่งสนับสนุน การสร้าง พอร์ตโฟลิโอและการจัดการความเสี่ยง^{[ 75 ]}นอกจากนี้ยังนำไปใช้ใน การสร้างแบบ จำลองความเสี่ยงด้านเครดิตเพื่อจัดกลุ่มผู้กู้ที่มีโปรไฟล์ความเสี่ยงที่คล้ายคลึงกัน และในการซื้อขายแบบอัลกอริทึมเพื่อระบุการเปลี่ยนแปลงระบอบในพฤติกรรมของตลาด

การวิจัยตลาด
- การวิเคราะห์คลัสเตอร์ถูกนำมาใช้กันอย่างแพร่หลายในการวิจัยตลาดเมื่อทำงานกับข้อมูลหลายตัวแปรจากแบบสำรวจและแผงทดสอบ นักวิจัยตลาดใช้เพื่อแบ่งประชากรผู้บริโภค ทั่วไปออก เป็นกลุ่มตลาดโดยชี้ให้เห็นความสัมพันธ์ระหว่างกลุ่มผู้บริโภคต่างๆ เพื่อใช้ในการวางตำแหน่งผลิตภัณฑ์การพัฒนาผลิตภัณฑ์ใหม่ และการเลือกตลาดทดสอบ^{[ 76 ]}

การจัดกลุ่มสินค้าในการซื้อ
- การจัดกลุ่มสามารถช่วยจัดกลุ่มสินค้าจำนวนมหาศาลที่วางขายอยู่บนเว็บให้เป็นกลุ่มสินค้าเฉพาะได้ ตัวอย่างเช่น สินค้าทั้งหมดบนeBayสามารถจัดกลุ่มเป็นหมวดหมู่สินค้าเฉพาะได้ เช่น ของใช้ในบ้าน หรือ เสื้อผ้า

สังคมศาสตร์

การวิเคราะห์ลำดับในสังคมศาสตร์
- การวิเคราะห์แบบคลัสเตอร์ใช้เพื่อระบุรูปแบบในเส้นทางชีวิตครอบครัว อาชีพการงาน และการใช้เวลาในแต่ละวันหรือแต่ละสัปดาห์ ซึ่งจะสร้างแบบจำลองเส้นทางชีวิตที่ช่วยให้เข้าใจถึงการแบ่งชั้นทางสังคมและความไม่เท่าเทียมกันได้ดียิ่งขึ้น

การวิเคราะห์อาชญากรรม
- การจัดกลุ่มสามารถระบุพื้นที่ที่มีอัตราการเกิดอาชญากรรมประเภทใดประเภทหนึ่งสูงขึ้นได้ โดยการระบุ "จุดร้อน" ที่เกิดอาชญากรรมประเภทเดียวกันในช่วงเวลาหนึ่ง หน่วยงานบังคับใช้กฎหมายสามารถจัดสรรทรัพยากรได้อย่างมีกลยุทธ์มากขึ้น^{[ 77 ]}

การขุดข้อมูลทางการศึกษา
- การวิเคราะห์คลัสเตอร์ใช้เพื่อระบุกลุ่มโรงเรียนหรือนักเรียนที่มีโปรไฟล์ทางวิชาการที่คล้ายคลึงกัน ทำให้สามารถดำเนินการแทรกแซงที่ตรงเป้าหมายและจัดสรรทรัพยากรได้อย่างเท่าเทียมมากขึ้น^{[ 78 ]}

ประเภทและการวิจัยความคิดเห็น
- โครงการต่างๆ เช่น โครงการที่ดำเนินการโดยศูนย์วิจัย Pewใช้การวิเคราะห์แบบกลุ่มเพื่อแยกแยะประเภทของความคิดเห็น พฤติกรรม และข้อมูลประชากรจากข้อมูลการสำรวจความคิดเห็น ซึ่งเป็นประโยชน์ต่อการวิเคราะห์ทางการเมืองและการสื่อสารเชิงกลยุทธ์

ดูเพิ่มเติม