อ่าน 23 นาที
การวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์หรือการจัดคลัสเตอร์เป็นเทคนิคการวิเคราะห์ข้อมูลที่มุ่งเน้นการแบ่งชุดของวัตถุออกเป็นกลุ่ม โดยที่วัตถุภายในกลุ่มเดียวกัน (เรียกว่าคลัสเตอร์ )...
การวิเคราะห์คลัสเตอร์

| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
การวิเคราะห์คลัสเตอร์หรือการจัดคลัสเตอร์เป็นเทคนิคการวิเคราะห์ข้อมูลที่มุ่งเน้นการแบ่งชุดของวัตถุออกเป็นกลุ่ม โดยที่วัตถุภายในกลุ่มเดียวกัน (เรียกว่าคลัสเตอร์ ) จะมีความคล้ายคลึงกันมากกว่า (ในความหมายเฉพาะที่นักวิเคราะห์กำหนด) เมื่อเทียบกับวัตถุในกลุ่มอื่น ๆ การจัดคลัสเตอร์เป็นงานหลักของการวิเคราะห์ข้อมูลเชิงสำรวจและเป็นเทคนิคทั่วไปสำหรับการวิเคราะห์ข้อมูลทางสถิติ ซึ่งใช้ในหลายสาขา รวมถึงการรู้จำรูปแบบการวิเคราะห์ภาพการค้นหาข้อมูลชีวสารสนเทศการบีบอัดข้อมูลกราฟิกคอมพิวเตอร์และการ เรียน รู้ ของเครื่อง
การวิเคราะห์คลัสเตอร์หมายถึงกลุ่มของอัลกอริทึมและงานต่างๆ มากกว่าอัลกอริทึม เฉพาะตัวใดตัวหนึ่ง สามารถทำได้โดยใช้อัลกอริทึมหลายแบบ ซึ่งแตกต่างกันอย่างมากในความเข้าใจเกี่ยวกับองค์ประกอบของคลัสเตอร์และวิธีการค้นหาคลัสเตอร์อย่างมีประสิทธิภาพ แนวคิดที่นิยมใช้เกี่ยวกับคลัสเตอร์ ได้แก่ กลุ่มที่มีระยะห่างระหว่างสมาชิกในคลัสเตอร์น้อย พื้นที่ที่มีความหนาแน่นสูงในพื้นที่ข้อมูล ช่วง หรือการกระจายทางสถิติ แบบเฉพาะ ดังนั้น การจัดคลัสเตอร์จึงสามารถกำหนดเป็น ปัญหา การหาค่าเหมาะสมที่สุดแบบหลายเป้าหมายได้อัลกอริทึมการจัดคลัสเตอร์ที่เหมาะสมและการตั้งค่าพารามิเตอร์ (รวมถึงพารามิเตอร์ต่างๆ เช่นฟังก์ชันระยะทางที่จะใช้ เกณฑ์ความหนาแน่น หรือจำนวนคลัสเตอร์ที่คาดหวัง) ขึ้นอยู่กับชุดข้อมูล แต่ละชุด และการใช้งานผลลัพธ์ที่ตั้งใจไว้ การวิเคราะห์คลัสเตอร์ไม่ใช่กระบวนการอัตโนมัติ แต่เป็นกระบวนการวนซ้ำของการค้นพบความรู้หรือการหาค่าเหมาะสมที่สุดแบบหลายเป้าหมายเชิงโต้ตอบที่เกี่ยวข้องกับการลองผิดลองถูก มักจำเป็นต้องปรับเปลี่ยนการประมวลผลข้อมูลเบื้องต้นและพารามิเตอร์ของแบบจำลองจนกว่าผลลัพธ์จะตรงตามคุณสมบัติที่ต้องการ
นอกจากคำว่าการจัดกลุ่ม (clustering ) แล้ว ยังมีคำศัพท์อื่นๆ ที่มีความหมายคล้ายคลึงกันอีกหลายคำ เช่น การจำแนกประเภท อัตโนมัติ (automatic classification ), อนุกรม วิธานเชิงตัวเลข (numerical taxonomy ) , พฤกษศาสตร์ (botryology จากภาษากรีก : βότρυς ' องุ่น' ), การวิเคราะห์เชิงประเภท (typological analysis ) และการตรวจจับชุมชน (community detection ) ความแตกต่างเล็กน้อยมักอยู่ที่การนำผลลัพธ์ไปใช้: ในขณะที่การทำเหมืองข้อมูล (data mining) กลุ่มที่ได้เป็นสิ่งที่น่าสนใจ แต่ในการจำแนกประเภทอัตโนมัติ พลังในการจำแนก (discriminative power) ที่ได้เป็นสิ่งที่น่าสนใจ
การวิเคราะห์คลัสเตอร์มีต้นกำเนิดมาจากมานุษยวิทยาโดย Driver และ Kroeber ในปี พ.ศ. 2475 [ 1 ]และนำมาใช้ในจิตวิทยาโดยJoseph Zubinในปี พ.ศ. 2481 [ 2 ]และRobert Tryonในปี พ.ศ. 2482 [ 3 ]และCattell นำมาใช้อย่างมีชื่อเสียง ตั้งแต่ปี พ.ศ. 2486 [ 4 ]เพื่อการจำแนกประเภททฤษฎีลักษณะนิสัยในจิตวิทยา บุคลิกภาพ
คำนิยาม
แนวคิดของ "คลัสเตอร์" ไม่สามารถกำหนดได้อย่างแม่นยำ ซึ่งเป็นหนึ่งในเหตุผลที่ทำให้มีอัลกอริธึมการจัดคลัสเตอร์มากมาย[ 5 ]มีตัวร่วมคือ กลุ่มของวัตถุข้อมูล อย่างไรก็ตาม นักวิจัยแต่ละคนใช้โมเดลคลัสเตอร์ที่แตกต่างกัน และสำหรับแต่ละโมเดลคลัสเตอร์เหล่านี้ ก็สามารถกำหนดอัลกอริธึมที่แตกต่างกันได้อีก แนวคิดของคลัสเตอร์ที่พบโดยอัลกอริธึมที่แตกต่างกันนั้น มีคุณสมบัติที่แตกต่างกันอย่างมาก การทำความเข้าใจ "โมเดลคลัสเตอร์" เหล่านี้เป็นกุญแจสำคัญในการทำความเข้าใจความแตกต่างระหว่างอัลกอริธึมต่างๆ โมเดลคลัสเตอร์ทั่วไป ได้แก่:
- แบบ จำลองการเชื่อมต่อ : ตัวอย่างเช่นการจัดกลุ่มแบบลำดับชั้นสร้างแบบจำลองโดยอิงจากการเชื่อมต่อตามระยะทาง
- แบบจำลองเซนทรอยด์: ตัวอย่างเช่นอัลกอริทึม k-meansแทนแต่ละคลัสเตอร์ด้วยเวกเตอร์ค่าเฉลี่ยเพียงตัวเดียว
- แบบจำลองการกระจาย : กลุ่มต่างๆ จะถูกจำลองโดยใช้การกระจายทางสถิติ เช่นการกระจายแบบปกติหลายตัวแปรซึ่งใช้โดยอัลกอริทึมการคาดการณ์และการทำให้สูงสุด (expectation-maximization algorithm)
- แบบจำลองความหนาแน่น : ตัวอย่างเช่นDBSCAN,OPTICSและHDBSCANกำหนดคลัสเตอร์เป็นบริเวณที่มีความหนาแน่นสูงและเชื่อมต่อกันในพื้นที่ข้อมูล
- แบบจำลองซับสเปซ: ในการจัดกลุ่มแบบไบคลัสเตอร์(หรือที่เรียกว่าโคคลัสเตอร์หรือการจัดกลุ่มแบบสองโหมด) กลุ่มต่างๆ จะถูกสร้างแบบจำลองโดยใช้ทั้งสมาชิกในกลุ่มและคุณลักษณะที่เกี่ยวข้อง
- แบบ จำลองกลุ่ม : อัลกอริทึมบางตัวไม่ได้ให้แบบจำลองที่ละเอียดสำหรับผลลัพธ์ แต่ให้เพียงข้อมูลการจัดกลุ่มเท่านั้น
- แบบจำลองกราฟ :กลุ่มย่อยของโหนดในกราฟที่ทุกสองโหนดในกลุ่มย่อยนั้นเชื่อมต่อกันด้วยเส้นขอบ สามารถพิจารณาได้ว่าเป็นรูปแบบต้นแบบของกลุ่ม การผ่อนปรนข้อกำหนดการเชื่อมต่อที่สมบูรณ์ (เส้นขอบบางส่วนอาจขาดหายไปได้) เรียกว่ากลุ่มย่อยเสมือน (quasi-cliques) ดังเช่นในอัลกอริทึมการจัดกลุ่ม HCS
- แบบจำลองกราฟแบบมีเครื่องหมาย : เส้นทาง ทุกเส้น ในกราฟแบบมีเครื่องหมายจะมี เครื่องหมาย จากผลคูณของเครื่องหมายบนขอบ ภายใต้สมมติฐานของทฤษฎีสมดุลขอบอาจเปลี่ยนเครื่องหมายและส่งผลให้เกิดกราฟแยกสาขา "สัจพจน์ความสามารถในการจัดกลุ่ม" ที่อ่อนกว่า (ไม่มีวงจร ใด มีขอบลบเพียงขอบเดียว) จะให้ผลลัพธ์ที่มีคลัสเตอร์มากกว่าสองคลัสเตอร์ หรือกราฟย่อยที่มีเฉพาะขอบบวกเท่านั้น[ 6 ]
- แบบจำลองโครงข่ายประสาทเทียม :โครงข่ายประสาทไม่ใช้ ที่เป็นที่รู้จักมากที่สุดคือแผนที่จัดระเบียบตนเอง (Self-Organizing Map)และแบบจำลองเหล่านี้มักจะมีลักษณะคล้ายคลึงกับแบบจำลองข้างต้นอย่างน้อยหนึ่งแบบ รวมถึงแบบจำลองพื้นที่ย่อย (Subspace Model) เมื่อโครงข่ายประสาทเทียมใช้รูปแบบการวิเคราะห์ส่วนประกอบหลัก (Principal Component Analysisหรือการวิเคราะห์ส่วนประกอบอิสระ (Independent Component Analysis)
"การจัดกลุ่ม" โดยพื้นฐานแล้วคือชุดของกลุ่มต่างๆ ซึ่งโดยปกติจะประกอบด้วยวัตถุทั้งหมดในชุดข้อมูล นอกจากนี้ยังอาจระบุความสัมพันธ์ระหว่างกลุ่มต่างๆ ต่อกัน เช่น ลำดับชั้นของกลุ่มที่ซ้อนกันอยู่ การจัดกลุ่มสามารถแบ่งออกได้คร่าวๆ ดังนี้:
- การจัดกลุ่มแบบเข้มงวด : วัตถุแต่ละชิ้นจะอยู่ในกลุ่มใดกลุ่มหนึ่งหรือไม่ก็ได้
- การจัดกลุ่มแบบอ่อน (หรืออีกนัยหนึ่งคือ:การจัดกลุ่มแบบฟัซซี (Fuzzy Clustering ): วัตถุแต่ละชิ้นจะอยู่ในแต่ละกลุ่มในระดับหนึ่ง (เช่น ความน่าจะเป็นที่จะอยู่ในกลุ่มนั้น)
นอกจากนี้ยังสามารถแบ่งย่อยได้ละเอียดกว่านั้นอีก เช่น:
- การจัดกลุ่มแบบแบ่งพาร์ติชันอย่างเข้มงวด : วัตถุแต่ละชิ้นจะอยู่ในกลุ่มคลัสเตอร์เพียงกลุ่มเดียวเท่านั้น
- การจัดกลุ่มแบบแบ่งพาร์ติชันอย่างเข้มงวดโดยคำนึงถึงค่าผิดปกติ : วัตถุอาจไม่สังกัดกลุ่มใดเลย ซึ่งในกรณีนี้จะถือว่าเป็นค่าผิดปกติ
- การจัดกลุ่มแบบทับซ้อน (เรียกอีกอย่างว่าการจัดกลุ่มแบบทางเลือกการจัดกลุ่มแบบหลายมุมมอง): วัตถุอาจอยู่ในกลุ่มมากกว่าหนึ่งกลุ่ม โดยปกติจะเกี่ยวข้องกับกลุ่มแบบแข็ง (hard clusters)
- การจัดกลุ่มแบบลำดับชั้น : วัตถุที่อยู่ในกลุ่มย่อยก็อยู่ในกลุ่มหลักด้วยเช่นกัน
- การจัดกลุ่มแบบซับสเปซ : ในขณะที่การจัดกลุ่มแบบทับซ้อนกันนั้น ภายในซับสเปซที่กำหนดไว้อย่างเฉพาะเจาะจง กลุ่มต่างๆ จะไม่ทับซ้อนกัน
อัลกอริทึม

ดังที่กล่าวมาข้างต้น อัลกอริทึมการจัดกลุ่มสามารถแบ่งประเภทได้ตามแบบจำลองการจัดกลุ่ม ภาพรวมต่อไปนี้จะแสดงเฉพาะตัวอย่างที่โดดเด่นที่สุดของอัลกอริทึมการจัดกลุ่มเท่านั้น เนื่องจากอาจมีอัลกอริทึมการจัดกลุ่มที่เผยแพร่แล้วมากกว่า 100 รายการ ไม่ใช่ทุกอัลกอริทึมที่จะมีแบบจำลองสำหรับการจัดกลุ่ม ดังนั้นจึงไม่สามารถจัดประเภทได้อย่างง่ายดาย ภาพรวมของอัลกอริทึมที่อธิบายไว้ในวิกิพีเดียสามารถพบได้ในรายการ อัลกอริทึมทางสถิติ
ไม่มีอัลกอริทึมการจัดกลุ่มที่ "ถูกต้อง" อย่างเป็นกลาง แต่ดังที่ได้กล่าวไว้ว่า "การจัดกลุ่มขึ้นอยู่กับมุมมองของผู้มอง" [ 5 ]ในความเป็นจริง แนวทางเชิงสัจพจน์ในการจัดกลุ่มแสดงให้เห็นว่า เป็นไปไม่ได้ที่วิธีการจัดกลุ่มใดๆ จะตรงตามคุณสมบัติพื้นฐานสามประการพร้อมกัน ได้แก่ความไม่แปรผันตามมาตราส่วน (ผลลัพธ์ยังคงไม่เปลี่ยนแปลงภายใต้การปรับขนาดตามสัดส่วนของระยะทาง) ความสมบูรณ์ (สามารถแบ่งข้อมูลออกเป็นส่วนย่อยที่เป็นไปได้ทั้งหมด) และความสอดคล้องระหว่างระยะทางและโครงสร้างการจัดกลุ่ม[ 7 ]อัลกอริทึมการจัดกลุ่มที่เหมาะสมที่สุดสำหรับปัญหาเฉพาะมักจะต้องเลือกโดยการทดลอง เว้นแต่จะมีเหตุผลทางคณิตศาสตร์ที่จะเลือกแบบจำลองการจัดกลุ่มแบบหนึ่งมากกว่าอีกแบบหนึ่ง อัลกอริทึมที่ออกแบบมาสำหรับแบบจำลองประเภทหนึ่งมักจะล้มเหลวกับชุดข้อมูลที่มีแบบจำลองที่แตกต่างกันอย่างสิ้นเชิง[ 5 ]ตัวอย่างเช่น k-means ไม่สามารถค้นหากลุ่มที่ไม่นูนได้[ 5 ]วิธีการจัดกลุ่มแบบดั้งเดิมส่วนใหญ่ถือว่ากลุ่มมีรูปร่างทรงกลม วงรี หรือนูน[ 8 ]
การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)
การจัดกลุ่มตามการเชื่อมต่อ หรือที่เรียกว่าการจัดกลุ่มแบบลำดับชั้นนั้น อิงตามแนวคิดที่ว่าวัตถุมีความสัมพันธ์กันมากกว่ากับวัตถุที่อยู่ใกล้เคียง มากกว่าวัตถุที่อยู่ไกลออกไป อัลกอริทึมเหล่านี้สร้างกลุ่มโดยการเชื่อมต่อวัตถุตามระยะทาง กลุ่มสามารถเข้าใจได้ในแง่ของระยะทางสูงสุดที่จำเป็นในการเชื่อมต่อองค์ประกอบต่างๆ ในกลุ่มนั้น
ที่ระยะห่างต่างกัน การจัดกลุ่มคลัสเตอร์ก็จะแตกต่างกันไป การจัดกลุ่มเหล่านี้สามารถแสดงให้เห็นได้โดยใช้เดนโดแกรมซึ่งเป็นแผนภาพคล้ายต้นไม้ที่แสดงให้เห็นว่าคลัสเตอร์ต่างๆ ผสานกันอย่างไรเมื่อระยะห่างเพิ่มขึ้น นี่คือที่มาของคำว่า " การจัดกลุ่มแบบลำดับชั้น " กล่าวคือ แทนที่จะสร้างพาร์ติชันเดียวของชุดข้อมูล อัลกอริทึมจะสร้างลำดับชั้นของคลัสเตอร์ที่ผสานกันที่ระยะห่างต่างกัน ในเดนโดแกรม แกน y แสดงระยะห่างที่คลัสเตอร์ผสานกัน ในขณะที่แกน x จัดเรียงวัตถุเพื่อให้คลัสเตอร์ปรากฏเป็นกิ่งก้านต่อเนื่องกัน
การจัดกลุ่มตามการเชื่อมต่อเป็นกลุ่มของวิธีการที่แตกต่างกันในวิธีการคำนวณระยะห่างระหว่างกลุ่ม นอกจากการเลือกฟังก์ชันระยะทางแล้ว ผู้ใช้ยังต้องเลือกเกณฑ์การเชื่อมโยงซึ่งจะกำหนดวิธีการคำนวณระยะห่างระหว่างกลุ่ม เกณฑ์การเชื่อมโยงที่ใช้กันทั่วไป ได้แก่การจัดกลุ่มแบบเชื่อมโยงเดี่ยว (ระยะห่างขั้นต่ำระหว่างจุด) การจัดกลุ่มแบบเชื่อมโยงสมบูรณ์ (ระยะห่างสูงสุด) และUPGMAหรือWPGMA (การเชื่อมโยงเฉลี่ยตามระยะห่างเฉลี่ย) การจัดกลุ่มแบบลำดับชั้นสามารถเป็นได้ทั้งแบบรวมกลุ่ม (เริ่มต้นจากองค์ประกอบแต่ละส่วนและรวมเข้าด้วยกัน) หรือแบบแยกกลุ่ม (เริ่มต้นจากชุดข้อมูลทั้งหมดและแยกออก)
ในการจัดกลุ่มแบบลำดับชั้นเชิงรวมกลุ่ม (agglomerative hierarchical clustering) โดยทั่วไปแล้วอัลกอริทึมจะดำเนินการดังนี้:
- เริ่มต้นด้วยการกำหนดจุดข้อมูลแต่ละจุดเป็นกลุ่มแยกกัน
- ระบุคลัสเตอร์สองคลัสเตอร์ที่อยู่ใกล้กันที่สุดโดยใช้มาตรวัดระยะทางที่เลือกไว้
- รวมพวกมันเข้าเป็นกลุ่มเดียว
- คำนวณระยะห่างระหว่างคลัสเตอร์ใหม่กับคลัสเตอร์ที่เหลืออีกครั้ง โดยใช้เกณฑ์การเชื่อมโยงที่เลือกไว้
- ทำซ้ำจนกว่าจุดข้อมูลทั้งหมดจะรวมเข้าเป็นกลุ่มเดียว[ 9 ]
กระบวนการนี้จะสร้างลำดับชั้นของการจัดกลุ่มที่เป็นไปได้ทั้งหมด แทนที่จะเป็นผลลัพธ์สุดท้ายเพียงอย่างเดียว การจัดกลุ่มที่เฉพาะเจาะจงสามารถทำได้โดยการเลือกจุดตัดในเดนโดแกรม ซึ่งจะกำหนดจำนวนกลุ่มที่จะเกิดขึ้น
วิธีการเหล่านี้ไม่ได้สร้างการแบ่งส่วนข้อมูลที่ไม่ซ้ำกัน แต่สร้างลำดับชั้นที่ผู้ใช้ต้องเลือกคลัสเตอร์ที่เหมาะสม นอกจากนี้ยังมีความไวต่อค่าผิดปกติ ซึ่งอาจปรากฏเป็นคลัสเตอร์แยกต่างหากหรือทำให้คลัสเตอร์อื่นรวมกัน ผลกระทบนี้ โดยเฉพาะอย่างยิ่งในการจัดกลุ่มแบบ single-linkageเรียกว่า "ปรากฏการณ์การเชื่อมโยง" ในกรณีทั่วไป ความซับซ้อนสำหรับการจัดกลุ่มแบบรวมกลุ่มและการจัดกลุ่มแบบแยกส่วน[ 10 ]ทำให้มีค่าใช้จ่ายในการคำนวณสูงสำหรับชุดข้อมูลขนาดใหญ่ สำหรับบางกรณีพิเศษมีวิธีการที่มีประสิทธิภาพมากกว่า (ด้วยความซับซ้อน ) เช่น SLINK [ 11 ]สำหรับ single-linkage และ CLINK [ 12 ]สำหรับการจัดกลุ่มแบบ complete-linkage
- ตัวอย่างการจัดกลุ่มแบบเชื่อมโยง
- การเชื่อมโยงแบบเดี่ยวบนข้อมูลแบบเกาส์เซียน เมื่อมีคลัสเตอร์ 35 คลัสเตอร์ คลัสเตอร์ที่ใหญ่ที่สุดเริ่มแตกออกเป็นส่วนเล็กๆ ในขณะที่ก่อนหน้านี้ยังคงเชื่อมต่อกับคลัสเตอร์ที่ใหญ่เป็นอันดับสองเนื่องจากผลของการเชื่อมโยงแบบเดี่ยว
- การจัดกลุ่มแบบ Single-linkage บนคลัสเตอร์ตามความหนาแน่น ได้คลัสเตอร์ออกมา 20 คลัสเตอร์ ซึ่งส่วนใหญ่มีองค์ประกอบเพียงตัวเดียว เนื่องจากวิธีการจัดกลุ่มแบบ Linkage ไม่มีแนวคิดเรื่อง "สัญญาณรบกวน"
การจัดกลุ่มตามจุดศูนย์กลาง
ในการจัดกลุ่มแบบใช้จุดศูนย์กลาง (centroid-based clustering) แต่ละกลุ่มจะถูกแทนด้วยเวกเตอร์ศูนย์กลาง ซึ่งไม่จำเป็นต้องเป็นสมาชิกของชุดข้อมูล เมื่อจำนวนกลุ่มถูกกำหนดไว้ที่k การจัดกลุ่มแบบk - means จะให้คำจำกัดความอย่างเป็นทางการในรูปของปัญหาการหาค่าที่เหมาะสมที่สุด นั่นคือ ค้นหา จุดศูนย์กลางของกลุ่ม ทั้ง k จุดและกำหนดวัตถุให้กับจุดศูนย์กลางของกลุ่มที่ใกล้ที่สุด โดยให้ระยะทางกำลังสองจากกลุ่มมีค่าน้อยที่สุด
ปัญหาการหาค่าเหมาะสมที่สุดนั้นทราบกันดีว่าเป็นปัญหาNP -hardดังนั้นวิธีการทั่วไปจึงเป็นการค้นหาเฉพาะวิธีแก้ปัญหาโดยประมาณเท่านั้น วิธีการโดยประมาณที่เป็นที่รู้จักกันดีคืออัลกอริทึมของ Lloyd [ 13 ]ซึ่งมักเรียกกันว่า " อัลกอริทึม k-means " (แม้ว่าจะมีอัลกอริทึมอื่นที่แนะนำชื่อนี้ก็ตาม ) อย่างไรก็ตาม อัลกอริทึมนี้จะค้นหาเฉพาะค่าเหมาะสมที่สุดเฉพาะที่ เท่านั้น และมักจะทำงานหลายครั้งด้วยการเริ่มต้นแบบสุ่มที่แตกต่างกัน รูปแบบต่างๆ ของk -means มักจะรวมถึงการปรับปรุงประสิทธิภาพ เช่น การเลือกสิ่งที่ดีที่สุดจากการทำงานหลายครั้ง แต่ยังรวมถึงการจำกัดจุดศูนย์กลางให้เป็นสมาชิกในชุดข้อมูล ( k -medoids ) การเลือกค่ามัธยฐาน ( k -medians clustering ) การเลือกจุดศูนย์กลางเริ่มต้นแบบสุ่มน้อยลง ( k -means++ ) หรือการอนุญาตให้มีการกำหนดคลัสเตอร์แบบคลุมเครือ ( fuzzy c-means )
อัลกอริทึมแบบ k -means ส่วนใหญ่ จำเป็นต้องระบุ จำนวนคลัสเตอร์ – k – ล่วงหน้า ซึ่งถือเป็นข้อเสียเปรียบที่สำคัญที่สุดอย่างหนึ่งของอัลกอริทึมเหล่านี้ ยิ่งไปกว่านั้น อัลกอริทึมเหล่านี้มักเลือกคลัสเตอร์ที่มีขนาดใกล้เคียงกัน เนื่องจากจะกำหนดวัตถุให้กับจุดศูนย์กลางที่ใกล้ที่สุดเสมอ ซึ่งมักทำให้ขอบเขตของคลัสเตอร์ถูกตัดอย่างไม่ถูกต้อง สาเหตุหลักมาจากอัลกอริทึมจะปรับค่าจุดศูนย์กลางของคลัสเตอร์ให้เหมาะสม ไม่ใช่ขอบเขตของคลัสเตอร์ ขั้นตอนที่เกี่ยวข้องในอัลกอริทึมการจัดกลุ่มแบบอิงจุดศูนย์กลางมีดังนี้:
- เลือก คลัสเตอร์ ที่แตกต่างกันk คลัสเตอร์แบบสุ่ม คลัสเตอร์เหล่านี้จะเป็นจุดศูนย์กลางเริ่มต้นที่จะได้รับการปรับปรุงต่อไป
- สมมติว่า มีชุดข้อมูลสังเกตการณ์( x₁ , x₂ , ..., xₙ ) กำหนดให้ข้อมูลสังเกตการณ์แต่ละ รายการอยู่กับจุดศูนย์กลางที่มีระยะทางยูคลิดกำลังสองน้อยที่สุดผลลัพธ์ที่ได้คือkกลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะมีข้อมูลสังเกตการณ์ที่ไม่ซ้ำกัน
- คำนวณจุดศูนย์กลางใหม่ (ดู การจัดกลุ่มแบบ k -means )
- หยุดการทำงานก็ต่อเมื่อจุดศูนย์กลางใหม่เท่ากับจุดศูนย์กลางของการวนซ้ำครั้งก่อน มิฉะนั้น ให้ทำซ้ำอัลกอริทึม เนื่องจากจุดศูนย์กลางยังไม่บรรจบกัน
อั ลกอริทึม K-means มีคุณสมบัติทางทฤษฎีที่น่าสนใจหลายประการ ประการแรก มันแบ่งพื้นที่ข้อมูลออกเป็นโครงสร้างที่เรียกว่าแผนภาพโวโรนอยประการที่สอง มันมีความใกล้เคียงกับการจัดกลุ่มแบบเพื่อนบ้านที่ใกล้ที่สุดในเชิงแนวคิด และด้วยเหตุนี้จึงเป็นที่นิยมในด้านการเรียนรู้ของเครื่องประการที่สาม มันสามารถมองได้ว่าเป็นรูปแบบหนึ่งของการจัดกลุ่มตามแบบจำลอง และอัลกอริทึมของลอยด์เป็นรูปแบบหนึ่งของอัลกอริทึมการคาดการณ์และการทำให้สูงสุดสำหรับแบบจำลองนี้ ซึ่งจะกล่าวถึงต่อไป
- ตัวอย่างการจัดกลุ่มแบบk -means
- k -means แยกข้อมูลออกเป็นเซลล์ Voronoi ซึ่งสมมติว่าคลัสเตอร์มีขนาดเท่ากัน (ซึ่งไม่เหมาะสมในกรณีนี้)
- k -means ไม่สามารถแสดงคลัสเตอร์ตามความหนาแน่นได้
รหัสเทียมต่อไปนี้[ 14 ]อธิบายรูปแบบการปรับปรุงแบบวนซ้ำมาตรฐานของk -means อัลกอริทึมจะสลับระหว่างขั้นตอนการกำหนดซึ่งติดป้ายกำกับแต่ละจุดด้วยจุดศูนย์กลางที่ใกล้ที่สุด และขั้นตอนการอัปเดตซึ่งคำนวณจุดศูนย์กลางแต่ละจุดใหม่เป็นค่าเฉลี่ยของจุดที่กำหนด การบรรจบกันรับประกันได้ในจำนวนรอบการวนซ้ำที่จำกัด แม้ว่าผลลัพธ์อาจเป็นค่าเหมาะสมที่สุดเฉพาะที่ก็ตาม
อินพุต:ชุดข้อมูล, ค่าเริ่มต้นสำหรับจุดศูนย์กลาง, จำนวนรอบการทำซ้ำสูงสุด สำหรับ # การกำหนดคลัสเตอร์ สำหรับ # อัปเดตตำแหน่งจุดศูนย์กลาง สำหรับ # อัปเดตการกำหนดคลัสเตอร์โดยใช้ผลลัพธ์สุดท้าย สำหรับเอาต์พุต:จุดศูนย์กลางที่เหมาะสมและการกำหนดค่า [ 14 ]
ปัญหาการจัดกลุ่มแบบอิงจุดศูนย์กลาง เช่นk -means และk -medoids เป็นกรณีพิเศษของปัญหาการกำหนดตำแหน่งสิ่งอำนวย ความสะดวกแบบไม่จำกัดความจุ และเชิงเมตริก ซึ่งเป็นปัญหาพื้นฐานในวงการวิจัยเชิงปฏิบัติการและเรขาคณิตเชิงคำนวณ ในปัญหาการกำหนดตำแหน่งสิ่งอำนวยความสะดวกพื้นฐาน (ซึ่งมีหลายรูปแบบที่จำลองสถานการณ์ที่ซับซ้อนกว่า) งานที่ต้องทำคือการค้นหาตำแหน่งคลังสินค้าที่ดีที่สุดเพื่อให้บริการกลุ่มผู้บริโภคที่กำหนดได้อย่างเหมาะสม เราอาจมอง "คลังสินค้า" เป็นจุดศูนย์กลางของกลุ่ม และ "ตำแหน่งผู้บริโภค" เป็นข้อมูลที่จะถูกจัดกลุ่ม ซึ่งทำให้สามารถนำวิธีการแก้ปัญหาเชิงอัลกอริทึมที่พัฒนามาอย่างดีจากวรรณกรรมด้านการกำหนดตำแหน่งสิ่งอำนวยความสะดวกมาประยุกต์ใช้กับปัญหาการจัดกลุ่มแบบอิงจุดศูนย์กลางที่กำลังพิจารณาอยู่ในปัจจุบันได้
การจัดกลุ่มตามแบบจำลอง
กรอบการทำงานการจัดกลุ่มที่เกี่ยวข้องกับสถิติมากที่สุดคือการจัดกลุ่มตามแบบจำลองซึ่งอิงตามแบบจำลองการกระจายความน่าจะเป็น แนวทางนี้จำลองข้อมูลว่าเกิดจากการผสมผสานของการกระจายความน่าจะเป็น ข้อดีคือให้คำตอบทางสถิติที่เป็นหลักการสำหรับคำถามต่างๆ เช่น มีกลุ่มทั้งหมดกี่กลุ่ม ควรใช้วิธีการหรือแบบจำลองการจัดกลุ่มแบบใด และจะตรวจจับและจัดการกับค่าผิดปกติได้อย่างไร
แม้ว่าพื้นฐานทางทฤษฎีของวิธีการเหล่านี้จะยอดเยี่ยม แต่ก็ประสบ ปัญหา การโอเวอร์ฟิตติ้ง (overfitting)เว้นแต่จะมีการกำหนดข้อจำกัดเกี่ยวกับความซับซ้อนของแบบจำลอง แบบจำลองที่ซับซ้อนกว่ามักจะสามารถอธิบายข้อมูลได้ดีกว่า ซึ่งทำให้การเลือกความซับซ้อนของแบบจำลองที่เหมาะสมเป็นเรื่องยากโดยเนื้อแท้ วิธี การจัดกลุ่มแบบมาตรฐานที่ใช้แบบจำลอง นั้น รวมถึงแบบจำลองที่เรียบง่ายกว่าซึ่งอิงจากการแยกส่วนค่าลักษณะเฉพาะ (eigenvalue decomposition)ของเมทริกซ์ความแปรปรวนร่วม (covariance matrices) ซึ่งให้ความสมดุลระหว่างการโอเวอร์ฟิตติ้งและความถูกต้องแม่นยำต่อข้อมูล
วิธีการที่โดดเด่นวิธีหนึ่งคือแบบจำลองส่วนผสมเกาส์เซียน (โดยใช้อัลกอริธึมการคาดการณ์และการทำให้สูงสุด ) ในที่นี้ ชุดข้อมูลมักจะถูกจำลองด้วยจำนวนการแจกแจงเกาส์เซียน ที่คงที่ (เพื่อหลีกเลี่ยงการโอเวอร์ฟิตติ้ง) ซึ่งเริ่มต้นแบบสุ่ม และพารามิเตอร์จะถูกปรับให้เหมาะสมซ้ำๆ เพื่อให้เข้ากับชุดข้อมูลได้ดียิ่งขึ้น วิธีนี้จะลู่เข้าสู่ค่าเหมาะสมที่สุดเฉพาะที่ดังนั้นการทำงานหลายครั้งอาจให้ผลลัพธ์ที่แตกต่างกัน เพื่อให้ได้การจัดกลุ่มแบบแข็ง (hard clustering) มักจะมีการกำหนดวัตถุให้กับการแจกแจงเกาส์เซียนที่วัตถุนั้นมีแนวโน้มที่จะเป็นส่วนหนึ่งมากที่สุด สำหรับการจัดกลุ่มแบบอ่อน (soft clustering) ไม่จำเป็นต้องทำเช่นนี้
การจัดกลุ่มตามการกระจายตัวสร้างแบบจำลองที่ซับซ้อนสำหรับกลุ่มต่างๆ ซึ่งสามารถจับความสัมพันธ์และการพึ่งพาซึ่งกันและกันระหว่างคุณลักษณะต่างๆ ได้ อย่างไรก็ตาม อัลกอริทึมเหล่านี้สร้างภาระเพิ่มเติมให้กับผู้ใช้ เนื่องจากสำหรับชุดข้อมูลจริงจำนวนมาก อาจไม่มีแบบจำลองทางคณิตศาสตร์ที่กำหนดไว้อย่างกระชับ (เช่น การสมมติว่าข้อมูลมีการกระจายแบบเกาส์เซียนเป็นการสมมติที่ค่อนข้างเข้มงวดสำหรับข้อมูล)
- ตัวอย่างการจัดกลุ่มตามแบบจำลองส่วนผสมเกาส์เซียน
- สำหรับข้อมูลที่มีการกระจายแบบเกาส์เซียนวิธี EMทำงานได้ดี เนื่องจากใช้การกระจายแบบเกาส์เซียนในการสร้างแบบจำลองกลุ่มข้อมูล
- กลุ่มคลัสเตอร์ที่มีความหนาแน่นเป็นเกณฑ์นั้น ไม่สามารถจำลองได้โดยใช้การแจกแจงแบบเกาส์เซียน
การจัดกลุ่มตามความหนาแน่น
ในการจัดกลุ่มตามความหนาแน่น[ 15 ]กลุ่มจะถูกกำหนดเป็นพื้นที่ที่มีความหนาแน่นสูงกว่าส่วนที่เหลือของชุดข้อมูล วัตถุในพื้นที่เบาบาง ซึ่งจำเป็นต่อการแยกกลุ่ม มักจะถูกพิจารณาว่าเป็นสัญญาณรบกวนและจุดขอบ
วิธีการจัดกลุ่มตามความหนาแน่นที่เป็นที่นิยมมากที่สุด[ 16 ]คือDBSCAN [ 17 ]ซึ่งแตกต่างจากวิธีการใหม่ๆ หลายวิธีตรงที่มันมีโมเดลการจัดกลุ่มที่กำหนดไว้อย่างดีเรียกว่า "การเข้าถึงความหนาแน่น" คล้ายกับการจัดกลุ่มตามการเชื่อมโยง โดยอาศัยการเชื่อมต่อจุดภายในเกณฑ์ระยะทางที่กำหนด อย่างไรก็ตาม มันจะเชื่อมต่อเฉพาะจุดที่ตรงตามเกณฑ์ความหนาแน่นเท่านั้น ซึ่งในรูปแบบดั้งเดิมกำหนดเป็นจำนวนขั้นต่ำของวัตถุอื่นๆ ภายในรัศมีนี้ กลุ่มหนึ่งประกอบด้วยวัตถุทั้งหมดที่เชื่อมต่อกันด้วยความหนาแน่น (ซึ่งสามารถก่อตัวเป็นกลุ่มที่มีรูปร่างใดๆ ก็ได้ ซึ่งแตกต่างจากวิธีการอื่นๆ หลายวิธี) บวกกับวัตถุทั้งหมดที่อยู่ในระยะของวัตถุเหล่านี้ คุณสมบัติที่น่าสนใจอีกอย่างของ DBSCAN คือความซับซ้อนค่อนข้างต่ำ – มันต้องการการสอบถามช่วงในฐานข้อมูลจำนวนเชิงเส้น – และมันจะค้นพบผลลัพธ์ที่เหมือนกันโดยพื้นฐาน (มันเป็นแบบกำหนดได้สำหรับจุดแกนกลางและจุดรบกวน แต่ไม่ใช่สำหรับจุดขอบ) ในแต่ละรอบการทำงาน ดังนั้นจึงไม่จำเป็นต้องเรียกใช้หลายครั้งOPTICS [ 18 ]เป็นการขยาย DBSCAN ที่ขจัดความจำเป็นในการเลือกค่าที่เหมาะสมสำหรับพารามิเตอร์ช่วงและสร้างผลลัพธ์แบบลำดับชั้นที่เกี่ยวข้องกับการจัดกลุ่มแบบเชื่อมโยง DeLi-Clu [ 19 ] Density-Link-Clustering ผสมผสานแนวคิดจากการจัดกลุ่มแบบเชื่อมโยงเดี่ยวและ OPTICS โดยกำจัดพารามิเตอร์ทั้งหมดและให้ประสิทธิภาพที่ดีขึ้นกว่า OPTICS โดยใช้ดัชนีR-tree HDBSCAN [ 20 ]ขยาย DBSCAN โดยแปลงเป็นอัลกอริทึมการจัดกลุ่มแบบลำดับชั้น จากนั้นใช้เทคนิคในการดึงการจัดกลุ่มแบบแบนโดยอิงจากความเสถียรของกลุ่ม
ข้อเสียเปรียบที่สำคัญของ DBSCAN และOPTICSคือ พวกมันคาดหวังว่าความหนาแน่นจะลดลงในระดับหนึ่งเพื่อตรวจจับขอบเขตของกลุ่มข้อมูล ในชุดข้อมูลที่มีการทับซ้อนกันของข้อมูลแบบเกาส์เซียน (ซึ่งเป็นกรณีการใช้งานทั่วไปในข้อมูลเทียม) ขอบเขตของกลุ่มข้อมูลที่สร้างโดยอัลกอริทึมเหล่านี้มักจะดูไม่แน่นอน เนื่องจากความหนาแน่นของกลุ่มข้อมูลลดลงอย่างต่อเนื่อง ในชุดข้อมูลที่ประกอบด้วยข้อมูลแบบเกาส์เซียนผสมกัน อัลกอริทึมเหล่านี้มักจะด้อยกว่าวิธีการอื่นๆ เช่นการจัดกลุ่มแบบ EMซึ่งสามารถจำลองข้อมูลประเภทนี้ได้อย่างแม่นยำ
Mean-shiftเป็นวิธีการจัดกลุ่มที่แต่ละวัตถุจะถูกย้ายไปยังพื้นที่ที่มีความหนาแน่นมากที่สุดในบริเวณใกล้เคียง โดยอาศัยการประมาณความหนาแน่นของเคอร์เนลในที่สุด วัตถุจะบรรจบกันที่ค่าความหนาแน่นสูงสุดในท้องถิ่น คล้ายกับการจัดกลุ่มแบบ k-means "ตัวดึงดูดความหนาแน่น" เหล่านี้สามารถใช้เป็นตัวแทนของชุดข้อมูลได้ แต่ mean-shift สามารถตรวจจับกลุ่มที่มีรูปร่างใดๆ ก็ได้คล้ายกับ DBSCAN เนื่องจากกระบวนการวนซ้ำที่มีค่าใช้จ่ายสูงและการประมาณความหนาแน่น mean-shift จึงมักจะช้ากว่า DBSCAN หรือ k-Means นอกจากนี้ ความสามารถในการใช้งานของอัลกอริทึม mean-shift กับข้อมูลหลายมิติยังถูกขัดขวางโดยพฤติกรรมที่ไม่ราบเรียบของการประมาณความหนาแน่นของเคอร์เนล ซึ่งส่งผลให้ส่วนหางของกลุ่มแตกกระจายมากเกินไป[ 19 ]
- ตัวอย่างการจัดกลุ่มตามความหนาแน่น
- การจัดกลุ่มตามความหนาแน่นด้วย DBSCAN
- DBSCAN สันนิษฐานว่าคลัสเตอร์มีความหนาแน่นใกล้เคียงกัน และอาจมีปัญหาในการแยกคลัสเตอร์ที่อยู่ใกล้เคียงกัน
- OPTICS เป็นรูปแบบหนึ่งของ DBSCAN ที่ปรับปรุงการจัดการคลัสเตอร์ที่มีความหนาแน่นแตกต่างกันให้ดียิ่งขึ้น
การจัดกลุ่มแบบกริด
เทคนิคแบบกริดใช้สำหรับชุดข้อมูลหลายมิติ[ 21 ]ในเทคนิคนี้ เราสร้างโครงสร้างกริด และการเปรียบเทียบจะดำเนินการบนกริด (หรือที่เรียกว่าเซลล์) เทคนิคแบบกริดนั้นรวดเร็วและมีความซับซ้อนในการคำนวณต่ำ มีวิธีการจัดกลุ่มแบบกริดสองประเภท ได้แก่ STING และ CLIQUE ขั้นตอนที่เกี่ยวข้องในอัลกอริธึม การจัดกลุ่มแบบกริด มีดังนี้:
- แบ่งพื้นที่จัดเก็บข้อมูลออกเป็นเซลล์จำนวนจำกัด
- สุ่มเลือกเซลล์ 'c' โดยที่เซลล์ c นั้นไม่ควรถูกสำรวจมาก่อน
- คำนวณความหนาแน่นของ 'c'
- ถ้าความหนาแน่นของ 'c' มากกว่าความหนาแน่นตามเกณฑ์:
- กำหนดให้เซลล์ 'c' เป็นกลุ่มใหม่
- คำนวณความหนาแน่นของเพื่อนบ้านทั้งหมดของ 'c'
- ถ้าความหนาแน่นของเซลล์ข้างเคียงมากกว่าความหนาแน่นที่กำหนดไว้ ให้เพิ่มเซลล์นั้นเข้าไปในคลัสเตอร์ แล้วทำซ้ำขั้นตอนที่ 4.2 และ 4.3 จนกว่าจะไม่มีเซลล์ข้างเคียงใดที่มีความหนาแน่นมากกว่าความหนาแน่นที่กำหนดไว้
- ทำซ้ำขั้นตอนที่ 2, 3 และ 4 จนกว่าจะสำรวจเซลล์ทั้งหมดเสร็จสิ้น
- หยุด.
ข้อมูลขนาดใหญ่
ด้วยความต้องการที่เพิ่มขึ้นในการประมวลผลข้อมูลขนาดใหญ่ความเต็มใจที่จะแลกเปลี่ยนความหมายเชิงความหมายของคลัสเตอร์ที่สร้างขึ้นกับประสิทธิภาพจึงมีความเกี่ยวข้องมากขึ้น ดังนั้นจึงมีการพยายามปรับปรุงประสิทธิภาพของอัลกอริธึมที่มีอยู่[ 22 ] [ 23 ] ในจำนวนนี้ได้แก่ CLARANS [ 24 ] และBIRCH [ 25 ] ซึ่งนำไปสู่การพัฒนาวิธีการจัดกลุ่มเบื้องต้น เช่นการจัดกลุ่มแบบ Canopy Clustering ซึ่งสามารถประมวลผลชุดข้อมูล ขนาด ใหญ่ได้อย่างมีประสิทธิภาพ แต่ "คลัสเตอร์" ที่ได้นั้นเป็นเพียงการแบ่งส่วนเบื้องต้นอย่างคร่าวๆ ของชุดข้อมูลเพื่อนำไปวิเคราะห์ส่วนต่างๆ ด้วยวิธีการ ที่ ช้ากว่าที่มีอยู่ เช่นการจัดกลุ่มแบบ k-means
การจัดกลุ่มซับสเปซ
สำหรับข้อมูลที่มีมิติสูงวิธีการหลายวิธีล้มเหลวเนื่องจากคำสาปของมิติซึ่งทำให้ฟังก์ชันระยะทางเฉพาะบางอย่างมีปัญหาในพื้นที่ที่มีมิติสูง สิ่งนี้ทำให้เกิดอัลกอริธึมการจัดกลุ่มสำหรับข้อมูลที่มีมิติสูงที่เน้นการจัดกลุ่มแบบซับสเปซ (โดยใช้แอตทริบิวต์บางส่วนเท่านั้น และแบบจำลองการจัดกลุ่มจะรวมแอตทริบิวต์ที่เกี่ยวข้องสำหรับการจัดกลุ่ม) และการจัดกลุ่มแบบสหสัมพันธ์ที่มองหาคลัสเตอร์ซับสเปซที่หมุนโดยพลการ ("สหสัมพันธ์") ซึ่งสามารถสร้างแบบจำลองได้โดยการให้สหสัมพันธ์ของแอตทริบิวต์[ 26 ]ตัวอย่างของอัลกอริธึมการจัดกลุ่มดังกล่าว ได้แก่ CLIQUE [ 27 ]และSUBCLU [ 28 ]
แนวคิดจากวิธีการจัดกลุ่มตามความหนาแน่น (โดยเฉพาะตระกูลอัลกอริธึม DBSCAN/OPTICS) ได้รับการปรับให้เข้ากับการจัดกลุ่มแบบซับสเปซ (HiSC, [ 29 ]การจัดกลุ่มแบบซับสเปซตามลำดับชั้นและ DiSH [ 30 ] ) และการจัดกลุ่มแบบสหสัมพันธ์ (HiCO, [ 31 ]การจัดกลุ่มแบบสหสัมพันธ์ตามลำดับชั้น, 4C [ 32 ]โดยใช้ "การเชื่อมต่อแบบสหสัมพันธ์" และ ERiC [ 33 ]การสำรวจคลัสเตอร์แบบสหสัมพันธ์ตามความหนาแน่นตามลำดับชั้น)
มีการเสนอระบบการจัดกลุ่มที่แตกต่างกันหลายระบบโดยอาศัยข้อมูลร่วมกัน หนึ่งในนั้นคือ เมตริกข้อมูลแบบแปรผัน ของ Marina Meilă [ 34 ]อีกระบบหนึ่งให้การจัดกลุ่มแบบลำดับชั้น[ 35 ]การใช้อัลกอริธึมทางพันธุกรรมสามารถปรับฟังก์ชันความเหมาะสมที่แตกต่างกันได้หลากหลาย รวมถึงข้อมูลร่วมกัน[ 36 ]นอกจากนี้การแพร่กระจายความเชื่อซึ่งเป็นการพัฒนาล่าสุดในวิทยาศาสตร์คอมพิวเตอร์และฟิสิกส์เชิงสถิติได้นำไปสู่การสร้างอัลกอริธึมการจัดกลุ่มประเภทใหม่[ 37 ]
การประเมินและการตรวจสอบ
การประเมิน (หรือ "การตรวจสอบความถูกต้อง") ของผลลัพธ์การจัดกลุ่มนั้นยากพอๆ กับการจัดกลุ่มเอง[ 38 ]แนวทางที่นิยม ได้แก่ การประเมิน " ภายใน " ซึ่งสรุปการจัดกลุ่มเป็นคะแนนคุณภาพเดียว การประเมิน " ภายนอก " ซึ่งเปรียบเทียบการจัดกลุ่มกับการจำแนกประเภท "ความจริงพื้นฐาน" ที่มีอยู่ การประเมิน "ด้วย ตนเอง " โดยผู้เชี่ยวชาญ และการประเมิน " ทางอ้อม " โดยการประเมินประโยชน์ของการจัดกลุ่มในการใช้งานที่ตั้งใจไว้[ 39 ]
มาตรการประเมินภายในประสบปัญหาที่ว่ามาตรการเหล่านั้นแสดงถึงฟังก์ชันที่สามารถมองได้ว่าเป็นวัตถุประสงค์ของการจัดกลุ่ม ตัวอย่างเช่น เราสามารถจัดกลุ่มชุดข้อมูลโดยใช้สัมประสิทธิ์ Silhouette ได้ แต่ยังไม่มีอัลกอริทึมที่มีประสิทธิภาพที่เป็นที่รู้จักสำหรับเรื่องนี้ การใช้มาตรการภายในดังกล่าวในการประเมินจะทำให้เราเปรียบเทียบความคล้ายคลึงกันของปัญหาการเพิ่มประสิทธิภาพ[ 39 ]มากกว่าที่จะเปรียบเทียบว่าการจัดกลุ่มนั้นมีประโยชน์มากเพียงใด
การประเมินจากภายนอกก็มีปัญหาคล้ายกัน: ถ้าเรามีป้ายกำกับ "ความจริงพื้นฐาน" เหล่านั้นแล้ว เราก็ไม่จำเป็นต้องจัดกลุ่มข้อมูล และในทางปฏิบัติเรามักไม่มีป้ายกำกับเหล่านั้น ในทางกลับกัน ป้ายกำกับสะท้อนให้เห็นเพียงการแบ่งกลุ่มข้อมูลที่เป็นไปได้เพียงแบบเดียว ซึ่งไม่ได้หมายความว่าไม่มีการจัดกลุ่มแบบอื่น และอาจดีกว่าด้วยซ้ำ
ดังนั้น แนวทางทั้งสองนี้จึงไม่สามารถตัดสินคุณภาพที่แท้จริงของการจัดกลุ่มได้ แต่จำเป็นต้องมีการประเมินโดยมนุษย์[ 39 ]ซึ่งเป็นเรื่องอัตวิสัยอย่างมาก อย่างไรก็ตาม สถิติดังกล่าวสามารถให้ข้อมูลที่เป็นประโยชน์ในการระบุการจัดกลุ่มที่ไม่ดีได้[ 40 ]แต่ไม่ควรละเลยการประเมินโดยมนุษย์ที่เป็นอัตวิสัย[ 40 ]
การประเมินภายใน
เมื่อผลลัพธ์ของการจัดกลุ่มได้รับการประเมินโดยอิงจากข้อมูลที่ถูกจัดกลุ่มนั้นเอง จะเรียกว่าการประเมินภายใน วิธีการเหล่านี้มักจะให้คะแนนที่ดีที่สุดแก่อัลกอริธึมที่สร้างกลุ่มที่มีความคล้ายคลึงกันสูงภายในกลุ่มเดียวกันและมีความคล้ายคลึงกันต่ำระหว่างกลุ่ม ข้อเสียอย่างหนึ่งของการใช้เกณฑ์ภายในในการประเมินการจัดกลุ่มคือ คะแนนสูงในการวัดภายในไม่ได้หมายความว่าจะส่งผลให้แอปพลิเคชันการค้นหาข้อมูลมีประสิทธิภาพเสมอไป[ 41 ]นอกจากนี้ การประเมินนี้ยังเอนเอียงไปทางอัลกอริธึมที่ใช้โมเดลการจัดกลุ่มเดียวกัน ตัวอย่างเช่น การจัดกลุ่มแบบ k-means จะปรับระยะห่างของวัตถุให้เหมาะสมโดยธรรมชาติ และเกณฑ์ภายในที่อิงตามระยะห่างมีแนวโน้มที่จะให้คะแนนการจัดกลุ่มที่ได้สูงเกินไป
ดังนั้น มาตรการประเมินภายในจึงเหมาะสมที่สุดที่จะได้รับข้อมูลเชิงลึกเกี่ยวกับสถานการณ์ที่อัลกอริทึมหนึ่งทำงานได้ดีกว่าอีกอัลกอริทึมหนึ่ง แต่สิ่งนี้ไม่ได้หมายความว่าอัลกอริทึมหนึ่งจะสร้างผลลัพธ์ที่ถูกต้องมากกว่าอีกอัลกอริ ทึมหนึ่ง [ 5 ]ความถูกต้องที่วัดโดยดัชนีดังกล่าวขึ้นอยู่กับการอ้างว่าโครงสร้างประเภทนี้มีอยู่ในชุดข้อมูล อัลกอริทึมที่ออกแบบมาสำหรับโมเดลบางประเภทจะไม่มีโอกาสเลยหากชุดข้อมูลมีชุดโมเดลที่แตกต่างกันอย่างสิ้นเชิง หรือหากการวัดการประเมินใช้เกณฑ์ที่แตกต่างกันอย่างสิ้นเชิง[ 5 ]ตัวอย่างเช่น การจัดกลุ่มแบบ k-means สามารถค้นหาคลัสเตอร์แบบนูนได้เท่านั้น และดัชนีการประเมินจำนวนมากก็ถือว่าคลัสเตอร์เป็นแบบนูน ในชุดข้อมูลที่มีคลัสเตอร์ที่ไม่เป็นแบบนูน การใช้k -means หรือเกณฑ์การประเมินที่ถือว่ามีความนูนจึงไม่เหมาะสม
มาตรการประเมินภายในหลายอย่างมีพื้นฐานมาจากสัญชาตญาณที่ว่ารายการในกลุ่มเดียวกันควรมีความคล้ายคลึงกันมากกว่ารายการในกลุ่มที่แตกต่างกัน[ 42 ] : 115–121 ตัวอย่างเช่น สามารถใช้วิธีการต่อไปนี้เพื่อประเมินคุณภาพของอัลกอริธึมการจัดกลุ่มตามเกณฑ์ภายใน:
ดัชนีDavies–Bouldinสามารถคำนวณได้จากสูตรต่อไปนี้: โดยที่nคือจำนวนคลัสเตอร์, คือจุดศูนย์กลางของคลัสเตอร์, คือระยะทางเฉลี่ยขององค์ประกอบทั้งหมดในคลัสเตอร์ไปยังจุดศูนย์กลาง, และคือระยะทางระหว่างจุดศูนย์กลางของคลัสเตอร์และเนื่องจากอัลกอริทึมที่สร้างคลัสเตอร์ที่มีระยะทางภายในคลัสเตอร์ต่ำ (ความคล้ายคลึงภายในคลัสเตอร์สูง) และระยะทางระหว่างคลัสเตอร์สูง (ความคล้ายคลึงระหว่างคลัสเตอร์ต่ำ) จะมีดัชนี Davies–Bouldin ต่ำ ดังนั้นอัลกอริทึมการจัดคลัสเตอร์ที่สร้างชุดคลัสเตอร์ที่มีดัชนี Davies–Bouldin น้อยที่สุด จึงถือว่าเป็นอัลกอริทึมที่ดีที่สุดตามเกณฑ์นี้
ดัชนี Dunn มีจุดมุ่งหมายเพื่อระบุคลัสเตอร์ที่มีความหนาแน่นและแยกออกจากกันอย่างชัดเจน โดยกำหนดเป็นอัตราส่วนระหว่างระยะห่างระหว่างคลัสเตอร์ที่น้อยที่สุดกับระยะห่างภายในคลัสเตอร์ที่มากที่สุด สำหรับการแบ่งคลัสเตอร์แต่ละครั้ง สามารถคำนวณดัชนี Dunn ได้โดยใช้สูตรต่อไปนี้: [ 43 ]
โดยที่d ( i , j ) แทนระยะห่างระหว่างคลัสเตอร์iและjและd '( k ) วัดระยะห่างภายในคลัสเตอร์kระยะห่างระหว่างคลัสเตอร์d ( i , j ) ระหว่างสองคลัสเตอร์อาจเป็นการวัดระยะห่างได้หลายวิธี เช่น ระยะห่างระหว่างจุดศูนย์กลางของคลัสเตอร์ ในทำนองเดียวกัน ระยะห่างภายในคลัสเตอร์d '( k ) อาจวัดได้หลายวิธี เช่น ระยะห่างสูงสุดระหว่างองค์ประกอบใดๆ ในคลัสเตอร์ kเนื่องจากเกณฑ์ภายในต้องการคลัสเตอร์ที่มีความคล้ายคลึงกันภายในคลัสเตอร์สูงและความคล้ายคลึงกันระหว่างคลัสเตอร์ต่ำ ดังนั้นอัลกอริทึมที่สร้างคลัสเตอร์ที่มีดัชนี Dunn สูงจึงเป็นที่ต้องการมากกว่า
ค่าสัมประสิทธิ์ Silhouette เปรียบเทียบระยะห่างเฉลี่ยระหว่างองค์ประกอบในกลุ่มเดียวกันกับระยะห่างเฉลี่ยระหว่างองค์ประกอบในกลุ่มอื่น วัตถุที่มีค่า Silhouette สูงถือว่ามีการจัดกลุ่มที่ดี วัตถุที่มีค่าต่ำอาจเป็นค่าผิดปกติ ดัชนีนี้ทำงานได้ดีกับ การจัดกลุ่ม แบบ k -means และยังใช้เพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดอีกด้วย[ 44 ]
พื้นที่ใต้เส้นโค้งสำหรับการจัดกลุ่ม (AUCC)
เมทริกซ์นี้พิจารณาคู่ของวัตถุ: ระยะห่างระหว่างคู่เป็นฟังก์ชันการให้คะแนน และการแบ่งคู่ที่กำหนดเป็นค่าบวกจริง ค่าลบจริง ค่าลบเท็จ และค่าลบจริง โดยพิจารณาว่าคู่เหล่านั้นอยู่ในคลัสเตอร์เดียวกันหรือไม่ ดัชนีนี้ใช้ลักษณะเดียวกันกับAUC ในสถานการณ์ที่มีการ กำกับ ดูแล รวมถึงค่าที่คาดหวัง 0.5 และการแสดงผลลัพธ์[ 45 ]
การประเมินภายนอก
ในการประเมินภายนอก ผลลัพธ์ของการจัดกลุ่มจะถูกประเมินโดยอิงจากข้อมูลที่ไม่ได้ใช้สำหรับการจัดกลุ่ม เช่น ป้ายกำกับคลาสที่ทราบและเกณฑ์มาตรฐานภายนอก เกณฑ์มาตรฐานดังกล่าวประกอบด้วยชุดของรายการที่จัดประเภทไว้ล่วงหน้า และชุดเหล่านี้มักถูกสร้างขึ้นโดยมนุษย์ (ผู้เชี่ยวชาญ) ดังนั้น ชุดเกณฑ์มาตรฐานจึงถือได้ว่าเป็นมาตรฐานทองคำสำหรับการประเมิน[ 38 ]วิธีการประเมินประเภทนี้จะวัดว่าการจัดกลุ่มนั้นใกล้เคียงกับคลาสเกณฑ์มาตรฐานที่กำหนดไว้ล่วงหน้ามากน้อยเพียงใด อย่างไรก็ตาม เมื่อเร็วๆ นี้ได้มีการถกเถียงกันว่าวิธีนี้เพียงพอสำหรับข้อมูลจริงหรือไม่ หรือใช้ได้เฉพาะกับชุดข้อมูลสังเคราะห์ที่มีความจริงพื้นฐานที่เป็นข้อเท็จจริงเท่านั้น เนื่องจากคลาสอาจมีโครงสร้างภายใน คุณลักษณะที่มีอยู่อาจไม่อนุญาตให้แยกกลุ่ม หรือคลาสอาจมีความผิดปกติ [ 46 ] นอกจากนี้ จาก มุมมองของ การค้นพบความรู้การสร้างความรู้ที่ทราบขึ้นใหม่อาจไม่ใช่ผลลัพธ์ที่ตั้งใจไว้เสมอไป[ 46 ]ในสถานการณ์พิเศษของการจัดกลุ่มแบบมีข้อจำกัดซึ่งมีการใช้ข้อมูลเมตา (เช่น ป้ายกำกับคลาส) ในกระบวนการจัดกลุ่มแล้ว การกันข้อมูลไว้เพื่อวัตถุประสงค์ในการประเมินจึงไม่ใช่เรื่องง่าย[ 47 ]
มาตรการจำนวนหนึ่งได้รับการดัดแปลงมาจากรูปแบบต่างๆ ที่ใช้ในการประเมินงานการจำแนกประเภท แทนที่จะนับจำนวนครั้งที่คลาสได้รับการกำหนดอย่างถูกต้องให้กับจุดข้อมูลเดียว (เรียกว่าtrue positives ) เมตริก การนับคู่ ดังกล่าว จะประเมินว่าจุดข้อมูลแต่ละคู่ที่อยู่ในคลัสเตอร์เดียวกันจริง ๆ นั้นถูกทำนายว่าจะอยู่ในคลัสเตอร์เดียวกันหรือไม่[ 38 ]
เช่นเดียวกับการประเมินภายใน มีมาตรการประเมินภายนอกหลายอย่าง[ 42 ] : 125–129 ตัวอย่างเช่น:
ความบริสุทธิ์
ความบริสุทธิ์คือการวัดขอบเขตที่คลัสเตอร์มีคลาสเดียว[ 41 ]การคำนวณสามารถคิดได้ดังนี้: สำหรับแต่ละคลัสเตอร์ ให้นับจำนวนจุดข้อมูลจากคลาสที่พบมากที่สุดในคลัสเตอร์นั้น จากนั้นนำผลรวมของทุกคลัสเตอร์มาหารด้วยจำนวนจุดข้อมูลทั้งหมด ในทางทฤษฎี เมื่อกำหนดเซตของคลัสเตอร์และเซตของคลาสซึ่งทั้งสองอย่างแบ่งจุดข้อมูล ความบริสุทธิ์สามารถกำหนดได้ดังนี้:
มาตรการนี้ไม่ได้ลงโทษการมีคลัสเตอร์จำนวนมาก และคลัสเตอร์ที่มากขึ้นจะทำให้การสร้างค่าความบริสุทธิ์สูงทำได้ง่ายขึ้น ค่าความบริสุทธิ์ 1 นั้นเป็นไปได้เสมอโดยการจัดจุดข้อมูลแต่ละจุดไว้ในคลัสเตอร์ของตัวเอง นอกจากนี้ ความบริสุทธิ์ยังใช้ได้ไม่ดีกับข้อมูลที่ไม่สมดุล ซึ่งแม้แต่ขั้นตอนวิธีจัดกลุ่มที่มีประสิทธิภาพต่ำก็ยังให้ค่าความบริสุทธิ์สูง ตัวอย่างเช่น หากชุดข้อมูลขนาด 1000 ประกอบด้วยสองคลาส คลาสหนึ่งมี 999 จุด และอีกคลาสหนึ่งมี 1 จุด การแบ่งกลุ่มที่เป็นไปได้ทั้งหมดจะมีค่าความบริสุทธิ์อย่างน้อย 99.9%
ดัชนี Rand [ 48 ]คำนวณว่าคลัสเตอร์ (ที่ส่งคืนโดยอัลกอริทึมการจัดกลุ่ม) มีความคล้ายคลึงกับการจัดกลุ่มมาตรฐานมากน้อยเพียงใด สามารถคำนวณได้โดยใช้สูตรต่อไปนี้:
โดยที่คือจำนวนผลบวกที่ถูกต้องคือจำนวนผลลบที่ถูกต้องคือจำนวนผลบวกที่ผิดพลาดและคือจำนวน ผล ลบที่ผิดพลาดจำนวนที่นับในที่นี้คือจำนวน การจับ คู่ ที่ถูกต้อง กล่าว คือคือจำนวนคู่ของจุดที่รวมกลุ่มกันในพาร์ติชันที่คาดการณ์และในพาร์ติชันความจริงคือจำนวนคู่ของจุดที่รวมกลุ่มกันในพาร์ติชันที่คาดการณ์แต่ไม่อยู่ในพาร์ติชันความจริง เป็นต้น ถ้าชุดข้อมูลมีขนาด N แล้วปัญหาอย่างหนึ่งของดัชนี Randคือผลบวกที่ผิดพลาดและผลลบที่ผิดพลาด มีน้ำหนักเท่ากัน ซึ่งอาจเป็นลักษณะที่ไม่พึงประสงค์สำหรับการใช้งานการจัดกลุ่มบางอย่าง การวัดค่า F ช่วยแก้ไขปัญหานี้ได้ เช่นเดียวกับ ดัชนี Rand ที่ปรับ แก้โดยคำนึง ถึง โอกาส
ค่า F-measure สามารถใช้เพื่อสร้างสมดุลให้กับการมีส่วนร่วมของผลลบเท็จโดยการถ่วงน้ำหนักการเรียกคืนผ่านพารามิเตอร์ให้ความแม่นยำและการเรียกคืน (ซึ่งเป็นมาตรวัดการประเมินภายนอกทั้งคู่) กำหนดดังนี้: โดยที่คือ อัตรา ความแม่นยำและคือ อัตรา การเรียกคืนเราสามารถคำนวณค่า F-measure ได้โดยใช้สูตรต่อไปนี้: [ 41 ] เมื่อ, . กล่าวอีกนัยหนึ่งการเรียกคืนไม่มีผลกระทบต่อค่า F-measure เมื่อและการเพิ่มจะจัดสรรน้ำหนักให้กับการเรียกคืนในค่า F-measure สุดท้ายมากขึ้น นอกจากนี้ ยังไม่นำมาพิจารณาและสามารถเปลี่ยนแปลงได้ตั้งแต่ 0 ขึ้นไปโดยไม่มีขอบเขต
ดัชนี Jaccard ใช้ในการวัดความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุดดัชนี Jaccardมีค่าอยู่ระหว่าง 0 ถึง 1 ค่าดัชนี 1 หมายความว่าชุดข้อมูลทั้งสองเหมือนกันทุกประการ และค่าดัชนี 0 หมายความว่าชุดข้อมูลทั้งสองไม่มีองค์ประกอบร่วมกัน ดัชนี Jaccard คำนวณได้จากสูตรต่อไปนี้: ซึ่งก็คือจำนวนองค์ประกอบที่ไม่ซ้ำกันที่เหมือนกันในทั้งสองชุด หารด้วยจำนวนองค์ประกอบที่ไม่ซ้ำกันทั้งหมดในทั้งสองชุด โปรดทราบว่าไม่ได้นำมาพิจารณาด้วย
การวัดแบบสมมาตรของลูกเต๋าจะเพิ่มน้ำหนักเป็นสองเท่าในขณะที่ยังคงไม่สนใจ: .
ดัชนี Fowlkes–Mallows [ 49 ]คำนวณความคล้ายคลึงกันระหว่างคลัสเตอร์ที่ได้จากอัลกอริทึมการจัดกลุ่มและการจำแนกประเภทมาตรฐาน ยิ่งค่าของดัชนี Fowlkes–Mallows สูงเท่าไร คลัสเตอร์และการจำแนกประเภทมาตรฐานก็จะยิ่งคล้ายคลึงกันมากขึ้นเท่านั้น สามารถคำนวณได้โดยใช้สูตรต่อไปนี้: โดยที่คือจำนวนผลบวกจริงคือจำนวนผลบวกเท็จและคือจำนวนผลลบเท็จดัชนีคือค่าเฉลี่ยเรขาคณิตของความแม่นยำและการเรียกคืนและดังนั้นจึงเรียกอีกอย่างว่าG-measureในขณะที่ F-measure คือค่าเฉลี่ยฮาร์มอนิกของทั้งสอง[ 50 ] [ 51 ]นอกจากนี้ความแม่นยำและการเรียกคืนยังเรียกอีกอย่างว่าดัชนีของ Wallace และ[ 52 ] เวอร์ชันที่ปรับค่าแบบสุ่มของการ เรียกคืน ความแม่นยำ และ G-measure สอดคล้องกับInformedness , MarkednessและMatthews Correlationและมีความสัมพันธ์อย่างมากกับ Kappa [ 53 ]
ดัชนีไค
ดัชนีไค[ 54 ]เป็นดัชนีการตรวจสอบภายนอกที่วัดผลลัพธ์การจัดกลุ่มโดยใช้สถิติไคกำลังสองดัชนีนี้ให้คะแนนในเชิงบวกต่อข้อเท็จจริงที่ว่าป้ายกำกับมีความเบาบางมากที่สุดเท่าที่จะเป็นไปได้ในแต่ละกลุ่ม กล่าวคือแต่ละกลุ่มมีป้ายกำกับที่แตกต่างกันน้อยที่สุดเท่าที่จะเป็นไปได้ ยิ่งค่าของดัชนีไคสูงเท่าใด ความสัมพันธ์ระหว่างกลุ่มที่ได้กับป้ายกำกับที่ใช้ก็จะยิ่งมากขึ้นเท่านั้น
ข้อมูลร่วม (mutual information) เป็นการ วัด เชิงทฤษฎีสารสนเทศของปริมาณข้อมูลที่ใช้ร่วมกันระหว่างการจัดกลุ่มและการจำแนกประเภทความจริงพื้นฐาน ซึ่งสามารถตรวจจับความคล้ายคลึงที่ไม่เป็นเชิงเส้นระหว่างการจัดกลุ่มสองกลุ่มได้ข้อมูลร่วมแบบนอร์มาไลซ์ (Normalized mutual information)เป็นกลุ่มของตัวแปรที่แก้ไขสำหรับโอกาส ซึ่งมีอคติที่ลดลงสำหรับจำนวนกลุ่มที่แตกต่างกัน[ 38 ]
เมทริกซ์ความสับสนสามารถใช้เพื่อแสดงผลลัพธ์ของอัลกอริทึมการจำแนกประเภท (หรือการจัดกลุ่ม) ได้อย่างรวดเร็ว โดยจะแสดงให้เห็นว่ากลุ่มหนึ่งแตกต่างจากกลุ่มมาตรฐานมากน้อยเพียงใด
การวัดความถูกต้อง
การวัดความถูกต้อง (v-measure แบบย่อ) เป็นเมตริกแบบรวมสำหรับความเป็นเนื้อเดียวกันและความสมบูรณ์ของกลุ่ม[ 55 ]
แนวโน้มการรวมกลุ่ม
การวัดแนวโน้มการจัดกลุ่ม คือการวัดว่าข้อมูลที่จะจัดกลุ่มนั้นมีการจัดกลุ่มในระดับใด และอาจดำเนินการเป็นการทดสอบเบื้องต้นก่อนที่จะพยายามจัดกลุ่ม วิธีหนึ่งในการทำเช่นนี้คือการเปรียบเทียบข้อมูลกับข้อมูลสุ่ม โดยเฉลี่ยแล้ว ข้อมูลสุ่มไม่ควรมีการจัดกลุ่ม
- มีการกำหนดสูตรสถิติของฮอปกินส์หลายแบบ[ 56 ]สูตรทั่วไปสูตรหนึ่งมีดังนี้[ 57 ]ให้เป็นเซตของจุดข้อมูลในพื้นที่มิติ พิจารณาตัวอย่างสุ่ม (โดยไม่ใส่คืน) ของจุดข้อมูลที่มีสมาชิกและสร้างเซตของจุดข้อมูลที่กระจายแบบสุ่มอย่างสม่ำเสมอ จากนั้นกำหนดมาตรวัดระยะทางสองแบบคือ ระยะทางของจากเพื่อนบ้านที่ใกล้ที่สุดใน X และระยะทางของจากเพื่อนบ้านที่ใกล้ที่สุดใน X จากนั้นเรากำหนดสถิติของฮอปกินส์ดังนี้:
- ตามนิยามนี้ ข้อมูลสุ่มแบบสม่ำเสมอควรมีค่าใกล้เคียงกับ 0.5 และข้อมูลแบบกระจุกตัวควรมีค่าใกล้เคียงกับ 1
- อย่างไรก็ตาม ข้อมูลที่มีเพียงการแจกแจงแบบเกาส์เซียนเดียวก็จะได้คะแนนใกล้เคียง 1 เช่นกัน เนื่องจากสถิตินี้วัดความเบี่ยงเบนจาก การแจกแจง แบบสม่ำเสมอไม่ใช่การแจกแจงแบบหลายยอดทำให้สถิตินี้แทบจะไม่มีประโยชน์ในการนำไปใช้ (เพราะข้อมูลจริงไม่เคยมีความสม่ำเสมอเลย)
จริยธรรมและความยุติธรรม
เนื่องจากองค์กรธุรกิจและหน่วยงานภาครัฐนำอัลกอริทึมการจัดกลุ่มมาใช้มากขึ้นเรื่อยๆ เพื่อจำแนกประชากรและตัดสินใจโดยอัตโนมัติด้วยข้อมูลจริง ความกังวลเกี่ยวกับอคติของอัลกอริทึมจึงเพิ่มมากขึ้น เพราะการจัดกลุ่มเป็นรูปแบบหนึ่งของการเรียนรู้แบบไม่มีผู้กำกับดูแลจึงเป็นการระบุรูปแบบภายในข้อมูลที่มีอยู่แล้ว ดังนั้น โมเดลเหล่านี้จึงอาจเสริมสร้างความไม่เท่าเทียมกันในอดีตที่มีอยู่แล้วในชุดข้อมูลฝึกฝนโดยไม่ตั้งใจได้
นิยามความเป็นธรรมในการจัดกลุ่ม
การบรรลุความเป็นธรรมในการเรียนรู้แบบไม่กำกับดูแลโดยอาศัยข้อมูลจากโลกแห่งความเป็นจริงนั้นเป็นไปไม่ได้ เนื่องจากไม่มีวิธีการกำหนดความจริงพื้นฐานที่จะระบุว่าอะไรคือ “ถูกต้อง” ในขณะที่อัลกอริธึมการจัดกลุ่มมีลักษณะทางคณิตศาสตร์ แต่ก็มีความอ่อนไหวต่ออคติเชิงระบบเนื่องจากข้อมูลพื้นฐานสะท้อนถึงอคติทั้งทางประวัติศาสตร์และสังคม[ 58 ]ด้วยเหตุนี้ นักวิจัยจึงได้พัฒนากรอบการทำงาน “การจัดกลุ่มที่เป็นธรรม” เช่น แนวทาง Fairlet ซึ่งรับประกันว่าแต่ละกลุ่มจะรักษาสัดส่วนที่สมดุลของกลุ่มที่ได้รับการคุ้มครองเมื่อเทียบกับประชากรโดยรวม[ 59 ]
ผลกระทบที่ไม่เท่าเทียมกันและตัวแทน
ภายใต้หลักการทางกฎหมายของผลกระทบที่ไม่เท่าเทียมกันกระบวนการจะถือว่าเป็นการเลือกปฏิบัติหากส่งผลให้เกิดผลลัพธ์ที่ไม่พึงประสงค์อย่างไม่สมส่วนต่อกลุ่มที่ได้รับการคุ้มครอง แม้ว่าอัลกอริทึมจะดูเป็นกลาง (เช่น ไม่ได้ใช้คุณลักษณะเช่นเชื้อชาติหรือเพศอย่างชัดเจน) [ 60 ]ความไม่เป็นธรรมมักเกิดขึ้นผ่านตัวแปรตัวแทน ตัวอย่างเช่น แม้ว่าชุดข้อมูลจะถูกลบเชื้อชาติออกไปแล้ว อัลกอริทึมการจัดกลุ่มอาจใช้รหัสไปรษณีย์หรือภูมิหลังทางการศึกษาเป็นคุณลักษณะ เนื่องจากตัวแปรเหล่านี้มักมีความสัมพันธ์อย่างมากกับสถานะทางเศรษฐกิจและชาติพันธุ์ กลุ่มที่ได้จึงจะแบ่งแยกบุคคลตามลักษณะเหล่านี้อย่างมีประสิทธิภาพ
ผลกระทบในโลกแห่งความเป็นจริง
การประยุกต์ใช้การจัดกลุ่มในงานพยากรณ์อาชญากรรมได้แสดงให้เห็นว่าอคติในอดีตของข้อมูลสามารถสร้างวงจรป้อนกลับได้อย่างไร
- กรณีศึกษา (ชิคาโก)
- รายชื่อเป้าหมายเชิงกลยุทธ์ของกรมตำรวจชิคาโกใช้การจัดกลุ่มเพื่อระบุบุคคลที่มีแนวโน้มที่จะเกี่ยวข้องกับอาชญากรรมในอนาคต อย่างไรก็ตาม การศึกษาในปี 2016 พบว่าแบบจำลองนี้มุ่งเป้าไปที่บุคคลโดยพิจารณาจากประวัติการติดต่อกับตำรวจในอดีตมากกว่ากิจกรรมทางอาชญากรรมที่แท้จริง ซึ่งส่งผลกระทบต่อชุมชนชนกลุ่มน้อยอย่างไม่สมส่วนโดยไม่ลดอัตราการเกิดอาชญากรรม[ 61 ]ทั้งนี้เนื่องจากแบบจำลองนี้อิงตามข้อมูลของตำรวจ ดังนั้นจึงสามารถจำแนกประเภทได้อย่างแท้จริงตามกิจกรรมของตำรวจแทนที่จะเป็นอาชญากรรมที่แท้จริง
- ความเหลื่อมล้ำทางประชากรศาสตร์
- การวิจัยเกี่ยวกับการจัดกลุ่มการจดจำใบหน้าแสดงให้เห็นว่าอัตราข้อผิดพลาดสูงกว่าอย่างมีนัยสำคัญสำหรับผู้หญิงและคนผิวสี ตัวอย่างเช่น โครงการ Gender Shades พบว่าระบบการจำแนกประเภทตามการจัดกลุ่มบางระบบมีอัตราข้อผิดพลาดสูงถึง 34.7% สำหรับผู้หญิงผิวสีเข้ม เมื่อเทียบกับ 0.8% สำหรับผู้ชายผิวขาว[ 62 ]
แอปพลิเคชัน
การวิเคราะห์แบบคลัสเตอร์ถูกนำมาใช้ในการวิเคราะห์ข้อมูลในหลากหลายสาขา
วิทยาศาสตร์ธรรมชาติ
ในสาขาวิทยาศาสตร์ธรรมชาติเทคนิคต่างๆ เช่นการจัดกลุ่มแบบลำดับชั้น (hierarchical clustering ), k -means , การลดมิติ (dimensionality reduction) , การวิเคราะห์องค์ประกอบหลัก (principal component analysis: PCA) และt-SNEมักถูกนำมาใช้เพื่อทำความเข้าใจข้อมูลที่มีความหนาแน่นสูง

- นิเวศวิทยาของพืชและสัตว์
- การวิเคราะห์แบบคลัสเตอร์ใช้เพื่ออธิบายและเปรียบเทียบกลุ่มสิ่งมีชีวิตใน สภาพแวดล้อม ที่แตกต่างกันนอกจากนี้ยังใช้กันอย่างแพร่หลายในระบบอนุกรมวิธานของพืชเพื่อสร้างแผนภูมิวิวัฒนาการ เทียม ของกลุ่มสิ่งมีชีวิตที่มีคุณลักษณะคล้ายคลึงกัน
- ทรานสคริปโตมิกส์
- การจัดกลุ่มใช้เพื่อสร้างกลุ่มยีน ที่มีรูปแบบ การแสดงออกที่เกี่ยวข้องเช่น อัลกอริทึม การจัดกลุ่ม HCS [ 63 ] [ 64 ]กลุ่มดังกล่าว มักมีโปรตีน ที่เกี่ยวข้อง เช่นเอนไซม์ สำหรับ วิถีการเผาผลาญเฉพาะหรือยีนที่ถูกควบคุมร่วมกันซึ่งช่วยให้นักวิทยาศาสตร์ได้รับข้อมูลเกี่ยวกับความคล้ายคลึงกันระหว่างยีนที่ไม่เคยรู้จักมาก่อน
- การวิเคราะห์ลำดับ
- การจัดกลุ่มลำดับใช้เพื่อจัดกลุ่มลำดับเข้าเป็นกลุ่มยีน[ 65 ]นี่เป็นแนวคิดพื้นฐานในชีวสารสนเทศและชีววิทยาวิวัฒนาการ
- การจัดกลุ่มทางพันธุกรรมของมนุษย์
- ในพันธุศาสตร์ประชากรและระบาดวิทยาเชิงจีโนมความคล้ายคลึงกันระหว่างชุดข้อมูลทางพันธุกรรมถูกนำมาใช้เพื่ออธิบายโครงสร้างของประชากร
ยาและข้อมูลทางการแพทย์

- การถ่ายภาพทางการแพทย์
- ในการสแกน PETการวิเคราะห์คลัสเตอร์สามารถใช้เพื่อแยกความแตกต่างระหว่างเนื้อเยื่อ ประเภทต่างๆ ในภาพสามมิติเพื่อวัตถุประสงค์ในการวินิจฉัยที่หลากหลาย[ 66 ]มีความสำคัญเท่าเทียมกันใน การวิเคราะห์ MRIและพยาธิวิทยาเนื้อเยื่อซึ่งการแบ่งส่วนอัตโนมัติของบริเวณเหล่านี้ช่วยลดภาระของการระบุตำแหน่งด้วยตนเอง

- ภูมิอากาศ
- การจัดกลุ่มใช้เพื่อค้นหารูปแบบสภาพอากาศและรูปแบบบรรยากาศ ช่วยให้นักอุตุนิยมวิทยาจัดหมวดหมู่การหมุนเวียนของสภาพอากาศขนาดใหญ่ รวมถึงศึกษาผลกระทบของ ความแปรปรวนของ สภาพภูมิอากาศต่อสภาพอากาศใน ระดับภูมิภาค [ 67 ]
- ธรณีเคมีและธรณีวิทยาปิโตรเลียม
- การรวมกลุ่มเชิงพื้นที่ของคุณสมบัติทางเคมีในสถานที่เก็บตัวอย่างที่แตกต่างกันช่วยให้นักธรณีเคมีระบุโซนการเกิดแร่ มลพิษ และขอบเขตทางธรณีวิทยาได้[ 68 ]
- เคมีเชิงคณิตศาสตร์
- การจัดกลุ่มช่วยให้มีความคล้ายคลึงกันทางโครงสร้างระหว่างสารประกอบทางเคมีดัชนีทางโทโพโลยี[ 69 ]
วิทยาศาสตร์ข้อมูลและเทคโนโลยี
ในการคำนวณและการประยุกต์ใช้เทคโนโลยี การจัดกลุ่มเป็นแรงขับเคลื่อนสำคัญเบื้องหลังการเรียนรู้แบบไม่กำกับดูแลของแมชชีนเลิร์ นนิง และถูกฝังอยู่ในระบบต่างๆ ตั้งแต่เครื่องมือค้นหาไปจนถึงแพลตฟอร์มแนะนำ อัลกอริทึมทั่วไปในสาขานี้ ได้แก่k -means , DBSCAN , mean shiftและspectral clustering ซึ่ง มักจะนำไปใช้หลังจากการสกัดคุณลักษณะหรือการฝังข้อมูล ซึ่งเป็นขั้นตอนที่แปลงข้อมูลดิบ เช่น ข้อความ รูปภาพ บันทึกเซ็นเซอร์ ให้เป็นพื้นที่เวกเตอร์ที่เหมาะสมสำหรับการจัดกลุ่มตามระยะทาง[ 70 ]

การเรียนรู้ของเครื่องและการจดจำรูปแบบ
- การแบ่งส่วนภาพ
- การแบ่งส่วนภาพ (Image segmentation) คือกระบวนการแบ่งภาพดิจิทัลออกเป็นหลายส่วนที่มีความหมาย โดยจัดกลุ่มพิกเซลที่มีคุณลักษณะคล้ายกัน เช่น สี ความเข้ม หรือพื้นผิว เข้าด้วยกัน ซึ่งจะทำให้การวิเคราะห์ง่ายขึ้นและสนับสนุนงานต่างๆ ในขั้นตอนต่อไป เช่นการตรวจจับวัตถุและการทำความเข้าใจฉาก โดยมีแอปพลิเคชันในด้านการถ่ายภาพทางการ แพทย์ คอมพิวเตอร์วิชั่นภาพถ่ายดาวเทียมและเครื่องมือในชีวิตประจำวัน เช่น การตรวจจับใบหน้าและการแก้ไขภาพ
- การตรวจจับความผิดปกติ
- โดยทั่วไปแล้ว ความผิดปกติและข้อมูลที่ผิดปกติจะถูกกำหนดโดยพิจารณาจากโครงสร้างการจัดกลุ่มของชุดข้อมูล กล่าวคือ จุดที่อยู่ห่างไกลจากกลุ่มที่กำหนดไว้จะถูกระบุว่าผิดปกติ ดังนั้น การจัดกลุ่มจึงมีความสำคัญอย่างยิ่งต่อการตรวจจับการบุกรุกการตรวจจับการฉ้อโกงและการตรวจสอบความผิดพลาดในภาคอุตสาหกรรม
- วิธีการมอนเตคาร์โลแบบลูกโซ่มาร์คอฟ
- การจัดกลุ่มถูกนำมาใช้เพื่อค้นหาและระบุลักษณะเฉพาะของค่าสุดขั้วในการกระจายเป้าหมาย ซึ่งช่วยให้การสุ่มตัวอย่างมีประสิทธิภาพมากขึ้นในการอนุมานความน่าจะเป็นในมิติสูง
- หุ่นยนต์ภาคสนาม
- อัลกอริทึมการจัดกลุ่มสนับสนุนการรับรู้สถานการณ์ ของหุ่นยนต์ ทำให้หุ่นยนต์สามารถติดตามวัตถุและตรวจจับสิ่งผิดปกติในสตรีมข้อมูลเซ็นเซอร์แบบเรียลไทม์ได้[ 71 ]
การจัดกลุ่มเอกสารและข้อความ

- การประมวลผลภาษาธรรมชาติ
- การจัดกลุ่มสามารถแก้ไขความกำกวมทางคำศัพท์[ 72 ]และจัดระเบียบคลังข้อมูลข้อความที่ไม่มีโครงสร้างขนาดใหญ่โดยอัตโนมัติให้เป็นกลุ่มที่สอดคล้องกันตามหัวข้อ ซึ่งเป็นกระบวนการที่เรียกว่าการจัดกลุ่ม เอกสาร แอปพลิเค ชันต่างๆ ได้แก่ การรวบรวมข่าว การวิเคราะห์ความคิดเห็นของลูกค้า และการทบทวนวรรณกรรมอัตโนมัติ
- เดวิออปส์
- การจัดกลุ่มถูกนำมาใช้เพื่อวิเคราะห์ประสิทธิภาพของทีม DevOps และเพื่อจัดกลุ่มไปป์ไลน์การปรับใช้ตามลักษณะการทำงาน[ 73 ]
เครือข่ายเวิลด์ไวด์เว็บและเครือข่ายต่างๆ

- การวิเคราะห์ เครือข่ายสังคม
- ในการศึกษาเครือข่ายสังคมการจัดกลุ่มถูกนำมาใช้เพื่อระบุชุมชนภายในกลุ่มคนขนาดใหญ่ ซึ่งเผยให้เห็นห้องสะท้อนความคิด ศูนย์กลางอิทธิพล และกลุ่มความสนใจที่เกิดขึ้นเองตามธรรมชาติ ซึ่งจะไม่สามารถมองเห็นได้ในกราฟผู้ติดตามแบบธรรมดา
- การจัดกลุ่มผลการค้นหา
- การจัดกลุ่มสามารถสร้างชุดผลการค้นหาที่เกี่ยวข้องมากกว่ารายการจัดอันดับแบบดั้งเดิม โดยเฉพาะอย่างยิ่งเมื่อคำค้นหามีความกำกวม[ 72 ]ยกตัวอย่างเช่น 'apple' ซึ่งอาจหมายถึงทั้งแอปเปิลหรือบริษัทแอปเปิลเครื่องมือจัดกลุ่มบนเว็บ เช่นClustyจะจัดกลุ่มผลลัพธ์ตามความหมายที่แตกต่างกัน ทำให้ขั้นตอนวิธีจัดอันดับ สามารถ ส่งคืนการครอบคลุมที่ครอบคลุมโดยการเลือกผลลัพธ์อันดับต้น ๆ จากแต่ละกลุ่ม
- การเพิ่มประสิทธิภาพแผนที่ลื่น
- แพลตฟอร์มแผนที่ เช่นแผนที่ภาพถ่ายของFlickr ใช้การจัดกลุ่มเพื่อรวมเครื่องหมายที่อยู่ใกล้เคียงกันที่ระดับการซูมต่ำ [ 74 ]ซึ่งช่วยลดความรกของภาพและปรับปรุงประสิทธิภาพการแสดงผล
- ระบบแนะนำ
- ระบบแนะนำใช้การจัดกลุ่มเพื่อคาดการณ์ความชอบที่ไม่ทราบของผู้ใช้ โดยการวิเคราะห์รสนิยมและกิจกรรมของผู้ใช้ที่มีลักษณะคล้ายคลึงกันภายในกลุ่มเดียวกัน
ในด้านธุรกิจและสังคมศาสตร์ การจัดกลุ่มมักถูกนำไปใช้กับข้อมูลแบบสำรวจและข้อมูลธุรกรรมในรูปแบบตาราง โดยมีเป้าหมายเพื่อแบ่งประชากรออกเป็นกลุ่มผู้บริโภค สร้างข้อมูลเชิงลึกในการวิเคราะห์ตลาดอย่างละเอียด หรือแสดงให้เห็นถึงความชอบของผู้ลงคะแนนเสียง
ธุรกิจและเศรษฐศาสตร์
- การเงิน
- การวิเคราะห์คลัสเตอร์ถูกนำมาใช้เพื่อจัดกลุ่มหุ้นเป็นภาคส่วนตามการเคลื่อนไหวร่วมกันของผลตอบแทน ซึ่งสนับสนุน การสร้าง พอร์ตโฟลิโอและการจัดการความเสี่ยง[ 75 ]นอกจากนี้ยังนำไปใช้ใน การสร้างแบบ จำลองความเสี่ยงด้านเครดิตเพื่อจัดกลุ่มผู้กู้ที่มีโปรไฟล์ความเสี่ยงที่คล้ายคลึงกัน และในการซื้อขายแบบอัลกอริทึมเพื่อระบุการเปลี่ยนแปลงระบอบในพฤติกรรมของตลาด
- การวิจัยตลาด
- การวิเคราะห์คลัสเตอร์ถูกนำมาใช้กันอย่างแพร่หลายในการวิจัยตลาดเมื่อทำงานกับข้อมูลหลายตัวแปรจากแบบสำรวจและแผงทดสอบ นักวิจัยตลาดใช้เพื่อแบ่งประชากรผู้บริโภค ทั่วไปออก เป็นกลุ่มตลาดโดยชี้ให้เห็นความสัมพันธ์ระหว่างกลุ่มผู้บริโภคต่างๆ เพื่อใช้ในการวางตำแหน่งผลิตภัณฑ์การพัฒนาผลิตภัณฑ์ใหม่ และการเลือกตลาดทดสอบ[ 76 ]
- การจัดกลุ่มสินค้าในการซื้อ
- การจัดกลุ่มสามารถช่วยจัดกลุ่มสินค้าจำนวนมหาศาลที่วางขายอยู่บนเว็บให้เป็นกลุ่มสินค้าเฉพาะได้ ตัวอย่างเช่น สินค้าทั้งหมดบนeBayสามารถจัดกลุ่มเป็นหมวดหมู่สินค้าเฉพาะได้ เช่น ของใช้ในบ้าน หรือ เสื้อผ้า
สังคมศาสตร์
- การวิเคราะห์ลำดับในสังคมศาสตร์
- การวิเคราะห์แบบคลัสเตอร์ใช้เพื่อระบุรูปแบบในเส้นทางชีวิตครอบครัว อาชีพการงาน และการใช้เวลาในแต่ละวันหรือแต่ละสัปดาห์ ซึ่งจะสร้างแบบจำลองเส้นทางชีวิตที่ช่วยให้เข้าใจถึงการแบ่งชั้นทางสังคมและความไม่เท่าเทียมกันได้ดียิ่งขึ้น
- การวิเคราะห์อาชญากรรม
- การจัดกลุ่มสามารถระบุพื้นที่ที่มีอัตราการเกิดอาชญากรรมประเภทใดประเภทหนึ่งสูงขึ้นได้ โดยการระบุ "จุดร้อน" ที่เกิดอาชญากรรมประเภทเดียวกันในช่วงเวลาหนึ่ง หน่วยงานบังคับใช้กฎหมายสามารถจัดสรรทรัพยากรได้อย่างมีกลยุทธ์มากขึ้น[ 77 ]
- การขุดข้อมูลทางการศึกษา
- การวิเคราะห์คลัสเตอร์ใช้เพื่อระบุกลุ่มโรงเรียนหรือนักเรียนที่มีโปรไฟล์ทางวิชาการที่คล้ายคลึงกัน ทำให้สามารถดำเนินการแทรกแซงที่ตรงเป้าหมายและจัดสรรทรัพยากรได้อย่างเท่าเทียมมากขึ้น[ 78 ]
- ประเภทและการวิจัยความคิดเห็น
- โครงการต่างๆ เช่น โครงการที่ดำเนินการโดยศูนย์วิจัย Pewใช้การวิเคราะห์แบบกลุ่มเพื่อแยกแยะประเภทของความคิดเห็น พฤติกรรม และข้อมูลประชากรจากข้อมูลการสำรวจความคิดเห็น ซึ่งเป็นประโยชน์ต่อการวิเคราะห์ทางการเมืองและการสื่อสารเชิงกลยุทธ์
ดูเพิ่มเติม
การวิเคราะห์คลัสเตอร์ประเภทเฉพาะทาง
- อัลกอริทึมการจัดกลุ่มอัตโนมัติ
- การจัดกลุ่มแบบสมดุล
- การจัดกลุ่มข้อมูลที่มีมิติสูง
- การจัดกลุ่มเชิงแนวคิด
- การจัดกลุ่มฉันทามติ
- การจัดกลุ่มแบบมีข้อจำกัด
- การตรวจจับชุมชน
- การจัดกลุ่มสตรีมข้อมูล
- การจัดกลุ่ม HCS
- การจัดกลุ่มลำดับ
- การจัดกลุ่มสเปกตรัม
เทคนิคที่ใช้ในการวิเคราะห์กลุ่ม
- โครงข่ายประสาทเทียม (ANN)
- การค้นหาเพื่อนบ้านที่ใกล้ที่สุด
- การวิเคราะห์องค์ประกอบของย่านใกล้เคียง
- การวิเคราะห์กลุ่มแฝง
- การแพร่กระจายความสัมพันธ์
การฉายภาพข้อมูลและการประมวลผลล่วงหน้า
อื่น
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์หรือการจัดคลัสเตอร์เป็นเทคนิคการวิเคราะห์ข้อมูลที่มุ่งเน้นการแบ่งชุดของวัตถุออกเป็นกลุ่ม โดยที่วัตถุภายในกลุ่มเดียวกัน (เรียกว่าคลัสเตอร์ )...
คำนิยาม
แนวคิดของ "คลัสเตอร์" ไม่สามารถกำหนดได้อย่างแม่นยำ ซึ่งเป็นหนึ่งในเหตุผลที่ทำให้มีอัลกอริธึมการจัดคลัสเตอร์มากมาย [ 5 ] มีตัวร่วมคือ กลุ่มของวัตถุข้อมูล อย่างไรก็ตาม นักวิจัยแต่ละคนใช้โมเดลคลัสเตอร์ที่แตกต่างกัน และสำหรับแต่ละโมเดลคลัสเตอร์เหล่านี้...
อัลกอริทึม
ดังที่กล่าวมาข้างต้น อัลกอริทึมการจัดกลุ่มสามารถแบ่งประเภทได้ตามแบบจำลองการจัดกลุ่ม ภาพรวมต่อไปนี้จะแสดงเฉพาะตัวอย่างที่โดดเด่นที่สุดของอัลกอริทึมการจัดกลุ่มเท่านั้น เนื่องจากอาจมีอัลกอริทึมการจัดกลุ่มที่เผยแพร่แล้วมากกว่า 100 รายการ...
การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)
การจัดกลุ่มตามการเชื่อมต่อ หรือที่เรียกว่า การจัดกลุ่มแบบลำดับชั้น นั้น อิงตามแนวคิดที่ว่าวัตถุมีความสัมพันธ์กันมากกว่ากับวัตถุที่อยู่ใกล้เคียง มากกว่าวัตถุที่อยู่ไกลออกไป อัลกอริทึมเหล่านี้สร้างกลุ่มโดยการเชื่อมต่อวัตถุตามระยะทาง...