อัลกอริทึมการจัดกลุ่มอัตโนมัติ

Q: ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึมการจัดกลุ่มอัตโนมัติ

อัลกอริทึมการจัดกลุ่มอัตโนมัติเป็นอัลกอริทึมที่สามารถทำการจัดกลุ่ม ได้ โดยไม่ต้องมีความรู้เกี่ยวกับชุดข้อมูลมาก่อน แตกต่างจาก เทคนิค การจัดกลุ่ม อื่นๆ

Q: การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)

การจัดกลุ่มตามความเชื่อมโยงหรือ การจัดกลุ่มแบบลำดับชั้น นั้นอยู่บนพื้นฐานของแนวคิดที่ว่าวัตถุต่างๆ มีความคล้ายคลึงกับวัตถุที่อยู่ใกล้เคียงมากกว่าวัตถุที่อยู่ไกลออกไป ดังนั้น กลุ่มที่สร้างขึ้นจากอัลกอริทึมประเภทนี้จึงเป็นผลมาจากระยะห่างระหว่างวัตถุที่วิเคราะห์

อัลกอริทึมการจัดกลุ่มอัตโนมัติเป็นอัลกอริทึมที่สามารถทำการจัดกลุ่ม ได้ โดยไม่ต้องมีความรู้เกี่ยวกับชุดข้อมูลมาก่อน แตกต่างจาก เทคนิค การจัดกลุ่ม อื่นๆ อัลกอริทึมการจัดกลุ่มอัตโนมัติสามารถกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดได้ แม้จะมีสัญญาณรบกวนและข้อมูลผิดปกติ อยู่ ก็ตาม

อิงตามจุดศูนย์กลาง

เมื่อมีชุด วัตถุ nชิ้น อัลกอริทึมแบบใช้จุดศูนย์กลางจะสร้าง กลุ่ม kกลุ่มโดยอาศัยฟังก์ชันความไม่เหมือนกัน โดยที่k ≤ n ปัญหาสำคัญในการประยุกต์ใช้อัลกอริทึมประเภทนี้คือการกำหนดจำนวนกลุ่มที่เหมาะสมสำหรับข้อมูลที่ไม่มีป้ายกำกับ ดังนั้น การวิจัยส่วนใหญ่ในด้านการวิเคราะห์การจัดกลุ่มจึงมุ่งเน้นไปที่การทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ

การเลือกค่าk โดยอัตโนมัติ ในอัลกอริทึมการจัดกลุ่มแบบ K -means ซึ่งเป็นหนึ่งในอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันมากที่สุด ยังคงเป็นปัญหาสำคัญในด้านการเรียนรู้ของเครื่อง วิธีแก้ปัญหาที่ได้รับการยอมรับมากที่สุดคือวิธีข้อศอกซึ่งประกอบด้วยการเรียกใช้การจัด กลุ่มแบบ K -means กับชุดข้อมูลที่มีค่าหลากหลาย คำนวณผลรวมของกำลังสองของข้อผิดพลาดสำหรับแต่ละค่า และพล็อตลงในแผนภูมิเส้นหากแผนภูมิมีลักษณะคล้ายแขน ค่าk ที่ดีที่สุด จะอยู่ที่ "ข้อศอก" ^{[ 1 ]}

อีกวิธีหนึ่งที่ปรับเปลี่ยน อัลกอริธึม k -means เพื่อเลือกจำนวนคลัสเตอร์ที่เหมาะสมที่สุดโดยอัตโนมัติคือ อัลกอริธึม G -means ซึ่งพัฒนาขึ้นจากสมมติฐานที่ว่าชุดย่อยของข้อมูลเป็นไปตามการแจกแจงแบบเกาส์เซียน ดังนั้นkจะเพิ่มขึ้นจนกว่า ข้อมูลของศูนย์กลาง k -means แต่ละแห่งจะเป็นแบบเกาส์เซียน อัลกอริธึมนี้ต้องการเพียงระดับนัยสำคัญทางสถิติมาตรฐานเป็นพารามิเตอร์เท่านั้น และไม่ได้กำหนดขีดจำกัดสำหรับความแปรปรวนร่วมของข้อมูล^{[ 2 ]}

การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)

การจัดกลุ่มตามความเชื่อมโยงหรือการจัดกลุ่มแบบลำดับชั้นนั้นอยู่บนพื้นฐานของแนวคิดที่ว่าวัตถุต่างๆ มีความคล้ายคลึงกับวัตถุที่อยู่ใกล้เคียงมากกว่าวัตถุที่อยู่ไกลออกไป ดังนั้น กลุ่มที่สร้างขึ้นจากอัลกอริทึมประเภทนี้จึงเป็นผลมาจากระยะห่างระหว่างวัตถุที่วิเคราะห์

แบบจำลองลำดับชั้นอาจเป็นแบบแบ่งแยก โดยสร้างพาร์ติชันจากชุดข้อมูลทั้งหมดที่มีอยู่ หรือแบบรวมกลุ่ม โดยแต่ละพาร์ติชันเริ่มต้นด้วยวัตถุเดียว และมีการเพิ่มวัตถุเพิ่มเติมลงในชุด^{[ 3 ]}แม้ว่าการจัดกลุ่มแบบลำดับชั้นจะมีข้อดีคืออนุญาตให้ใช้เมตริกที่ถูกต้องใดๆ ก็ได้เป็นระยะทางที่กำหนด แต่ก็มีความไวต่อสัญญาณรบกวนและความผันผวนในชุดข้อมูล และยากต่อการทำงานอัตโนมัติมากกว่า

ได้มีการพัฒนาวิธีการเพื่อปรับปรุงและทำให้ขั้นตอนวิธีจัดกลุ่มแบบลำดับชั้นที่มีอยู่เป็นไปโดย อัตโนมัติ ^{[ 4 ]}เช่น เวอร์ชันอัตโนมัติของการวิเคราะห์การจัดกลุ่มแบบลำดับชั้นแบบเชื่อมโยงเดี่ยว (HCA) วิธีการทางคอมพิวเตอร์นี้อาศัยความสำเร็จจากแนวทางการลดค่าผิดปกติที่สอดคล้องกันเอง ตามด้วยการสร้างฟังก์ชันเชิงพรรณนาที่อนุญาตให้กำหนดกลุ่มธรรมชาติได้ วัตถุที่ถูกทิ้งก็สามารถกำหนดให้กับกลุ่มเหล่านี้ได้เช่นกัน โดยพื้นฐานแล้ว ไม่จำเป็นต้องใช้พารามิเตอร์ภายนอกเพื่อระบุกลุ่มธรรมชาติ ข้อมูลที่รวบรวมจาก HCA ซึ่งเป็นไปโดยอัตโนมัติและเชื่อถือได้ สามารถสรุปได้ในเดนโดแกรมพร้อมจำนวนกลุ่มธรรมชาติและการแยกที่สอดคล้องกัน ซึ่งเป็นตัวเลือกที่ไม่พบใน HCA แบบคลาสสิก วิธีนี้ประกอบด้วยสองขั้นตอนต่อไปนี้: การลบค่าผิดปกติ (ซึ่งใช้ในแอปพลิเคชันการกรองหลายอย่าง) และการจำแนกประเภทเพิ่มเติมที่อนุญาตให้ขยายกลุ่มด้วยชุดวัตถุทั้งหมด^{[ 5 ]}

BIRCH (balanced iterative reducing and clustering using hierarchies) เป็นอัลกอริทึมที่ใช้ในการจัดกลุ่มตามการเชื่อมต่อสำหรับชุดข้อมูลขนาดใหญ่^{[ 6 ]}ถือเป็นหนึ่งในอัลกอริทึมการจัดกลุ่มที่เร็วที่สุด แต่มีข้อจำกัดเนื่องจากต้องระบุจำนวนคลัสเตอร์เป็นข้อมูลป้อนเข้า ดังนั้นจึงมีการพัฒนาอัลกอริทึมใหม่ที่อิงตาม BIRCH ซึ่งไม่จำเป็นต้องระบุจำนวนคลัสเตอร์ตั้งแต่เริ่มต้น แต่ยังคงรักษาคุณภาพและความเร็วของคลัสเตอร์ไว้ การปรับเปลี่ยนหลักคือการลบขั้นตอนสุดท้ายของ BIRCH ซึ่งผู้ใช้ต้องป้อนจำนวนคลัสเตอร์ และปรับปรุงส่วนที่เหลือของอัลกอริทึมที่เรียกว่า tree-BIRCH โดยการปรับค่าพารามิเตอร์เกณฑ์จากข้อมูล ในอัลกอริทึมที่ได้นี้ พารามิเตอร์เกณฑ์จะคำนวณจากรัศมีคลัสเตอร์สูงสุดและระยะห่างขั้นต่ำระหว่างคลัสเตอร์ ซึ่งมักจะทราบกันดีอยู่แล้ว วิธีนี้พิสูจน์แล้วว่ามีประสิทธิภาพสำหรับชุดข้อมูลที่มีคลัสเตอร์หลายหมื่นคลัสเตอร์ หากเกินกว่าจำนวนนั้น จะเกิดปัญหาการแบ่งซูเปอร์คลัสเตอร์ขึ้น ด้วยเหตุนี้จึงมีการพัฒนาอัลกอริธึมอื่นๆ เช่น MDB-BIRCH ซึ่งช่วยลดการแบ่งกลุ่มซูเปอร์คลัสเตอร์ด้วยความเร็วที่ค่อนข้างสูง^{[ 7 ]}

อิงตามความหนาแน่น

แตกต่างจากวิธีการแบ่งกลุ่มและการจัดลำดับชั้น อัลกอริ ทึม การจัดกลุ่มตามความหนาแน่นสามารถค้นหากลุ่มที่มีรูปร่างใด ๆ ก็ได้ ไม่ใช่เฉพาะทรงกลมเท่านั้น

อัลกอริทึมการจัดกลุ่มตามความหนาแน่นใช้การเรียนรู้ของเครื่องแบบอัตโนมัติที่ระบุรูปแบบเกี่ยวกับตำแหน่งทางภูมิศาสตร์และระยะห่างจากเพื่อนบ้านจำนวนหนึ่ง ถือว่าเป็นแบบอัตโนมัติเนื่องจากไม่จำเป็นต้องมีความรู้ล่วงหน้าเกี่ยวกับสิ่งที่เป็นคลัสเตอร์^{[ 8 ]}อัลกอริทึมประเภทนี้มีวิธีการต่างๆ ในการค้นหาคลัสเตอร์ในข้อมูล วิธีที่เร็วที่สุดคือDBSCANซึ่งใช้ระยะทางที่กำหนดไว้เพื่อแยกความแตกต่างระหว่างกลุ่มข้อมูลที่มีความหนาแน่นสูงและสัญญาณรบกวนที่เบาบางกว่า นอกจากนี้ HDBSCAN ยังสามารถปรับตัวเองได้โดยใช้ช่วงระยะทางแทนที่จะใช้ระยะทางที่กำหนดไว้ สุดท้าย วิธีOPTICSสร้างแผนภาพการเข้าถึงโดยอิงจากระยะทางจากคุณลักษณะที่อยู่ใกล้เคียงเพื่อแยกสัญญาณรบกวนออกจากคลัสเตอร์ที่มีความหนาแน่นแตกต่างกัน

วิธีการเหล่านี้ยังคงต้องการให้ผู้ใช้ระบุจุดศูนย์กลางของกลุ่ม และไม่สามารถถือว่าเป็นแบบอัตโนมัติได้ อัลกอริทึมการจัดกลุ่มความหนาแน่นเฉพาะที่อัตโนมัติ (ALDC) เป็นตัวอย่างของการวิจัยใหม่ที่มุ่งเน้นการพัฒนาการจัดกลุ่มตามความหนาแน่นแบบอัตโนมัติ ALDC คำนวณความหนาแน่นเฉพาะที่และความเบี่ยงเบนระยะทางของทุกจุด จึงขยายความแตกต่างระหว่างจุดศูนย์กลางของกลุ่มที่เป็นไปได้กับจุดอื่นๆ การขยายนี้ทำให้เครื่องสามารถทำงานได้โดยอัตโนมัติ เครื่องจะระบุจุดศูนย์กลางของกลุ่มและกำหนดจุดที่เหลืออยู่ให้กับเพื่อนบ้านที่ใกล้ที่สุดที่มีความหนาแน่นสูงกว่า^{[ 9 ]}

ในการทำให้ความหนาแน่นของข้อมูลเป็นไปโดยอัตโนมัติเพื่อระบุคลัสเตอร์ การวิจัยยังมุ่งเน้นไปที่การสร้างอัลกอริทึมขึ้นมาเองด้วย ตัวอย่างเช่น การประมาณค่าอัลกอริทึมการกระจายรับประกันการสร้างอัลกอริทึมที่ถูกต้องโดยใช้กราฟแบบไม่มีวงจรทิศทาง (DAG) ซึ่งโหนดแทนขั้นตอน (บล็อกการสร้าง) และขอบแทนลำดับการดำเนินการที่เป็นไปได้ระหว่างสองโหนด บล็อกการสร้างกำหนดตัวอักษรของ EDA หรือกล่าวอีกนัยหนึ่งคืออัลกอริทึมที่สร้างขึ้น อัลกอริทึมการจัดกลุ่มที่สร้างขึ้นเองจะถูกเปรียบเทียบกับ DBSCAN ซึ่งเป็นอัลกอริทึมแบบแมนนวล ในผลการทดลอง^{[ 10 ]}

AutoML สำหรับการจัดกลุ่ม

ความก้าวหน้าล่าสุดในด้านการเรียนรู้ของเครื่องจักรแบบอัตโนมัติ (AutoML) ได้ขยายไปสู่ขอบเขตของการจัดกลุ่มข้อมูล โดยระบบได้รับการออกแบบให้เลือกเทคนิคการประมวลผลล่วงหน้า การแปลงคุณลักษณะ อัลกอริทึมการจัดกลุ่ม และกลยุทธ์การตรวจสอบความถูกต้องโดยอัตโนมัติโดยไม่ต้องมีการแทรกแซงจากมนุษย์ แตกต่างจากวิธีการจัดกลุ่มแบบดั้งเดิมที่อาศัยไปป์ไลน์ที่ตายตัวและการปรับแต่งด้วยตนเอง เฟรมเวิร์กการจัดกลุ่มแบบ AutoML จะค้นหาการกำหนดค่าที่มีประสิทธิภาพดีที่สุดแบบไดนามิกโดยอิงจากดัชนีการตรวจสอบความถูกต้องของการจัดกลุ่มภายใน (CVI) หรือเมตริกที่ไม่ต้องมีการกำกับดูแลอื่นๆ

การนำไปใช้ในพื้นที่นี้คือ TPOT-Clustering ^{[ 11 ]}ซึ่งเป็นส่วนขยายของ Tree-based Pipeline Optimization Tool (TPOT) ซึ่งทำให้กระบวนการสร้างไปป์ไลน์การจัดกลุ่มเป็นไปโดยอัตโนมัติโดยใช้การเขียนโปรแกรมเชิงพันธุกรรม TPOT-Clustering สำรวจการผสมผสานของการแปลงข้อมูล วิธีการลดมิติ อัลกอริทึมการจัดกลุ่ม (เช่น K-means, DBSCAN, Agglomerative Clustering) และฟังก์ชันการให้คะแนนเพื่อเพิ่มประสิทธิภาพการจัดกลุ่ม โดยใช้ประโยชน์จากอัลกอริทึมเชิงวิวัฒนาการเพื่อค้นหาพื้นที่ของไปป์ไลน์ที่เป็นไปได้ โดยใช้คะแนนภายใน เช่น silhouette หรือดัชนี Davies–Bouldinเพื่อเป็นแนวทางในกระบวนการเลือก

การใช้ AutoML สำหรับการจัดกลุ่มข้อมูลมีประโยชน์อย่างยิ่งในโดเมนที่โครงสร้างของข้อมูลไม่เป็นที่รู้จัก และการปรับแต่งด้วยตนเองทำได้ยากเนื่องจากมิติที่สูงหรือความซับซ้อนของพื้นที่คุณลักษณะ วิธีการเหล่านี้กำลังได้รับความนิยมในด้านต่างๆ เช่น การแบ่งส่วนภาพ การแบ่งส่วนลูกค้า และชีวสารสนเทศศาสตร์ ซึ่งข้อมูลเชิงลึกที่ไม่ต้องอาศัยการกำกับดูแลมีความสำคัญอย่างยิ่ง

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

อัลกอริทึมการจัดกลุ่มอัตโนมัติ

อิงตามจุดศูนย์กลาง

การจัดกลุ่มตามการเชื่อมต่อ (การจัดกลุ่มแบบลำดับชั้น)

อิงตามความหนาแน่น

AutoML สำหรับการจัดกลุ่ม

ข้อมูลสำคัญจากบทความ