อ่าน 6 นาที
เมดอยด์
เมดอยด์ คือวัตถุตัวแทนของ ชุดข้อมูล หรือ คลัสเตอร์ ภายในชุดข้อมูล ซึ่งผลรวมของความแตกต่างกับวัตถุทั้งหมดในคลัสเตอร์นั้นมีค่าน้อยที่สุด [ 1 ] เมดอยด์มีแนวคิดคล้ายกับ ค่าเฉลี่ย หรือ...
เมดอยด์
เมดอยด์คือวัตถุตัวแทนของชุดข้อมูลหรือคลัสเตอร์ภายในชุดข้อมูล ซึ่งผลรวมของความแตกต่างกับวัตถุทั้งหมดในคลัสเตอร์นั้นมีค่าน้อยที่สุด[ 1 ]เมดอยด์มีแนวคิดคล้ายกับค่าเฉลี่ยหรือเซนทรอยด์แต่เมดอยด์จะต้องเป็นสมาชิกของชุดข้อมูลเท่านั้น เมดอยด์มักใช้กับข้อมูลที่ไม่สามารถกำหนดค่าเฉลี่ยหรือเซนทรอยด์ได้ เช่น กราฟ นอกจากนี้ยังใช้ในบริบทที่เซนทรอยด์ไม่ได้เป็นตัวแทนของชุดข้อมูล เช่น ในภาพ วิถี 3 มิติ และ การแสดงออกของยีน[ 2 ] (ซึ่งในขณะที่ข้อมูลกระจัดกระจาย เมดอยด์ไม่จำเป็นต้องกระจัดกระจาย) สิ่งเหล่านี้ยังน่าสนใจเมื่อต้องการค้นหาตัวแทนโดยใช้ระยะทางอื่นที่ไม่ใช่ระยะทางแบบยุคลิดยกกำลังสอง (ตัวอย่างเช่น ในการให้คะแนนภาพยนตร์)
สำหรับชุดข้อมูลบางชุด อาจมีเมดอยด์มากกว่าหนึ่งตัว เช่นเดียวกับค่ามัธยฐาน การประยุกต์ใช้เมดอยด์ที่พบได้ทั่วไปคือ อัลกอริทึมการจัดกลุ่มแบบ k-medoidsซึ่งคล้ายกับ อัลกอริทึม k-meansแต่ใช้งานได้เมื่อไม่สามารถกำหนดค่าเฉลี่ยหรือจุดศูนย์กลางได้ อัลกอริทึมนี้ทำงานโดยพื้นฐานดังนี้ ขั้นแรก เลือกชุดเมดอยด์แบบสุ่ม ขั้นที่สอง คำนวณระยะห่างไปยังจุดอื่นๆ ขั้นที่สาม จัดกลุ่มข้อมูลตามเมดอยด์ที่คล้ายคลึงกันมากที่สุด ขั้นที่สี่ ปรับชุดเมดอยด์ให้เหมาะสมที่สุดผ่านกระบวนการวนซ้ำ
โปรดทราบว่า เมดอยด์ (medoid) ไม่เท่ากับค่ามัธยฐาน (median) ค่ามัธยฐานเชิงเรขาคณิต (geometric median ) หรือจุดศูนย์กลาง (centroid ) ค่า มัธยฐานนั้นกำหนดได้เฉพาะกับข้อมูล 1 มิติเท่านั้น และจะลดความแตกต่างจากจุดอื่นๆ ให้เหลือน้อยที่สุดสำหรับเมตริกที่กำหนดโดยบรรทัดฐาน (เช่นระยะทางแมนฮัตตันหรือระยะทางยูคลิด ) ในขณะ ที่ ค่ามัธยฐานเชิงเรขาคณิตกำหนดได้ในทุกมิติ แต่แตกต่างจากเมดอยด์ตรงที่มันไม่จำเป็นต้องเป็นจุดจากชุดข้อมูลดั้งเดิมเสมอไป
คำนิยาม
ให้เป็นเซตของจุดในปริภูมิ โดยมีฟังก์ชันระยะทาง d เมดอยด์ถูกนิยามว่า
การจัดกลุ่มด้วยเมดอยด์
เมดอยด์เป็นตัวเลือกที่นิยมใช้แทนค่าเฉลี่ยของกลุ่มเมื่อฟังก์ชันระยะทางไม่ใช่ระยะทางแบบยูคลิด (ยกกำลังสอง) หรือไม่ใช่เมตริก (เนื่องจากเมดอยด์ไม่จำเป็นต้องใช้เงื่อนไขอสมการสามเหลี่ยม ) เมื่อแบ่งชุดข้อมูลออกเป็นกลุ่ม เมดอยด์ของแต่ละกลุ่มสามารถใช้เป็นตัวแทนของแต่ละกลุ่มได้
อัลกอริทึมการจัดกลุ่มที่อิงตามแนวคิดของเมดอยด์ ได้แก่:
- การแบ่งกลุ่มรอบจุดศูนย์กลาง (Partitioning Around Medoids: PAM) ซึ่งเป็นอัลกอริธึมk-medoids มาตรฐาน
- การจัดกลุ่มแบบลำดับชั้นโดยใช้เมดอยด์ (HACAM) ซึ่งใช้เมดอยด์ในการจัดกลุ่มแบบลำดับชั้น
อัลกอริทึมในการคำนวณค่ามัธยฐานของเซต
จากคำจำกัดความข้างต้น เป็นที่ชัดเจนว่าสามารถคำนวณค่ามัธยฐานของเซตได้หลังจากคำนวณระยะทางแบบคู่ระหว่างจุดทั้งหมดในชุดข้อมูล ซึ่งจะใช้ การประเมินระยะทาง (ด้วย) ในกรณีที่แย่ที่สุด อาจไม่สามารถคำนวณค่ามัธยฐานได้ด้วยการประเมินระยะทางที่น้อยกว่า[ 3 ] [ 4 ]อย่างไรก็ตาม มีหลายแนวทางที่ช่วยให้เราสามารถคำนวณค่ามัธยฐานได้อย่างแม่นยำหรือโดยประมาณในเวลาต่ำกว่ากำลังสองภายใต้แบบจำลองทางสถิติที่แตกต่างกัน
ถ้าจุดอยู่บนเส้นจำนวนจริง การคำนวณค่ามัธยฐานจะลดลงเหลือเพียงการคำนวณค่ามัธยฐาน ซึ่งสามารถทำได้ด้วย อัลกอริทึม Quick-selectของ Hoare [ 5 ]อย่างไรก็ตาม ในพื้นที่จำนวนจริงที่มีมิติสูงกว่านั้น ยังไม่มีอัลกอริทึมแบบเชิงเส้นที่รู้จักRAND [ 6 ]เป็นอัลกอริทึมที่ประมาณระยะทางเฉลี่ยของแต่ละจุดไปยังจุดอื่นๆ ทั้งหมดโดยการสุ่มเลือกชุดย่อยแบบสุ่มของจุดอื่นๆ ต้องใช้ การคำนวณระยะทางทั้งหมดเพื่อประมาณค่ามัธยฐานภายในปัจจัยด้วยความน่าจะเป็นสูงโดยที่คือระยะทางสูงสุดระหว่างสองจุดในกลุ่ม โปรดทราบว่าRANDเป็นอัลกอริทึมการประมาณค่าและยิ่งไปกว่านั้น อาจไม่ทราบล่วงหน้า
RANDถูกนำมาใช้ประโยชน์โดย TOPRANK [ 7 ]ซึ่งใช้ค่าประมาณที่ได้จากRANDเพื่อมุ่งเน้นไปที่กลุ่มย่อยของจุดผู้สมัคร ประเมินระยะทางเฉลี่ยของจุดเหล่านี้อย่างแม่นยำและเลือกค่าต่ำสุดของจุดเหล่านั้นTOPRANKต้องการ การคำนวณระยะทางเพื่อค้นหา ค่ามัธยฐาน ที่แน่นอนด้วยความน่าจะเป็นสูงภายใต้สมมติฐานการกระจายตัวของระยะทางเฉลี่ย
trimed [ 3 ] นำเสนออัลกอริทึมเพื่อค้นหา medoid ด้วย การประเมินระยะทางภายใต้สมมติฐานการกระจายตัวของจุด อัลกอริทึมใช้ความไม่เท่าเทียมกันของสามเหลี่ยมเพื่อลดพื้นที่การค้นหา
Meddit [ 4 ]ใช้ประโยชน์จากการเชื่อมต่อของการคำนวณ medoid กับmulti-armed banditsและใช้อัลกอริทึมประเภทขอบเขตความเชื่อมั่นบนเพื่อให้ได้อัลกอริทึมที่ประเมินระยะทางภายใต้สมมติฐานทางสถิติเกี่ยวกับจุดต่างๆ
การลดครึ่งหนึ่งตามลำดับที่สัมพันธ์กัน[ 8 ]ยังใช้ประโยชน์จากเทคนิค multi-armed bandit เพื่อปรับปรุงMeddit ให้ดี ยิ่งขึ้น โดยการใช้ประโยชน์จากโครงสร้างความสัมพันธ์ในปัญหา อัลกอริทึมสามารถพิสูจน์ได้ว่าให้ผลลัพธ์ที่ดีขึ้นอย่างมาก (โดยปกติประมาณ 1-2 ลำดับขนาด) ทั้งในจำนวนการคำนวณระยะทางที่จำเป็นและเวลาจริง
การนำไปใช้
ตัวอย่างการใช้งานRAND , TOPRANKและtrimedสามารถดูได้ที่นี่ตัวอย่างการใช้งานMeddit สามารถดูได้ที่นี่และที่นี่ตัวอย่างการใช้งานCorrelated Sequential Halving สามารถดูได้ที่นี่
เมดอยด์ในข้อความและการประมวลผลภาษาธรรมชาติ (NLP)
เมดอยด์สามารถนำไปใช้กับงานข้อความและ NLP ต่างๆ เพื่อปรับปรุงประสิทธิภาพและความแม่นยำของการวิเคราะห์[ 9 ]ด้วยการจัดกลุ่มข้อมูลข้อความตามความคล้ายคลึงกัน เมดอยด์สามารถช่วยระบุตัวอย่างที่เป็นตัวแทนภายในชุดข้อมูล ซึ่งนำไปสู่ความเข้าใจและการตีความข้อมูลที่ดีขึ้น
การจัดกลุ่มข้อความ
การจัดกลุ่มข้อความคือกระบวนการจัดกลุ่มข้อความหรือเอกสารที่คล้ายคลึงกันเข้าด้วยกันโดยพิจารณาจากเนื้อหา อัลกอริทึมการจัดกลุ่มแบบเมดอยด์สามารถนำมาใช้เพื่อแบ่งข้อความจำนวนมากออกเป็นกลุ่ม โดยแต่ละกลุ่มจะถูกแทนด้วยเอกสารเมดอยด์ เทคนิคนี้ช่วยในการจัดระเบียบ สรุป และดึงข้อมูลจากชุดเอกสารขนาดใหญ่ เช่น ในเครื่องมือค้นหา การวิเคราะห์สื่อสังคมออนไลน์ และระบบแนะนำ[ 10 ]
การสรุปเนื้อหา
การสรุปข้อความมีเป้าหมายเพื่อสร้างบทสรุปที่กระชับและสอดคล้องกันของข้อความขนาดใหญ่โดยการดึงข้อมูลที่สำคัญและเกี่ยวข้องที่สุดออกมา การจัดกลุ่มตามค่ามัธยฐานสามารถใช้เพื่อระบุประโยคที่เป็นตัวแทนมากที่สุดในเอกสารหรือกลุ่มเอกสาร ซึ่งสามารถนำมารวมกันเพื่อสร้างบทสรุปได้ วิธีการนี้มีประโยชน์อย่างยิ่งสำหรับงานสรุปแบบดึงข้อมูล ซึ่งเป้าหมายคือการสร้างบทสรุปโดยการเลือกประโยคที่เกี่ยวข้องที่สุดจากข้อความต้นฉบับ[ 11 ]
การวิเคราะห์ความรู้สึก
การวิเคราะห์ความรู้สึกเกี่ยวข้องกับการกำหนดความรู้สึกหรืออารมณ์ที่แสดงออกในข้อความ เช่น บวก ลบ หรือเป็นกลาง การจัดกลุ่มตามค่ามัธยฐานสามารถนำมาใช้เพื่อจัดกลุ่มข้อมูลข้อความตามรูปแบบความรู้สึกที่คล้ายคลึงกัน โดยการวิเคราะห์ค่ามัธยฐานของแต่ละกลุ่ม นักวิจัยสามารถได้รับข้อมูลเชิงลึกเกี่ยวกับความรู้สึกที่เด่นชัดของกลุ่ม ซึ่งช่วยในงานต่างๆ เช่น การวิเคราะห์ความคิดเห็น การวิเคราะห์ข้อเสนอแนะของลูกค้า และการตรวจสอบสื่อสังคมออนไลน์[ 12 ]
การสร้างแบบจำลองหัวข้อ
การสร้างแบบจำลองหัวข้อเป็นเทคนิคที่ใช้ในการค้นหาหัวข้อเชิงนามธรรมที่เกิดขึ้นในชุดเอกสาร การจัดกลุ่มตามเมดอยด์สามารถนำไปใช้ในการจัดกลุ่มเอกสารที่มีธีมหรือหัวข้อที่คล้ายคลึงกัน โดยการวิเคราะห์เมดอยด์ของกลุ่มเหล่านี้ นักวิจัยสามารถเข้าใจหัวข้อพื้นฐานในคลังข้อความ ซึ่งช่วยอำนวยความสะดวกในงานต่างๆ เช่น การจัดหมวดหมู่เอกสาร การวิเคราะห์แนวโน้ม และการแนะนำเนื้อหา[ 13 ]
เทคนิคการวัดความคล้ายคลึงของข้อความในการจัดกลุ่มแบบเมดอยด์
เมื่อนำการจัดกลุ่มแบบเมดอยด์มาใช้กับข้อมูลข้อความ จำเป็นต้องเลือกมาตรวัดความคล้ายคลึง ที่เหมาะสม เพื่อเปรียบเทียบเอกสารอย่างมีประสิทธิภาพ แต่ละเทคนิคมีข้อดีและข้อจำกัด และการเลือกมาตรวัดความคล้ายคลึงควรขึ้นอยู่กับข้อกำหนดและลักษณะเฉพาะของข้อมูลข้อความที่กำลังวิเคราะห์[ 14 ]เทคนิคทั่วไปในการวัดความคล้ายคลึงของข้อความในการจัดกลุ่มแบบเมดอยด์มีดังต่อไปนี้:

ความคล้ายคลึงโคไซน์
ความคล้ายคลึงแบบโคไซน์เป็นการวัดที่ใช้กันอย่างแพร่หลายเพื่อเปรียบเทียบความคล้ายคลึงระหว่างข้อความสองส่วน โดยจะคำนวณค่าโคไซน์ของมุมระหว่างเวกเตอร์เอกสารสองเวกเตอร์ในพื้นที่มิติสูง[ 14 ]ค่าความคล้ายคลึงแบบโคไซน์อยู่ระหว่าง -1 ถึง 1 โดยค่าที่ใกล้ 1 มากขึ้นแสดงถึงความคล้ายคลึงที่สูงขึ้น และค่าที่ใกล้ -1 มากขึ้นแสดงถึงความคล้ายคลึงที่ต่ำลง โดยการแสดงภาพเส้นสองเส้นที่เริ่มต้นจากจุดกำเนิดและขยายไปยังจุดที่สนใจตามลำดับ จากนั้นวัดมุมระหว่างเส้นเหล่านี้ เราสามารถกำหนดความคล้ายคลึงระหว่างจุดที่เกี่ยวข้องได้ ความคล้ายคลึงแบบโคไซน์ได้รับผลกระทบจากความยาวของเอกสารน้อยกว่า ดังนั้นจึงอาจเหมาะสมกว่าในการสร้างเมดอยด์ที่เป็นตัวแทนของเนื้อหาของคลัสเตอร์มากกว่าความยาว
ความคล้ายคลึงของจาคาร์ด

ค่าความคล้ายคลึงแบบ Jaccard หรือที่รู้จักกันในชื่อสัมประสิทธิ์ Jaccard เป็นค่าที่ใช้วัดความคล้ายคลึงระหว่างชุดข้อมูลสองชุด โดยเปรียบเทียบอัตราส่วนของส่วนที่ซ้ำกันกับส่วนที่รวมกัน ในบริบทของข้อมูลข้อความ เอกสารแต่ละฉบับจะถูกแทนด้วยชุดคำ และค่าความคล้ายคลึงแบบ Jaccard จะคำนวณจากคำที่เหมือนกันระหว่างสองชุด ค่าความคล้ายคลึงแบบ Jaccard มีค่าอยู่ระหว่าง 0 ถึง 1 โดยค่าที่สูงกว่าแสดงถึงระดับความคล้ายคลึงที่สูงกว่าระหว่างเอกสาร
ระยะทางแบบยูคลิด

ระยะทางแบบยูคลิดเป็นเมตริกระยะทางมาตรฐานที่ใช้ในการวัดความแตกต่างระหว่างจุดสองจุดในพื้นที่หลายมิติ ในบริบทของข้อมูลข้อความ เอกสารมักจะถูกแสดงเป็นเวกเตอร์มิติสูง เช่น เวกเตอร์ TF และระยะทางแบบยูคลิดสามารถใช้ในการวัดความแตกต่างระหว่างเวกเตอร์เหล่านั้นได้ ระยะทางแบบยูคลิดที่ต่ำกว่าแสดงถึงความคล้ายคลึงกันระหว่างเอกสารที่สูงกว่า[ 14 ]การใช้ระยะทางแบบยูคลิดอาจส่งผลให้ได้เมดอยด์ที่แสดงถึงความยาวของเอกสารได้ดียิ่งขึ้น
แก้ไขระยะทาง
ระยะทางแก้ไข หรือที่รู้จักกันในชื่อระยะทาง Levenshteinวัดความคล้ายคลึงกันระหว่างสตริงสองสตริงโดยการคำนวณจำนวนการดำเนินการขั้นต่ำ (การแทรก การลบ หรือการแทนที่) ที่จำเป็นในการแปลงสตริงหนึ่งเป็นอีกสตริงหนึ่ง ในบริบทของข้อมูลข้อความ ระยะทางแก้ไขสามารถใช้เพื่อเปรียบเทียบความคล้ายคลึงกันระหว่างเอกสารข้อความสั้นหรือคำแต่ละคำ ระยะทางแก้ไขที่ต่ำกว่าบ่งชี้ถึงระดับความคล้ายคลึงกันที่สูงกว่าระหว่างสตริง[ 15 ]
การประยุกต์ใช้ Medoid ในแบบจำลองภาษาขนาดใหญ่
เมดอยด์สำหรับการวิเคราะห์การฝังแบบจำลองภาษาขนาดใหญ่

เมดอยด์สามารถนำมาใช้ในการวิเคราะห์และทำความเข้าใจ การแสดง พื้นที่เวกเตอร์ที่สร้างขึ้นโดยแบบจำลองภาษาขนาดใหญ่ (LLMs) เช่น BERT, GPT หรือ RoBERTa โดยการใช้การจัดกลุ่มตามเมดอยด์บนการฝังที่สร้างโดยแบบจำลองเหล่านี้สำหรับคำ วลี หรือประโยค นักวิจัยสามารถสำรวจความสัมพันธ์ทางความหมายที่ LLMs จับได้ แนวทางนี้สามารถช่วยระบุกลุ่มของเอนทิตีที่มีความหมายคล้ายคลึงกัน ซึ่งให้ข้อมูลเชิงลึกเกี่ยวกับโครงสร้างและการจัดระเบียบของพื้นที่ฝังมิติสูงที่สร้างขึ้นโดยแบบจำลองเหล่านี้[ 16 ]
เมดอยด์สำหรับการเลือกข้อมูลและการเรียนรู้เชิงรุก
การเรียนรู้เชิงรุกเกี่ยวข้องกับการเลือกจุดข้อมูลจากกลุ่มข้อมูลฝึกฝนที่จะเพิ่มประสิทธิภาพของโมเดลให้สูงสุด เมดอยด์สามารถมีบทบาทสำคัญในการเลือกข้อมูลและการเรียนรู้เชิงรุกด้วย LLM การจัดกลุ่มตามเมดอยด์สามารถใช้เพื่อระบุตัวอย่างที่เป็นตัวแทนและหลากหลายจากชุดข้อมูลข้อความขนาดใหญ่ ซึ่งสามารถนำมาใช้เพื่อปรับแต่ง LLM ให้มีประสิทธิภาพมากขึ้นหรือเพื่อสร้างชุดข้อมูลฝึกฝนที่ดีขึ้น การเลือกเมดอยด์เป็นตัวอย่างการฝึกฝน นักวิจัยอาจมีชุดข้อมูลฝึกฝนที่สมดุลและให้ข้อมูลมากขึ้น ซึ่งอาจช่วยปรับปรุงความสามารถในการสรุปผลและความแข็งแกร่งของโมเดลที่ได้รับการปรับแต่ง[ 17 ]
ค่ามัธยฐานสำหรับการตีความแบบจำลองและความปลอดภัย
การใช้เมดอยด์ในบริบทของ LLM สามารถช่วยปรับปรุงความสามารถในการตีความโมเดลได้ โดยการจัดกลุ่มการฝังข้อมูลที่สร้างโดย LLM และเลือกเมดอยด์เป็นตัวแทนของแต่ละกลุ่ม นักวิจัยสามารถให้บทสรุปที่ตีความได้ง่ายขึ้นเกี่ยวกับพฤติกรรมของโมเดล[ 18 ]แนวทางนี้สามารถช่วยในการทำความเข้าใจกระบวนการตัดสินใจของโมเดล ระบุอคติที่อาจเกิดขึ้น และเปิดเผยโครงสร้างพื้นฐานของการฝังข้อมูลที่สร้างโดย LLM เนื่องจากการอภิปรายเกี่ยวกับความสามารถในการตีความและความปลอดภัยของ LLM ยังคงเพิ่มขึ้นอย่างต่อเนื่อง การใช้เมดอยด์อาจเป็นเครื่องมือที่มีค่าสำหรับการบรรลุเป้าหมายนี้
การประยุกต์ใช้ในโลกแห่งความเป็นจริง
เมดอยด์เป็นวิธีการจัดกลุ่มข้อมูลอเนกประสงค์ที่สามารถนำไปประยุกต์ใช้กับปัญหาในโลกแห่งความเป็นจริงได้หลากหลายสาขา ตั้งแต่ชีววิทยาและการแพทย์ไปจนถึงการโฆษณาและการตลาด และเครือข่ายสังคม ความสามารถในการจัดการชุดข้อมูลที่ซับซ้อนด้วยระดับความซับซ้อนสูง ทำให้มันเป็นเครื่องมือที่มีประสิทธิภาพในด้านการวิเคราะห์ข้อมูลในยุคปัจจุบัน
การวิเคราะห์การแสดงออกของยีน
ในการวิเคราะห์การแสดงออกของยีน[ 19 ]นักวิจัยใช้เทคโนโลยีขั้นสูงที่ประกอบด้วยไมโครอาร์เรย์และการจัดลำดับ RNA เพื่อวัดระดับการแสดงออกของยีนจำนวนมากในตัวอย่างทางชีวภาพ ซึ่งส่งผลให้ได้ข้อมูลหลายมิติที่อาจซับซ้อนและวิเคราะห์ได้ยาก เมดอยด์เป็นวิธีแก้ปัญหาที่เป็นไปได้โดยการจัดกลุ่มยีนโดยพิจารณาจากโปรไฟล์การแสดงออกเป็นหลัก ทำให้นักวิจัยสามารถค้นพบกลุ่มยีนที่แสดงออกร่วมกันซึ่งอาจให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับกลไกโมเลกุลของกระบวนการทางชีวภาพและโรคต่างๆ
การวิเคราะห์เครือข่ายสังคม
สำหรับการประเมินเครือข่ายสังคม[ 20 ]เมดอยด์สามารถเป็นเครื่องมือที่ยอดเยี่ยมสำหรับการระบุโหนดศูนย์กลางหรือโหนดที่มีอิทธิพลในเครือข่ายสังคม นักวิจัยสามารถจัดกลุ่มโหนดตามรูปแบบการเชื่อมต่อและระบุโหนดที่มีแนวโน้มที่จะมีผลกระทบอย่างมากต่อการทำงานและโครงสร้างของเครือข่าย แนวทางที่นิยมใช้เมดอยด์ในการวิเคราะห์เครือข่ายสังคมคือการคำนวณเมตริกระยะทางหรือความคล้ายคลึงกันระหว่างคู่ของโหนดโดยพิจารณาจากคุณสมบัติของโหนดเหล่านั้น
การแบ่งส่วนตลาด
เมดอยด์ยังสามารถใช้สำหรับการแบ่งส่วนตลาดได้อีกด้วย[ 21 ]ซึ่งเป็นกระบวนการวิเคราะห์ที่รวมถึงการจัดกลุ่มลูกค้าโดยพิจารณาจากพฤติกรรมการซื้อ ลักษณะทางประชากร และคุณลักษณะอื่นๆ การจัดกลุ่มลูกค้าเป็นกลุ่มโดยใช้เมดอยด์ช่วยให้บริษัทต่างๆ สามารถปรับแต่งกลยุทธ์การโฆษณาและการตลาดให้สอดคล้องกับความต้องการของลูกค้าแต่ละกลุ่มได้ เมดอยด์ทำหน้าที่เป็นตัวแทนภายในแต่ละคลัสเตอร์ โดยรวบรวมลักษณะสำคัญของลูกค้าในกลุ่มนั้นๆ
ผลรวมกำลังสองของความคลาดเคลื่อนภายในกลุ่ม (Within-Groups Sum of Squared Error หรือ WGSS) เป็นสูตรที่ใช้ในการแบ่งส่วนตลาด โดยมีเป้าหมายเพื่อวัดความเข้มข้นของความคลาดเคลื่อนกำลังสองภายในกลุ่ม สูตรนี้พยายามจับภาพการกระจายตัวของความคลาดเคลื่อนภายในกลุ่มโดยการยกกำลังสองและรวมผลลัพธ์เข้าด้วยกัน ตัวชี้วัด WGSS วัดความเหนียวแน่นของกลุ่มตัวอย่างภายในกลุ่ม โดยกลุ่มที่แน่นแฟ้นกว่าจะมีค่า WGSS ต่ำกว่า และมีผลการจัดกลุ่มที่ดีกว่า สูตรสำหรับ WGSS คือ:
โดยที่คือระยะห่างเฉลี่ยของตัวอย่างภายใน คลัสเตอร์ที่ kและคือจำนวนตัวอย่างในคลัสเตอร์ที่ k
การตรวจจับความผิดปกติ
เมดอยด์ยังสามารถมีบทบาทสำคัญในการระบุความผิดปกติ และวิธีการที่มีประสิทธิภาพวิธีหนึ่งคือการตรวจจับความผิดปกติโดยใช้กลุ่มข้อมูล เมดอยด์สามารถใช้เพื่อค้นหากลุ่มข้อมูลที่เบี่ยงเบนอย่างมีนัยสำคัญจากข้อมูลส่วนที่เหลือ โดยการจัดกลุ่มข้อมูลโดยใช้เมดอยด์และเปรียบเทียบคุณสมบัติของแต่ละกลุ่มกับข้อมูล นักวิจัยสามารถตรวจจับกลุ่มข้อมูลที่ผิดปกติได้อย่างชัดเจน
ลิงก์ภายนอก
- วิดีโอ StatQuest k-meansถูกใช้เป็นข้อมูลอ้างอิงด้านภาพในส่วน#Visualization_of_the_medoid-based_clustering_process
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เมดอยด์
เมดอยด์ คือวัตถุตัวแทนของ ชุดข้อมูล หรือ คลัสเตอร์ ภายในชุดข้อมูล ซึ่งผลรวมของความแตกต่างกับวัตถุทั้งหมดในคลัสเตอร์นั้นมีค่าน้อยที่สุด [ 1 ] เมดอยด์มีแนวคิดคล้ายกับ ค่าเฉลี่ย หรือ...
คำนิยาม
ให้เป็นเซตของจุดในปริภูมิ โดยมี ฟังก์ชันระยะทาง d เมดอยด์ถูกนิยามว่า X := { x 1 , x 2 , … , x n } {\textstyle {\mathcal {X}}:=\{x_{1},x_{2},\dots ,x_{n}\}} n {\textstyle n}
การจัดกลุ่มด้วยเมดอยด์
เมดอยด์เป็นตัวเลือกที่นิยมใช้แทนค่าเฉลี่ยของกลุ่มเมื่อฟังก์ชันระยะทางไม่ใช่ระยะทางแบบยูคลิด (ยกกำลังสอง) หรือไม่ใช่ เมตริก (เนื่องจากเมดอยด์ไม่จำเป็นต้องใช้ เงื่อนไขอสมการสามเหลี่ยม ) เมื่อแบ่งชุดข้อมูลออกเป็นกลุ่ม...
อัลกอริทึมในการคำนวณค่ามัธยฐานของเซต
จากคำจำกัดความข้างต้น เป็นที่ชัดเจนว่าสามารถคำนวณค่ามัธยฐานของเซตได้หลังจากคำนวณระยะทางแบบคู่ระหว่างจุดทั้งหมดในชุดข้อมูล ซึ่งจะใช้ การประเมินระยะทาง (ด้วย) ในกรณีที่แย่ที่สุด อาจไม่สามารถคำนวณค่ามัธยฐานได้ด้วยการประเมินระยะทางที่น้อยกว่า [ 3 ] [ 4 ]...