กลับไปหน้าบทความ

อ่าน 2 นาที

สัมประสิทธิ์การจับคู่แบบง่าย

ค่า สัมประสิทธิ์การจับคู่แบบง่าย (SMC) หรือ ค่าสัมประสิทธิ์ความคล้ายคลึงของ Rand เป็น สถิติ ที่ใช้ในการเปรียบเทียบ ความคล้ายคลึง และ ความหลากหลาย ของชุด ตัวอย่าง [ 1 ]

สัมประสิทธิ์การจับคู่แบบง่าย

ค่าสัมประสิทธิ์การจับคู่แบบง่าย (SMC)หรือค่าสัมประสิทธิ์ความคล้ายคลึงของ Randเป็นสถิติที่ใช้ในการเปรียบเทียบความคล้ายคลึงและความหลากหลายของชุดตัวอย่าง[ 1 ]

เอ
01
บี0
1

เมื่อกำหนดวัตถุสองชิ้น คือ A และ B โดยแต่ละชิ้นมี คุณลักษณะไบนารี nรายการ SMC จะถูกนิยามดังนี้:

ที่ไหน

  • คือจำนวนรวมของแอตทริบิวต์ที่AและBมีค่าเป็น 0 ทั้งคู่
  • คือจำนวนรวมของแอตทริบิวต์ที่AและBมีค่าเท่ากับ 1 ทั้งคู่
  • คือจำนวนรวมของแอตทริบิวต์ที่Aมีค่าเป็น 0 และBมีค่าเป็น 1 และ
  • คือจำนวนรวมของแอตทริบิวต์ที่Aมีค่าเป็น 1 และBมีค่าเป็น 0

ระยะทางการจับคู่แบบง่าย (SMD)ซึ่งวัดความไม่เหมือนกันระหว่างชุดตัวอย่าง กำหนดโดย[ 2 ]

SMC มีความสัมพันธ์เชิงเส้นกับความคล้ายคลึงของ Hamann: . นอกจากนี้โดยที่คือระยะทางแบบยุคลิดกำลังสองระหว่างวัตถุสองชิ้น (เวกเตอร์ไบนารี) และnคือจำนวนคุณลักษณะ

SMC มีความคล้ายคลึงกับดัชนี Jaccard ที่ได้รับความนิยมมากกว่า ความแตกต่างหลักคือ SMC มีเทอมอยู่ในตัวเศษและตัวส่วน ในขณะที่ดัชนี Jaccard ไม่มี ดังนั้น SMC จึงนับทั้งการปรากฏร่วมกัน (เมื่อคุณลักษณะปรากฏอยู่ในทั้งสองชุด) และการไม่ปรากฏร่วมกัน (เมื่อคุณลักษณะไม่ปรากฏอยู่ในทั้งสองชุด) เป็นการจับคู่ และเปรียบเทียบกับจำนวนคุณลักษณะทั้งหมดในจักรวาล ในขณะที่ดัชนี Jaccard นับเฉพาะการปรากฏร่วมกันเป็นการจับคู่ และเปรียบเทียบกับจำนวนคุณลักษณะที่ถูกเลือกโดยอย่างน้อยหนึ่งชุดจากสองชุด

ในการวิเคราะห์ตะกร้าสินค้า ตัวอย่างเช่น ตะกร้าสินค้าของผู้บริโภคสองคนที่เราต้องการเปรียบเทียบอาจมีสินค้าเพียงส่วนน้อยของสินค้าทั้งหมดที่มีอยู่ในร้าน ดังนั้น SMC มักจะให้ค่าความคล้ายคลึงกันสูงมาก แม้ว่าตะกร้าสินค้าจะมีลักษณะคล้ายคลึงกันน้อยมากก็ตาม ทำให้ดัชนี Jaccard เป็นมาตรวัดความคล้ายคลึงกันที่เหมาะสมกว่าในบริบทนั้น ตัวอย่างเช่น พิจารณาซูเปอร์มาร์เก็ตที่มีสินค้า 1,000 รายการและลูกค้าสองคน ตะกร้าสินค้าของลูกค้าคนแรกมีเกลือและพริกไทย และตะกร้าสินค้าของลูกค้าคนที่สองมีเกลือและน้ำตาล ในสถานการณ์นี้ ความคล้ายคลึงกันระหว่างตะกร้าสินค้าทั้งสองที่วัดโดยดัชนี Jaccard จะเท่ากับ 1/3 แต่ความคล้ายคลึงกันจะกลายเป็น 0.998 เมื่อใช้ SMC

ในบริบทอื่นๆ ที่ 0 และ 1 มีข้อมูลที่เทียบเท่ากัน (สมมาตร) SMC จะเป็นมาตรวัดความคล้ายคลึงที่ดีกว่า ตัวอย่างเช่น เวกเตอร์ของตัวแปรทางประชากรศาสตร์ที่เก็บไว้ในตัวแปรดัมมีเช่น เพศแบบไบนารี จะเหมาะสมกว่าในการเปรียบเทียบกับ SMC มากกว่าดัชนี Jaccard เนื่องจากผลกระทบของเพศต่อความคล้ายคลึงควรเท่ากัน โดยไม่ขึ้นอยู่กับว่าเพศชายถูกกำหนดให้เป็น 0 และเพศหญิงเป็น 1 หรือในทางกลับกัน อย่างไรก็ตาม เมื่อเรามีตัวแปรดัมมีแบบสมมาตร เราสามารถจำลองพฤติกรรมของ SMC ได้โดยการแบ่งตัวแปรดัมมีออกเป็นสองคุณลักษณะแบบไบนารี (ในกรณีนี้คือ เพศชายและเพศหญิง) ซึ่งจะแปลงให้เป็นคุณลักษณะที่ไม่สมมาตร ทำให้สามารถใช้ดัชนี Jaccard ได้โดยไม่ก่อให้เกิดอคติใดๆ ด้วยเทคนิคนี้ ดัชนี Jaccard จึงถือได้ว่าทำให้ SMC เป็นมาตรวัดที่ซ้ำซ้อนอย่างสมบูรณ์ อย่างไรก็ตาม SMC ยังคงมีประสิทธิภาพในการคำนวณมากกว่าในกรณีของตัวแปรดัมมีแบบสมมาตร เนื่องจากไม่จำเป็นต้องเพิ่มมิติพิเศษ

ดัชนี Jaccard มีความทั่วไปมากกว่า SMC และสามารถใช้เปรียบเทียบข้อมูลประเภทอื่นนอกเหนือจากเวกเตอร์ของคุณลักษณะไบนารีได้ เช่นการวัดความน่าจะเป็น

ดูเพิ่มเติม

หมายเหตุ

  1. ^ "พอร์ตโฟลิโอการขุดข้อมูล "
  2. ^ "สัมประสิทธิ์การจับคู่แบบง่าย "
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Simple_matching_coefficient&oldid=1342375810 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สัมประสิทธิ์การจับคู่แบบง่าย

ค่า สัมประสิทธิ์การจับคู่แบบง่าย (SMC) หรือ ค่าสัมประสิทธิ์ความคล้ายคลึงของ Rand เป็น สถิติ ที่ใช้ในการเปรียบเทียบ ความคล้ายคลึง และ ความหลากหลาย ของชุด ตัวอย่าง [ 1 ]

หมายเหตุ

^ "พอร์ตโฟลิโอการขุดข้อมูล " ^ "สัมประสิทธิ์การจับคู่แบบง่าย " ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Simple_matching_coefficient&oldid=1342375810 "