การจับคู่สคีมา

คำว่าการจับคู่สคีมา (schema matching)และการแมป (mapping ) มักถูกใช้สลับกันใน กระบวนการ ฐานข้อมูลในบทความนี้ เราจะแยกความแตกต่างระหว่างสองคำนี้ดังนี้: การจับ คู่สคีมา คือ กระบวนการระบุว่าวัตถุสองชิ้นมี ความสัมพันธ์กัน ทางความหมาย (ซึ่งเป็นขอบเขตของบทความนี้) ในขณะที่การแมปหมายถึงการแปลงระหว่างวัตถุเหล่านั้น ตัวอย่างเช่น ในสองสคีมา DB1.Student (ชื่อ, เลขประกันสังคม, ระดับ, สาขาวิชา, คะแนน) และ DB2.Grad-Student (ชื่อ, รหัสประจำตัว, สาขาวิชา, เกรด) การจับคู่ที่เป็นไปได้คือ: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID เป็นต้น และการแปลงหรือการแมปที่เป็นไปได้คือ: DB1.Marks ไปยัง DB2.Grades (100–90 A; 90–80 B เป็นต้น)

การทำให้กระบวนการทั้งสองนี้เป็นไปโดยอัตโนมัติถือเป็นหนึ่งในภารกิจพื้นฐานของการบูรณาการข้อมูลโดยทั่วไปแล้ว เป็นไปไม่ได้ที่จะกำหนดความสัมพันธ์ที่แตกต่างกันระหว่างสองสคีมาโดยอัตโนมัติอย่างสมบูรณ์ เนื่องจากความหมายที่แตกต่างกันและมักไม่ได้ระบุไว้หรือบันทึกไว้ในเอกสารของสองสคีมานั้น

อุปสรรค

ในบรรดาความท้าทายทั่วไปในการทำให้การจับคู่และการแมปเป็นไปโดยอัตโนมัติได้รับการจำแนกประเภทไว้ก่อนหน้านี้ใน^{[ 1 ]}โดยเฉพาะอย่างยิ่งสำหรับสคีมาฐานข้อมูลเชิงสัมพันธ์ และใน^{[ 2 ]} – รายการความแตกต่างที่ค่อนข้างครอบคลุมซึ่งไม่จำกัดเฉพาะแบบจำลองเชิงสัมพันธ์ที่รับรู้ถึงความแตกต่าง/ความไม่สม่ำเสมอของสคีมาเทียบกับความหมาย ความไม่สม่ำเสมอเหล่านี้ส่วนใหญ่เกิดขึ้นเนื่องจากสคีมาใช้การแสดงหรือคำจำกัดความที่แตกต่างกันเพื่อแสดงข้อมูลเดียวกัน (ความขัดแย้งของสคีมา) หรือการแสดงออก หน่วย และความแม่นยำที่แตกต่างกันส่งผลให้เกิดการแสดงข้อมูลที่ขัดแย้งกันของข้อมูลเดียวกัน (ความขัดแย้งของข้อมูล) ^{[ 1 ]} การวิจัยในการจับคู่สคีมาพยายามที่จะให้การสนับสนุนอัตโนมัติแก่กระบวนการค้นหาการจับคู่ความหมายระหว่างสองสคีมา กระบวนการนี้ทำได้ยากขึ้นเนื่องจากความไม่สม่ำเสมอในระดับต่อไปนี้^{[ 3 ]}

ความแตกต่างทางไวยากรณ์ – ความแตกต่างในภาษาที่ใช้ในการแสดงองค์ประกอบต่างๆ
ความไม่สม่ำเสมอเชิงโครงสร้าง – ความแตกต่างในประเภทและโครงสร้างขององค์ประกอบต่างๆ
ความแตกต่างในแบบจำลอง/รูปแบบการแสดงผล – ความแตกต่างในแบบจำลองพื้นฐาน (ฐานข้อมูล, ออนโทโลยี) หรือรูปแบบการแสดงผล (คู่คีย์-ค่า, เชิงสัมพันธ์, เอกสาร, XML, JSON , ทริปเปิล, กราฟ, RDF, OWL)
ความแตกต่างทางความหมาย – กรณีที่สิ่งเดียวกันในโลกแห่งความเป็นจริงถูกแทนด้วยคำศัพท์ที่แตกต่างกันหรือในทางกลับกัน

การจับคู่สคีมา

^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}

ระเบียบวิธีวิจัย

อภิปรายระเบียบวิธีทั่วไปสำหรับงานบูรณาการโครงสร้างหรือกิจกรรมที่เกี่ยวข้อง^{[ 5 ]}ตามที่ผู้เขียนระบุ สามารถมองเห็นการบูรณาการได้

การวิเคราะห์ก่อนการรวมระบบ — ก่อนการรวมระบบ จะมีการวิเคราะห์โครงสร้างข้อมูลเพื่อกำหนดนโยบายการรวมระบบ ซึ่งจะควบคุมการเลือกโครงสร้างข้อมูลที่จะรวมระบบ ลำดับการรวมระบบ และการกำหนดลำดับความสำคัญให้กับโครงสร้างข้อมูลทั้งหมดหรือบางส่วนของโครงสร้างข้อมูล
การเปรียบเทียบโครงสร้างข้อมูล — โครงสร้างข้อมูลจะถูกวิเคราะห์และเปรียบเทียบเพื่อหาความสอดคล้องกันระหว่างแนวคิดต่างๆ และตรวจจับความขัดแย้งที่อาจเกิดขึ้น คุณสมบัติระหว่างโครงสร้างข้อมูลอาจถูกค้นพบได้ในระหว่างการเปรียบเทียบโครงสร้างข้อมูล
การปรับโครงสร้างข้อมูลให้สอดคล้องกัน — เมื่อตรวจพบข้อขัดแย้ง จะมีการพยายามแก้ไขเพื่อให้สามารถรวมโครงสร้างข้อมูลต่างๆ เข้าด้วยกันได้
การรวมและการปรับโครงสร้าง — ขณะนี้โครงสร้างข้อมูลพร้อมที่จะนำมาซ้อนทับกันแล้ว ทำให้เกิดโครงสร้างข้อมูลแบบบูรณาการขั้นกลางขึ้นมา ผลลัพธ์ขั้นกลางจะถูกวิเคราะห์ และหากจำเป็น ก็จะปรับโครงสร้างใหม่เพื่อให้ได้คุณสมบัติที่พึงประสงค์หลายประการ

แนวทาง

แนวทางการบูรณาการสคีมาสามารถจำแนกได้กว้างๆ เป็นแนวทางที่ใช้ประโยชน์จากข้อมูลสคีมาเพียงอย่างเดียว หรือใช้ประโยชน์จากข้อมูลสคีมาและข้อมูลระดับอินสแตนซ์^{[ 4 ]}^{[ 5 ]}

ตัวจับคู่ระดับ Schemaจะพิจารณาเฉพาะข้อมูล Schema เท่านั้น ไม่ใช่ข้อมูลอินสแตนซ์ ข้อมูลที่มีอยู่ประกอบด้วยคุณสมบัติทั่วไปขององค์ประกอบ Schema เช่น ชื่อ คำอธิบาย ประเภทข้อมูล ประเภทความสัมพันธ์ (ส่วนหนึ่งของ เป็น เป็นต้น) ข้อจำกัด และโครงสร้าง Schema การทำงานที่ระดับองค์ประกอบ (องค์ประกอบพื้นฐาน เช่น แอตทริบิวต์ของอ็อบเจ็กต์) หรือระดับโครงสร้าง (การจับคู่ชุดองค์ประกอบที่ปรากฏร่วมกันในโครงสร้าง) คุณสมบัติเหล่านี้จะถูกใช้เพื่อระบุองค์ประกอบที่ตรงกันในสอง Schema ตัวจับคู่แบบใช้ภาษาหรือเชิงภาษาศาสตร์จะใช้ชื่อและข้อความ (เช่น คำหรือประโยค) เพื่อค้นหาองค์ประกอบ Schema ที่มีความหมายคล้ายกัน ตัวจับคู่แบบใช้ข้อจำกัดจะใช้ประโยชน์จากข้อจำกัดที่มักมีอยู่ใน Schema ข้อจำกัดดังกล่าวใช้เพื่อกำหนดประเภทข้อมูลและช่วงค่า ความเป็นเอกลักษณ์ ความเป็นทางเลือก ประเภทความสัมพันธ์ และจำนวนความสัมพันธ์ เป็นต้น ข้อจำกัดในสอง Schema อินพุตจะถูกจับคู่เพื่อกำหนดความคล้ายคลึงกันขององค์ประกอบ Schema

ตัวจับคู่ระดับอินสแตนซ์ใช้ข้อมูลระดับอินสแตนซ์เพื่อรวบรวมข้อมูลเชิงลึกที่สำคัญเกี่ยวกับเนื้อหาและความหมายขององค์ประกอบสคีมา โดยทั่วไปจะใช้ควบคู่กับการจับคู่ระดับสคีมาเพื่อเพิ่มความมั่นใจในผลลัพธ์การจับคู่ โดยเฉพาะอย่างยิ่งเมื่อข้อมูลที่มีอยู่ในระดับสคีมาไม่เพียงพอ ตัวจับคู่ในระดับนี้ใช้ลักษณะเฉพาะของอินสแตนซ์ตามหลักภาษาและข้อจำกัด ตัวอย่างเช่น การใช้เทคนิคทางภาษา อาจเป็นไปได้ที่จะพิจารณาอินสแตนซ์ Dept, DeptName และ EmpName เพื่อสรุปว่า DeptName เป็นผู้สมัครที่เหมาะสมกว่าสำหรับ Dept มากกว่า EmpName ข้อจำกัดเช่นรหัสไปรษณีย์ต้องมีความยาว 5 หลักหรือรูปแบบของหมายเลขโทรศัพท์อาจอนุญาตให้จับคู่ข้อมูลอินสแตนซ์ประเภทดังกล่าวได้^{[ 9 ]}

ตัวจับคู่แบบไฮบริดจะรวมวิธีการจับคู่หลายวิธีเข้าด้วยกันโดยตรงเพื่อกำหนดผู้สมัครจับคู่ตามเกณฑ์หรือแหล่งข้อมูลหลายแหล่ง เทคนิคเหล่านี้ส่วนใหญ่ยังใช้ข้อมูลเพิ่มเติม เช่น พจนานุกรม อรรถานุกรม และข้อมูลการจับคู่หรือไม่ตรงกันที่ผู้ใช้ให้มา^{[ 10 ]}

การนำข้อมูลการจับคู่กลับมาใช้ใหม่ อีกหนึ่งแนวทางคือการนำข้อมูลการจับคู่จากครั้งก่อนมาใช้เป็นข้อมูลเสริมสำหรับงานจับคู่ในอนาคต แรงจูงใจในการทำงานนี้คือโครงสร้างหรือโครงสร้างย่อยมักจะซ้ำกัน ตัวอย่างเช่น ในแบบแผนข้อมูลในโดเมนอีคอมเมิร์ซ อย่างไรก็ตาม การนำข้อมูลการจับคู่จากครั้งก่อนมาใช้ซ้ำนั้นจำเป็นต้องเลือกอย่างระมัดระวัง เป็นไปได้ว่าการนำมาใช้ซ้ำนั้นเหมาะสมเฉพาะกับบางส่วนของแบบแผนข้อมูลใหม่หรือเฉพาะในบางโดเมนเท่านั้น ตัวอย่างเช่น เงินเดือนและรายได้อาจถือว่าเหมือนกันในแอปพลิเคชันการจ่ายเงินเดือน แต่ไม่เหมือนกันในแอปพลิเคชันการรายงานภาษี มีความท้าทายหลายประการในการนำมาใช้ซ้ำดังกล่าวที่ยังไม่ได้รับการแก้ไข ซึ่งสมควรได้รับการศึกษาเพิ่มเติม

ตัวอย่างต้นแบบ โดยทั่วไป การนำเทคนิคการจับคู่ดังกล่าวไปใช้สามารถจำแนกได้เป็นระบบแบบใช้กฎหรือแบบใช้ผู้เรียน ลักษณะที่เสริมกันของแนวทางที่แตกต่างกันเหล่านี้ได้กระตุ้นให้เกิดแอปพลิเคชันจำนวนมากที่ใช้การผสมผสานเทคนิคต่างๆ ขึ้นอยู่กับลักษณะของโดเมนหรือแอปพลิเคชันที่กำลังพิจารณา^{[ 4 ]}^{[ 5 ]}

ความสัมพันธ์ที่ระบุไว้

ความสัมพันธ์ประเภทระหว่างวัตถุที่ระบุในตอนท้ายของกระบวนการจับคู่โดยทั่วไปจะเป็นความสัมพันธ์ที่มีความหมายที่กำหนดไว้ เช่น การทับซ้อน การแยกจากกัน การยกเว้น ความเท่าเทียมกัน หรือการครอบคลุม การเข้ารหัสเชิงตรรกะของความสัมพันธ์เหล่านี้คือสิ่งที่พวกมันหมายถึง ในบรรดาความพยายามในช่วงแรกๆ ในการใช้ตรรกะเชิงพรรณนาสำหรับการบูรณาการแบบแผนและการระบุความสัมพันธ์ดังกล่าวได้ถูกนำเสนอ^{[ 11 ]}เครื่องมือจับคู่ที่ทันสมัยหลายอย่างในปัจจุบัน^{[ 4 ]}^{[ 7 ]}และเครื่องมือที่ได้รับการเปรียบเทียบในโครงการริเริ่มการประเมินการจัดเรียงออนโทโลยี^{[ 12 ]}สามารถระบุการจับคู่แบบง่าย (การจับคู่ระดับองค์ประกอบ 1:1 / 1:n / n:1) และการจับคู่ที่ซับซ้อน (การจับคู่ระดับองค์ประกอบหรือโครงสร้าง n:1 / n:m) ระหว่างวัตถุได้มากมาย

การประเมินคุณภาพ

คุณภาพของการจับคู่แบบแผนมักวัดด้วยค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall ) โดยค่าความแม่นยำจะวัดจำนวนคู่ที่จับคู่ได้อย่างถูกต้องจากคู่ทั้งหมดที่ถูกจับคู่ ในขณะที่ค่าการเรียกคืนจะวัดว่ามีคู่ใดบ้างที่ถูกจับคู่ได้จริง

ดูเพิ่มเติม

ลิงก์ภายนอก

งานเริ่มต้นในการจับคู่แบบแผน

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

การจับคู่สคีมา

อุปสรรค

การจับคู่สคีมา

ระเบียบวิธีวิจัย

แนวทาง

ความสัมพันธ์ที่ระบุไว้

การประเมินคุณภาพ

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ