การสกัดความสัมพันธ์

งาน การสกัดความสัมพันธ์นั้นเกี่ยวข้องกับการตรวจจับและการจำแนกความสัมพันธ์เชิงความหมายภายในชุดของสิ่งประดิษฐ์ซึ่งโดยทั่วไปมาจาก เอกสาร ข้อความหรือ เอกสาร XMLงานนี้คล้ายคลึงกับงานการสกัดข้อมูล (IE) มาก แต่ IE ยังต้องการการกำจัดความสัมพันธ์ที่ซ้ำซ้อน ( การขจัดความกำกวม ) และโดยทั่วไปหมายถึงการสกัดความสัมพันธ์ที่แตกต่างกันจำนวนมาก

แนวคิดและการประยุกต์ใช้

แนวคิดของการสกัดความสัมพันธ์ได้รับการนำเสนอครั้งแรกในการประชุม Message Understanding ครั้งที่ 7 ในปี 1998 ^{[ 1 ]}การสกัดความสัมพันธ์เกี่ยวข้องกับการระบุความสัมพันธ์ระหว่างเอนทิตี และโดยทั่วไปจะเน้นที่การสกัดความสัมพันธ์แบบไบนารี^{[ 2 ]}โดเมนการใช้งานที่การสกัดความสัมพันธ์มีประโยชน์ ได้แก่ ความสัมพันธ์ระหว่างยีนกับโรค^{[ 3 ]}ปฏิสัมพันธ์ระหว่างโปรตีนกับโปรตีน^{[ 4 ]}เป็นต้น

การศึกษาการสกัดความสัมพันธ์ในปัจจุบันใช้เทคโนโลยีการเรียนรู้ของเครื่อง ซึ่งเข้าถึงการสกัดความสัมพันธ์ในฐานะปัญหาการจำแนกประเภท^{[ 1 ]} Never-Ending Language Learningเป็นระบบ การเรียนรู้ของเครื่องเชิง ความหมาย ที่พัฒนาโดยทีมวิจัยที่มหาวิทยาลัย Carnegie Mellonซึ่งสกัดความสัมพันธ์จากเว็บเปิด

แนวทาง

มีหลายวิธีที่ใช้ในการแยกความสัมพันธ์ ซึ่งรวมถึงการสกัดความสัมพันธ์ตามข้อความ วิธีเหล่านี้อาศัยการใช้ข้อมูลโครงสร้างความสัมพันธ์ที่ได้รับการฝึกฝนล่วงหน้า หรืออาจเกี่ยวข้องกับการเรียนรู้โครงสร้างเพื่อเปิดเผยความสัมพันธ์^{[ 5 ]}อีกแนวทางหนึ่งในการแก้ปัญหานี้เกี่ยวข้องกับการใช้ออนโทโลยีโดเมน[ 6 ^{] [ 7}^{]นอกจากนี้}ยังมีแนวทางที่เกี่ยวข้องกับการตรวจจับความสัมพันธ์ที่มีความหมายในค่าพารามิเตอร์ของวัตถุที่แสดงอยู่ในตารางข้อมูลที่เปลี่ยนตำแหน่งเมื่อตารางถูกสลับตำแหน่งโดยอัตโนมัติตามที่ผู้ใช้ซอฟต์แวร์ควบคุม ความครอบคลุมที่ไม่ดี ความหายาก และต้นทุนการพัฒนาที่เกี่ยวข้องกับทรัพยากรที่มีโครงสร้าง เช่นพจนานุกรมเชิงความหมาย (เช่นWordNet , UMLS ) และออนโทโลยีโดเมน (เช่นGene Ontology ) ทำให้เกิดแนวทางใหม่ๆ ที่อิงตามความรู้พื้นฐานแบบไดนามิกที่กว้างขวางบนเว็บ ตัวอย่างเช่น เทคนิค ARCHILES ^{[ 8 ]}ใช้เพียง Wikipedia และจำนวนหน้าของเครื่องมือค้นหาเพื่อรับความสัมพันธ์แบบหยาบเพื่อสร้างออนโทโลยีที่มีน้ำหนักเบา

ความสัมพันธ์ต่างๆ สามารถแสดงได้โดยใช้รูปแบบ/ภาษาที่หลากหลาย หนึ่งในภาษาที่ใช้ในการแสดงข้อมูลบนเว็บคือ RDF

เมื่อไม่นานมานี้ มีการเสนอระบบแบบครบวงจรที่เรียนรู้ร่วมกันเพื่อแยกคำอ้างอิงของเอนทิตีและความสัมพันธ์เชิงความหมาย ซึ่งมีศักยภาพสูงในการบรรลุประสิทธิภาพสูง^{[ 9 ]}

^{ระบบที่รายงานส่วนใหญ่ได้แสดงวิธีการบนชุด ข้อมูล}ภาษาอังกฤษ อย่างไรก็ตาม มีการอธิบายข้อมูลและระบบสำหรับภาษาอื่นๆ เช่นรัสเซีย^{[ 10 ]} และเวียดนาม [ ^{11 ]}

ชุดข้อมูล

นักวิจัยได้สร้างชุดข้อมูลหลายชุดเพื่อใช้เป็นเกณฑ์มาตรฐานสำหรับวิธีการสกัดความสัมพันธ์^{[ 12 ]} ชุดข้อมูลหนึ่งดังกล่าวคือชุดข้อมูลการสกัดความสัมพันธ์ระดับเอกสารที่เรียกว่า DocRED ซึ่งเผยแพร่ในปี 2019 โดยใช้ความสัมพันธ์จากWikidataและข้อความจาก วิกิพีเดีย ภาษาอังกฤษ^{[ 12 ]} ชุดข้อมูลนี้ถูกนำไปใช้โดยนักวิจัยคนอื่นๆ และมีการจัดการแข่งขันการทำนายขึ้นที่CodaLab ^{[ 13 ]}^{[ 14 ]}

ดูเพิ่มเติม

[ 3 ]

[ 4 ]

[ 5 ]

] [ 7

]นอกจากนี้

[ 8 ]

[ 9 ]

ระบบที่รายงานส่วนใหญ่ได้แสดงวิธีการบนชุด ข้อมูล

[ 10 ]

[ 13 ]

[ 14 ]

การสกัดความสัมพันธ์

แนวคิดและการประยุกต์ใช้

แนวทาง

ชุดข้อมูล

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ