อ่าน 10 นาที
การสกัดความรู้
การสกัดความรู้ คือการสร้าง ความรู้ จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ , เอกสาร, รูปภาพ )...
การสกัดความรู้
การสกัดความรู้คือการสร้างความรู้จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ,เอกสาร, รูปภาพ ) ความรู้ที่ได้จะต้องอยู่ในรูปแบบที่เครื่องสามารถอ่านและตีความได้ และต้องแสดงความรู้ในลักษณะที่เอื้อต่อการอนุมาน แม้ว่าวิธีการจะคล้ายกับการสกัดข้อมูล ( NLP ) และETL (คลังข้อมูล) แต่เกณฑ์หลักคือผลลัพธ์ของการสกัดต้องเหนือกว่าการสร้างข้อมูลที่มีโครงสร้างหรือการแปลงเป็นสคีมาเชิงสัมพันธ์ต้องมีการนำความรู้ที่เป็นทางการ ที่มีอยู่แล้วมาใช้ซ้ำ (การใช้ตัวระบุหรือออนโทโลยีซ้ำ ) หรือการสร้างสคีมาโดยอิงจากข้อมูลต้นฉบับ
กลุ่ม RDB2RDF W3C [ 1 ]กำลังกำหนดมาตรฐานภาษาสำหรับการสกัดกรอบคำอธิบายทรัพยากร (RDF) จากฐานข้อมูลเชิงสัมพันธ์อีกตัวอย่างหนึ่งที่เป็นที่นิยมสำหรับการสกัดความรู้คือการแปลง Wikipedia ให้เป็นข้อมูลที่มีโครงสร้างและการจับคู่กับความรู้ ที่มีอยู่ (ดูDBpediaและFreebase )
ภาพรวม
หลังจากมีการกำหนดมาตรฐานภาษาสำหรับการแสดงความรู้ เช่นRDFและOWLแล้ว ก็มีการวิจัยมากมายในด้านนี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับการแปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF การระบุตัวตนการค้นพบความรู้และการเรียนรู้ออนโทโลยี กระบวนการโดยทั่วไปใช้วิธีการแบบดั้งเดิมจากการสกัดข้อมูลและการสกัด แปลง และโหลด (ETL) ซึ่งแปลงข้อมูลจากแหล่งที่มาให้เป็นรูปแบบที่มีโครงสร้าง ดังนั้นจึงจำเป็นต้องเข้าใจว่าข้อมูลเหล่านั้นมีปฏิสัมพันธ์และเรียนรู้ซึ่งกันและกันอย่างไร
เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่แนวทางในหัวข้อนี้ (บางเกณฑ์พิจารณาเฉพาะการสกัดจากฐานข้อมูลเชิงสัมพันธ์เท่านั้น): [ 2 ]
| แหล่งที่มา | แหล่งข้อมูลที่รองรับ: ข้อความ, ฐานข้อมูลเชิงสัมพันธ์, XML, CSV |
|---|---|
| นิทรรศการ | ความรู้ที่สกัดออกมานั้นถูกนำเสนออย่างชัดเจนได้อย่างไร (เช่น ไฟล์ออนโทโลยี ฐานข้อมูลเชิงความหมาย)? คุณจะสามารถสืบค้นข้อมูลเหล่านั้นได้อย่างไร? |
| การซิงโครไนซ์ | กระบวนการสกัดความรู้ดำเนินการเพียงครั้งเดียวเพื่อสร้างไฟล์ข้อมูล หรือผลลัพธ์จะซิงโครไนซ์กับแหล่งข้อมูลหรือไม่? เป็นแบบคงที่หรือแบบไดนามิก? การเปลี่ยนแปลงใดๆ ในผลลัพธ์จะถูกเขียนกลับเข้าไปหรือไม่ (แบบสองทิศทาง)? |
| การนำคำศัพท์กลับมาใช้ใหม่ | เครื่องมือนี้สามารถนำคำศัพท์ที่มีอยู่แล้วมาใช้ในการแยกข้อมูลได้ ตัวอย่างเช่น คอลัมน์ 'firstName' ในตารางสามารถแมปกับ foaf:firstName ได้ วิธีการอัตโนมัติบางวิธีไม่สามารถแมปคำศัพท์ได้ |
| ระบบอัตโนมัติ | ระดับการช่วยเหลือ/การทำงานอัตโนมัติในการสกัดข้อมูล: แบบแมนนวล, แบบ GUI, กึ่งอัตโนมัติ, อัตโนมัติ |
| ต้องใช้ออนโทโลยีโดเมน | จำเป็นต้องมีออนโทโลยีที่มีอยู่แล้วเพื่อใช้ในการจับคู่ ดังนั้นจึงต้องสร้างการจับคู่ขึ้นใหม่ หรือเรียนรู้สคีมาจากแหล่งข้อมูล ( การเรียนรู้ออนโทโลยี ) |
ตัวอย่าง
การเชื่อมโยงเอนทิตี
- DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, ExtractivและPoolParty Extractorวิเคราะห์ข้อความอิสระผ่านการจดจำเอนทิตีที่มีชื่อจากนั้นแยกความหมายของตัวเลือกผ่านการแก้ไขชื่อและเชื่อมโยงเอนทิตีที่พบไปยังคลังความรู้ของDBpedia [ 3 ] ( การสาธิต Dandelion dataTXT เก็บถาวรเมื่อ 2013-11-02 ที่Wayback Machineหรือการสาธิตเว็บ DBpedia Spotlightหรือการสาธิต PoolParty Extractor )
เมื่อวันพุธที่ผ่านมา ประธานาธิบดีโอบามาเรียกร้องให้รัฐสภาขยายเวลาการลดหย่อนภาษีสำหรับนักเรียนที่รวมอยู่ในมาตรการกระตุ้นเศรษฐกิจเมื่อปีที่แล้ว โดยให้เหตุผลว่านโยบายดังกล่าวให้ความช่วยเหลือที่เอื้อประโยชน์มากกว่า
- เนื่องจากประธานาธิบดีโอบามาเชื่อมโยงกับ แหล่ง ข้อมูล LinkedData ของ DBpedia จึงสามารถดึงข้อมูลเพิ่มเติมได้โดยอัตโนมัติ และตัวให้เหตุผลเชิงความหมาย (Semantic Reasoner)สามารถอนุมานได้ว่าเอนทิตีที่กล่าวถึงนั้นเป็นประเภทบุคคล (โดยใช้ซอฟต์แวร์ FOAF ) และเป็นประเภทประธานาธิบดีของสหรัฐอเมริกา (โดยใช้YAGO ) ตัวอย่างที่ตรงกันข้าม: วิธีการที่รู้จักเฉพาะเอนทิตีหรือเชื่อมโยงไปยังบทความวิกิพีเดียและเป้าหมายอื่นๆ ที่ไม่ได้ให้การดึงข้อมูลที่มีโครงสร้างและความรู้เชิงทางการเพิ่มเติม
ฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF
- Triplify , D2R Server, Ultrawrap ( เก็บถาวรเมื่อ 2016-11-27 ที่Wayback Machine)และVirtuoso RDF Views เป็นเครื่องมือที่แปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF ในระหว่างกระบวนการนี้ เครื่องมือเหล่านี้อนุญาตให้ใช้คำศัพท์และออนโทโลยี ที่มีอยู่แล้วซ้ำได้ ในระหว่างกระบวนการแปลง เมื่อแปลงตารางเชิงสัมพันธ์ทั่วไปที่ชื่อusersคอลัมน์หนึ่ง (เช่นname ) หรือการรวมคอลัมน์ (เช่นfirst_nameและlast_name ) จะต้องให้ URI ของเอนทิตีที่สร้างขึ้น โดยปกติจะใช้คีย์หลัก คอลัมน์อื่นๆ สามารถแยกออกมาเป็นความสัมพันธ์กับเอนทิตีนี้ได้[ 4 ]จากนั้นจะใช้ (และนำกลับมาใช้ใหม่) คุณสมบัติที่มีความหมายที่กำหนดไว้อย่างเป็นทางการเพื่อตีความข้อมูล ตัวอย่างเช่น คอลัมน์ในตารางผู้ใช้ที่ชื่อmarriedToสามารถกำหนดเป็นความสัมพันธ์แบบสมมาตร และคอลัมน์homepageสามารถแปลงเป็นคุณสมบัติจากคำศัพท์ FOAFที่ชื่อfoaf:homepageซึ่งทำให้มีคุณสมบัติเป็นคุณสมบัติเชิงฟังก์ชันผกผัน จากนั้น แต่ละรายการใน ตาราง ผู้ใช้สามารถสร้างเป็นอินสแตนซ์ของคลาสfoaf:Person (ประชากรในออนโทโลยี) ได้ นอกจากนี้ความรู้เฉพาะด้าน (ในรูปแบบของออนโทโลยี) สามารถสร้างขึ้นจากstatus_idได้ ไม่ว่าจะโดยกฎที่สร้างขึ้นด้วยตนเอง (ถ้าstatus_idคือ 2 รายการนั้นจะอยู่ในคลาส Teacher) หรือโดยวิธีการ (กึ่ง) อัตโนมัติ ( การเรียนรู้ออนโทโลยี ) นี่คือตัวอย่างการแปลง:
| ชื่อ | แต่งงานกับ | หน้าแรก | รหัสสถานะ |
|---|---|---|---|
| ปีเตอร์ | แมรี่ | https://example.org/Peters_page | 1 |
| คลอส | อีวา | https://example.org/Claus_page | 2 |
: ปีเตอร์: แต่งงานกับ: แมรี่. : แต่งงานกับนกฮูก: คุณสมบัติสมมาตร. : ปีเตอร์โฟฟ: หน้าแรก<https://example.org/Peters_page> . : ปีเตอร์อะโฟฟ: บุคคล. : ปีเตอร์อะ: นักเรียน. : คลอสอะ: ครู.การดึงข้อมูลจากแหล่งข้อมูลที่มีโครงสร้างไปยัง RDF
การจับคู่แบบ 1:1 จากตาราง/มุมมองในฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ไปยังเอนทิตี/แอตทริบิวต์/ค่าใน RDF
เมื่อสร้างแบบจำลองฐานข้อมูลเชิงสัมพันธ์ (RDBMS) สำหรับโดเมนปัญหา จุดเริ่มต้นมักจะเป็นแผนภาพความสัมพันธ์ระหว่างเอนทิตี (ERD) โดยทั่วไป เอนทิตีแต่ละตัวจะถูกแทนด้วยตารางในฐานข้อมูล คุณลักษณะแต่ละตัวของเอนทิตีจะกลายเป็นคอลัมน์ในตารางนั้น และความสัมพันธ์ระหว่างเอนทิตีจะแสดงด้วยคีย์ต่างประเทศ โดยทั่วไปแล้วแต่ละตารางจะกำหนดคลาสของเอนทิตีเฉพาะ และแต่ละคอลัมน์เป็นคุณลักษณะหนึ่งของคลาสนั้น แต่ละแถวในตารางจะอธิบายถึงอินสแตนซ์ของเอนทิตี ซึ่งระบุได้อย่างไม่ซ้ำกันด้วยคีย์หลัก แถวในตารางทั้งหมดจะอธิบายถึงเซตของเอนทิตี ในแบบจำลอง RDF ที่เทียบเท่ากันของเซตเอนทิตีเดียวกัน:
- แต่ละคอลัมน์ในตารางคือคุณลักษณะ (เช่น เงื่อนไข)
- ค่าในแต่ละคอลัมน์เป็นค่าแอตทริบิวต์ (เช่น อ็อบเจ็กต์)
- แต่ละคีย์แถวแสดงถึงรหัสประจำตัวของเอนทิตี (เช่น หัวข้อ)
- แต่ละแถวแสดงถึงอินสแตนซ์ของเอนทิตี
- แต่ละแถว (อินสแตนซ์ของเอนทิตี) จะถูกแทนด้วยชุดของสามส่วนที่มีหัวข้อร่วมกัน (รหัสเอนทิตี)
ดังนั้น เพื่อให้ได้มุมมองที่เทียบเท่ากันโดยอิงตามความหมายของ RDF อัลกอริทึมการแมปพื้นฐานจะเป็นดังนี้:
- สร้างคลาส RDFS สำหรับแต่ละตาราง
- แปลงคีย์หลักและคีย์รองทั้งหมดให้เป็น IRI
- กำหนด IRI ของเงื่อนไขให้กับแต่ละคอลัมน์
- กำหนดเงื่อนไข rdf:type ให้กับแต่ละแถว โดยเชื่อมโยงกับคลาส IRI ของ RDFS ที่สอดคล้องกับตาราง
- สำหรับแต่ละคอลัมน์ที่ไม่ใช่ส่วนหนึ่งของคีย์หลักหรือคีย์รอง ให้สร้างทริปเปิลที่มี IRI ของคีย์หลักเป็นประธาน IRI ของคอลัมน์เป็นภาคแสดง และค่าของคอลัมน์เป็นกรรม
การกล่าวถึงการแมปพื้นฐานหรือโดยตรงนี้ในยุคแรกๆ สามารถพบได้ใน การเปรียบเทียบ โมเดล ERกับโมเดล RDF ของTim Berners-Lee [ 4 ]
การแมปที่ซับซ้อนของฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF
การแมปแบบ 1:1 ที่กล่าวถึงข้างต้นจะเปิดเผยข้อมูลเดิมในรูปแบบ RDF อย่างตรงไปตรงมา การปรับปรุงเพิ่มเติมสามารถนำมาใช้เพื่อเพิ่มประโยชน์ของเอาต์พุต RDF ให้สอดคล้องกับกรณีการใช้งานที่กำหนด โดยปกติแล้ว ข้อมูลจะสูญหายไปในระหว่างการแปลงไดอะแกรมความสัมพันธ์ระหว่างเอนทิตี (ERD) ไปเป็นตารางเชิงสัมพันธ์ (รายละเอียดสามารถพบได้ในความไม่ตรงกันของอิมพีแดนซ์เชิงวัตถุ-ความสัมพันธ์ ) และต้องทำการวิศวกรรมย้อนกลับจากมุมมองเชิงแนวคิด แนวทางการสกัดสามารถมาจากสองทิศทาง ทิศทางแรกพยายามสกัดหรือเรียนรู้สคีมา OWL จากสคีมาฐานข้อมูลที่กำหนด แนวทางในยุคแรกใช้กฎการแมปที่สร้างขึ้นด้วยตนเองจำนวนคงที่เพื่อปรับปรุงการแมปแบบ 1:1 [ 5 ] [ 6 ] [ 7 ]วิธีการที่ซับซ้อนกว่านั้นใช้ฮิวริสติกหรืออัลกอริธึมการเรียนรู้เพื่อสร้างข้อมูลเชิงโครงร่าง (วิธีการเหล่านี้ทับซ้อนกับการเรียนรู้ออนโทโลยี ) ในขณะที่บางแนวทางพยายามดึงข้อมูลจากโครงสร้างที่มีอยู่ในสคีมา SQL [ 8 ] (เช่น การวิเคราะห์คีย์ต่างประเทศ) แนวทางอื่นๆ จะวิเคราะห์เนื้อหาและค่าในตารางเพื่อสร้างลำดับชั้นเชิงแนวคิด[ 9 ] (เช่น คอลัมน์ที่มีค่าน้อยเป็นตัวเลือกที่จะกลายเป็นหมวดหมู่) แนวทางที่สองพยายามแมปสคีมาและเนื้อหาเข้ากับออนโทโลยีโดเมนที่มีอยู่ก่อนแล้ว (ดูเพิ่มเติม: การจัดเรียงออนโทโลยี ) อย่างไรก็ตาม บ่อยครั้งที่ออนโทโลยีโดเมนที่เหมาะสมไม่มีอยู่และต้องสร้างขึ้นก่อน
อีเอ็มแอลอี
เนื่องจาก XML มีโครงสร้างเป็นแบบต้นไม้ ข้อมูลใดๆ ก็สามารถแสดงในรูปแบบ RDF ได้อย่างง่ายดาย เนื่องจาก RDF มีโครงสร้างเป็นแบบกราฟXML2RDFเป็นตัวอย่างหนึ่งของวิธีการที่ใช้โหนดว่างของ RDF และแปลงองค์ประกอบและแอตทริบิวต์ของ XML ไปเป็นคุณสมบัติของ RDF อย่างไรก็ตาม หัวข้อนี้มีความซับซ้อนมากขึ้นในกรณีของฐานข้อมูลเชิงสัมพันธ์ ในตารางเชิงสัมพันธ์ คีย์หลักเป็นตัวเลือกที่เหมาะสมที่จะเป็นหัวข้อของไตรเพิลที่แยกออกมา แต่ในทางกลับกัน องค์ประกอบ XML สามารถแปลงได้ ขึ้นอยู่กับบริบท ให้เป็นหัวข้อ ภาคแสดง หรือกรรมของไตรเพิลได้XSLTสามารถใช้เป็นภาษาการแปลงมาตรฐานเพื่อแปลง XML เป็น RDF ด้วยตนเองได้
การสำรวจวิธีการ/เครื่องมือ
| ชื่อ | แหล่งข้อมูล | การนำเสนอข้อมูล | การซิงโครไนซ์ข้อมูล | ภาษาแผนที่ | การนำคำศัพท์กลับมาใช้ใหม่ | การสร้างแผนที่อัตโนมัติ | ออนโทโลยีโดเมนที่จำเป็น | ใช้ GUI |
|---|---|---|---|---|---|---|---|---|
| การแมปข้อมูลเชิงสัมพันธ์ไปยัง RDF โดยตรง | ข้อมูลเชิงสัมพันธ์ | SPARQL/ETL | พลวัต | ไม่มีข้อมูล | เท็จ | อัตโนมัติ | เท็จ | เท็จ |
| CSV2RDF4LOD | ซีเอสวี | อีทีแอล | คงที่ | อาร์ดีเอฟ | จริง | คู่มือ | เท็จ | เท็จ |
| CoNLL-RDF | ทีเอสวี, โคเอ็นแอลแอล | สตรีม SPARQL/RDF | คงที่ | ไม่มี | จริง | อัตโนมัติ (เฉพาะด้าน สำหรับกรณีการใช้งานในเทคโนโลยีภาษา จะรักษาความสัมพันธ์ระหว่างแถว) | เท็จ | เท็จ |
| คอนเวอร์ท2อาร์ดีเอฟ | ไฟล์ข้อความที่คั่นด้วยตัวคั่น | อีทีแอล | คงที่ | อาร์ดีเอฟ/ดีเอ็มแอล | จริง | คู่มือ | เท็จ | จริง |
| เซิร์ฟเวอร์ D2R | อาร์ดีบี | สปาร์คิวแอล | สองทิศทาง | แผนที่ D2R | จริง | คู่มือ | เท็จ | เท็จ |
| ดาร์ทกริด | อาร์ดีบี | ภาษาการสอบถามของตนเอง | พลวัต | เครื่องมือภาพ | จริง | คู่มือ | เท็จ | จริง |
| ดาต้ามาสเตอร์ | อาร์ดีบี | อีทีแอล | คงที่ | กรรมสิทธิ์ | จริง | คู่มือ | จริง | จริง |
| ส่วนขยาย RDF ของ Google Refine | CSV, XML | อีทีแอล | คงที่ | ไม่มี | กึ่งอัตโนมัติ | เท็จ | จริง | |
| เคร็กซ์เตอร์ | อีเอ็มแอลอี | อีทีแอล | คงที่ | เอ็กซ์แอลที | จริง | คู่มือ | จริง | เท็จ |
| มาปอนโต | อาร์ดีบี | อีทีแอล | คงที่ | กรรมสิทธิ์ | จริง | คู่มือ | จริง | เท็จ |
| การเปลี่ยนแปลงรูปร่าง | อาร์ดีบี | อีทีแอล | คงที่ | ภาษาการแมปข้อมูลแบบ XML ที่เป็นกรรมสิทธิ์ | จริง | คู่มือ | เท็จ | จริง |
| แมปปิ้งมาสเตอร์ | ซีเอสวี | อีทีแอล | คงที่ | แมปปิ้งมาสเตอร์ | จริง | อินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) | เท็จ | จริง |
| โอดีแมปสเตอร์ | อาร์ดีบี | อีทีแอล | คงที่ | กรรมสิทธิ์ | จริง | คู่มือ | จริง | จริง |
| ปลั๊กอินนำเข้าไฟล์ CSV ของ OntoWiki - DataCube และ Tabular | ซีเอสวี | อีทีแอล | คงที่ | คำศัพท์ของ RDF Data Cube | จริง | กึ่งอัตโนมัติ | เท็จ | จริง |
| Poolparty Extraktor (PPX) | XML, ข้อความ | ลิงก์ดาต้า | พลวัต | อาร์ดีเอฟ (สโกส) | จริง | กึ่งอัตโนมัติ | จริง | เท็จ |
| RDBToOnto | อาร์ดีบี | อีทีแอล | คงที่ | ไม่มี | เท็จ | แม้ว่าจะทำงานโดยอัตโนมัติ แต่ผู้ใช้ยังมีโอกาสปรับแต่งผลลัพธ์ได้เพิ่มเติมอีกด้วย | เท็จ | จริง |
| อาร์ดีเอฟ 123 | ซีเอสวี | อีทีแอล | คงที่ | เท็จ | เท็จ | คู่มือ | เท็จ | จริง |
| อาร์โดท | อาร์ดีบี | อีทีแอล | คงที่ | คำสั่ง SQL | จริง | คู่มือ | จริง | จริง |
| ความสัมพันธ์.OWL | อาร์ดีบี | อีทีแอล | คงที่ | ไม่มี | เท็จ | อัตโนมัติ | เท็จ | เท็จ |
| ที2แอลดี | ซีเอสวี | อีทีแอล | คงที่ | เท็จ | เท็จ | อัตโนมัติ | เท็จ | เท็จ |
| คำศัพท์ของ RDF Data Cube | ข้อมูลสถิติหลายมิติในสเปรดชีต | คำศัพท์เกี่ยวกับ Data Cube | จริง | คู่มือ | เท็จ | |||
| ท็อปเบรด คอมโพเซอร์ | ซีเอสวี | อีทีแอล | คงที่ | สโกส | เท็จ | กึ่งอัตโนมัติ | เท็จ | จริง |
| ทริปพลีฟี่ | อาร์ดีบี | ลิงก์ดาต้า | พลวัต | คำสั่ง SQL | จริง | คู่มือ | เท็จ | เท็จ |
| Ultrawrap ถูกเก็บถาวรเมื่อวันที่ 27 พฤศจิกายน 2016 ที่Wayback Machine | อาร์ดีบี | SPARQL/ETL | พลวัต | อาร์2อาร์เอ็มแอล | จริง | กึ่งอัตโนมัติ | เท็จ | จริง |
| มุมมองของ Virtuoso RDF | อาร์ดีบี | สปาร์คิวแอล | พลวัต | ภาษาเมตาสคีมา | จริง | กึ่งอัตโนมัติ | เท็จ | จริง |
| นักสปองจ์มือฉมัง | แหล่งข้อมูลที่มีโครงสร้างและกึ่งโครงสร้าง | สปาร์คิวแอล | พลวัต | Virtuoso PL & XSLT | จริง | กึ่งอัตโนมัติ | เท็จ | เท็จ |
| วิสเอวิส | อาร์ดีบี | อาร์ดีคิวแอล | พลวัต | คำสั่ง SQL | จริง | คู่มือ | จริง | จริง |
| XLWrap: แปลงสเปรดชีตเป็น RDF | ซีเอสวี | อีทีแอล | คงที่ | ไวยากรณ์ TriG | จริง | คู่มือ | เท็จ | เท็จ |
| XML เป็น RDF | อีเอ็มแอลอี | อีทีแอล | คงที่ | เท็จ | เท็จ | อัตโนมัติ | เท็จ | เท็จ |
การสกัดจากแหล่งข้อมูลภาษาธรรมชาติ
ข้อมูลส่วนใหญ่ในเอกสารทางธุรกิจ (ประมาณ 80% [ 10 ] ) ถูกเข้ารหัสด้วยภาษาธรรมชาติและจึงไม่มีโครงสร้าง เนื่องจากข้อมูลที่ไม่มีโครงสร้างเป็นความท้าทายสำหรับการสกัดความรู้ จึงจำเป็นต้องใช้วิธีการที่ซับซ้อนมากขึ้น ซึ่งโดยทั่วไปแล้วมักจะให้ผลลัพธ์ที่แย่กว่าเมื่อเทียบกับข้อมูลที่มีโครงสร้าง อย่างไรก็ตาม ศักยภาพในการได้มาซึ่งความรู้ที่สกัดออกมาจำนวนมากควรจะชดเชยความซับซ้อนที่เพิ่มขึ้นและคุณภาพของการสกัดที่ลดลง ในส่วนต่อไปนี้ แหล่งข้อมูลภาษาธรรมชาติจะถูกเข้าใจว่าเป็นแหล่งข้อมูล โดยที่ข้อมูลนั้นอยู่ในรูปแบบที่ไม่มีโครงสร้างเป็นข้อความธรรมดา หากข้อความที่ให้มานั้นถูกฝังอยู่ในเอกสารมาร์กอัป (เช่น เอกสาร HTML) ระบบที่กล่าวถึงมักจะลบองค์ประกอบมาร์กอัปออกโดยอัตโนมัติ
การระบุข้อมูลทางภาษา / การประมวลผลภาษาธรรมชาติ (NLP)
ในขั้นตอนการเตรียมข้อมูลก่อนการสกัดความรู้ อาจจำเป็นต้องทำการระบุคำอธิบายทางภาษาโดยใช้ เครื่องมือ NLP หนึ่งตัวหรือหลายตัว โดยปกติแล้วแต่ละโมดูลในเวิร์กโฟลว์ NLP จะสร้างขึ้นบนรูปแบบเฉพาะของเครื่องมือสำหรับข้อมูลเข้าและข้อมูลออก แต่ในบริบทของการสกัดความรู้ ได้มีการประยุกต์ใช้รูปแบบที่มีโครงสร้างสำหรับการแสดงคำอธิบายทางภาษา
งาน NLP ทั่วไปที่เกี่ยวข้องกับการสกัดความรู้ ได้แก่:
- การระบุส่วนของคำพูด (POS)
- การหาคำหลัก (LEMMA) หรือการหารากศัพท์ (STEM)
- การแยกแยะความหมายของคำ (WSD ซึ่งเกี่ยวข้องกับการระบุความหมายด้านล่าง)
- การระบุเอนทิตีที่มีชื่อ (NER, ดู IE ด้านล่างด้วย)
- การวิเคราะห์ไวยากรณ์ โดยมักใช้การพึ่งพาทางไวยากรณ์ (DEP)
- การแยกวิเคราะห์ไวยากรณ์แบบตื้น (CHUNK): หากประสิทธิภาพเป็นสิ่งสำคัญ การแยกวิเคราะห์แบบ CHUNK จะช่วยให้สามารถแยกคำนามและวลีอื่นๆ ได้อย่างรวดเร็ว
- การแก้ปัญหาการอ้างอิงคำสรรพนาม (ดูการแก้ปัญหาการอ้างอิงร่วมในภาษาอินโด-ยุโรปด้านล่าง แต่ในที่นี้มองว่าเป็นงานในการสร้างความเชื่อมโยงระหว่างการกล่าวถึงในข้อความ แทนที่จะเป็นการเชื่อมโยงระหว่างการกล่าวถึงสิ่งใดสิ่งหนึ่งกับการแสดงแทนเชิงนามธรรมของสิ่งนั้น)
- การติดป้ายบทบาททางความหมาย (SRL ซึ่งเกี่ยวข้องกับการสกัดความสัมพันธ์ ไม่ควรสับสนกับการระบุความหมายตามที่อธิบายไว้ด้านล่าง)
- การวิเคราะห์ความสัมพันธ์ระหว่างประโยค (ความสัมพันธ์ระหว่างประโยคต่างๆ ซึ่งไม่ค่อยได้ใช้ในสถานการณ์จริง)
ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ข้อมูลดังกล่าวโดยทั่วไปจะถูกแสดงในรูปแบบ TSV (รูปแบบ CSV ที่ใช้แท็บเป็นตัวคั่น) ซึ่งมักเรียกว่ารูปแบบ CoNLL สำหรับเวิร์กโฟลว์การสกัดความรู้ มุมมอง RDF บนข้อมูลดังกล่าวได้รับการสร้างขึ้นตามมาตรฐานชุมชนดังต่อไปนี้:
- รูปแบบการแลกเปลี่ยน NLP (NIF สำหรับคำอธิบายประกอบประเภทที่ใช้บ่อยหลายประเภท) [ 11 ] [ 12 ]
- การใส่คำอธิบายประกอบเว็บ (WA ซึ่งมักใช้สำหรับการเชื่อมโยงเอนทิตี) [ 13 ]
- CoNLL-RDF (สำหรับคำอธิบายประกอบที่แสดงในรูปแบบ TSV เดิม) [ 14 ] [ 15 ]
รูปแบบอื่นๆ ที่เฉพาะเจาะจงสำหรับแต่ละแพลตฟอร์ม ได้แก่
- รูปแบบการแลกเปลี่ยน LAPPS (LIF ซึ่งใช้ใน LAPPS Grid) [ 16 ] [ 17 ]
- รูปแบบคำอธิบายประกอบ NLP (NAF ซึ่งใช้ในระบบจัดการเวิร์กโฟลว์ NewsReader) [ 18 ] [ 19 ]
การสกัดข้อมูลแบบดั้งเดิม (IE)
การสกัดข้อมูลแบบดั้งเดิม[ 20 ]เป็นเทคโนโลยีการประมวลผลภาษาธรรมชาติ ซึ่งสกัดข้อมูลจากข้อความภาษาธรรมชาติและจัดโครงสร้างข้อมูลเหล่านั้นในลักษณะที่เหมาะสม ประเภทของข้อมูลที่จะระบุจะต้องระบุไว้ในแบบจำลองก่อนเริ่มกระบวนการ ซึ่งเป็นเหตุผลว่าทำไมกระบวนการสกัดข้อมูลแบบดั้งเดิมทั้งหมดจึงขึ้นอยู่กับโดเมน การสกัดข้อมูลแบ่งออกเป็นห้างานย่อยดังต่อไปนี้
- การระบุเอนทิตีที่มีชื่อ (NER)
- การแก้ปัญหาการอ้างอิงร่วม (CO)
- การสร้างองค์ประกอบแม่แบบ (TE)
- การสร้างความสัมพันธ์แบบแม่แบบ (TR)
- การสร้างสถานการณ์จำลองตามแม่แบบ (ST)
หน้าที่ของการระบุชื่อเฉพาะ (Named Entity Recognition: NENT)คือการระบุและจัดหมวดหมู่ชื่อเฉพาะทั้งหมดที่ปรากฏอยู่ในข้อความ (การกำหนดชื่อเฉพาะให้กับหมวดหมู่ที่กำหนดไว้ล่วงหน้า) ซึ่งทำได้โดยการประยุกต์ใช้วิธีการตามหลักไวยากรณ์หรือแบบจำลองทางสถิติ
การแก้ปัญหาการอ้างอิงร่วม (Coreference resolution) ระบุเอนทิตีที่เทียบเท่ากัน ซึ่งได้รับการยอมรับโดย NER ภายในข้อความ มีความสัมพันธ์ที่เทียบเท่ากันสองประเภทที่เกี่ยวข้อง ประเภทแรกเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีที่แสดงต่างกันสองเอนทิตี (เช่น IBM Europe และ IBM) และประเภทที่สองเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีกับการอ้างอิงแบบอนาโฟริก (เช่น it และ IBM) ทั้งสองประเภทนี้สามารถรับรู้ได้โดยการแก้ปัญหาการอ้างอิงร่วม
ในระหว่างการสร้างองค์ประกอบแม่แบบ ระบบ IE จะระบุคุณสมบัติเชิงพรรณนาของเอนทิตี ซึ่งได้รับการยอมรับโดย NER และ CO คุณสมบัติเหล่านี้สอดคล้องกับคุณลักษณะทั่วไป เช่น สีแดง หรือ ขนาดใหญ่
การสร้างความสัมพันธ์ในเทมเพลตจะระบุความสัมพันธ์ที่มีอยู่ระหว่างองค์ประกอบของเทมเพลต ความสัมพันธ์เหล่านี้อาจมีหลายประเภท เช่น ทำงานให้ หรือ ตั้งอยู่ใน โดยมีข้อจำกัดว่าทั้งโดเมนและช่วงต้องสอดคล้องกับเอนทิตี
ในสถานการณ์จำลองตามแม่แบบ เหตุการณ์การผลิตซึ่งอธิบายไว้ในข้อความ จะถูกระบุและจัดโครงสร้างโดยสัมพันธ์กับเอนทิตีที่รู้จักโดย NER และ CO และความสัมพันธ์ที่ระบุโดย TR
การสกัดข้อมูลโดยใช้ระบบออนโทโลยี (OBIE)
การสกัดข้อมูลตามออนโทโลยี[ 10 ]เป็นสาขาย่อยของการสกัดข้อมูล โดย ใช้ ออนโทโลยี อย่างน้อยหนึ่ง รายการเพื่อชี้นำกระบวนการสกัดข้อมูลจากข้อความภาษาธรรมชาติ ระบบ OBIE ใช้วิธีการสกัดข้อมูลแบบดั้งเดิมเพื่อระบุแนวคิดตัวอย่าง และความสัมพันธ์ของออนโทโลยีที่ใช้ในข้อความ ซึ่งจะถูกจัดโครงสร้างเป็นออนโทโลยีหลังจากกระบวนการ ดังนั้น ออนโทโลยีที่ป้อนเข้ามาจึงเป็นแบบจำลองของข้อมูลที่จะสกัด[ 21 ]
การเรียนรู้ออนโทโลยี (OL)
การเรียนรู้ออนโทโลยีคือการสร้างออนโทโลยีโดยอัตโนมัติหรือกึ่งอัตโนมัติ ซึ่งรวมถึงการสกัดคำศัพท์เฉพาะด้านจากข้อความภาษาธรรมชาติ เนื่องจากการสร้างออนโทโลยีด้วยตนเองนั้นต้องใช้แรงงานและเวลามาก จึงมีแรงจูงใจอย่างยิ่งที่จะทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ
การใส่คำอธิบายความหมาย (SA)
ในระหว่างการระบุความหมาย[ 22 ]ข้อความภาษาธรรมชาติจะถูกเสริมด้วยเมตาเดตา (มักแสดงในRDFa ) ซึ่งควรทำให้ความหมายของคำที่อยู่ในนั้นสามารถเข้าใจได้ด้วยเครื่องจักร ในกระบวนการนี้ ซึ่งโดยทั่วไปเป็นแบบกึ่งอัตโนมัติ ความรู้จะถูกดึงออกมาในแง่ที่ว่ามีการสร้างลิงก์ระหว่างคำศัพท์และตัวอย่างเช่น แนวคิดจากออนโทโลยี ดังนั้นจึงได้รับความรู้ว่าความหมายของคำในบริบทที่ประมวลผลนั้นตั้งใจไว้ และด้วยเหตุนี้ความหมายของข้อความจึงอิงอยู่กับข้อมูลที่เครื่องจักรสามารถอ่านได้พร้อมความสามารถในการอนุมาน การระบุความหมายโดยทั่วไปจะแบ่งออกเป็นสองงานย่อยดังต่อไปนี้
ในระดับการสกัดคำศัพท์ คำศัพท์เฉพาะทางจะถูกสกัดออกมาจากข้อความ โดยขั้นตอนแรก ตัวแยกคำจะกำหนดขอบเขตของคำและแก้ไขคำย่อ จากนั้น คำจากข้อความที่สอดคล้องกับแนวคิดจะถูกสกัดออกมาโดยใช้พจนานุกรมเฉพาะด้าน เพื่อเชื่อมโยงคำเหล่านั้นเข้าด้วยกันในขั้นตอนการเชื่อมโยงเอนทิตี
ในการเชื่อมโยงเอนทิตี[ 23 ] จะมีการสร้าง การเชื่อมโยงระหว่างคำศัพท์ที่แยกออกมาจากข้อความต้นฉบับและแนวคิดจากออนโทโลยีหรือฐานความรู้ เช่นDBpedia เพื่อการนี้ จะมีการตรวจจับแนวคิดที่เป็นไปได้ให้เหมาะสมกับความหมายต่างๆ ของคำศัพท์โดยใช้พจนานุกรม สุดท้าย จะมีการวิเคราะห์บริบทของคำศัพท์เพื่อกำหนดการแยกความหมายที่เหมาะสมที่สุดและกำหนดคำศัพท์ให้กับแนวคิดที่ถูกต้อง
โปรดทราบว่า "การใส่คำอธิบายความหมาย" ในบริบทของการสกัดความรู้ ไม่ควรสับสนกับ " การวิเคราะห์ความหมาย"ตามที่เข้าใจในด้านการประมวลผลภาษาธรรมชาติ (ซึ่งเรียกอีกอย่างว่า "การใส่คำอธิบายความหมาย"): การวิเคราะห์ความหมายมีเป้าหมายเพื่อสร้างการแสดงภาษาธรรมชาติที่สมบูรณ์และเครื่องจักรสามารถอ่านได้ ในขณะที่การใส่คำอธิบายความหมายในแง่ของการสกัดความรู้จะจัดการเฉพาะแง่มุมพื้นฐานมาก ๆ เท่านั้น
เครื่องมือ
เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่เครื่องมือที่ดึงความรู้จากข้อความภาษาธรรมชาติได้
| แหล่งที่มา | เครื่องมือนี้รองรับรูปแบบข้อมูลใดบ้าง (เช่น ข้อความธรรมดา, HTML หรือ PDF)? |
| รูปแบบการเข้าถึง | เครื่องมือนี้สามารถสอบถามข้อมูลจากแหล่งข้อมูลได้โดยตรง หรือจำเป็นต้องดัมพ์ข้อมูลทั้งหมดเพื่อทำการดึงข้อมูลออกมา? |
| การซิงโครไนซ์ข้อมูล | ผลลัพธ์ของกระบวนการสกัดข้อมูลนั้นตรงกับแหล่งที่มาหรือไม่? |
| ใช้ออนโทโลยีเอาต์พุต | เครื่องมือนี้เชื่อมโยงผลลัพธ์กับออนโทโลยีหรือไม่ |
| ระบบอัตโนมัติในการทำแผนที่ | กระบวนการสกัดเป็นแบบอัตโนมัติมากน้อยแค่ไหน (แบบใช้มือ แบบกึ่งอัตโนมัติ หรือแบบอัตโนมัติ)? |
| ต้องใช้ออนโทโลยี | เครื่องมือนี้จำเป็นต้องใช้ออนโทโลยีสำหรับการดึงข้อมูลหรือไม่? |
| ใช้ GUI | เครื่องมือนี้มีอินเทอร์เฟซผู้ใช้แบบกราฟิกหรือไม่? |
| เข้าใกล้ | เครื่องมือนี้ใช้วิธีการใด (IE, OBIE, OL หรือ SA) |
| เอนทิตีที่แยกออกมา | เครื่องมือนี้สามารถดึงข้อมูลประเภทใดบ้าง (เช่น เอนทิตีที่มีชื่อ แนวคิด หรือความสัมพันธ์) |
| เทคนิคประยุกต์ | มีการนำเทคนิคใดมาใช้บ้าง (เช่น NLP, วิธีทางสถิติ, การจัดกลุ่ม หรือการเรียนรู้ของเครื่อง )? |
| แบบจำลองผลลัพธ์ | เครื่องมือนี้ใช้โมเดลใดในการแสดงผลลัพธ์ (เช่น RDF หรือ OWL)? |
| โดเมนที่รองรับ | รองรับสาขาใดบ้าง (เช่น เศรษฐศาสตร์ หรือ ชีววิทยา)? |
| ภาษาที่รองรับ | สามารถประมวลผลภาษาใดได้บ้าง (เช่น ภาษาอังกฤษหรือภาษาเยอรมัน)? |
ตารางต่อไปนี้แสดงลักษณะของเครื่องมือบางอย่างสำหรับการสกัดความรู้จากแหล่งข้อมูลภาษาธรรมชาติ
| ชื่อ | แหล่งที่มา | รูปแบบการเข้าถึง | การซิงโครไนซ์ข้อมูล | ใช้ออนโทโลยีเอาต์พุต | ระบบอัตโนมัติในการทำแผนที่ | ต้องใช้ออนโทโลยี | ใช้ GUI | เข้าใกล้ | เอนทิตีที่แยกออกมา | เทคนิคประยุกต์ | แบบจำลองผลลัพธ์ | โดเมนที่รองรับ | ภาษาที่รองรับ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| [1] [ 24 ] | ข้อความธรรมดา, HTML, XML, SGML | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | ใช่ | เช่น | เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์ | กฎทางภาษา | กรรมสิทธิ์ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ สเปน อาหรับ จีน อินโดนีเซีย |
| AlchemyAPI [ 25 ] | ข้อความธรรมดา, HTML | อัตโนมัติ | ใช่ | เอสเอ | หลายภาษา | ||||||||
| แอนนี่[ 26 ] | ข้อความธรรมดา | ทิ้งขยะ | ใช่ | ใช่ | เช่น | อัลกอริทึมสถานะจำกัด | หลายภาษา | ||||||
| ASIUM [ 27 ] | ข้อความธรรมดา | ทิ้งขยะ | กึ่งอัตโนมัติ | ใช่ | โอแอล | แนวคิด ลำดับชั้นของแนวคิด | NLP, การจัดกลุ่ม | ||||||
| การสกัดแบบละเอียดถี่ถ้วน[ 28 ] | อัตโนมัติ | เช่น | เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์ | เอ็นแอลแอล | |||||||||
| ดอกแดนดิไลออน API | ข้อความธรรมดา, HTML, URL | พักผ่อน | เลขที่ | เลขที่ | อัตโนมัติ | เลขที่ | ใช่ | เอสเอ | เอนทิตีที่มีชื่อ, แนวคิด | วิธีการทางสถิติ | เจซอน | ไม่ขึ้นกับโดเมน | หลายภาษา |
| DBpedia Spotlight [ 29 ] | ข้อความธรรมดา, HTML | ดัมพ์, SPARQL | ใช่ | ใช่ | อัตโนมัติ | เลขที่ | ใช่ | เอสเอ | คำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุด | NLP, วิธีทางสถิติ, การเรียนรู้ของเครื่อง | อาร์ดีเอฟเอ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ |
| EntityClassifier.eu | ข้อความธรรมดา, HTML | ทิ้งขยะ | ใช่ | ใช่ | อัตโนมัติ | เลขที่ | ใช่ | IE, OL, SA | คำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุด | ไวยากรณ์ตามกฎเกณฑ์ | อีเอ็มแอลอี | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาเยอรมัน ภาษาดัตช์ |
| เฟรด[ 30 ] | ข้อความธรรมดา | ดัมพ์, REST API | ใช่ | ใช่ | อัตโนมัติ | เลขที่ | ใช่ | IE, OL, SA, รูปแบบการออกแบบออนโทโลยี, ความหมายของเฟรม | คำอธิบายประกอบ NIF หรือ EarMark (หลายคำ), คำกริยา, ตัวอย่าง, ความหมายเชิงองค์ประกอบ, อนุกรมวิธานของแนวคิด, กรอบ, บทบาททางความหมาย, ความสัมพันธ์เชิงอ้อม, เหตุการณ์, รูปแบบ, กาล, การเชื่อมโยงเอนทิตี, การเชื่อมโยงเหตุการณ์, อารมณ์ความรู้สึก | NLP, การเรียนรู้ของเครื่องจักร, กฎฮิวริสติก | อาร์ดีเอฟ/โอวล์ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ และภาษาอื่นๆ ผ่านการแปล |
| iDocument [ 31 ] | HTML, PDF, DOC | สปาร์คิวแอล | ใช่ | ใช่ | โอบี | ตัวอย่าง ค่าคุณสมบัติ | เอ็นแอลแอล | ส่วนตัว ธุรกิจ | |||||
| เครื่องสกัด NetOwl [ 32 ] | ข้อความธรรมดา, HTML, XML, SGML, PDF, MS Office | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | ใช่ | เช่น | เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์ | เอ็นแอลแอล | XML, JSON, RDF-OWL และอื่นๆ | หลายโดเมน | อังกฤษ, อาหรับ, จีน (ตัวย่อและตัวเต็ม), ฝรั่งเศส, เกาหลี, เปอร์เซีย (ฟาร์ซีและดารี), รัสเซีย, สเปน |
| OntoGen เก็บถาวรเมื่อ 2010-03-30 ที่Wayback Machine [ 33 ] | กึ่งอัตโนมัติ | ใช่ | โอแอล | แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่าง | NLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม | ||||||||
| OntoLearn เก็บถาวรเมื่อ 2017-08-09 ที่Wayback Machine [ 34 ] | ข้อความธรรมดา, HTML | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | เลขที่ | โอแอล | แนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่าง | NLP, วิธีการทางสถิติ | กรรมสิทธิ์ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ |
| OntoLearn รีโหลด | ข้อความธรรมดา, HTML | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | เลขที่ | โอแอล | แนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่าง | NLP, วิธีการทางสถิติ | กรรมสิทธิ์ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ |
| OntoSyphon [ 35 ] | HTML, PDF, DOC | ดัมพ์, คำค้นหาของเครื่องมือค้นหา | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | เลขที่ | โอบี | แนวคิด ความสัมพันธ์ ตัวอย่าง | NLP, วิธีการทางสถิติ | อาร์ดีเอฟ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ |
| ontoX เก็บถาวรเมื่อ 2016-05-27 ที่Wayback Machine [ 36 ] | ข้อความธรรมดา | ทิ้งขยะ | เลขที่ | ใช่ | กึ่งอัตโนมัติ | ใช่ | เลขที่ | โอบี | อินสแตนซ์ ค่าคุณสมบัติประเภทข้อมูล | วิธีการเชิงฮิวริสติก | กรรมสิทธิ์ | ไม่ขึ้นกับโดเมน | ไม่ขึ้นกับภาษา |
| โอเพ่นคาเลส์ | ข้อความธรรมดา, HTML, XML | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | เลขที่ | เอสเอ | การใส่คำอธิบายประกอบให้กับเอนทิตี การใส่คำอธิบายประกอบให้กับเหตุการณ์ การใส่คำอธิบายประกอบให้กับข้อเท็จจริง | NLP, การเรียนรู้ของเครื่อง | อาร์ดีเอฟ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาฝรั่งเศส ภาษาสเปน |
| PoolParty Extractor [ 37 ] | ข้อความธรรมดา, HTML, DOC, ODT | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | ใช่ | โอบี | เอนทิตีที่มีชื่อ, แนวคิด, ความสัมพันธ์, แนวคิดที่ใช้จัดหมวดหมู่ข้อความ, การเสริมเพิ่มเติม | NLP, การเรียนรู้ของเครื่อง, วิธีการทางสถิติ | อาร์ดีเอฟ, อาวแอล | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส |
| โรโซกา | ข้อความธรรมดา, HTML, XML, SGML, PDF, MS Office | ทิ้งขยะ | ใช่ | ใช่ | อัตโนมัติ | เลขที่ | ใช่ | เช่น | การสกัดเอนทิตีที่มีชื่อ, การแก้ไขเอนทิตี, การสกัดความสัมพันธ์, คุณลักษณะ, แนวคิด, การวิเคราะห์ความรู้สึก แบบหลายเวกเตอร์ , การติดแท็กทางภูมิศาสตร์, การระบุภาษา | NLP, การเรียนรู้ของเครื่อง | XML, JSON, POJO, RDF | หลายโดเมน | รองรับหลายภาษา มากกว่า 200 ภาษา |
| สคูบี้ | ข้อความธรรมดา, HTML | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | เลขที่ | เลขที่ | โอบี | อินสแตนซ์ ค่าคุณสมบัติ ประเภท RDFS | NLP, การเรียนรู้ของเครื่อง | อาร์ดีเอฟ, อาร์ดีเอฟเอ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาเยอรมัน |
| เซมแท็ก[ 38 ] [ 39 ] | เอชแอล | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | เลขที่ | เอสเอ | การเรียนรู้ของเครื่อง | บันทึกฐานข้อมูล | ไม่ขึ้นกับโดเมน | ไม่ขึ้นกับภาษา | |
| smart FIX ถูกเก็บถาวรเมื่อวันที่ 17 พฤษภาคม 2016 ที่Wayback Machine | ข้อความธรรมดา, HTML, PDF, DOC, อีเมล | ทิ้งขยะ | ใช่ | เลขที่ | อัตโนมัติ | เลขที่ | ใช่ | โอบี | เอนทิตีที่มีชื่อ | NLP, การเรียนรู้ของเครื่อง | กรรมสิทธิ์ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาเยอรมัน ภาษาฝรั่งเศส ภาษาดัตช์ ภาษาโปแลนด์ |
| Text2Onto [ 40 ] | ข้อความธรรมดา, HTML, PDF | ทิ้งขยะ | ใช่ | เลขที่ | กึ่งอัตโนมัติ | ใช่ | ใช่ | โอแอล | แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่าง, สัจพจน์ | NLP, วิธีทางสถิติ, การเรียนรู้ของเครื่อง, วิธีการตามกฎเกณฑ์ | นกฮูก | อิสระจากเดโอเมน | ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน |
| ข้อความถึงออนโท[ 41 ] | ข้อความธรรมดา, HTML, PDF, PostScript | ทิ้งขยะ | กึ่งอัตโนมัติ | ใช่ | ใช่ | โอแอล | แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, หน่วยคำศัพท์ที่อ้างอิงถึงแนวคิด, หน่วยคำศัพท์ที่อ้างอิงถึงความสัมพันธ์ | NLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม, วิธีทางสถิติ | ภาษาเยอรมัน | ||||
| เข็มนั้น | ข้อความธรรมดา | ทิ้งขยะ | อัตโนมัติ | เลขที่ | แนวคิด ความสัมพันธ์ ลำดับชั้น | NLP, เทคโนโลยีลิขสิทธิ์เฉพาะ | เจซอน | หลายโดเมน | ภาษาอังกฤษ | ||||
| เครื่องวิกิ[ 42 ] | ข้อความธรรมดา, HTML, PDF, DOC | ทิ้งขยะ | เลขที่ | ใช่ | อัตโนมัติ | ใช่ | ใช่ | เอสเอ | คำอธิบายประกอบสำหรับชื่อเฉพาะ, คำอธิบายประกอบสำหรับชื่อทั่วไป | การเรียนรู้ของเครื่อง | อาร์ดีเอฟเอ | ไม่ขึ้นกับโดเมน | ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารัสเซีย |
| ThingFinder [ 43 ] | เช่น | เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์ | หลายภาษา |
การค้นพบความรู้
การค้นพบความรู้หมายถึงกระบวนการค้นหารูปแบบที่สามารถถือได้ว่าเป็นความรู้เกี่ยวกับข้อมูล จำนวนมากโดยอัตโนมัติ [ 44 ] มักอธิบายว่าเป็นการดึงความรู้จากข้อมูลป้อนเข้า การค้นพบความรู้พัฒนามาจาก โดเมน การขุดข้อมูลและมีความเกี่ยวข้องอย่างใกล้ชิดกับโดเมนดังกล่าวทั้งในแง่ของวิธีการและศัพท์เฉพาะ[ 45 ]
สาขาที่รู้จักกันดีที่สุดของการขุดข้อมูลคือการค้นพบความรู้ หรือที่รู้จักกันในชื่อการค้นพบความรู้ในฐานข้อมูล (KDD) เช่นเดียวกับการค้นพบความรู้ในรูปแบบอื่นๆ อีกมากมาย มันสร้างนามธรรมของข้อมูลอินพุตความรู้ที่ได้รับผ่านกระบวนการนี้อาจกลายเป็นข้อมูล เพิ่มเติม ที่สามารถนำไปใช้และค้นพบเพิ่มเติมได้ บ่อยครั้งที่ผลลัพธ์จากการค้นพบความรู้ไม่สามารถนำไปปฏิบัติได้ เทคนิคต่างๆ เช่น การขุดข้อมูลที่ ขับเคลื่อนด้วยโดเมน[ 46 ]มีเป้าหมายเพื่อค้นพบและส่งมอบความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้
อีกหนึ่งการประยุกต์ใช้ที่น่าสนใจของการค้นพบองค์ความรู้คือในด้านการปรับปรุงซอฟต์แวร์ให้ทันสมัย การค้นหาจุดอ่อน และการปฏิบัติตามข้อกำหนด ซึ่งเกี่ยวข้องกับการทำความเข้าใจส่วนประกอบซอฟต์แวร์ที่มีอยู่ กระบวนการนี้เกี่ยวข้องกับแนวคิดของการวิศวกรรมย้อนกลับโดยปกติแล้ว องค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่จะถูกนำเสนอในรูปแบบของโมเดล ซึ่งสามารถสอบถามข้อมูลเฉพาะได้เมื่อจำเป็นความสัมพันธ์ระหว่างเอนทิตีเป็นรูปแบบที่ใช้บ่อยในการแสดงองค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่Object Management Group (OMG) ได้พัฒนาข้อกำหนดKnowledge Discovery Metamodel (KDM) ซึ่งกำหนดออนโทโลยีสำหรับสินทรัพย์ซอฟต์แวร์และความสัมพันธ์ของสินทรัพย์เหล่านั้นเพื่อวัตถุประสงค์ในการค้นพบองค์ความรู้ในโค้ดที่มีอยู่ การค้นพบองค์ความรู้จากระบบซอฟต์แวร์ที่มีอยู่ หรือที่เรียกว่าการขุดค้นซอฟต์แวร์นั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับการขุดค้นข้อมูลเนื่องจากส่วนประกอบซอฟต์แวร์ที่มีอยู่มีคุณค่ามหาศาลสำหรับการจัดการความเสี่ยงและคุณค่าทาง ธุรกิจ ซึ่งเป็นกุญแจสำคัญสำหรับการประเมินและการพัฒนาระบบซอฟต์แวร์ แทนที่จะขุดค้นชุดข้อมูล แต่ละชุด การขุดค้นซอฟต์แวร์จะมุ่งเน้นไปที่เมตาเดต้าเช่น ผังกระบวนการ (เช่น ผังข้อมูล ผังควบคุม และแผนที่การเรียกใช้) สถาปัตยกรรม โครงสร้างฐานข้อมูล และกฎ/ข้อกำหนด/กระบวนการทางธุรกิจ
ข้อมูลป้อนเข้า
รูปแบบเอาต์พุต
- แบบจำลองข้อมูล
- เมตาเดตา
- เมตาโมเดล
- ออนโทโลยี
- การนำเสนอความรู้
- แท็กความรู้
- กฎทางธุรกิจ
- แบบจำลองเมตาสำหรับการค้นพบความรู้ (KDM)
- สัญกรณ์การสร้างแบบจำลองกระบวนการทางธุรกิจ (BPMN)
- การแสดงผลระดับกลาง
- กรอบการอธิบายทรัพยากร (RDF)
- ตัวชี้วัดซอฟต์แวร์
ดูเพิ่มเติม
อ่านเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การสกัดความรู้
การสกัดความรู้ คือการสร้าง ความรู้ จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ , เอกสาร, รูปภาพ )...
ภาพรวม
หลังจากมีการกำหนดมาตรฐานภาษาสำหรับการแสดงความรู้ เช่น RDF และ OWL แล้ว ก็มีการวิจัยมากมายในด้านนี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับการแปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF การระบุตัวตน การ ค้นพบความรู้ และการเรียนรู้ออนโทโลยี กระบวนการโดยทั่วไปใช้วิธีการแบบดั้งเดิมจาก...
การเชื่อมโยงเอนทิตี
เมื่อวันพุธที่ผ่านมา ประธานาธิบดีโอบามาเรียกร้องให้รัฐสภาขยายเวลาการลดหย่อนภาษีสำหรับนักเรียนที่รวมอยู่ในมาตรการกระตุ้นเศรษฐกิจเมื่อปีที่แล้ว โดยให้เหตุผลว่านโยบายดังกล่าวให้ความช่วยเหลือที่เอื้อประโยชน์มากกว่า
ฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF
Triplify , D2R Server, Ultrawrap ( เก็บถาวรเมื่อ 2016-11-27 ที่ Wayback Machine) และ Virtuoso RDF Views เป็นเครื่องมือที่แปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF ในระหว่างกระบวนการนี้ เครื่องมือเหล่านี้อนุญาตให้ใช้คำศัพท์และ ออนโทโลยี ที่มีอยู่แล้วซ้ำได้...