การสกัดความรู้

การสกัดความรู้คือการสร้างความรู้จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ,เอกสาร, รูปภาพ ) ความรู้ที่ได้จะต้องอยู่ในรูปแบบที่เครื่องสามารถอ่านและตีความได้ และต้องแสดงความรู้ในลักษณะที่เอื้อต่อการอนุมาน แม้ว่าวิธีการจะคล้ายกับการสกัดข้อมูล ( NLP ) และETL (คลังข้อมูล) แต่เกณฑ์หลักคือผลลัพธ์ของการสกัดต้องเหนือกว่าการสร้างข้อมูลที่มีโครงสร้างหรือการแปลงเป็นสคีมาเชิงสัมพันธ์ต้องมีการนำความรู้ที่เป็นทางการ ที่มีอยู่แล้วมาใช้ซ้ำ (การใช้ตัวระบุหรือออนโทโลยีซ้ำ ) หรือการสร้างสคีมาโดยอิงจากข้อมูลต้นฉบับ

กลุ่ม RDB2RDF W3C ^{[ 1 ]}กำลังกำหนดมาตรฐานภาษาสำหรับการสกัดกรอบคำอธิบายทรัพยากร (RDF) จากฐานข้อมูลเชิงสัมพันธ์อีกตัวอย่างหนึ่งที่เป็นที่นิยมสำหรับการสกัดความรู้คือการแปลง Wikipedia ให้เป็นข้อมูลที่มีโครงสร้างและการจับคู่กับความรู้ ที่มีอยู่ (ดูDBpediaและFreebase )

ภาพรวม

หลังจากมีการกำหนดมาตรฐานภาษาสำหรับการแสดงความรู้ เช่นRDFและOWLแล้ว ก็มีการวิจัยมากมายในด้านนี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับการแปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF การระบุตัวตนการค้นพบความรู้และการเรียนรู้ออนโทโลยี กระบวนการโดยทั่วไปใช้วิธีการแบบดั้งเดิมจากการสกัดข้อมูลและการสกัด แปลง และโหลด (ETL) ซึ่งแปลงข้อมูลจากแหล่งที่มาให้เป็นรูปแบบที่มีโครงสร้าง ดังนั้นจึงจำเป็นต้องเข้าใจว่าข้อมูลเหล่านั้นมีปฏิสัมพันธ์และเรียนรู้ซึ่งกันและกันอย่างไร

เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่แนวทางในหัวข้อนี้ (บางเกณฑ์พิจารณาเฉพาะการสกัดจากฐานข้อมูลเชิงสัมพันธ์เท่านั้น): ^{[ 2 ]}

แหล่งที่มา	แหล่งข้อมูลที่รองรับ: ข้อความ, ฐานข้อมูลเชิงสัมพันธ์, XML, CSV
นิทรรศการ	ความรู้ที่สกัดออกมานั้นถูกนำเสนออย่างชัดเจนได้อย่างไร (เช่น ไฟล์ออนโทโลยี ฐานข้อมูลเชิงความหมาย)? คุณจะสามารถสืบค้นข้อมูลเหล่านั้นได้อย่างไร?
การซิงโครไนซ์	กระบวนการสกัดความรู้ดำเนินการเพียงครั้งเดียวเพื่อสร้างไฟล์ข้อมูล หรือผลลัพธ์จะซิงโครไนซ์กับแหล่งข้อมูลหรือไม่? เป็นแบบคงที่หรือแบบไดนามิก? การเปลี่ยนแปลงใดๆ ในผลลัพธ์จะถูกเขียนกลับเข้าไปหรือไม่ (แบบสองทิศทาง)?
การนำคำศัพท์กลับมาใช้ใหม่	เครื่องมือนี้สามารถนำคำศัพท์ที่มีอยู่แล้วมาใช้ในการแยกข้อมูลได้ ตัวอย่างเช่น คอลัมน์ 'firstName' ในตารางสามารถแมปกับ foaf:firstName ได้ วิธีการอัตโนมัติบางวิธีไม่สามารถแมปคำศัพท์ได้
ระบบอัตโนมัติ	ระดับการช่วยเหลือ/การทำงานอัตโนมัติในการสกัดข้อมูล: แบบแมนนวล, แบบ GUI, กึ่งอัตโนมัติ, อัตโนมัติ
ต้องใช้ออนโทโลยีโดเมน	จำเป็นต้องมีออนโทโลยีที่มีอยู่แล้วเพื่อใช้ในการจับคู่ ดังนั้นจึงต้องสร้างการจับคู่ขึ้นใหม่ หรือเรียนรู้สคีมาจากแหล่งข้อมูล ( การเรียนรู้ออนโทโลยี )

ตัวอย่าง

การเชื่อมโยงเอนทิตี

DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, ExtractivและPoolParty Extractorวิเคราะห์ข้อความอิสระผ่านการจดจำเอนทิตีที่มีชื่อจากนั้นแยกความหมายของตัวเลือกผ่านการแก้ไขชื่อและเชื่อมโยงเอนทิตีที่พบไปยังคลังความรู้ของDBpedia ^{[ 3 ]} ( การสาธิต Dandelion dataTXT เก็บถาวรเมื่อ 2013-11-02 ที่Wayback Machineหรือการสาธิตเว็บ DBpedia Spotlightหรือการสาธิต PoolParty Extractor )

เมื่อวันพุธที่ผ่านมา ประธานาธิบดีโอบามาเรียกร้องให้รัฐสภาขยายเวลาการลดหย่อนภาษีสำหรับนักเรียนที่รวมอยู่ในมาตรการกระตุ้นเศรษฐกิจเมื่อปีที่แล้ว โดยให้เหตุผลว่านโยบายดังกล่าวให้ความช่วยเหลือที่เอื้อประโยชน์มากกว่า

เนื่องจากประธานาธิบดีโอบามาเชื่อมโยงกับ แหล่ง ข้อมูล LinkedData ของ DBpedia จึงสามารถดึงข้อมูลเพิ่มเติมได้โดยอัตโนมัติ และตัวให้เหตุผลเชิงความหมาย (Semantic Reasoner)สามารถอนุมานได้ว่าเอนทิตีที่กล่าวถึงนั้นเป็นประเภทบุคคล (โดยใช้ซอฟต์แวร์ FOAF ) และเป็นประเภทประธานาธิบดีของสหรัฐอเมริกา (โดยใช้YAGO ) ตัวอย่างที่ตรงกันข้าม: วิธีการที่รู้จักเฉพาะเอนทิตีหรือเชื่อมโยงไปยังบทความวิกิพีเดียและเป้าหมายอื่นๆ ที่ไม่ได้ให้การดึงข้อมูลที่มีโครงสร้างและความรู้เชิงทางการเพิ่มเติม

ฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF

Triplify , D2R Server, Ultrawrap ( เก็บถาวรเมื่อ 2016-11-27 ที่Wayback Machine)และVirtuoso RDF Views เป็นเครื่องมือที่แปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF ในระหว่างกระบวนการนี้ เครื่องมือเหล่านี้อนุญาตให้ใช้คำศัพท์และออนโทโลยี ที่มีอยู่แล้วซ้ำได้ ในระหว่างกระบวนการแปลง เมื่อแปลงตารางเชิงสัมพันธ์ทั่วไปที่ชื่อusersคอลัมน์หนึ่ง (เช่นname ) หรือการรวมคอลัมน์ (เช่นfirst_nameและlast_name ) จะต้องให้ URI ของเอนทิตีที่สร้างขึ้น โดยปกติจะใช้คีย์หลัก คอลัมน์อื่นๆ สามารถแยกออกมาเป็นความสัมพันธ์กับเอนทิตีนี้ได้^{[ 4 ]}จากนั้นจะใช้ (และนำกลับมาใช้ใหม่) คุณสมบัติที่มีความหมายที่กำหนดไว้อย่างเป็นทางการเพื่อตีความข้อมูล ตัวอย่างเช่น คอลัมน์ในตารางผู้ใช้ที่ชื่อmarriedToสามารถกำหนดเป็นความสัมพันธ์แบบสมมาตร และคอลัมน์homepageสามารถแปลงเป็นคุณสมบัติจากคำศัพท์ FOAFที่ชื่อfoaf:homepageซึ่งทำให้มีคุณสมบัติเป็นคุณสมบัติเชิงฟังก์ชันผกผัน จากนั้น แต่ละรายการใน ตาราง ผู้ใช้สามารถสร้างเป็นอินสแตนซ์ของคลาสfoaf:Person (ประชากรในออนโทโลยี) ได้ นอกจากนี้ความรู้เฉพาะด้าน (ในรูปแบบของออนโทโลยี) สามารถสร้างขึ้นจากstatus_idได้ ไม่ว่าจะโดยกฎที่สร้างขึ้นด้วยตนเอง (ถ้าstatus_idคือ 2 รายการนั้นจะอยู่ในคลาส Teacher) หรือโดยวิธีการ (กึ่ง) อัตโนมัติ ( การเรียนรู้ออนโทโลยี ) นี่คือตัวอย่างการแปลง:

ชื่อ	แต่งงานกับ	หน้าแรก	รหัสสถานะ
ปีเตอร์	แมรี่	https://example.org/Peters_page	1
คลอส	อีวา	https://example.org/Claus_page	2

: ปีเตอร์: แต่งงานกับ: แมรี่. : แต่งงานกับนกฮูก: คุณสมบัติสมมาตร. : ปีเตอร์โฟฟ: หน้าแรก<https://example.org/Peters_page> . : ปีเตอร์อะโฟฟ: บุคคล. : ปีเตอร์อะ: นักเรียน. : คลอสอะ: ครู.

การดึงข้อมูลจากแหล่งข้อมูลที่มีโครงสร้างไปยัง RDF

การจับคู่แบบ 1:1 จากตาราง/มุมมองในฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ไปยังเอนทิตี/แอตทริบิวต์/ค่าใน RDF

เมื่อสร้างแบบจำลองฐานข้อมูลเชิงสัมพันธ์ (RDBMS) สำหรับโดเมนปัญหา จุดเริ่มต้นมักจะเป็นแผนภาพความสัมพันธ์ระหว่างเอนทิตี (ERD) โดยทั่วไป เอนทิตีแต่ละตัวจะถูกแทนด้วยตารางในฐานข้อมูล คุณลักษณะแต่ละตัวของเอนทิตีจะกลายเป็นคอลัมน์ในตารางนั้น และความสัมพันธ์ระหว่างเอนทิตีจะแสดงด้วยคีย์ต่างประเทศ โดยทั่วไปแล้วแต่ละตารางจะกำหนดคลาสของเอนทิตีเฉพาะ และแต่ละคอลัมน์เป็นคุณลักษณะหนึ่งของคลาสนั้น แต่ละแถวในตารางจะอธิบายถึงอินสแตนซ์ของเอนทิตี ซึ่งระบุได้อย่างไม่ซ้ำกันด้วยคีย์หลัก แถวในตารางทั้งหมดจะอธิบายถึงเซตของเอนทิตี ในแบบจำลอง RDF ที่เทียบเท่ากันของเซตเอนทิตีเดียวกัน:

แต่ละคอลัมน์ในตารางคือคุณลักษณะ (เช่น เงื่อนไข)
ค่าในแต่ละคอลัมน์เป็นค่าแอตทริบิวต์ (เช่น อ็อบเจ็กต์)
แต่ละคีย์แถวแสดงถึงรหัสประจำตัวของเอนทิตี (เช่น หัวข้อ)
แต่ละแถวแสดงถึงอินสแตนซ์ของเอนทิตี
แต่ละแถว (อินสแตนซ์ของเอนทิตี) จะถูกแทนด้วยชุดของสามส่วนที่มีหัวข้อร่วมกัน (รหัสเอนทิตี)

ดังนั้น เพื่อให้ได้มุมมองที่เทียบเท่ากันโดยอิงตามความหมายของ RDF อัลกอริทึมการแมปพื้นฐานจะเป็นดังนี้:

สร้างคลาส RDFS สำหรับแต่ละตาราง
แปลงคีย์หลักและคีย์รองทั้งหมดให้เป็น IRI
กำหนด IRI ของเงื่อนไขให้กับแต่ละคอลัมน์
กำหนดเงื่อนไข rdf:type ให้กับแต่ละแถว โดยเชื่อมโยงกับคลาส IRI ของ RDFS ที่สอดคล้องกับตาราง
สำหรับแต่ละคอลัมน์ที่ไม่ใช่ส่วนหนึ่งของคีย์หลักหรือคีย์รอง ให้สร้างทริปเปิลที่มี IRI ของคีย์หลักเป็นประธาน IRI ของคอลัมน์เป็นภาคแสดง และค่าของคอลัมน์เป็นกรรม

การกล่าวถึงการแมปพื้นฐานหรือโดยตรงนี้ในยุคแรกๆ สามารถพบได้ใน การเปรียบเทียบ โมเดล ERกับโมเดล RDF ของTim Berners-Lee ^[⁴^]

การแมปที่ซับซ้อนของฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF

การแมปแบบ 1:1 ที่กล่าวถึงข้างต้นจะเปิดเผยข้อมูลเดิมในรูปแบบ RDF อย่างตรงไปตรงมา การปรับปรุงเพิ่มเติมสามารถนำมาใช้เพื่อเพิ่มประโยชน์ของเอาต์พุต RDF ให้สอดคล้องกับกรณีการใช้งานที่กำหนด โดยปกติแล้ว ข้อมูลจะสูญหายไปในระหว่างการแปลงไดอะแกรมความสัมพันธ์ระหว่างเอนทิตี (ERD) ไปเป็นตารางเชิงสัมพันธ์ (รายละเอียดสามารถพบได้ในความไม่ตรงกันของอิมพีแดนซ์เชิงวัตถุ-ความสัมพันธ์ ) และต้องทำการวิศวกรรมย้อนกลับจากมุมมองเชิงแนวคิด แนวทางการสกัดสามารถมาจากสองทิศทาง ทิศทางแรกพยายามสกัดหรือเรียนรู้สคีมา OWL จากสคีมาฐานข้อมูลที่กำหนด แนวทางในยุคแรกใช้กฎการแมปที่สร้างขึ้นด้วยตนเองจำนวนคงที่เพื่อปรับปรุงการแมปแบบ 1:1 ^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}วิธีการที่ซับซ้อนกว่านั้นใช้ฮิวริสติกหรืออัลกอริธึมการเรียนรู้เพื่อสร้างข้อมูลเชิงโครงร่าง (วิธีการเหล่านี้ทับซ้อนกับการเรียนรู้ออนโทโลยี ) ในขณะที่บางแนวทางพยายามดึงข้อมูลจากโครงสร้างที่มีอยู่ในสคีมา SQL ^{[ 8 ]} (เช่น การวิเคราะห์คีย์ต่างประเทศ) แนวทางอื่นๆ จะวิเคราะห์เนื้อหาและค่าในตารางเพื่อสร้างลำดับชั้นเชิงแนวคิด^{[ 9 ]} (เช่น คอลัมน์ที่มีค่าน้อยเป็นตัวเลือกที่จะกลายเป็นหมวดหมู่) แนวทางที่สองพยายามแมปสคีมาและเนื้อหาเข้ากับออนโทโลยีโดเมนที่มีอยู่ก่อนแล้ว (ดูเพิ่มเติม: การจัดเรียงออนโทโลยี ) อย่างไรก็ตาม บ่อยครั้งที่ออนโทโลยีโดเมนที่เหมาะสมไม่มีอยู่และต้องสร้างขึ้นก่อน

อีเอ็มแอลอี

เนื่องจาก XML มีโครงสร้างเป็นแบบต้นไม้ ข้อมูลใดๆ ก็สามารถแสดงในรูปแบบ RDF ได้อย่างง่ายดาย เนื่องจาก RDF มีโครงสร้างเป็นแบบกราฟXML2RDFเป็นตัวอย่างหนึ่งของวิธีการที่ใช้โหนดว่างของ RDF และแปลงองค์ประกอบและแอตทริบิวต์ของ XML ไปเป็นคุณสมบัติของ RDF อย่างไรก็ตาม หัวข้อนี้มีความซับซ้อนมากขึ้นในกรณีของฐานข้อมูลเชิงสัมพันธ์ ในตารางเชิงสัมพันธ์ คีย์หลักเป็นตัวเลือกที่เหมาะสมที่จะเป็นหัวข้อของไตรเพิลที่แยกออกมา แต่ในทางกลับกัน องค์ประกอบ XML สามารถแปลงได้ ขึ้นอยู่กับบริบท ให้เป็นหัวข้อ ภาคแสดง หรือกรรมของไตรเพิลได้XSLTสามารถใช้เป็นภาษาการแปลงมาตรฐานเพื่อแปลง XML เป็น RDF ด้วยตนเองได้

การสำรวจวิธีการ/เครื่องมือ

ชื่อ	แหล่งข้อมูล	การนำเสนอข้อมูล	การซิงโครไนซ์ข้อมูล	ภาษาแผนที่	การนำคำศัพท์กลับมาใช้ใหม่	การสร้างแผนที่อัตโนมัติ	ออนโทโลยีโดเมนที่จำเป็น	ใช้ GUI
การแมปข้อมูลเชิงสัมพันธ์ไปยัง RDF โดยตรง	ข้อมูลเชิงสัมพันธ์	SPARQL/ETL	พลวัต	ไม่มีข้อมูล	เท็จ	อัตโนมัติ	เท็จ	เท็จ
CSV2RDF4LOD	ซีเอสวี	อีทีแอล	คงที่	อาร์ดีเอฟ	จริง	คู่มือ	เท็จ	เท็จ
CoNLL-RDF	ทีเอสวี, โคเอ็นแอลแอล	สตรีม SPARQL/RDF	คงที่	ไม่มี	จริง	อัตโนมัติ (เฉพาะด้าน สำหรับกรณีการใช้งานในเทคโนโลยีภาษา จะรักษาความสัมพันธ์ระหว่างแถว)	เท็จ	เท็จ
คอนเวอร์ท2อาร์ดีเอฟ	ไฟล์ข้อความที่คั่นด้วยตัวคั่น	อีทีแอล	คงที่	อาร์ดีเอฟ/ดีเอ็มแอล	จริง	คู่มือ	เท็จ	จริง
เซิร์ฟเวอร์ D2R	อาร์ดีบี	สปาร์คิวแอล	สองทิศทาง	แผนที่ D2R	จริง	คู่มือ	เท็จ	เท็จ
ดาร์ทกริด	อาร์ดีบี	ภาษาการสอบถามของตนเอง	พลวัต	เครื่องมือภาพ	จริง	คู่มือ	เท็จ	จริง
ดาต้ามาสเตอร์	อาร์ดีบี	อีทีแอล	คงที่	กรรมสิทธิ์	จริง	คู่มือ	จริง	จริง
ส่วนขยาย RDF ของ Google Refine	CSV, XML	อีทีแอล	คงที่	ไม่มี		กึ่งอัตโนมัติ	เท็จ	จริง
เคร็กซ์เตอร์	อีเอ็มแอลอี	อีทีแอล	คงที่	เอ็กซ์แอลที	จริง	คู่มือ	จริง	เท็จ
มาปอนโต	อาร์ดีบี	อีทีแอล	คงที่	กรรมสิทธิ์	จริง	คู่มือ	จริง	เท็จ
การเปลี่ยนแปลงรูปร่าง	อาร์ดีบี	อีทีแอล	คงที่	ภาษาการแมปข้อมูลแบบ XML ที่เป็นกรรมสิทธิ์	จริง	คู่มือ	เท็จ	จริง
แมปปิ้งมาสเตอร์	ซีเอสวี	อีทีแอล	คงที่	แมปปิ้งมาสเตอร์	จริง	อินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI)	เท็จ	จริง
โอดีแมปสเตอร์	อาร์ดีบี	อีทีแอล	คงที่	กรรมสิทธิ์	จริง	คู่มือ	จริง	จริง
ปลั๊กอินนำเข้าไฟล์ CSV ของ OntoWiki - DataCube และ Tabular	ซีเอสวี	อีทีแอล	คงที่	คำศัพท์ของ RDF Data Cube	จริง	กึ่งอัตโนมัติ	เท็จ	จริง
Poolparty Extraktor (PPX)	XML, ข้อความ	ลิงก์ดาต้า	พลวัต	อาร์ดีเอฟ (สโกส)	จริง	กึ่งอัตโนมัติ	จริง	เท็จ
RDBToOnto	อาร์ดีบี	อีทีแอล	คงที่	ไม่มี	เท็จ	แม้ว่าจะทำงานโดยอัตโนมัติ แต่ผู้ใช้ยังมีโอกาสปรับแต่งผลลัพธ์ได้เพิ่มเติมอีกด้วย	เท็จ	จริง
อาร์ดีเอฟ 123	ซีเอสวี	อีทีแอล	คงที่	เท็จ	เท็จ	คู่มือ	เท็จ	จริง
อาร์โดท	อาร์ดีบี	อีทีแอล	คงที่	คำสั่ง SQL	จริง	คู่มือ	จริง	จริง
ความสัมพันธ์.OWL	อาร์ดีบี	อีทีแอล	คงที่	ไม่มี	เท็จ	อัตโนมัติ	เท็จ	เท็จ
ที2แอลดี	ซีเอสวี	อีทีแอล	คงที่	เท็จ	เท็จ	อัตโนมัติ	เท็จ	เท็จ
คำศัพท์ของ RDF Data Cube	ข้อมูลสถิติหลายมิติในสเปรดชีต			คำศัพท์เกี่ยวกับ Data Cube	จริง	คู่มือ	เท็จ
ท็อปเบรด คอมโพเซอร์	ซีเอสวี	อีทีแอล	คงที่	สโกส	เท็จ	กึ่งอัตโนมัติ	เท็จ	จริง
ทริปพลีฟี่	อาร์ดีบี	ลิงก์ดาต้า	พลวัต	คำสั่ง SQL	จริง	คู่มือ	เท็จ	เท็จ
Ultrawrap ถูกเก็บถาวรเมื่อวันที่ 27 พฤศจิกายน 2016 ที่Wayback Machine	อาร์ดีบี	SPARQL/ETL	พลวัต	อาร์2อาร์เอ็มแอล	จริง	กึ่งอัตโนมัติ	เท็จ	จริง
มุมมองของ Virtuoso RDF	อาร์ดีบี	สปาร์คิวแอล	พลวัต	ภาษาเมตาสคีมา	จริง	กึ่งอัตโนมัติ	เท็จ	จริง
นักสปองจ์มือฉมัง	แหล่งข้อมูลที่มีโครงสร้างและกึ่งโครงสร้าง	สปาร์คิวแอล	พลวัต	Virtuoso PL & XSLT	จริง	กึ่งอัตโนมัติ	เท็จ	เท็จ
วิสเอวิส	อาร์ดีบี	อาร์ดีคิวแอล	พลวัต	คำสั่ง SQL	จริง	คู่มือ	จริง	จริง
XLWrap: แปลงสเปรดชีตเป็น RDF	ซีเอสวี	อีทีแอล	คงที่	ไวยากรณ์ TriG	จริง	คู่มือ	เท็จ	เท็จ
XML เป็น RDF	อีเอ็มแอลอี	อีทีแอล	คงที่	เท็จ	เท็จ	อัตโนมัติ	เท็จ	เท็จ

การสกัดจากแหล่งข้อมูลภาษาธรรมชาติ

ข้อมูลส่วนใหญ่ในเอกสารทางธุรกิจ (ประมาณ 80% ^{[ 10 ]} ) ถูกเข้ารหัสด้วยภาษาธรรมชาติและจึงไม่มีโครงสร้าง เนื่องจากข้อมูลที่ไม่มีโครงสร้างเป็นความท้าทายสำหรับการสกัดความรู้ จึงจำเป็นต้องใช้วิธีการที่ซับซ้อนมากขึ้น ซึ่งโดยทั่วไปแล้วมักจะให้ผลลัพธ์ที่แย่กว่าเมื่อเทียบกับข้อมูลที่มีโครงสร้าง อย่างไรก็ตาม ศักยภาพในการได้มาซึ่งความรู้ที่สกัดออกมาจำนวนมากควรจะชดเชยความซับซ้อนที่เพิ่มขึ้นและคุณภาพของการสกัดที่ลดลง ในส่วนต่อไปนี้ แหล่งข้อมูลภาษาธรรมชาติจะถูกเข้าใจว่าเป็นแหล่งข้อมูล โดยที่ข้อมูลนั้นอยู่ในรูปแบบที่ไม่มีโครงสร้างเป็นข้อความธรรมดา หากข้อความที่ให้มานั้นถูกฝังอยู่ในเอกสารมาร์กอัป (เช่น เอกสาร HTML) ระบบที่กล่าวถึงมักจะลบองค์ประกอบมาร์กอัปออกโดยอัตโนมัติ

การระบุข้อมูลทางภาษา / การประมวลผลภาษาธรรมชาติ (NLP)

ในขั้นตอนการเตรียมข้อมูลก่อนการสกัดความรู้ อาจจำเป็นต้องทำการระบุคำอธิบายทางภาษาโดยใช้ เครื่องมือ NLP หนึ่งตัวหรือหลายตัว โดยปกติแล้วแต่ละโมดูลในเวิร์กโฟลว์ NLP จะสร้างขึ้นบนรูปแบบเฉพาะของเครื่องมือสำหรับข้อมูลเข้าและข้อมูลออก แต่ในบริบทของการสกัดความรู้ ได้มีการประยุกต์ใช้รูปแบบที่มีโครงสร้างสำหรับการแสดงคำอธิบายทางภาษา

งาน NLP ทั่วไปที่เกี่ยวข้องกับการสกัดความรู้ ได้แก่:

การระบุส่วนของคำพูด (POS)
การหาคำหลัก (LEMMA) หรือการหารากศัพท์ (STEM)
การแยกแยะความหมายของคำ (WSD ซึ่งเกี่ยวข้องกับการระบุความหมายด้านล่าง)
การระบุเอนทิตีที่มีชื่อ (NER, ดู IE ด้านล่างด้วย)
การวิเคราะห์ไวยากรณ์ โดยมักใช้การพึ่งพาทางไวยากรณ์ (DEP)
การแยกวิเคราะห์ไวยากรณ์แบบตื้น (CHUNK): หากประสิทธิภาพเป็นสิ่งสำคัญ การแยกวิเคราะห์แบบ CHUNK จะช่วยให้สามารถแยกคำนามและวลีอื่นๆ ได้อย่างรวดเร็ว
การแก้ปัญหาการอ้างอิงคำสรรพนาม (ดูการแก้ปัญหาการอ้างอิงร่วมในภาษาอินโด-ยุโรปด้านล่าง แต่ในที่นี้มองว่าเป็นงานในการสร้างความเชื่อมโยงระหว่างการกล่าวถึงในข้อความ แทนที่จะเป็นการเชื่อมโยงระหว่างการกล่าวถึงสิ่งใดสิ่งหนึ่งกับการแสดงแทนเชิงนามธรรมของสิ่งนั้น)
การติดป้ายบทบาททางความหมาย (SRL ซึ่งเกี่ยวข้องกับการสกัดความสัมพันธ์ ไม่ควรสับสนกับการระบุความหมายตามที่อธิบายไว้ด้านล่าง)
การวิเคราะห์ความสัมพันธ์ระหว่างประโยค (ความสัมพันธ์ระหว่างประโยคต่างๆ ซึ่งไม่ค่อยได้ใช้ในสถานการณ์จริง)

ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ข้อมูลดังกล่าวโดยทั่วไปจะถูกแสดงในรูปแบบ TSV (รูปแบบ CSV ที่ใช้แท็บเป็นตัวคั่น) ซึ่งมักเรียกว่ารูปแบบ CoNLL สำหรับเวิร์กโฟลว์การสกัดความรู้ มุมมอง RDF บนข้อมูลดังกล่าวได้รับการสร้างขึ้นตามมาตรฐานชุมชนดังต่อไปนี้:

รูปแบบการแลกเปลี่ยน NLP (NIF สำหรับคำอธิบายประกอบประเภทที่ใช้บ่อยหลายประเภท) ^{[ 11 ]}^{[ 12 ]}
การใส่คำอธิบายประกอบเว็บ (WA ซึ่งมักใช้สำหรับการเชื่อมโยงเอนทิตี) ^{[ 13 ]}
CoNLL-RDF (สำหรับคำอธิบายประกอบที่แสดงในรูปแบบ TSV เดิม) ^{[ 14 ]}^{[ 15 ]}

รูปแบบอื่นๆ ที่เฉพาะเจาะจงสำหรับแต่ละแพลตฟอร์ม ได้แก่

รูปแบบการแลกเปลี่ยน LAPPS (LIF ซึ่งใช้ใน LAPPS Grid) ^{[ 16 ]}^{[ 17 ]}
รูปแบบคำอธิบายประกอบ NLP (NAF ซึ่งใช้ในระบบจัดการเวิร์กโฟลว์ NewsReader) ^{[ 18 ]}^{[ 19 ]}

การสกัดข้อมูลแบบดั้งเดิม (IE)

การสกัดข้อมูลแบบดั้งเดิม^{[ 20 ]}เป็นเทคโนโลยีการประมวลผลภาษาธรรมชาติ ซึ่งสกัดข้อมูลจากข้อความภาษาธรรมชาติและจัดโครงสร้างข้อมูลเหล่านั้นในลักษณะที่เหมาะสม ประเภทของข้อมูลที่จะระบุจะต้องระบุไว้ในแบบจำลองก่อนเริ่มกระบวนการ ซึ่งเป็นเหตุผลว่าทำไมกระบวนการสกัดข้อมูลแบบดั้งเดิมทั้งหมดจึงขึ้นอยู่กับโดเมน การสกัดข้อมูลแบ่งออกเป็นห้างานย่อยดังต่อไปนี้

การระบุเอนทิตีที่มีชื่อ (NER)
การแก้ปัญหาการอ้างอิงร่วม (CO)
การสร้างองค์ประกอบแม่แบบ (TE)
การสร้างความสัมพันธ์แบบแม่แบบ (TR)
การสร้างสถานการณ์จำลองตามแม่แบบ (ST)

หน้าที่ของการระบุชื่อเฉพาะ (Named Entity Recognition: NENT)คือการระบุและจัดหมวดหมู่ชื่อเฉพาะทั้งหมดที่ปรากฏอยู่ในข้อความ (การกำหนดชื่อเฉพาะให้กับหมวดหมู่ที่กำหนดไว้ล่วงหน้า) ซึ่งทำได้โดยการประยุกต์ใช้วิธีการตามหลักไวยากรณ์หรือแบบจำลองทางสถิติ

การแก้ปัญหาการอ้างอิงร่วม (Coreference resolution) ระบุเอนทิตีที่เทียบเท่ากัน ซึ่งได้รับการยอมรับโดย NER ภายในข้อความ มีความสัมพันธ์ที่เทียบเท่ากันสองประเภทที่เกี่ยวข้อง ประเภทแรกเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีที่แสดงต่างกันสองเอนทิตี (เช่น IBM Europe และ IBM) และประเภทที่สองเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีกับการอ้างอิงแบบอนาโฟริก (เช่น it และ IBM) ทั้งสองประเภทนี้สามารถรับรู้ได้โดยการแก้ปัญหาการอ้างอิงร่วม

ในระหว่างการสร้างองค์ประกอบแม่แบบ ระบบ IE จะระบุคุณสมบัติเชิงพรรณนาของเอนทิตี ซึ่งได้รับการยอมรับโดย NER และ CO คุณสมบัติเหล่านี้สอดคล้องกับคุณลักษณะทั่วไป เช่น สีแดง หรือ ขนาดใหญ่

การสร้างความสัมพันธ์ในเทมเพลตจะระบุความสัมพันธ์ที่มีอยู่ระหว่างองค์ประกอบของเทมเพลต ความสัมพันธ์เหล่านี้อาจมีหลายประเภท เช่น ทำงานให้ หรือ ตั้งอยู่ใน โดยมีข้อจำกัดว่าทั้งโดเมนและช่วงต้องสอดคล้องกับเอนทิตี

ในสถานการณ์จำลองตามแม่แบบ เหตุการณ์การผลิตซึ่งอธิบายไว้ในข้อความ จะถูกระบุและจัดโครงสร้างโดยสัมพันธ์กับเอนทิตีที่รู้จักโดย NER และ CO และความสัมพันธ์ที่ระบุโดย TR

การสกัดข้อมูลโดยใช้ระบบออนโทโลยี (OBIE)

การสกัดข้อมูลตามออนโทโลยี^{[ 10 ]}เป็นสาขาย่อยของการสกัดข้อมูล โดย ใช้ ออนโทโลยี อย่างน้อยหนึ่ง รายการเพื่อชี้นำกระบวนการสกัดข้อมูลจากข้อความภาษาธรรมชาติ ระบบ OBIE ใช้วิธีการสกัดข้อมูลแบบดั้งเดิมเพื่อระบุแนวคิดตัวอย่าง และความสัมพันธ์ของออนโทโลยีที่ใช้ในข้อความ ซึ่งจะถูกจัดโครงสร้างเป็นออนโทโลยีหลังจากกระบวนการ ดังนั้น ออนโทโลยีที่ป้อนเข้ามาจึงเป็นแบบจำลองของข้อมูลที่จะสกัด^{[ 21 ]}

การเรียนรู้ออนโทโลยี (OL)

การเรียนรู้ออนโทโลยีคือการสร้างออนโทโลยีโดยอัตโนมัติหรือกึ่งอัตโนมัติ ซึ่งรวมถึงการสกัดคำศัพท์เฉพาะด้านจากข้อความภาษาธรรมชาติ เนื่องจากการสร้างออนโทโลยีด้วยตนเองนั้นต้องใช้แรงงานและเวลามาก จึงมีแรงจูงใจอย่างยิ่งที่จะทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ

การใส่คำอธิบายความหมาย (SA)

ในระหว่างการระบุความหมาย^{[ 22 ]}ข้อความภาษาธรรมชาติจะถูกเสริมด้วยเมตาเดตา (มักแสดงในRDFa ) ซึ่งควรทำให้ความหมายของคำที่อยู่ในนั้นสามารถเข้าใจได้ด้วยเครื่องจักร ในกระบวนการนี้ ซึ่งโดยทั่วไปเป็นแบบกึ่งอัตโนมัติ ความรู้จะถูกดึงออกมาในแง่ที่ว่ามีการสร้างลิงก์ระหว่างคำศัพท์และตัวอย่างเช่น แนวคิดจากออนโทโลยี ดังนั้นจึงได้รับความรู้ว่าความหมายของคำในบริบทที่ประมวลผลนั้นตั้งใจไว้ และด้วยเหตุนี้ความหมายของข้อความจึงอิงอยู่กับข้อมูลที่เครื่องจักรสามารถอ่านได้พร้อมความสามารถในการอนุมาน การระบุความหมายโดยทั่วไปจะแบ่งออกเป็นสองงานย่อยดังต่อไปนี้

ในระดับการสกัดคำศัพท์ คำศัพท์เฉพาะทางจะถูกสกัดออกมาจากข้อความ โดยขั้นตอนแรก ตัวแยกคำจะกำหนดขอบเขตของคำและแก้ไขคำย่อ จากนั้น คำจากข้อความที่สอดคล้องกับแนวคิดจะถูกสกัดออกมาโดยใช้พจนานุกรมเฉพาะด้าน เพื่อเชื่อมโยงคำเหล่านั้นเข้าด้วยกันในขั้นตอนการเชื่อมโยงเอนทิตี

ในการเชื่อมโยงเอนทิตี^{[ 23 ]} จะมีการสร้าง การเชื่อมโยงระหว่างคำศัพท์ที่แยกออกมาจากข้อความต้นฉบับและแนวคิดจากออนโทโลยีหรือฐานความรู้ เช่นDBpedia เพื่อการนี้ จะมีการตรวจจับแนวคิดที่เป็นไปได้ให้เหมาะสมกับความหมายต่างๆ ของคำศัพท์โดยใช้พจนานุกรม สุดท้าย จะมีการวิเคราะห์บริบทของคำศัพท์เพื่อกำหนดการแยกความหมายที่เหมาะสมที่สุดและกำหนดคำศัพท์ให้กับแนวคิดที่ถูกต้อง

โปรดทราบว่า "การใส่คำอธิบายความหมาย" ในบริบทของการสกัดความรู้ ไม่ควรสับสนกับ " การวิเคราะห์ความหมาย"ตามที่เข้าใจในด้านการประมวลผลภาษาธรรมชาติ (ซึ่งเรียกอีกอย่างว่า "การใส่คำอธิบายความหมาย"): การวิเคราะห์ความหมายมีเป้าหมายเพื่อสร้างการแสดงภาษาธรรมชาติที่สมบูรณ์และเครื่องจักรสามารถอ่านได้ ในขณะที่การใส่คำอธิบายความหมายในแง่ของการสกัดความรู้จะจัดการเฉพาะแง่มุมพื้นฐานมาก ๆ เท่านั้น

เครื่องมือ

เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่เครื่องมือที่ดึงความรู้จากข้อความภาษาธรรมชาติได้

แหล่งที่มา	เครื่องมือนี้รองรับรูปแบบข้อมูลใดบ้าง (เช่น ข้อความธรรมดา, HTML หรือ PDF)?
รูปแบบการเข้าถึง	เครื่องมือนี้สามารถสอบถามข้อมูลจากแหล่งข้อมูลได้โดยตรง หรือจำเป็นต้องดัมพ์ข้อมูลทั้งหมดเพื่อทำการดึงข้อมูลออกมา?
การซิงโครไนซ์ข้อมูล	ผลลัพธ์ของกระบวนการสกัดข้อมูลนั้นตรงกับแหล่งที่มาหรือไม่?
ใช้ออนโทโลยีเอาต์พุต	เครื่องมือนี้เชื่อมโยงผลลัพธ์กับออนโทโลยีหรือไม่
ระบบอัตโนมัติในการทำแผนที่	กระบวนการสกัดเป็นแบบอัตโนมัติมากน้อยแค่ไหน (แบบใช้มือ แบบกึ่งอัตโนมัติ หรือแบบอัตโนมัติ)?
ต้องใช้ออนโทโลยี	เครื่องมือนี้จำเป็นต้องใช้ออนโทโลยีสำหรับการดึงข้อมูลหรือไม่?
ใช้ GUI	เครื่องมือนี้มีอินเทอร์เฟซผู้ใช้แบบกราฟิกหรือไม่?
เข้าใกล้	เครื่องมือนี้ใช้วิธีการใด (IE, OBIE, OL หรือ SA)
เอนทิตีที่แยกออกมา	เครื่องมือนี้สามารถดึงข้อมูลประเภทใดบ้าง (เช่น เอนทิตีที่มีชื่อ แนวคิด หรือความสัมพันธ์)
เทคนิคประยุกต์	มีการนำเทคนิคใดมาใช้บ้าง (เช่น NLP, วิธีทางสถิติ, การจัดกลุ่ม หรือการเรียนรู้ของเครื่อง )?
แบบจำลองผลลัพธ์	เครื่องมือนี้ใช้โมเดลใดในการแสดงผลลัพธ์ (เช่น RDF หรือ OWL)?
โดเมนที่รองรับ	รองรับสาขาใดบ้าง (เช่น เศรษฐศาสตร์ หรือ ชีววิทยา)?
ภาษาที่รองรับ	สามารถประมวลผลภาษาใดได้บ้าง (เช่น ภาษาอังกฤษหรือภาษาเยอรมัน)?

ตารางต่อไปนี้แสดงลักษณะของเครื่องมือบางอย่างสำหรับการสกัดความรู้จากแหล่งข้อมูลภาษาธรรมชาติ

ชื่อ	แหล่งที่มา	รูปแบบการเข้าถึง	การซิงโครไนซ์ข้อมูล	ใช้ออนโทโลยีเอาต์พุต	ระบบอัตโนมัติในการทำแผนที่	ต้องใช้ออนโทโลยี	ใช้ GUI	เข้าใกล้	เอนทิตีที่แยกออกมา	เทคนิคประยุกต์	แบบจำลองผลลัพธ์	โดเมนที่รองรับ	ภาษาที่รองรับ
[1] ^{[ 24 ]}	ข้อความธรรมดา, HTML, XML, SGML	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	ใช่	เช่น	เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์	กฎทางภาษา	กรรมสิทธิ์	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ สเปน อาหรับ จีน อินโดนีเซีย
AlchemyAPI ^{[ 25 ]}	ข้อความธรรมดา, HTML				อัตโนมัติ		ใช่	เอสเอ					หลายภาษา
แอนนี่^{[ 26 ]}	ข้อความธรรมดา	ทิ้งขยะ				ใช่	ใช่	เช่น		อัลกอริทึมสถานะจำกัด			หลายภาษา
ASIUM ^{[ 27 ]}	ข้อความธรรมดา	ทิ้งขยะ			กึ่งอัตโนมัติ		ใช่	โอแอล	แนวคิด ลำดับชั้นของแนวคิด	NLP, การจัดกลุ่ม
การสกัดแบบละเอียดถี่ถ้วน^{[ 28 ]}					อัตโนมัติ			เช่น	เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์	เอ็นแอลแอล
ดอกแดนดิไลออน API	ข้อความธรรมดา, HTML, URL	พักผ่อน	เลขที่	เลขที่	อัตโนมัติ	เลขที่	ใช่	เอสเอ	เอนทิตีที่มีชื่อ, แนวคิด	วิธีการทางสถิติ	เจซอน	ไม่ขึ้นกับโดเมน	หลายภาษา
DBpedia Spotlight ^{[ 29 ]}	ข้อความธรรมดา, HTML	ดัมพ์, SPARQL	ใช่	ใช่	อัตโนมัติ	เลขที่	ใช่	เอสเอ	คำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุด	NLP, วิธีทางสถิติ, การเรียนรู้ของเครื่อง	อาร์ดีเอฟเอ	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ
EntityClassifier.eu	ข้อความธรรมดา, HTML	ทิ้งขยะ	ใช่	ใช่	อัตโนมัติ	เลขที่	ใช่	IE, OL, SA	คำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุด	ไวยากรณ์ตามกฎเกณฑ์	อีเอ็มแอลอี	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาเยอรมัน ภาษาดัตช์
เฟรด^{[ 30 ]}	ข้อความธรรมดา	ดัมพ์, REST API	ใช่	ใช่	อัตโนมัติ	เลขที่	ใช่	IE, OL, SA, รูปแบบการออกแบบออนโทโลยี, ความหมายของเฟรม	คำอธิบายประกอบ NIF หรือ EarMark (หลายคำ), คำกริยา, ตัวอย่าง, ความหมายเชิงองค์ประกอบ, อนุกรมวิธานของแนวคิด, กรอบ, บทบาททางความหมาย, ความสัมพันธ์เชิงอ้อม, เหตุการณ์, รูปแบบ, กาล, การเชื่อมโยงเอนทิตี, การเชื่อมโยงเหตุการณ์, อารมณ์ความรู้สึก	NLP, การเรียนรู้ของเครื่องจักร, กฎฮิวริสติก	อาร์ดีเอฟ/โอวล์	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ และภาษาอื่นๆ ผ่านการแปล
iDocument ^{[ 31 ]}	HTML, PDF, DOC	สปาร์คิวแอล		ใช่			ใช่	โอบี	ตัวอย่าง ค่าคุณสมบัติ	เอ็นแอลแอล		ส่วนตัว ธุรกิจ
เครื่องสกัด NetOwl ^{[ 32 ]}	ข้อความธรรมดา, HTML, XML, SGML, PDF, MS Office	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	ใช่	เช่น	เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์	เอ็นแอลแอล	XML, JSON, RDF-OWL และอื่นๆ	หลายโดเมน	อังกฤษ, อาหรับ, จีน (ตัวย่อและตัวเต็ม), ฝรั่งเศส, เกาหลี, เปอร์เซีย (ฟาร์ซีและดารี), รัสเซีย, สเปน
OntoGen เก็บถาวรเมื่อ 2010-03-30 ที่Wayback Machine ^{[ 33 ]}					กึ่งอัตโนมัติ		ใช่	โอแอล	แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่าง	NLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม
OntoLearn เก็บถาวรเมื่อ 2017-08-09 ที่Wayback Machine ^{[ 34 ]}	ข้อความธรรมดา, HTML	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	เลขที่	โอแอล	แนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่าง	NLP, วิธีการทางสถิติ	กรรมสิทธิ์	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ
OntoLearn รีโหลด	ข้อความธรรมดา, HTML	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	เลขที่	โอแอล	แนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่าง	NLP, วิธีการทางสถิติ	กรรมสิทธิ์	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ
OntoSyphon ^{[ 35 ]}	HTML, PDF, DOC	ดัมพ์, คำค้นหาของเครื่องมือค้นหา	เลขที่	ใช่	อัตโนมัติ	ใช่	เลขที่	โอบี	แนวคิด ความสัมพันธ์ ตัวอย่าง	NLP, วิธีการทางสถิติ	อาร์ดีเอฟ	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ
ontoX เก็บถาวรเมื่อ 2016-05-27 ที่Wayback Machine ^{[ 36 ]}	ข้อความธรรมดา	ทิ้งขยะ	เลขที่	ใช่	กึ่งอัตโนมัติ	ใช่	เลขที่	โอบี	อินสแตนซ์ ค่าคุณสมบัติประเภทข้อมูล	วิธีการเชิงฮิวริสติก	กรรมสิทธิ์	ไม่ขึ้นกับโดเมน	ไม่ขึ้นกับภาษา
โอเพ่นคาเลส์	ข้อความธรรมดา, HTML, XML	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	เลขที่	เอสเอ	การใส่คำอธิบายประกอบให้กับเอนทิตี การใส่คำอธิบายประกอบให้กับเหตุการณ์ การใส่คำอธิบายประกอบให้กับข้อเท็จจริง	NLP, การเรียนรู้ของเครื่อง	อาร์ดีเอฟ	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาฝรั่งเศส ภาษาสเปน
PoolParty Extractor ^{[ 37 ]}	ข้อความธรรมดา, HTML, DOC, ODT	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	ใช่	โอบี	เอนทิตีที่มีชื่อ, แนวคิด, ความสัมพันธ์, แนวคิดที่ใช้จัดหมวดหมู่ข้อความ, การเสริมเพิ่มเติม	NLP, การเรียนรู้ของเครื่อง, วิธีการทางสถิติ	อาร์ดีเอฟ, อาวแอล	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส
โรโซกา	ข้อความธรรมดา, HTML, XML, SGML, PDF, MS Office	ทิ้งขยะ	ใช่	ใช่	อัตโนมัติ	เลขที่	ใช่	เช่น	การสกัดเอนทิตีที่มีชื่อ, การแก้ไขเอนทิตี, การสกัดความสัมพันธ์, คุณลักษณะ, แนวคิด, การวิเคราะห์ความรู้สึก แบบหลายเวกเตอร์ , การติดแท็กทางภูมิศาสตร์, การระบุภาษา	NLP, การเรียนรู้ของเครื่อง	XML, JSON, POJO, RDF	หลายโดเมน	รองรับหลายภาษา มากกว่า 200 ภาษา
สคูบี้	ข้อความธรรมดา, HTML	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	เลขที่	เลขที่	โอบี	อินสแตนซ์ ค่าคุณสมบัติ ประเภท RDFS	NLP, การเรียนรู้ของเครื่อง	อาร์ดีเอฟ, อาร์ดีเอฟเอ	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาเยอรมัน
เซมแท็ก^{[ 38 ]}^{[ 39 ]}	เอชแอล	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	เลขที่	เอสเอ		การเรียนรู้ของเครื่อง	บันทึกฐานข้อมูล	ไม่ขึ้นกับโดเมน	ไม่ขึ้นกับภาษา
smart FIX ถูกเก็บถาวรเมื่อวันที่ 17 พฤษภาคม 2016 ที่Wayback Machine	ข้อความธรรมดา, HTML, PDF, DOC, อีเมล	ทิ้งขยะ	ใช่	เลขที่	อัตโนมัติ	เลขที่	ใช่	โอบี	เอนทิตีที่มีชื่อ	NLP, การเรียนรู้ของเครื่อง	กรรมสิทธิ์	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาเยอรมัน ภาษาฝรั่งเศส ภาษาดัตช์ ภาษาโปแลนด์
Text2Onto ^{[ 40 ]}	ข้อความธรรมดา, HTML, PDF	ทิ้งขยะ	ใช่	เลขที่	กึ่งอัตโนมัติ	ใช่	ใช่	โอแอล	แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่าง, สัจพจน์	NLP, วิธีทางสถิติ, การเรียนรู้ของเครื่อง, วิธีการตามกฎเกณฑ์	นกฮูก	อิสระจากเดโอเมน	ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน
ข้อความถึงออนโท^{[ 41 ]}	ข้อความธรรมดา, HTML, PDF, PostScript	ทิ้งขยะ			กึ่งอัตโนมัติ	ใช่	ใช่	โอแอล	แนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, หน่วยคำศัพท์ที่อ้างอิงถึงแนวคิด, หน่วยคำศัพท์ที่อ้างอิงถึงความสัมพันธ์	NLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม, วิธีทางสถิติ			ภาษาเยอรมัน
เข็มนั้น	ข้อความธรรมดา	ทิ้งขยะ			อัตโนมัติ		เลขที่		แนวคิด ความสัมพันธ์ ลำดับชั้น	NLP, เทคโนโลยีลิขสิทธิ์เฉพาะ	เจซอน	หลายโดเมน	ภาษาอังกฤษ
เครื่องวิกิ^{[ 42 ]}	ข้อความธรรมดา, HTML, PDF, DOC	ทิ้งขยะ	เลขที่	ใช่	อัตโนมัติ	ใช่	ใช่	เอสเอ	คำอธิบายประกอบสำหรับชื่อเฉพาะ, คำอธิบายประกอบสำหรับชื่อทั่วไป	การเรียนรู้ของเครื่อง	อาร์ดีเอฟเอ	ไม่ขึ้นกับโดเมน	ภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารัสเซีย
ThingFinder ^{[ 43 ]}								เช่น	เอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์				หลายภาษา

การค้นพบความรู้

การค้นพบความรู้หมายถึงกระบวนการค้นหารูปแบบที่สามารถถือได้ว่าเป็นความรู้เกี่ยวกับข้อมูล จำนวนมากโดยอัตโนมัติ ^[⁴⁴^] มักอธิบายว่าเป็นการดึงความรู้จากข้อมูลป้อนเข้า การค้นพบความรู้พัฒนามาจาก โดเมน การขุดข้อมูลและมีความเกี่ยวข้องอย่างใกล้ชิดกับโดเมนดังกล่าวทั้งในแง่ของวิธีการและศัพท์เฉพาะ^[⁴⁵^]

สาขาที่รู้จักกันดีที่สุดของการขุดข้อมูลคือการค้นพบความรู้ หรือที่รู้จักกันในชื่อการค้นพบความรู้ในฐานข้อมูล (KDD) เช่นเดียวกับการค้นพบความรู้ในรูปแบบอื่นๆ อีกมากมาย มันสร้างนามธรรมของข้อมูลอินพุตความรู้ที่ได้รับผ่านกระบวนการนี้อาจกลายเป็นข้อมูล เพิ่มเติม ที่สามารถนำไปใช้และค้นพบเพิ่มเติมได้ บ่อยครั้งที่ผลลัพธ์จากการค้นพบความรู้ไม่สามารถนำไปปฏิบัติได้ เทคนิคต่างๆ เช่น การขุดข้อมูลที่ ขับเคลื่อนด้วยโดเมน^{[ 46 ]}มีเป้าหมายเพื่อค้นพบและส่งมอบความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้

อีกหนึ่งการประยุกต์ใช้ที่น่าสนใจของการค้นพบองค์ความรู้คือในด้านการปรับปรุงซอฟต์แวร์ให้ทันสมัย การค้นหาจุดอ่อน และการปฏิบัติตามข้อกำหนด ซึ่งเกี่ยวข้องกับการทำความเข้าใจส่วนประกอบซอฟต์แวร์ที่มีอยู่ กระบวนการนี้เกี่ยวข้องกับแนวคิดของการวิศวกรรมย้อนกลับโดยปกติแล้ว องค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่จะถูกนำเสนอในรูปแบบของโมเดล ซึ่งสามารถสอบถามข้อมูลเฉพาะได้เมื่อจำเป็นความสัมพันธ์ระหว่างเอนทิตีเป็นรูปแบบที่ใช้บ่อยในการแสดงองค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่Object Management Group (OMG) ได้พัฒนาข้อกำหนดKnowledge Discovery Metamodel (KDM) ซึ่งกำหนดออนโทโลยีสำหรับสินทรัพย์ซอฟต์แวร์และความสัมพันธ์ของสินทรัพย์เหล่านั้นเพื่อวัตถุประสงค์ในการค้นพบองค์ความรู้ในโค้ดที่มีอยู่ การค้นพบองค์ความรู้จากระบบซอฟต์แวร์ที่มีอยู่ หรือที่เรียกว่าการขุดค้นซอฟต์แวร์นั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับการขุดค้นข้อมูลเนื่องจากส่วนประกอบซอฟต์แวร์ที่มีอยู่มีคุณค่ามหาศาลสำหรับการจัดการความเสี่ยงและคุณค่าทาง ธุรกิจ ซึ่งเป็นกุญแจสำคัญสำหรับการประเมินและการพัฒนาระบบซอฟต์แวร์ แทนที่จะขุดค้นชุดข้อมูล แต่ละชุด การขุดค้นซอฟต์แวร์จะมุ่งเน้นไปที่เมตาเดต้าเช่น ผังกระบวนการ (เช่น ผังข้อมูล ผังควบคุม และแผนที่การเรียกใช้) สถาปัตยกรรม โครงสร้างฐานข้อมูล และกฎ/ข้อกำหนด/กระบวนการทางธุรกิจ

ข้อมูลป้อนเข้า

รูปแบบเอาต์พุต

ดูเพิ่มเติม

อ่านเพิ่มเติม

Chicco, D; Masseroli, M (2016). "การทำนายและการจัดลำดับความสำคัญของคำอธิบายประกอบการทำงานของยีนโดยใช้ออนโทโลยี" . IEEE/ACM Transactions on Computational Biology and Bioinformatics . 13 (2): 248– 260. doi : 10.1109/TCBB.2015.2459694 . PMID 27045825 . S2CID 2795344 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[

[

[ 46 ]