กลับไปหน้าบทความ

อ่าน 10 นาที

การสกัดความรู้

การสกัดความรู้ คือการสร้าง ความรู้ จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ , เอกสาร, รูปภาพ )...

การสกัดความรู้

การสกัดความรู้คือการสร้างความรู้จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ,เอกสาร, รูปภาพ ) ความรู้ที่ได้จะต้องอยู่ในรูปแบบที่เครื่องสามารถอ่านและตีความได้ และต้องแสดงความรู้ในลักษณะที่เอื้อต่อการอนุมาน แม้ว่าวิธีการจะคล้ายกับการสกัดข้อมูล ( NLP ) และETL (คลังข้อมูล) แต่เกณฑ์หลักคือผลลัพธ์ของการสกัดต้องเหนือกว่าการสร้างข้อมูลที่มีโครงสร้างหรือการแปลงเป็นสคีมาเชิงสัมพันธ์ต้องมีการนำความรู้ที่เป็นทางการ ที่มีอยู่แล้วมาใช้ซ้ำ (การใช้ตัวระบุหรือออนโทโลยีซ้ำ ) หรือการสร้างสคีมาโดยอิงจากข้อมูลต้นฉบับ

กลุ่ม RDB2RDF W3C [ 1 ]กำลังกำหนดมาตรฐานภาษาสำหรับการสกัดกรอบคำอธิบายทรัพยากร (RDF) จากฐานข้อมูลเชิงสัมพันธ์อีกตัวอย่างหนึ่งที่เป็นที่นิยมสำหรับการสกัดความรู้คือการแปลง Wikipedia ให้เป็นข้อมูลที่มีโครงสร้างและการจับคู่กับความรู้ ที่มีอยู่ (ดูDBpediaและFreebase )

ภาพรวม

หลังจากมีการกำหนดมาตรฐานภาษาสำหรับการแสดงความรู้ เช่นRDFและOWLแล้ว ก็มีการวิจัยมากมายในด้านนี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับการแปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF การระบุตัวตนการค้นพบความรู้และการเรียนรู้ออนโทโลยี กระบวนการโดยทั่วไปใช้วิธีการแบบดั้งเดิมจากการสกัดข้อมูลและการสกัด แปลง และโหลด (ETL) ซึ่งแปลงข้อมูลจากแหล่งที่มาให้เป็นรูปแบบที่มีโครงสร้าง ดังนั้นจึงจำเป็นต้องเข้าใจว่าข้อมูลเหล่านั้นมีปฏิสัมพันธ์และเรียนรู้ซึ่งกันและกันอย่างไร

เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่แนวทางในหัวข้อนี้ (บางเกณฑ์พิจารณาเฉพาะการสกัดจากฐานข้อมูลเชิงสัมพันธ์เท่านั้น): [ 2 ]

แหล่งที่มา แหล่งข้อมูลที่รองรับ: ข้อความ, ฐานข้อมูลเชิงสัมพันธ์, XML, CSV
นิทรรศการ ความรู้ที่สกัดออกมานั้นถูกนำเสนออย่างชัดเจนได้อย่างไร (เช่น ไฟล์ออนโทโลยี ฐานข้อมูลเชิงความหมาย)? คุณจะสามารถสืบค้นข้อมูลเหล่านั้นได้อย่างไร?
การซิงโครไนซ์ กระบวนการสกัดความรู้ดำเนินการเพียงครั้งเดียวเพื่อสร้างไฟล์ข้อมูล หรือผลลัพธ์จะซิงโครไนซ์กับแหล่งข้อมูลหรือไม่? เป็นแบบคงที่หรือแบบไดนามิก? การเปลี่ยนแปลงใดๆ ในผลลัพธ์จะถูกเขียนกลับเข้าไปหรือไม่ (แบบสองทิศทาง)?
การนำคำศัพท์กลับมาใช้ใหม่ เครื่องมือนี้สามารถนำคำศัพท์ที่มีอยู่แล้วมาใช้ในการแยกข้อมูลได้ ตัวอย่างเช่น คอลัมน์ 'firstName' ในตารางสามารถแมปกับ foaf:firstName ได้ วิธีการอัตโนมัติบางวิธีไม่สามารถแมปคำศัพท์ได้
ระบบอัตโนมัติ ระดับการช่วยเหลือ/การทำงานอัตโนมัติในการสกัดข้อมูล: แบบแมนนวล, แบบ GUI, กึ่งอัตโนมัติ, อัตโนมัติ
ต้องใช้ออนโทโลยีโดเมน จำเป็นต้องมีออนโทโลยีที่มีอยู่แล้วเพื่อใช้ในการจับคู่ ดังนั้นจึงต้องสร้างการจับคู่ขึ้นใหม่ หรือเรียนรู้สคีมาจากแหล่งข้อมูล ( การเรียนรู้ออนโทโลยี )

ตัวอย่าง

การเชื่อมโยงเอนทิตี

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, ExtractivและPoolParty Extractorวิเคราะห์ข้อความอิสระผ่านการจดจำเอนทิตีที่มีชื่อจากนั้นแยกความหมายของตัวเลือกผ่านการแก้ไขชื่อและเชื่อมโยงเอนทิตีที่พบไปยังคลังความรู้ของDBpedia [ 3 ] ( การสาธิต Dandelion dataTXT เก็บถาวรเมื่อ 2013-11-02 ที่Wayback Machineหรือการสาธิตเว็บ DBpedia Spotlightหรือการสาธิต PoolParty Extractor )

เมื่อวันพุธที่ผ่านมา ประธานาธิบดีโอบามาเรียกร้องให้รัฐสภาขยายเวลาการลดหย่อนภาษีสำหรับนักเรียนที่รวมอยู่ในมาตรการกระตุ้นเศรษฐกิจเมื่อปีที่แล้ว โดยให้เหตุผลว่านโยบายดังกล่าวให้ความช่วยเหลือที่เอื้อประโยชน์มากกว่า

เนื่องจากประธานาธิบดีโอบามาเชื่อมโยงกับ แหล่ง ข้อมูล LinkedData ของ DBpedia จึงสามารถดึงข้อมูลเพิ่มเติมได้โดยอัตโนมัติ และตัวให้เหตุผลเชิงความหมาย (Semantic Reasoner)สามารถอนุมานได้ว่าเอนทิตีที่กล่าวถึงนั้นเป็นประเภทบุคคล (โดยใช้ซอฟต์แวร์ FOAF ) และเป็นประเภทประธานาธิบดีของสหรัฐอเมริกา (โดยใช้YAGO ) ตัวอย่างที่ตรงกันข้าม: วิธีการที่รู้จักเฉพาะเอนทิตีหรือเชื่อมโยงไปยังบทความวิกิพีเดียและเป้าหมายอื่นๆ ที่ไม่ได้ให้การดึงข้อมูลที่มีโครงสร้างและความรู้เชิงทางการเพิ่มเติม

ฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF

  1. Triplify , D2R Server, Ultrawrap ( เก็บถาวรเมื่อ 2016-11-27 ที่Wayback Machine)และVirtuoso RDF Views เป็นเครื่องมือที่แปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF ในระหว่างกระบวนการนี้ เครื่องมือเหล่านี้อนุญาตให้ใช้คำศัพท์และออนโทโลยี ที่มีอยู่แล้วซ้ำได้ ในระหว่างกระบวนการแปลง เมื่อแปลงตารางเชิงสัมพันธ์ทั่วไปที่ชื่อusersคอลัมน์หนึ่ง (เช่นname ) หรือการรวมคอลัมน์ (เช่นfirst_nameและlast_name ) จะต้องให้ URI ของเอนทิตีที่สร้างขึ้น โดยปกติจะใช้คีย์หลัก คอลัมน์อื่นๆ สามารถแยกออกมาเป็นความสัมพันธ์กับเอนทิตีนี้ได้[ 4 ]จากนั้นจะใช้ (และนำกลับมาใช้ใหม่) คุณสมบัติที่มีความหมายที่กำหนดไว้อย่างเป็นทางการเพื่อตีความข้อมูล ตัวอย่างเช่น คอลัมน์ในตารางผู้ใช้ที่ชื่อmarriedToสามารถกำหนดเป็นความสัมพันธ์แบบสมมาตร และคอลัมน์homepageสามารถแปลงเป็นคุณสมบัติจากคำศัพท์ FOAFที่ชื่อfoaf:homepageซึ่งทำให้มีคุณสมบัติเป็นคุณสมบัติเชิงฟังก์ชันผกผัน จากนั้น แต่ละรายการใน ตาราง ผู้ใช้สามารถสร้างเป็นอินสแตนซ์ของคลาสfoaf:Person (ประชากรในออนโทโลยี) ได้ นอกจากนี้ความรู้เฉพาะด้าน (ในรูปแบบของออนโทโลยี) สามารถสร้างขึ้นจากstatus_idได้ ไม่ว่าจะโดยกฎที่สร้างขึ้นด้วยตนเอง (ถ้าstatus_idคือ 2 รายการนั้นจะอยู่ในคลาส Teacher) หรือโดยวิธีการ (กึ่ง) อัตโนมัติ ( การเรียนรู้ออนโทโลยี ) นี่คือตัวอย่างการแปลง:
ชื่อแต่งงานกับหน้าแรกรหัสสถานะ
ปีเตอร์แมรี่https://example.org/Peters_page1
คลอสอีวาhttps://example.org/Claus_page2
: ปีเตอร์: แต่งงานกับ: แมรี่. : แต่งงานกับนกฮูก: คุณสมบัติสมมาตร. : ปีเตอร์โฟฟ: หน้าแรก<https://example.org/Peters_page> . : ปีเตอร์อะโฟฟ: บุคคล. : ปีเตอร์อะ: นักเรียน. : คลอสอะ: ครู.

การดึงข้อมูลจากแหล่งข้อมูลที่มีโครงสร้างไปยัง RDF

การจับคู่แบบ 1:1 จากตาราง/มุมมองในฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ไปยังเอนทิตี/แอตทริบิวต์/ค่าใน RDF

เมื่อสร้างแบบจำลองฐานข้อมูลเชิงสัมพันธ์ (RDBMS) สำหรับโดเมนปัญหา จุดเริ่มต้นมักจะเป็นแผนภาพความสัมพันธ์ระหว่างเอนทิตี (ERD) โดยทั่วไป เอนทิตีแต่ละตัวจะถูกแทนด้วยตารางในฐานข้อมูล คุณลักษณะแต่ละตัวของเอนทิตีจะกลายเป็นคอลัมน์ในตารางนั้น และความสัมพันธ์ระหว่างเอนทิตีจะแสดงด้วยคีย์ต่างประเทศ โดยทั่วไปแล้วแต่ละตารางจะกำหนดคลาสของเอนทิตีเฉพาะ และแต่ละคอลัมน์เป็นคุณลักษณะหนึ่งของคลาสนั้น แต่ละแถวในตารางจะอธิบายถึงอินสแตนซ์ของเอนทิตี ซึ่งระบุได้อย่างไม่ซ้ำกันด้วยคีย์หลัก แถวในตารางทั้งหมดจะอธิบายถึงเซตของเอนทิตี ในแบบจำลอง RDF ที่เทียบเท่ากันของเซตเอนทิตีเดียวกัน:

  • แต่ละคอลัมน์ในตารางคือคุณลักษณะ (เช่น เงื่อนไข)
  • ค่าในแต่ละคอลัมน์เป็นค่าแอตทริบิวต์ (เช่น อ็อบเจ็กต์)
  • แต่ละคีย์แถวแสดงถึงรหัสประจำตัวของเอนทิตี (เช่น หัวข้อ)
  • แต่ละแถวแสดงถึงอินสแตนซ์ของเอนทิตี
  • แต่ละแถว (อินสแตนซ์ของเอนทิตี) จะถูกแทนด้วยชุดของสามส่วนที่มีหัวข้อร่วมกัน (รหัสเอนทิตี)

ดังนั้น เพื่อให้ได้มุมมองที่เทียบเท่ากันโดยอิงตามความหมายของ RDF อัลกอริทึมการแมปพื้นฐานจะเป็นดังนี้:

  1. สร้างคลาส RDFS สำหรับแต่ละตาราง
  2. แปลงคีย์หลักและคีย์รองทั้งหมดให้เป็น IRI
  3. กำหนด IRI ของเงื่อนไขให้กับแต่ละคอลัมน์
  4. กำหนดเงื่อนไข rdf:type ให้กับแต่ละแถว โดยเชื่อมโยงกับคลาส IRI ของ RDFS ที่สอดคล้องกับตาราง
  5. สำหรับแต่ละคอลัมน์ที่ไม่ใช่ส่วนหนึ่งของคีย์หลักหรือคีย์รอง ให้สร้างทริปเปิลที่มี IRI ของคีย์หลักเป็นประธาน IRI ของคอลัมน์เป็นภาคแสดง และค่าของคอลัมน์เป็นกรรม

การกล่าวถึงการแมปพื้นฐานหรือโดยตรงนี้ในยุคแรกๆ สามารถพบได้ใน การเปรียบเทียบ โมเดล ERกับโมเดล RDF ของTim Berners-Lee [ 4 ]

การแมปที่ซับซ้อนของฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF

การแมปแบบ 1:1 ที่กล่าวถึงข้างต้นจะเปิดเผยข้อมูลเดิมในรูปแบบ RDF อย่างตรงไปตรงมา การปรับปรุงเพิ่มเติมสามารถนำมาใช้เพื่อเพิ่มประโยชน์ของเอาต์พุต RDF ให้สอดคล้องกับกรณีการใช้งานที่กำหนด โดยปกติแล้ว ข้อมูลจะสูญหายไปในระหว่างการแปลงไดอะแกรมความสัมพันธ์ระหว่างเอนทิตี (ERD) ไปเป็นตารางเชิงสัมพันธ์ (รายละเอียดสามารถพบได้ในความไม่ตรงกันของอิมพีแดนซ์เชิงวัตถุ-ความสัมพันธ์ ) และต้องทำการวิศวกรรมย้อนกลับจากมุมมองเชิงแนวคิด แนวทางการสกัดสามารถมาจากสองทิศทาง ทิศทางแรกพยายามสกัดหรือเรียนรู้สคีมา OWL จากสคีมาฐานข้อมูลที่กำหนด แนวทางในยุคแรกใช้กฎการแมปที่สร้างขึ้นด้วยตนเองจำนวนคงที่เพื่อปรับปรุงการแมปแบบ 1:1 [ 5 ] [ 6 ] [ 7 ]วิธีการที่ซับซ้อนกว่านั้นใช้ฮิวริสติกหรืออัลกอริธึมการเรียนรู้เพื่อสร้างข้อมูลเชิงโครงร่าง (วิธีการเหล่านี้ทับซ้อนกับการเรียนรู้ออนโทโลยี ) ในขณะที่บางแนวทางพยายามดึงข้อมูลจากโครงสร้างที่มีอยู่ในสคีมา SQL [ 8 ] (เช่น การวิเคราะห์คีย์ต่างประเทศ) แนวทางอื่นๆ จะวิเคราะห์เนื้อหาและค่าในตารางเพื่อสร้างลำดับชั้นเชิงแนวคิด[ 9 ] (เช่น คอลัมน์ที่มีค่าน้อยเป็นตัวเลือกที่จะกลายเป็นหมวดหมู่) แนวทางที่สองพยายามแมปสคีมาและเนื้อหาเข้ากับออนโทโลยีโดเมนที่มีอยู่ก่อนแล้ว (ดูเพิ่มเติม: การจัดเรียงออนโทโลยี ) อย่างไรก็ตาม บ่อยครั้งที่ออนโทโลยีโดเมนที่เหมาะสมไม่มีอยู่และต้องสร้างขึ้นก่อน

อีเอ็มแอลอี

เนื่องจาก XML มีโครงสร้างเป็นแบบต้นไม้ ข้อมูลใดๆ ก็สามารถแสดงในรูปแบบ RDF ได้อย่างง่ายดาย เนื่องจาก RDF มีโครงสร้างเป็นแบบกราฟXML2RDFเป็นตัวอย่างหนึ่งของวิธีการที่ใช้โหนดว่างของ RDF และแปลงองค์ประกอบและแอตทริบิวต์ของ XML ไปเป็นคุณสมบัติของ RDF อย่างไรก็ตาม หัวข้อนี้มีความซับซ้อนมากขึ้นในกรณีของฐานข้อมูลเชิงสัมพันธ์ ในตารางเชิงสัมพันธ์ คีย์หลักเป็นตัวเลือกที่เหมาะสมที่จะเป็นหัวข้อของไตรเพิลที่แยกออกมา แต่ในทางกลับกัน องค์ประกอบ XML สามารถแปลงได้ ขึ้นอยู่กับบริบท ให้เป็นหัวข้อ ภาคแสดง หรือกรรมของไตรเพิลได้XSLTสามารถใช้เป็นภาษาการแปลงมาตรฐานเพื่อแปลง XML เป็น RDF ด้วยตนเองได้

การสำรวจวิธีการ/เครื่องมือ

ชื่อแหล่งข้อมูลการนำเสนอข้อมูลการซิงโครไนซ์ข้อมูลภาษาแผนที่การนำคำศัพท์กลับมาใช้ใหม่การสร้างแผนที่อัตโนมัติออนโทโลยีโดเมนที่จำเป็นใช้ GUI
การแมปข้อมูลเชิงสัมพันธ์ไปยัง RDF โดยตรงข้อมูลเชิงสัมพันธ์SPARQL/ETLพลวัตไม่มีข้อมูลเท็จอัตโนมัติเท็จเท็จ
CSV2RDF4LODซีเอสวีอีทีแอลคงที่อาร์ดีเอฟจริงคู่มือเท็จเท็จ
CoNLL-RDFทีเอสวี, โคเอ็นแอลแอล สตรีม SPARQL/RDF คงที่ ไม่มี จริง อัตโนมัติ (เฉพาะด้าน สำหรับกรณีการใช้งานในเทคโนโลยีภาษา จะรักษาความสัมพันธ์ระหว่างแถว) เท็จ เท็จ
คอนเวอร์ท2อาร์ดีเอฟไฟล์ข้อความที่คั่นด้วยตัวคั่นอีทีแอลคงที่อาร์ดีเอฟ/ดีเอ็มแอลจริงคู่มือเท็จจริง
เซิร์ฟเวอร์ D2Rอาร์ดีบีสปาร์คิวแอลสองทิศทางแผนที่ D2Rจริงคู่มือเท็จเท็จ
ดาร์ทกริดอาร์ดีบีภาษาการสอบถามของตนเองพลวัตเครื่องมือภาพจริงคู่มือเท็จจริง
ดาต้ามาสเตอร์อาร์ดีบีอีทีแอลคงที่กรรมสิทธิ์จริงคู่มือจริงจริง
ส่วนขยาย RDF ของ Google RefineCSV, XMLอีทีแอลคงที่ไม่มีกึ่งอัตโนมัติเท็จจริง
เคร็กซ์เตอร์อีเอ็มแอลอีอีทีแอลคงที่เอ็กซ์แอลทีจริงคู่มือจริงเท็จ
มาปอนโตอาร์ดีบีอีทีแอลคงที่กรรมสิทธิ์จริงคู่มือจริงเท็จ
การเปลี่ยนแปลงรูปร่างอาร์ดีบีอีทีแอลคงที่ภาษาการแมปข้อมูลแบบ XML ที่เป็นกรรมสิทธิ์จริงคู่มือเท็จจริง
แมปปิ้งมาสเตอร์ซีเอสวีอีทีแอลคงที่แมปปิ้งมาสเตอร์จริงอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI)เท็จจริง
โอดีแมปสเตอร์อาร์ดีบีอีทีแอลคงที่กรรมสิทธิ์จริงคู่มือจริงจริง
ปลั๊กอินนำเข้าไฟล์ CSV ของ OntoWiki - DataCube และ Tabularซีเอสวีอีทีแอลคงที่คำศัพท์ของ RDF Data Cubeจริงกึ่งอัตโนมัติเท็จจริง
Poolparty Extraktor (PPX)XML, ข้อความลิงก์ดาต้าพลวัตอาร์ดีเอฟ (สโกส)จริงกึ่งอัตโนมัติจริงเท็จ
RDBToOntoอาร์ดีบีอีทีแอลคงที่ไม่มีเท็จแม้ว่าจะทำงานโดยอัตโนมัติ แต่ผู้ใช้ยังมีโอกาสปรับแต่งผลลัพธ์ได้เพิ่มเติมอีกด้วยเท็จจริง
อาร์ดีเอฟ 123ซีเอสวีอีทีแอลคงที่เท็จเท็จคู่มือเท็จจริง
อาร์โดทอาร์ดีบีอีทีแอลคงที่คำสั่ง SQLจริงคู่มือจริงจริง
ความสัมพันธ์.OWLอาร์ดีบีอีทีแอลคงที่ไม่มีเท็จอัตโนมัติเท็จเท็จ
ที2แอลดีซีเอสวีอีทีแอลคงที่เท็จเท็จอัตโนมัติเท็จเท็จ
คำศัพท์ของ RDF Data Cubeข้อมูลสถิติหลายมิติในสเปรดชีตคำศัพท์เกี่ยวกับ Data Cubeจริงคู่มือเท็จ
ท็อปเบรด คอมโพเซอร์ซีเอสวีอีทีแอลคงที่สโกสเท็จกึ่งอัตโนมัติเท็จจริง
ทริปพลีฟี่อาร์ดีบีลิงก์ดาต้าพลวัตคำสั่ง SQLจริงคู่มือเท็จเท็จ
Ultrawrap ถูกเก็บถาวรเมื่อวันที่ 27 พฤศจิกายน 2016 ที่Wayback Machineอาร์ดีบีSPARQL/ETLพลวัตอาร์2อาร์เอ็มแอลจริงกึ่งอัตโนมัติเท็จจริง
มุมมองของ Virtuoso RDFอาร์ดีบีสปาร์คิวแอลพลวัตภาษาเมตาสคีมาจริงกึ่งอัตโนมัติเท็จจริง
นักสปองจ์มือฉมังแหล่งข้อมูลที่มีโครงสร้างและกึ่งโครงสร้างสปาร์คิวแอลพลวัตVirtuoso PL & XSLTจริงกึ่งอัตโนมัติเท็จเท็จ
วิสเอวิสอาร์ดีบีอาร์ดีคิวแอลพลวัตคำสั่ง SQLจริงคู่มือจริงจริง
XLWrap: แปลงสเปรดชีตเป็น RDFซีเอสวีอีทีแอลคงที่ไวยากรณ์ TriGจริงคู่มือเท็จเท็จ
XML เป็น RDFอีเอ็มแอลอีอีทีแอลคงที่เท็จเท็จอัตโนมัติเท็จเท็จ

การสกัดจากแหล่งข้อมูลภาษาธรรมชาติ

ข้อมูลส่วนใหญ่ในเอกสารทางธุรกิจ (ประมาณ 80% [ 10 ] ) ถูกเข้ารหัสด้วยภาษาธรรมชาติและจึงไม่มีโครงสร้าง เนื่องจากข้อมูลที่ไม่มีโครงสร้างเป็นความท้าทายสำหรับการสกัดความรู้ จึงจำเป็นต้องใช้วิธีการที่ซับซ้อนมากขึ้น ซึ่งโดยทั่วไปแล้วมักจะให้ผลลัพธ์ที่แย่กว่าเมื่อเทียบกับข้อมูลที่มีโครงสร้าง อย่างไรก็ตาม ศักยภาพในการได้มาซึ่งความรู้ที่สกัดออกมาจำนวนมากควรจะชดเชยความซับซ้อนที่เพิ่มขึ้นและคุณภาพของการสกัดที่ลดลง ในส่วนต่อไปนี้ แหล่งข้อมูลภาษาธรรมชาติจะถูกเข้าใจว่าเป็นแหล่งข้อมูล โดยที่ข้อมูลนั้นอยู่ในรูปแบบที่ไม่มีโครงสร้างเป็นข้อความธรรมดา หากข้อความที่ให้มานั้นถูกฝังอยู่ในเอกสารมาร์กอัป (เช่น เอกสาร HTML) ระบบที่กล่าวถึงมักจะลบองค์ประกอบมาร์กอัปออกโดยอัตโนมัติ

การระบุข้อมูลทางภาษา / การประมวลผลภาษาธรรมชาติ (NLP)

ในขั้นตอนการเตรียมข้อมูลก่อนการสกัดความรู้ อาจจำเป็นต้องทำการระบุคำอธิบายทางภาษาโดยใช้ เครื่องมือ NLP หนึ่งตัวหรือหลายตัว โดยปกติแล้วแต่ละโมดูลในเวิร์กโฟลว์ NLP จะสร้างขึ้นบนรูปแบบเฉพาะของเครื่องมือสำหรับข้อมูลเข้าและข้อมูลออก แต่ในบริบทของการสกัดความรู้ ได้มีการประยุกต์ใช้รูปแบบที่มีโครงสร้างสำหรับการแสดงคำอธิบายทางภาษา

งาน NLP ทั่วไปที่เกี่ยวข้องกับการสกัดความรู้ ได้แก่:

  • การระบุส่วนของคำพูด (POS)
  • การหาคำหลัก (LEMMA) หรือการหารากศัพท์ (STEM)
  • การแยกแยะความหมายของคำ (WSD ซึ่งเกี่ยวข้องกับการระบุความหมายด้านล่าง)
  • การระบุเอนทิตีที่มีชื่อ (NER, ดู IE ด้านล่างด้วย)
  • การวิเคราะห์ไวยากรณ์ โดยมักใช้การพึ่งพาทางไวยากรณ์ (DEP)
  • การแยกวิเคราะห์ไวยากรณ์แบบตื้น (CHUNK): หากประสิทธิภาพเป็นสิ่งสำคัญ การแยกวิเคราะห์แบบ CHUNK จะช่วยให้สามารถแยกคำนามและวลีอื่นๆ ได้อย่างรวดเร็ว
  • การแก้ปัญหาการอ้างอิงคำสรรพนาม (ดูการแก้ปัญหาการอ้างอิงร่วมในภาษาอินโด-ยุโรปด้านล่าง แต่ในที่นี้มองว่าเป็นงานในการสร้างความเชื่อมโยงระหว่างการกล่าวถึงในข้อความ แทนที่จะเป็นการเชื่อมโยงระหว่างการกล่าวถึงสิ่งใดสิ่งหนึ่งกับการแสดงแทนเชิงนามธรรมของสิ่งนั้น)
  • การติดป้ายบทบาททางความหมาย (SRL ซึ่งเกี่ยวข้องกับการสกัดความสัมพันธ์ ไม่ควรสับสนกับการระบุความหมายตามที่อธิบายไว้ด้านล่าง)
  • การวิเคราะห์ความสัมพันธ์ระหว่างประโยค (ความสัมพันธ์ระหว่างประโยคต่างๆ ซึ่งไม่ค่อยได้ใช้ในสถานการณ์จริง)

ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ข้อมูลดังกล่าวโดยทั่วไปจะถูกแสดงในรูปแบบ TSV (รูปแบบ CSV ที่ใช้แท็บเป็นตัวคั่น) ซึ่งมักเรียกว่ารูปแบบ CoNLL สำหรับเวิร์กโฟลว์การสกัดความรู้ มุมมอง RDF บนข้อมูลดังกล่าวได้รับการสร้างขึ้นตามมาตรฐานชุมชนดังต่อไปนี้:

  • รูปแบบการแลกเปลี่ยน NLP (NIF สำหรับคำอธิบายประกอบประเภทที่ใช้บ่อยหลายประเภท) [ 11 ] [ 12 ]
  • การใส่คำอธิบายประกอบเว็บ (WA ซึ่งมักใช้สำหรับการเชื่อมโยงเอนทิตี) [ 13 ]
  • CoNLL-RDF (สำหรับคำอธิบายประกอบที่แสดงในรูปแบบ TSV เดิม) [ 14 ] [ 15 ]

รูปแบบอื่นๆ ที่เฉพาะเจาะจงสำหรับแต่ละแพลตฟอร์ม ได้แก่

  • รูปแบบการแลกเปลี่ยน LAPPS (LIF ซึ่งใช้ใน LAPPS Grid) [ 16 ] [ 17 ]
  • รูปแบบคำอธิบายประกอบ NLP (NAF ซึ่งใช้ในระบบจัดการเวิร์กโฟลว์ NewsReader) [ 18 ] [ 19 ]

การสกัดข้อมูลแบบดั้งเดิม (IE)

การสกัดข้อมูลแบบดั้งเดิม[ 20 ]เป็นเทคโนโลยีการประมวลผลภาษาธรรมชาติ ซึ่งสกัดข้อมูลจากข้อความภาษาธรรมชาติและจัดโครงสร้างข้อมูลเหล่านั้นในลักษณะที่เหมาะสม ประเภทของข้อมูลที่จะระบุจะต้องระบุไว้ในแบบจำลองก่อนเริ่มกระบวนการ ซึ่งเป็นเหตุผลว่าทำไมกระบวนการสกัดข้อมูลแบบดั้งเดิมทั้งหมดจึงขึ้นอยู่กับโดเมน การสกัดข้อมูลแบ่งออกเป็นห้างานย่อยดังต่อไปนี้

หน้าที่ของการระบุชื่อเฉพาะ (Named Entity Recognition: NENT)คือการระบุและจัดหมวดหมู่ชื่อเฉพาะทั้งหมดที่ปรากฏอยู่ในข้อความ (การกำหนดชื่อเฉพาะให้กับหมวดหมู่ที่กำหนดไว้ล่วงหน้า) ซึ่งทำได้โดยการประยุกต์ใช้วิธีการตามหลักไวยากรณ์หรือแบบจำลองทางสถิติ

การแก้ปัญหาการอ้างอิงร่วม (Coreference resolution) ระบุเอนทิตีที่เทียบเท่ากัน ซึ่งได้รับการยอมรับโดย NER ภายในข้อความ มีความสัมพันธ์ที่เทียบเท่ากันสองประเภทที่เกี่ยวข้อง ประเภทแรกเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีที่แสดงต่างกันสองเอนทิตี (เช่น IBM Europe และ IBM) และประเภทที่สองเกี่ยวข้องกับความสัมพันธ์ระหว่างเอนทิตีกับการอ้างอิงแบบอนาโฟริก (เช่น it และ IBM) ทั้งสองประเภทนี้สามารถรับรู้ได้โดยการแก้ปัญหาการอ้างอิงร่วม

ในระหว่างการสร้างองค์ประกอบแม่แบบ ระบบ IE จะระบุคุณสมบัติเชิงพรรณนาของเอนทิตี ซึ่งได้รับการยอมรับโดย NER และ CO คุณสมบัติเหล่านี้สอดคล้องกับคุณลักษณะทั่วไป เช่น สีแดง หรือ ขนาดใหญ่

การสร้างความสัมพันธ์ในเทมเพลตจะระบุความสัมพันธ์ที่มีอยู่ระหว่างองค์ประกอบของเทมเพลต ความสัมพันธ์เหล่านี้อาจมีหลายประเภท เช่น ทำงานให้ หรือ ตั้งอยู่ใน โดยมีข้อจำกัดว่าทั้งโดเมนและช่วงต้องสอดคล้องกับเอนทิตี

ในสถานการณ์จำลองตามแม่แบบ เหตุการณ์การผลิตซึ่งอธิบายไว้ในข้อความ จะถูกระบุและจัดโครงสร้างโดยสัมพันธ์กับเอนทิตีที่รู้จักโดย NER และ CO และความสัมพันธ์ที่ระบุโดย TR

การสกัดข้อมูลโดยใช้ระบบออนโทโลยี (OBIE)

การสกัดข้อมูลตามออนโทโลยี[ 10 ]เป็นสาขาย่อยของการสกัดข้อมูล โดย ใช้ ออนโทโลยี อย่างน้อยหนึ่ง รายการเพื่อชี้นำกระบวนการสกัดข้อมูลจากข้อความภาษาธรรมชาติ ระบบ OBIE ใช้วิธีการสกัดข้อมูลแบบดั้งเดิมเพื่อระบุแนวคิดตัวอย่าง และความสัมพันธ์ของออนโทโลยีที่ใช้ในข้อความ ซึ่งจะถูกจัดโครงสร้างเป็นออนโทโลยีหลังจากกระบวนการ ดังนั้น ออนโทโลยีที่ป้อนเข้ามาจึงเป็นแบบจำลองของข้อมูลที่จะสกัด[ 21 ]

การเรียนรู้ออนโทโลยี (OL)

การเรียนรู้ออนโทโลยีคือการสร้างออนโทโลยีโดยอัตโนมัติหรือกึ่งอัตโนมัติ ซึ่งรวมถึงการสกัดคำศัพท์เฉพาะด้านจากข้อความภาษาธรรมชาติ เนื่องจากการสร้างออนโทโลยีด้วยตนเองนั้นต้องใช้แรงงานและเวลามาก จึงมีแรงจูงใจอย่างยิ่งที่จะทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ

การใส่คำอธิบายความหมาย (SA)

ในระหว่างการระบุความหมาย[ 22 ]ข้อความภาษาธรรมชาติจะถูกเสริมด้วยเมตาเดตา (มักแสดงในRDFa ) ซึ่งควรทำให้ความหมายของคำที่อยู่ในนั้นสามารถเข้าใจได้ด้วยเครื่องจักร ในกระบวนการนี้ ซึ่งโดยทั่วไปเป็นแบบกึ่งอัตโนมัติ ความรู้จะถูกดึงออกมาในแง่ที่ว่ามีการสร้างลิงก์ระหว่างคำศัพท์และตัวอย่างเช่น แนวคิดจากออนโทโลยี ดังนั้นจึงได้รับความรู้ว่าความหมายของคำในบริบทที่ประมวลผลนั้นตั้งใจไว้ และด้วยเหตุนี้ความหมายของข้อความจึงอิงอยู่กับข้อมูลที่เครื่องจักรสามารถอ่านได้พร้อมความสามารถในการอนุมาน การระบุความหมายโดยทั่วไปจะแบ่งออกเป็นสองงานย่อยดังต่อไปนี้

  1. การสกัดคำศัพท์
  2. การเชื่อมโยงเอนทิตี

ในระดับการสกัดคำศัพท์ คำศัพท์เฉพาะทางจะถูกสกัดออกมาจากข้อความ โดยขั้นตอนแรก ตัวแยกคำจะกำหนดขอบเขตของคำและแก้ไขคำย่อ จากนั้น คำจากข้อความที่สอดคล้องกับแนวคิดจะถูกสกัดออกมาโดยใช้พจนานุกรมเฉพาะด้าน เพื่อเชื่อมโยงคำเหล่านั้นเข้าด้วยกันในขั้นตอนการเชื่อมโยงเอนทิตี

ในการเชื่อมโยงเอนทิตี[ 23 ] จะมีการสร้าง การเชื่อมโยงระหว่างคำศัพท์ที่แยกออกมาจากข้อความต้นฉบับและแนวคิดจากออนโทโลยีหรือฐานความรู้ เช่นDBpedia เพื่อการนี้ จะมีการตรวจจับแนวคิดที่เป็นไปได้ให้เหมาะสมกับความหมายต่างๆ ของคำศัพท์โดยใช้พจนานุกรม สุดท้าย จะมีการวิเคราะห์บริบทของคำศัพท์เพื่อกำหนดการแยกความหมายที่เหมาะสมที่สุดและกำหนดคำศัพท์ให้กับแนวคิดที่ถูกต้อง

โปรดทราบว่า "การใส่คำอธิบายความหมาย" ในบริบทของการสกัดความรู้ ไม่ควรสับสนกับ " การวิเคราะห์ความหมาย"ตามที่เข้าใจในด้านการประมวลผลภาษาธรรมชาติ (ซึ่งเรียกอีกอย่างว่า "การใส่คำอธิบายความหมาย"): การวิเคราะห์ความหมายมีเป้าหมายเพื่อสร้างการแสดงภาษาธรรมชาติที่สมบูรณ์และเครื่องจักรสามารถอ่านได้ ในขณะที่การใส่คำอธิบายความหมายในแง่ของการสกัดความรู้จะจัดการเฉพาะแง่มุมพื้นฐานมาก ๆ เท่านั้น

เครื่องมือ

เกณฑ์ต่อไปนี้สามารถใช้ในการจัดหมวดหมู่เครื่องมือที่ดึงความรู้จากข้อความภาษาธรรมชาติได้

แหล่งที่มาเครื่องมือนี้รองรับรูปแบบข้อมูลใดบ้าง (เช่น ข้อความธรรมดา, HTML หรือ PDF)?
รูปแบบการเข้าถึงเครื่องมือนี้สามารถสอบถามข้อมูลจากแหล่งข้อมูลได้โดยตรง หรือจำเป็นต้องดัมพ์ข้อมูลทั้งหมดเพื่อทำการดึงข้อมูลออกมา?
การซิงโครไนซ์ข้อมูลผลลัพธ์ของกระบวนการสกัดข้อมูลนั้นตรงกับแหล่งที่มาหรือไม่?
ใช้ออนโทโลยีเอาต์พุตเครื่องมือนี้เชื่อมโยงผลลัพธ์กับออนโทโลยีหรือไม่
ระบบอัตโนมัติในการทำแผนที่กระบวนการสกัดเป็นแบบอัตโนมัติมากน้อยแค่ไหน (แบบใช้มือ แบบกึ่งอัตโนมัติ หรือแบบอัตโนมัติ)?
ต้องใช้ออนโทโลยีเครื่องมือนี้จำเป็นต้องใช้ออนโทโลยีสำหรับการดึงข้อมูลหรือไม่?
ใช้ GUIเครื่องมือนี้มีอินเทอร์เฟซผู้ใช้แบบกราฟิกหรือไม่?
เข้าใกล้เครื่องมือนี้ใช้วิธีการใด (IE, OBIE, OL หรือ SA)
เอนทิตีที่แยกออกมาเครื่องมือนี้สามารถดึงข้อมูลประเภทใดบ้าง (เช่น เอนทิตีที่มีชื่อ แนวคิด หรือความสัมพันธ์)
เทคนิคประยุกต์มีการนำเทคนิคใดมาใช้บ้าง (เช่น NLP, วิธีทางสถิติ, การจัดกลุ่ม หรือการเรียนรู้ของเครื่อง )?
แบบจำลองผลลัพธ์เครื่องมือนี้ใช้โมเดลใดในการแสดงผลลัพธ์ (เช่น RDF หรือ OWL)?
โดเมนที่รองรับรองรับสาขาใดบ้าง (เช่น เศรษฐศาสตร์ หรือ ชีววิทยา)?
ภาษาที่รองรับสามารถประมวลผลภาษาใดได้บ้าง (เช่น ภาษาอังกฤษหรือภาษาเยอรมัน)?

ตารางต่อไปนี้แสดงลักษณะของเครื่องมือบางอย่างสำหรับการสกัดความรู้จากแหล่งข้อมูลภาษาธรรมชาติ

ชื่อแหล่งที่มารูปแบบการเข้าถึงการซิงโครไนซ์ข้อมูลใช้ออนโทโลยีเอาต์พุตระบบอัตโนมัติในการทำแผนที่ต้องใช้ออนโทโลยีใช้ GUIเข้าใกล้เอนทิตีที่แยกออกมาเทคนิคประยุกต์แบบจำลองผลลัพธ์โดเมนที่รองรับภาษาที่รองรับ
[1] [ 24 ]ข้อความธรรมดา, HTML, XML, SGMLทิ้งขยะเลขที่ใช่อัตโนมัติใช่ใช่เช่นเอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์กฎทางภาษากรรมสิทธิ์ไม่ขึ้นกับโดเมนภาษาอังกฤษ สเปน อาหรับ จีน อินโดนีเซีย
AlchemyAPI [ 25 ]ข้อความธรรมดา, HTMLอัตโนมัติใช่เอสเอหลายภาษา
แอนนี่[ 26 ]ข้อความธรรมดาทิ้งขยะใช่ใช่เช่นอัลกอริทึมสถานะจำกัดหลายภาษา
ASIUM [ 27 ]ข้อความธรรมดาทิ้งขยะกึ่งอัตโนมัติใช่โอแอลแนวคิด ลำดับชั้นของแนวคิดNLP, การจัดกลุ่ม
การสกัดแบบละเอียดถี่ถ้วน[ 28 ]อัตโนมัติเช่นเอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์เอ็นแอลแอล
ดอกแดนดิไลออน APIข้อความธรรมดา, HTML, URLพักผ่อนเลขที่เลขที่อัตโนมัติเลขที่ใช่เอสเอเอนทิตีที่มีชื่อ, แนวคิดวิธีการทางสถิติเจซอนไม่ขึ้นกับโดเมนหลายภาษา
DBpedia Spotlight [ 29 ]ข้อความธรรมดา, HTMLดัมพ์, SPARQLใช่ใช่อัตโนมัติเลขที่ใช่เอสเอคำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุดNLP, วิธีทางสถิติ, การเรียนรู้ของเครื่องอาร์ดีเอฟเอไม่ขึ้นกับโดเมนภาษาอังกฤษ
EntityClassifier.euข้อความธรรมดา, HTMLทิ้งขยะใช่ใช่อัตโนมัติเลขที่ใช่IE, OL, SAคำอธิบายประกอบสำหรับแต่ละคำ คำอธิบายประกอบสำหรับคำที่ไม่ใช่คำหยุดไวยากรณ์ตามกฎเกณฑ์อีเอ็มแอลอีไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาเยอรมัน ภาษาดัตช์
เฟรด[ 30 ]ข้อความธรรมดาดัมพ์, REST APIใช่ใช่อัตโนมัติเลขที่ใช่IE, OL, SA, รูปแบบการออกแบบออนโทโลยี, ความหมายของเฟรมคำอธิบายประกอบ NIF หรือ EarMark (หลายคำ), คำกริยา, ตัวอย่าง, ความหมายเชิงองค์ประกอบ, อนุกรมวิธานของแนวคิด, กรอบ, บทบาททางความหมาย, ความสัมพันธ์เชิงอ้อม, เหตุการณ์, รูปแบบ, กาล, การเชื่อมโยงเอนทิตี, การเชื่อมโยงเหตุการณ์, อารมณ์ความรู้สึกNLP, การเรียนรู้ของเครื่องจักร, กฎฮิวริสติกอาร์ดีเอฟ/โอวล์ไม่ขึ้นกับโดเมนภาษาอังกฤษ และภาษาอื่นๆ ผ่านการแปล
iDocument [ 31 ]HTML, PDF, DOCสปาร์คิวแอลใช่ใช่โอบีตัวอย่าง ค่าคุณสมบัติเอ็นแอลแอลส่วนตัว ธุรกิจ
เครื่องสกัด NetOwl [ 32 ]ข้อความธรรมดา, HTML, XML, SGML, PDF, MS Officeทิ้งขยะเลขที่ใช่อัตโนมัติใช่ใช่เช่นเอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์เอ็นแอลแอลXML, JSON, RDF-OWL และอื่นๆหลายโดเมนอังกฤษ, อาหรับ, จีน (ตัวย่อและตัวเต็ม), ฝรั่งเศส, เกาหลี, เปอร์เซีย (ฟาร์ซีและดารี), รัสเซีย, สเปน
OntoGen เก็บถาวรเมื่อ 2010-03-30 ที่Wayback Machine [ 33 ]กึ่งอัตโนมัติใช่โอแอลแนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่างNLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม
OntoLearn เก็บถาวรเมื่อ 2017-08-09 ที่Wayback Machine [ 34 ]ข้อความธรรมดา, HTMLทิ้งขยะเลขที่ใช่อัตโนมัติใช่เลขที่โอแอลแนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่างNLP, วิธีการทางสถิติกรรมสิทธิ์ไม่ขึ้นกับโดเมนภาษาอังกฤษ
OntoLearn รีโหลดข้อความธรรมดา, HTMLทิ้งขยะเลขที่ใช่อัตโนมัติใช่เลขที่โอแอลแนวคิด, ลำดับชั้นของแนวคิด, ตัวอย่างNLP, วิธีการทางสถิติกรรมสิทธิ์ไม่ขึ้นกับโดเมนภาษาอังกฤษ
OntoSyphon [ 35 ]HTML, PDF, DOCดัมพ์, คำค้นหาของเครื่องมือค้นหาเลขที่ใช่อัตโนมัติใช่เลขที่โอบีแนวคิด ความสัมพันธ์ ตัวอย่างNLP, วิธีการทางสถิติอาร์ดีเอฟไม่ขึ้นกับโดเมนภาษาอังกฤษ
ontoX เก็บถาวรเมื่อ 2016-05-27 ที่Wayback Machine [ 36 ]ข้อความธรรมดาทิ้งขยะเลขที่ใช่กึ่งอัตโนมัติใช่เลขที่โอบีอินสแตนซ์ ค่าคุณสมบัติประเภทข้อมูลวิธีการเชิงฮิวริสติกกรรมสิทธิ์ไม่ขึ้นกับโดเมนไม่ขึ้นกับภาษา
โอเพ่นคาเลส์ข้อความธรรมดา, HTML, XMLทิ้งขยะเลขที่ใช่อัตโนมัติใช่เลขที่เอสเอการใส่คำอธิบายประกอบให้กับเอนทิตี การใส่คำอธิบายประกอบให้กับเหตุการณ์ การใส่คำอธิบายประกอบให้กับข้อเท็จจริงNLP, การเรียนรู้ของเครื่องอาร์ดีเอฟไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาฝรั่งเศส ภาษาสเปน
PoolParty Extractor [ 37 ]ข้อความธรรมดา, HTML, DOC, ODTทิ้งขยะเลขที่ใช่อัตโนมัติใช่ใช่โอบีเอนทิตีที่มีชื่อ, แนวคิด, ความสัมพันธ์, แนวคิดที่ใช้จัดหมวดหมู่ข้อความ, การเสริมเพิ่มเติมNLP, การเรียนรู้ของเครื่อง, วิธีการทางสถิติอาร์ดีเอฟ, อาวแอลไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส
โรโซกาข้อความธรรมดา, HTML, XML, SGML, PDF, MS Officeทิ้งขยะใช่ใช่อัตโนมัติเลขที่ใช่เช่นการสกัดเอนทิตีที่มีชื่อ, การแก้ไขเอนทิตี, การสกัดความสัมพันธ์, คุณลักษณะ, แนวคิด, การวิเคราะห์ความรู้สึก แบบหลายเวกเตอร์ , การติดแท็กทางภูมิศาสตร์, การระบุภาษาNLP, การเรียนรู้ของเครื่องXML, JSON, POJO, RDFหลายโดเมนรองรับหลายภาษา มากกว่า 200 ภาษา
สคูบี้ข้อความธรรมดา, HTMLทิ้งขยะเลขที่ใช่อัตโนมัติเลขที่เลขที่โอบีอินสแตนซ์ ค่าคุณสมบัติ ประเภท RDFSNLP, การเรียนรู้ของเครื่องอาร์ดีเอฟ, อาร์ดีเอฟเอไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาเยอรมัน
เซมแท็ก[ 38 ] [ 39 ]เอชแอลทิ้งขยะเลขที่ใช่อัตโนมัติใช่เลขที่เอสเอการเรียนรู้ของเครื่องบันทึกฐานข้อมูลไม่ขึ้นกับโดเมนไม่ขึ้นกับภาษา
smart FIX ถูกเก็บถาวรเมื่อวันที่ 17 พฤษภาคม 2016 ที่Wayback Machineข้อความธรรมดา, HTML, PDF, DOC, อีเมลทิ้งขยะใช่เลขที่อัตโนมัติเลขที่ใช่โอบีเอนทิตีที่มีชื่อNLP, การเรียนรู้ของเครื่องกรรมสิทธิ์ไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาเยอรมัน ภาษาฝรั่งเศส ภาษาดัตช์ ภาษาโปแลนด์
Text2Onto [ 40 ]ข้อความธรรมดา, HTML, PDFทิ้งขยะใช่เลขที่กึ่งอัตโนมัติใช่ใช่โอแอลแนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, ตัวอย่าง, สัจพจน์NLP, วิธีทางสถิติ, การเรียนรู้ของเครื่อง, วิธีการตามกฎเกณฑ์นกฮูกอิสระจากเดโอเมนภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน
ข้อความถึงออนโท[ 41 ]ข้อความธรรมดา, HTML, PDF, PostScriptทิ้งขยะกึ่งอัตโนมัติใช่ใช่โอแอลแนวคิด, ลำดับชั้นของแนวคิด, ความสัมพันธ์ที่ไม่ใช่เชิงอนุกรมวิธาน, หน่วยคำศัพท์ที่อ้างอิงถึงแนวคิด, หน่วยคำศัพท์ที่อ้างอิงถึงความสัมพันธ์NLP, การเรียนรู้ของเครื่อง, การจัดกลุ่ม, วิธีทางสถิติภาษาเยอรมัน
เข็มนั้นข้อความธรรมดา ทิ้งขยะ อัตโนมัติ เลขที่ แนวคิด ความสัมพันธ์ ลำดับชั้น NLP, เทคโนโลยีลิขสิทธิ์เฉพาะ เจซอน หลายโดเมน ภาษาอังกฤษ
เครื่องวิกิ[ 42 ]ข้อความธรรมดา, HTML, PDF, DOCทิ้งขยะเลขที่ใช่อัตโนมัติใช่ใช่เอสเอคำอธิบายประกอบสำหรับชื่อเฉพาะ, คำอธิบายประกอบสำหรับชื่อทั่วไปการเรียนรู้ของเครื่องอาร์ดีเอฟเอไม่ขึ้นกับโดเมนภาษาอังกฤษ ภาษาเยอรมัน ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารัสเซีย
ThingFinder [ 43 ]เช่นเอนทิตีที่ระบุชื่อ ความสัมพันธ์ เหตุการณ์หลายภาษา

การค้นพบความรู้

การค้นพบความรู้หมายถึงกระบวนการค้นหารูปแบบที่สามารถถือได้ว่าเป็นความรู้เกี่ยวกับข้อมูล จำนวนมากโดยอัตโนมัติ [ 44 ] มักอธิบายว่าเป็นการดึงความรู้จากข้อมูลป้อนเข้า การค้นพบความรู้พัฒนามาจาก โดเมน การขุดข้อมูลและมีความเกี่ยวข้องอย่างใกล้ชิดกับโดเมนดังกล่าวทั้งในแง่ของวิธีการและศัพท์เฉพาะ[ 45 ]

สาขาที่รู้จักกันดีที่สุดของการขุดข้อมูลคือการค้นพบความรู้ หรือที่รู้จักกันในชื่อการค้นพบความรู้ในฐานข้อมูล (KDD) เช่นเดียวกับการค้นพบความรู้ในรูปแบบอื่นๆ อีกมากมาย มันสร้างนามธรรมของข้อมูลอินพุตความรู้ที่ได้รับผ่านกระบวนการนี้อาจกลายเป็นข้อมูล เพิ่มเติม ที่สามารถนำไปใช้และค้นพบเพิ่มเติมได้ บ่อยครั้งที่ผลลัพธ์จากการค้นพบความรู้ไม่สามารถนำไปปฏิบัติได้ เทคนิคต่างๆ เช่น การขุดข้อมูลที่ ขับเคลื่อนด้วยโดเมน[ 46 ]มีเป้าหมายเพื่อค้นพบและส่งมอบความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้

อีกหนึ่งการประยุกต์ใช้ที่น่าสนใจของการค้นพบองค์ความรู้คือในด้านการปรับปรุงซอฟต์แวร์ให้ทันสมัย ​​การค้นหาจุดอ่อน และการปฏิบัติตามข้อกำหนด ซึ่งเกี่ยวข้องกับการทำความเข้าใจส่วนประกอบซอฟต์แวร์ที่มีอยู่ กระบวนการนี้เกี่ยวข้องกับแนวคิดของการวิศวกรรมย้อนกลับโดยปกติแล้ว องค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่จะถูกนำเสนอในรูปแบบของโมเดล ซึ่งสามารถสอบถามข้อมูลเฉพาะได้เมื่อจำเป็นความสัมพันธ์ระหว่างเอนทิตีเป็นรูปแบบที่ใช้บ่อยในการแสดงองค์ความรู้ที่ได้จากซอฟต์แวร์ที่มีอยู่Object Management Group (OMG) ได้พัฒนาข้อกำหนดKnowledge Discovery Metamodel (KDM) ซึ่งกำหนดออนโทโลยีสำหรับสินทรัพย์ซอฟต์แวร์และความสัมพันธ์ของสินทรัพย์เหล่านั้นเพื่อวัตถุประสงค์ในการค้นพบองค์ความรู้ในโค้ดที่มีอยู่ การค้นพบองค์ความรู้จากระบบซอฟต์แวร์ที่มีอยู่ หรือที่เรียกว่าการขุดค้นซอฟต์แวร์นั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับการขุดค้นข้อมูลเนื่องจากส่วนประกอบซอฟต์แวร์ที่มีอยู่มีคุณค่ามหาศาลสำหรับการจัดการความเสี่ยงและคุณค่าทาง ธุรกิจ ซึ่งเป็นกุญแจสำคัญสำหรับการประเมินและการพัฒนาระบบซอฟต์แวร์ แทนที่จะขุดค้นชุดข้อมูล แต่ละชุด การขุดค้นซอฟต์แวร์จะมุ่งเน้นไปที่เมตาเดต้าเช่น ผังกระบวนการ (เช่น ผังข้อมูล ผังควบคุม และแผนที่การเรียกใช้) สถาปัตยกรรม โครงสร้างฐานข้อมูล และกฎ/ข้อกำหนด/กระบวนการทางธุรกิจ

ข้อมูลป้อนเข้า

รูปแบบเอาต์พุต

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Chicco, D; Masseroli, M (2016). "การทำนายและการจัดลำดับความสำคัญของคำอธิบายประกอบการทำงานของยีนโดยใช้ออนโทโลยี" . IEEE/ACM Transactions on Computational Biology and Bioinformatics . 13 (2): 248– 260. doi : 10.1109/TCBB.2015.2459694 . PMID  27045825 . S2CID  2795344 .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Knowledge_extraction&oldid=1357271737#Knowledge_discovery "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การสกัดความรู้

การสกัดความรู้ คือการสร้าง ความรู้ จากแหล่งข้อมูลที่มีโครงสร้าง ( ฐานข้อมูลเชิงสัมพันธ์ , XML ) และแหล่งข้อมูลที่ไม่มีโครงสร้าง ( ข้อความ , เอกสาร, รูปภาพ )...

ภาพรวม

หลังจากมีการกำหนดมาตรฐานภาษาสำหรับการแสดงความรู้ เช่น RDF และ OWL แล้ว ก็มีการวิจัยมากมายในด้านนี้ โดยเฉพาะอย่างยิ่งเกี่ยวกับการแปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF การระบุตัวตน การ ค้นพบความรู้ และการเรียนรู้ออนโทโลยี กระบวนการโดยทั่วไปใช้วิธีการแบบดั้งเดิมจาก...

การเชื่อมโยงเอนทิตี

เมื่อวันพุธที่ผ่านมา ประธานาธิบดีโอบามาเรียกร้องให้รัฐสภาขยายเวลาการลดหย่อนภาษีสำหรับนักเรียนที่รวมอยู่ในมาตรการกระตุ้นเศรษฐกิจเมื่อปีที่แล้ว โดยให้เหตุผลว่านโยบายดังกล่าวให้ความช่วยเหลือที่เอื้อประโยชน์มากกว่า

ฐานข้อมูลเชิงสัมพันธ์ไปยัง RDF

Triplify , D2R Server, Ultrawrap ( เก็บถาวรเมื่อ 2016-11-27 ที่ Wayback Machine) และ Virtuoso RDF Views เป็นเครื่องมือที่แปลงฐานข้อมูลเชิงสัมพันธ์เป็น RDF ในระหว่างกระบวนการนี้ เครื่องมือเหล่านี้อนุญาตให้ใช้คำศัพท์และ ออนโทโลยี ที่มีอยู่แล้วซ้ำได้...