อ่าน 2 นาที
แหล่งข้อมูลคำศัพท์
ใน พจนานุกรม ดิจิทัล การ ประมวลผลภาษาธรรมชาติ และ มนุษยศาสตร์ดิจิทัล ทรัพยากร คำ ศัพท์ คือ ทรัพยากรภาษา ที่ประกอบด้วย ข้อมูล เกี่ยวกับ คำศัพท์ ของ พจนานุกรม ของภาษาหนึ่ง ภาษา...
แหล่งข้อมูลคำศัพท์
ในพจนานุกรม ดิจิทัล การประมวลผลภาษาธรรมชาติและมนุษยศาสตร์ดิจิทัล ทรัพยากร คำศัพท์คือทรัพยากรภาษาที่ประกอบด้วยข้อมูลเกี่ยวกับคำศัพท์ของพจนานุกรมของภาษาหนึ่งภาษา หรือมากกว่า เช่น ในรูปแบบของฐานข้อมูล[ 1 ]
ลักษณะเฉพาะ
มีมาตรฐานที่แตกต่างกันสำหรับเวอร์ชันที่เครื่องอ่านได้ของทรัพยากรคำศัพท์ เช่นLexical Markup Framework (LMF)ซึ่งเป็นมาตรฐาน ISOสำหรับการเข้ารหัสทรัพยากรคำศัพท์ ประกอบด้วยแบบจำลองข้อมูลนามธรรมและการแปลงเป็นXML [ 2 ]และOntoLex-Lemonซึ่งเป็น คำศัพท์ RDFสำหรับการเผยแพร่ทรัพยากรคำศัพท์เป็นกราฟความรู้บนเว็บ เช่นLinguistic Linked Open Data [ 3 ]
ขึ้นอยู่กับประเภทของภาษาที่กล่าวถึง ทรัพยากรคำศัพท์อาจถูกจัดประเภทเป็นแบบภาษาเดียวสองภาษาหรือหลายภาษาสำหรับทรัพยากรคำศัพท์แบบสองภาษาและหลายภาษา คำต่างๆ อาจเชื่อมโยงกันหรือไม่เชื่อมโยงกันจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง เมื่อเชื่อมโยงกันความเท่าเทียมกันจากภาษาหนึ่งไปยังอีกภาษาหนึ่งจะดำเนินการผ่านการเชื่อมโยงแบบสองภาษา (สำหรับทรัพยากรคำศัพท์แบบสองภาษา เช่น การใช้ความสัมพันธ์vartrans:translatableAsในOntoLex-Lemon ) หรือผ่านสัญกรณ์หลายภาษา (สำหรับทรัพยากรคำศัพท์หลายภาษา เช่น โดยการอ้างอิงถึงontolex:Concept เดียวกัน ใน OntoLex-Lemon) [ 4 ]
นอกจากนี้ ยังสามารถสร้างและจัดการแหล่งข้อมูลคำศัพท์ที่ประกอบด้วยพจนานุกรมหลายเล่มของภาษาเดียวกันได้ เช่น พจนานุกรมหนึ่งเล่มสำหรับคำศัพท์ทั่วไป และพจนานุกรมอีกหนึ่งเล่มหรือหลายเล่มสำหรับโดเมนเฉพาะทางที่แตกต่างกัน
พจนานุกรมที่เครื่องอ่านได้ กับ พจนานุกรม NLP
ทรัพยากรคำศัพท์ในพจนานุกรม ดิจิทัล มักถูกเรียกว่าพจนานุกรมที่เครื่องอ่านได้ ( MRD ) ซึ่งเป็นพจนานุกรมที่จัดเก็บเป็นข้อมูลของเครื่อง (คอมพิวเตอร์) แทนที่จะพิมพ์ลงบนกระดาษ เป็นพจนานุกรมอิเล็กทรอนิกส์และฐานข้อมูลคำศัพท์ คำว่า MRD มักถูกเปรียบเทียบกับ พจนานุกรม NLPในแง่ที่ว่า MRD เป็นรูปแบบอิเล็กทรอนิกส์ของพจนานุกรมที่เคยพิมพ์ลงบนกระดาษมาก่อน แม้ว่าทั้งสองคำจะถูกใช้โดยโปรแกรม แต่ในทางตรงกันข้าม คำว่าพจนานุกรม NLP เป็นที่นิยมมากกว่าเมื่อพจนานุกรมถูกสร้างขึ้นตั้งแต่เริ่มต้นโดยคำนึงถึง NLP เป็นหลัก[ 5 ]
ฐานข้อมูลคำศัพท์
ฐานข้อมูลคำศัพท์คือแหล่งข้อมูลคำศัพท์ที่มีฐานข้อมูล สภาพแวดล้อมซอฟต์แวร์ที่เกี่ยวข้อง ซึ่งอนุญาตให้เข้าถึงเนื้อหาได้ ฐานข้อมูลนี้อาจได้รับการออกแบบขึ้นเฉพาะสำหรับข้อมูลคำศัพท์ หรืออาจเป็นฐานข้อมูลอเนกประสงค์ที่ป้อนข้อมูลคำศัพท์เข้าไปแล้ว
ข้อมูลที่จัดเก็บโดยทั่วไปในฐานข้อมูลคำศัพท์ประกอบด้วยการสะกดคำหมวดหมู่คำศัพท์และ คำ พ้องความหมายของคำ รวมถึง ความสัมพันธ์ ทางความหมายและทางเสียงระหว่างคำต่างๆ หรือกลุ่มคำต่างๆ
ดูเพิ่มเติม
- Lexical Markup Framework (LMF)คือมาตรฐาน ISOสำหรับการเข้ารหัสทรัพยากรทางคำศัพท์ ซึ่งประกอบด้วยแบบจำลองข้อมูลนามธรรมและการแปลงเป็นXML
- OntoLex-Lemonคือ คำศัพท์ RDFสำหรับเผยแพร่แหล่งข้อมูลทางด้านคำศัพท์บนเว็บ เช่นข้อมูลเปิดที่เชื่อมโยงทางภาษาศาสตร์ (Linguistic Linked Open Data)
- ชุดการประชุมLREC
- พจนานุกรมที่เครื่องอ่านได้
- เวิร์ดเน็ต
- ออนโทโลยีภาษาอาหรับ
ลิงก์ภายนอก
- Open English WordNet — โครงการโอเพนซอร์สที่แตกแขนงมาจาก Princeton WordNet
- เครือข่าย WordNet ทั่วโลกที่สมาคม WordNet ระดับโลก
- WordNetที่มหาวิทยาลัยพรินซ์ตัน (ปัจจุบันไม่มีการดูแลรักษาแล้ว)
- ออนโทโลยีภาษาอาหรับณมหาวิทยาลัยบีร์เซอิต
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ แหล่งข้อมูลคำศัพท์
ใน พจนานุกรม ดิจิทัล การ ประมวลผลภาษาธรรมชาติ และ มนุษยศาสตร์ดิจิทัล ทรัพยากร คำ ศัพท์ คือ ทรัพยากรภาษา ที่ประกอบด้วย ข้อมูล เกี่ยวกับ คำศัพท์ ของ พจนานุกรม ของภาษาหนึ่ง ภาษา...
ลักษณะเฉพาะ
มีมาตรฐานที่แตกต่างกันสำหรับเวอร์ชันที่เครื่องอ่านได้ของทรัพยากรคำศัพท์ เช่น Lexical Markup Framework (LMF) ซึ่งเป็น มาตรฐาน ISO สำหรับการเข้ารหัสทรัพยากรคำศัพท์ ประกอบด้วยแบบจำลองข้อมูลนามธรรมและการแปลงเป็น XML [ 2 ] และ OntoLex-Lemon ซึ่งเป็น คำศัพท์ RDF...
พจนานุกรมที่เครื่องอ่านได้ กับ พจนานุกรม NLP
ทรัพยากรคำศัพท์ใน พจนานุกรม ดิจิทัล มักถูกเรียกว่า พจนานุกรมที่เครื่องอ่านได้ ( MRD ) ซึ่งเป็น พจนานุกรม ที่จัดเก็บเป็นข้อมูลของเครื่อง (คอมพิวเตอร์) แทนที่จะพิมพ์ลงบนกระดาษ เป็น พจนานุกรมอิเล็กทรอนิกส์ และฐานข้อมูลคำศัพท์ คำว่า MRD มักถูกเปรียบเทียบกับ...
ฐานข้อมูลคำศัพท์
ฐาน ข้อมูลคำศัพท์ คือแหล่งข้อมูลคำศัพท์ที่มี ฐานข้อมูล สภาพแวดล้อมซอฟต์แวร์ที่เกี่ยวข้อง ซึ่งอนุญาตให้เข้าถึงเนื้อหาได้ ฐานข้อมูลนี้อาจได้รับการออกแบบขึ้นเฉพาะสำหรับข้อมูลคำศัพท์ หรืออาจเป็นฐานข้อมูลอเนกประสงค์ที่ป้อนข้อมูลคำศัพท์เข้าไปแล้ว