อ่าน 4 นาที
แหล่งข้อมูลภาษา
ในด้าน ภาษาศาสตร์ และ เทคโนโลยีภาษา ทรัพยากร ภาษา คือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...
แหล่งข้อมูลภาษา
ในด้านภาษาศาสตร์และเทคโนโลยีภาษาทรัพยากรภาษาคือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...) ในการศึกษาวิจัยและการประยุกต์ใช้ภาษาและสื่อกลางทางภาษา" [ 1 ]
ตามที่ Bird & Simons (2003) กล่าวไว้[ 2 ]ซึ่งรวมถึง
- ข้อมูล เช่น "ข้อมูลใดๆ ที่บันทึกหรืออธิบายภาษา เช่น เอกสารทางวิชาการที่ตีพิมพ์ ไฟล์ข้อมูลคอมพิวเตอร์ หรือแม้แต่กล่องรองเท้าที่เต็มไปด้วยบัตรดัชนีที่เขียนด้วยลายมือ ข้อมูลอาจมีเนื้อหาหลากหลาย ตั้งแต่การบันทึกเสียงที่ยังไม่ได้วิเคราะห์ ไปจนถึงข้อความที่ถอดความและใส่คำอธิบายประกอบอย่างครบถ้วน ไปจนถึงไวยากรณ์เชิงพรรณนาที่สมบูรณ์" [ 2 ]
- เครื่องมือ เช่น "ทรัพยากรการคำนวณที่อำนวยความสะดวกในการสร้าง ดู สอบถาม หรือใช้ข้อมูลภาษาในรูปแบบอื่น" [ 2 ]และ
- คำแนะนำ เช่น "ข้อมูลใดๆ เกี่ยวกับแหล่งข้อมูลที่เชื่อถือได้ เครื่องมือที่เหมาะสมในสถานการณ์ที่กำหนด แนวปฏิบัติที่ควรปฏิบัติตามเมื่อสร้างข้อมูลใหม่" โดยทั่วไปแล้วแง่มุมหลังนี้เรียกว่า "แนวปฏิบัติที่ดีที่สุด" หรือ "มาตรฐาน (ชุมชน)" [ 2 ]
ในความหมายที่แคบลง ทรัพยากรภาษาจะถูกนำมาใช้กับทรัพยากรที่มีอยู่ในรูปแบบดิจิทัล โดยเฉพาะ และ "ครอบคลุม (ก) ชุดข้อมูล (ข้อมูลข้อความ ข้อมูลมัลติมีเดีย/มัลติมีเดีย และข้อมูลคำศัพท์ ไวยากรณ์ แบบจำลองภาษา ฯลฯ) ในรูปแบบที่เครื่องอ่านได้ และ (ข) เครื่องมือ/เทคโนโลยี/บริการที่ใช้สำหรับการประมวลผลและการจัดการ" [ 1 ]
ประเภท
ณ เดือนพฤษภาคม พ.ศ. 2563 ยังไม่มีการกำหนดประเภทมาตรฐานของทรัพยากรภาษาที่ใช้กันอย่างแพร่หลาย (ข้อเสนอในปัจจุบัน ได้แก่LREMap [ 3 ] METASHARE [ 4 ]และสำหรับข้อมูล คือการจำแนกประเภท LLOD ) คลาสที่สำคัญของทรัพยากรภาษา ได้แก่
- ข้อมูล
- แหล่งข้อมูลทางด้านคำศัพท์เช่นพจนานุกรมที่เครื่องอ่านได้
- คลังข้อมูลทางภาษาศาสตร์กล่าวคือ ชุดข้อมูลภาษาธรรมชาติในรูปแบบดิจิทัล
- ฐานข้อมูลทางภาษาศาสตร์ เช่น ชุด ข้อมูลเชื่อมโยงข้ามภาษา (Cross-Linguistic Linked Data collection)
- เครื่องมือ
- คำอธิบายประกอบทางภาษาและเครื่องมือสำหรับการสร้างคำอธิบายประกอบดังกล่าวในรูปแบบด้วยตนเองหรือกึ่งอัตโนมัติ (เช่น เครื่องมือสำหรับใส่คำอธิบาย ประกอบใน ข้อความที่มีคำแปลระหว่างบรรทัดเช่นToolboxและFLExหรือเครื่องมือจัดทำเอกสารภาษา อื่นๆ )
- แอปพลิเคชันสำหรับการค้นหาและเรียกค้นข้อมูลดังกล่าว ( ระบบจัดการคลัง ข้อมูล ) สำหรับการใส่คำอธิบายประกอบโดยอัตโนมัติ ( การติดแท็กส่วนของคำพูดการวิเคราะห์ไวยากรณ์การวิเคราะห์ความหมายฯลฯ)
- เมตาเดตาและคำศัพท์
- คำศัพท์ คลังคำศัพท์ทางภาษาศาสตร์และเมตาเดตาภาษา เช่น MetaShare (สำหรับเมตาเดตาทรัพยากรภาษา) [ 4 ] ทะเบียน หมวด หมู่ข้อมูล ISO 12620 (สำหรับคุณลักษณะทางภาษาศาสตร์ โครงสร้างข้อมูล และคำอธิบายประกอบภายในทรัพยากรภาษา) [ 5 ]หรือ ฐานข้อมูล Glottolog (ตัวระบุสำหรับภาษาหลากหลายรูปแบบและฐานข้อมูลบรรณานุกรม) [ 6 ]
การตีพิมพ์ การเผยแพร่ และการสร้างแหล่งข้อมูลทางภาษา
ประเด็นสำคัญประการหนึ่งของชุมชนผู้เชี่ยวชาญด้านภาษาคือการพัฒนาโครงสร้างพื้นฐานและแพลตฟอร์มเพื่อนำเสนอ อภิปราย และเผยแพร่ทรัพยากรทางภาษา ตัวอย่างผลงานที่เกี่ยวข้องในด้านนี้ ได้แก่:
- การประชุมวิชาการนานาชาติว่าด้วยทรัพยากรและการประเมินภาษา (LREC) หลายครั้ง
- สมาคมทรัพยากรภาษาแห่งยุโรป (ELRA, ตั้งอยู่ในสหภาพยุโรป) และสมาคมข้อมูลภาษาศาสตร์ (LDC, ตั้งอยู่ในสหรัฐอเมริกา) ซึ่งเป็นตัวแทนของแพลตฟอร์มเชิงพาณิชย์สำหรับการโฮสต์และเผยแพร่ทรัพยากรทางภาษา
- ชุมชนเก็บรวบรวมข้อมูลภาษาแบบเปิด (Open Languages Archives Community หรือ OLAC)ซึ่งเป็นผู้จัดหาและรวบรวมข้อมูลเมตาของแหล่งข้อมูลภาษา
- วารสารทรัพยากรภาษาและการประเมิน (LREJ) [ 7 ]
- European Language Gridคือแพลตฟอร์มระดับยุโรปสำหรับเทคโนโลยีด้านภาษา (เช่น บริการ) ข้อมูล และแหล่งข้อมูลต่างๆ
ส่วนการพัฒนารูปแบบมาตรฐานและแนวปฏิบัติที่ดีที่สุดสำหรับแหล่งข้อมูลทางภาษา เป็นเรื่องที่อยู่ในความรับผิดชอบของกลุ่มชุมชนและความพยายามในการกำหนดมาตรฐานหลายกลุ่ม รวมถึง
- คณะกรรมการทางเทคนิค ISO 37: คำศัพท์และทรัพยากรด้านภาษาและเนื้อหาอื่นๆ ( ISO/TC 37 ) พัฒนามาตรฐานสำหรับทรัพยากรด้านภาษาทุกด้าน
- กลุ่มชุมชนW3C แนวปฏิบัติที่ดีที่สุดสำหรับข้อมูลเปิดที่เชื่อมโยงหลายภาษา (BPMLOD) [ 8 ]ทำงานเกี่ยวกับคำแนะนำแนวปฏิบัติที่ดีที่สุดสำหรับการเผยแพร่ทรัพยากรภาษาเป็นข้อมูลเชื่อมโยงหรือในRDF
- กลุ่มชุมชน W3C Linked Data for Language Technology (LD4LT) [ 9 ]ทำงานเกี่ยวกับคำอธิบายประกอบทางภาษาศาสตร์บนเว็บและเมตาเดตาทรัพยากรภาษา
- กลุ่มชุมชน W3C Ontology-Lexica ( OntoLex ) [ 10 ]ทำงานเกี่ยวกับทรัพยากรคำศัพท์
- กลุ่มทำงานด้านภาษาศาสตร์แบบเปิดของมูลนิธิความรู้แบบเปิดทำงานเกี่ยวกับข้อตกลงสำหรับการเผยแพร่และการเชื่อมโยง ทรัพยากรภาษา แบบเปิดพัฒนาคลาวด์ข้อมูลแบบเปิดที่เชื่อมโยงทางภาษาศาสตร์[ 11 ]
- โครงการริเริ่มการเข้ารหัสข้อความ (TEI) [ 12 ]ทำงานเกี่ยวกับ ข้อกำหนดตาม XML สำหรับ ทรัพยากรภาษาและข้อความที่แก้ไขแบบดิจิทัล
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ แหล่งข้อมูลภาษา
ในด้าน ภาษาศาสตร์ และ เทคโนโลยีภาษา ทรัพยากร ภาษา คือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...
ประเภท
ณ เดือนพฤษภาคม พ.ศ. 2563 ยังไม่มีการกำหนดประเภทมาตรฐานของทรัพยากรภาษาที่ใช้กันอย่างแพร่หลาย (ข้อเสนอในปัจจุบัน ได้แก่ LREMap [ 3 ] METASHARE [ 4 ] และสำหรับข้อมูล คือ การ จำแนกประเภท LLOD ) คลาสที่สำคัญของทรัพยากรภาษา ได้แก่
การตีพิมพ์ การเผยแพร่ และการสร้างแหล่งข้อมูลทางภาษา
ประเด็นสำคัญประการหนึ่งของชุมชนผู้เชี่ยวชาญด้านภาษาคือการพัฒนาโครงสร้างพื้นฐานและแพลตฟอร์มเพื่อนำเสนอ อภิปราย และเผยแพร่ทรัพยากรทางภาษา ตัวอย่างผลงานที่เกี่ยวข้องในด้านนี้ ได้แก่: