กลับไปหน้าบทความ

อ่าน 4 นาที

แหล่งข้อมูลภาษา

ในด้าน ภาษาศาสตร์ และ เทคโนโลยีภาษา ทรัพยากร ภาษา คือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...

แหล่งข้อมูลภาษา

ในด้านภาษาศาสตร์และเทคโนโลยีภาษาทรัพยากรภาษาคือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...) ในการศึกษาวิจัยและการประยุกต์ใช้ภาษาและสื่อกลางทางภาษา" [ 1 ]

ตามที่ Bird & Simons (2003) กล่าวไว้[ 2 ]ซึ่งรวมถึง

  1. ข้อมูล เช่น "ข้อมูลใดๆ ที่บันทึกหรืออธิบายภาษา เช่น เอกสารทางวิชาการที่ตีพิมพ์ ไฟล์ข้อมูลคอมพิวเตอร์ หรือแม้แต่กล่องรองเท้าที่เต็มไปด้วยบัตรดัชนีที่เขียนด้วยลายมือ ข้อมูลอาจมีเนื้อหาหลากหลาย ตั้งแต่การบันทึกเสียงที่ยังไม่ได้วิเคราะห์ ไปจนถึงข้อความที่ถอดความและใส่คำอธิบายประกอบอย่างครบถ้วน ไปจนถึงไวยากรณ์เชิงพรรณนาที่สมบูรณ์" [ 2 ]
  2. เครื่องมือ เช่น "ทรัพยากรการคำนวณที่อำนวยความสะดวกในการสร้าง ดู สอบถาม หรือใช้ข้อมูลภาษาในรูปแบบอื่น" [ 2 ]และ
  3. คำแนะนำ เช่น "ข้อมูลใดๆ เกี่ยวกับแหล่งข้อมูลที่เชื่อถือได้ เครื่องมือที่เหมาะสมในสถานการณ์ที่กำหนด แนวปฏิบัติที่ควรปฏิบัติตามเมื่อสร้างข้อมูลใหม่" โดยทั่วไปแล้วแง่มุมหลังนี้เรียกว่า "แนวปฏิบัติที่ดีที่สุด" หรือ "มาตรฐาน (ชุมชน)" [ 2 ]

ในความหมายที่แคบลง ทรัพยากรภาษาจะถูกนำมาใช้กับทรัพยากรที่มีอยู่ในรูปแบบดิจิทัล โดยเฉพาะ และ "ครอบคลุม (ก) ชุดข้อมูล (ข้อมูลข้อความ ข้อมูลมัลติมีเดีย/มัลติมีเดีย และข้อมูลคำศัพท์ ไวยากรณ์ แบบจำลองภาษา ฯลฯ) ในรูปแบบที่เครื่องอ่านได้ และ (ข) เครื่องมือ/เทคโนโลยี/บริการที่ใช้สำหรับการประมวลผลและการจัดการ" [ 1 ]

ประเภท

ณ เดือนพฤษภาคม พ.ศ. 2563 ยังไม่มีการกำหนดประเภทมาตรฐานของทรัพยากรภาษาที่ใช้กันอย่างแพร่หลาย (ข้อเสนอในปัจจุบัน ได้แก่LREMap [ 3 ] METASHARE [ 4 ]และสำหรับข้อมูล คือการจำแนกประเภท LLOD ) คลาสที่สำคัญของทรัพยากรภาษา ได้แก่

  1. ข้อมูล
    1. แหล่งข้อมูลทางด้านคำศัพท์เช่นพจนานุกรมที่เครื่องอ่านได้
    2. คลังข้อมูลทางภาษาศาสตร์กล่าวคือ ชุดข้อมูลภาษาธรรมชาติในรูปแบบดิจิทัล
    3. ฐานข้อมูลทางภาษาศาสตร์ เช่น ชุด ข้อมูลเชื่อมโยงข้ามภาษา (Cross-Linguistic Linked Data collection)
  2. เครื่องมือ
    1. คำอธิบายประกอบทางภาษาและเครื่องมือสำหรับการสร้างคำอธิบายประกอบดังกล่าวในรูปแบบด้วยตนเองหรือกึ่งอัตโนมัติ (เช่น เครื่องมือสำหรับใส่คำอธิบาย ประกอบใน ข้อความที่มีคำแปลระหว่างบรรทัดเช่นToolboxและFLExหรือเครื่องมือจัดทำเอกสารภาษา อื่นๆ )
    2. แอปพลิเคชันสำหรับการค้นหาและเรียกค้นข้อมูลดังกล่าว ( ระบบจัดการคลัง ข้อมูล ) สำหรับการใส่คำอธิบายประกอบโดยอัตโนมัติ ( การติดแท็กส่วนของคำพูดการวิเคราะห์ไวยากรณ์การวิเคราะห์ความหมายฯลฯ)
  3. เมตาเดตาและคำศัพท์
    1. คำศัพท์ คลังคำศัพท์ทางภาษาศาสตร์และเมตาเดตาภาษา เช่น MetaShare (สำหรับเมตาเดตาทรัพยากรภาษา) [ 4 ] ทะเบียน หมวด หมู่ข้อมูล ISO 12620 (สำหรับคุณลักษณะทางภาษาศาสตร์ โครงสร้างข้อมูล และคำอธิบายประกอบภายในทรัพยากรภาษา) [ 5 ]หรือ ฐานข้อมูล Glottolog (ตัวระบุสำหรับภาษาหลากหลายรูปแบบและฐานข้อมูลบรรณานุกรม) [ 6 ]

การตีพิมพ์ การเผยแพร่ และการสร้างแหล่งข้อมูลทางภาษา

ประเด็นสำคัญประการหนึ่งของชุมชนผู้เชี่ยวชาญด้านภาษาคือการพัฒนาโครงสร้างพื้นฐานและแพลตฟอร์มเพื่อนำเสนอ อภิปราย และเผยแพร่ทรัพยากรทางภาษา ตัวอย่างผลงานที่เกี่ยวข้องในด้านนี้ ได้แก่:

  • การประชุมวิชาการนานาชาติว่าด้วยทรัพยากรและการประเมินภาษา (LREC) หลายครั้ง
  • สมาคมทรัพยากรภาษาแห่งยุโรป (ELRA, ตั้งอยู่ในสหภาพยุโรป) และสมาคมข้อมูลภาษาศาสตร์ (LDC, ตั้งอยู่ในสหรัฐอเมริกา) ซึ่งเป็นตัวแทนของแพลตฟอร์มเชิงพาณิชย์สำหรับการโฮสต์และเผยแพร่ทรัพยากรทางภาษา
  • ชุมชนเก็บรวบรวมข้อมูลภาษาแบบเปิด (Open Languages ​​Archives Community หรือ OLAC)ซึ่งเป็นผู้จัดหาและรวบรวมข้อมูลเมตาของแหล่งข้อมูลภาษา
  • วารสารทรัพยากรภาษาและการประเมิน (LREJ) [ 7 ]
  • European Language Gridคือแพลตฟอร์มระดับยุโรปสำหรับเทคโนโลยีด้านภาษา (เช่น บริการ) ข้อมูล และแหล่งข้อมูลต่างๆ

ส่วนการพัฒนารูปแบบมาตรฐานและแนวปฏิบัติที่ดีที่สุดสำหรับแหล่งข้อมูลทางภาษา เป็นเรื่องที่อยู่ในความรับผิดชอบของกลุ่มชุมชนและความพยายามในการกำหนดมาตรฐานหลายกลุ่ม รวมถึง

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Language_resource&oldid=1303344031 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แหล่งข้อมูลภาษา

ในด้าน ภาษาศาสตร์ และ เทคโนโลยีภาษา ทรัพยากร ภาษา คือ "[องค์ประกอบ] ของวัสดุทางภาษาที่ใช้ในการสร้าง ปรับปรุง และ/หรือประเมินแอปพลิเคชันการประมวลผลภาษา (...

ประเภท

ณ เดือนพฤษภาคม พ.ศ. 2563 ยังไม่มีการกำหนดประเภทมาตรฐานของทรัพยากรภาษาที่ใช้กันอย่างแพร่หลาย (ข้อเสนอในปัจจุบัน ได้แก่ LREMap [ 3 ] METASHARE [ 4 ] และสำหรับข้อมูล คือ การ จำแนกประเภท LLOD ) คลาสที่สำคัญของทรัพยากรภาษา ได้แก่

การตีพิมพ์ การเผยแพร่ และการสร้างแหล่งข้อมูลทางภาษา

ประเด็นสำคัญประการหนึ่งของชุมชนผู้เชี่ยวชาญด้านภาษาคือการพัฒนาโครงสร้างพื้นฐานและแพลตฟอร์มเพื่อนำเสนอ อภิปราย และเผยแพร่ทรัพยากรทางภาษา ตัวอย่างผลงานที่เกี่ยวข้องในด้านนี้ ได้แก่: