การทำเครื่องหมายที่ทับซ้อนกัน

ในภาษามาร์กอัปและมนุษยศาสตร์ดิจิทัลการทับซ้อนเกิดขึ้นเมื่อเอกสารมีโครงสร้างสองโครงสร้างขึ้นไปที่โต้ตอบกันในลักษณะที่ไม่เป็นลำดับชั้นเอกสารที่มีมาร์กอัปที่ทับซ้อนกันไม่สามารถแสดงเป็นโครงสร้างต้นไม้ได้นี่เรียกว่ามาร์กอัปพร้อมกัน การทับ ซ้อนเกิดขึ้น ตัวอย่างเช่น ในบทกวีซึ่งอาจมี โครงสร้าง จังหวะของหน่วยวัดและบรรทัด โครงสร้างทางภาษาของประโยคและการอ้างอิง และโครงสร้างทางกายภาพของเล่มและหน้าและคำอธิบายประกอบบรรณาธิการ^{[ 1 ]}^{[ 2 ]}

ประวัติศาสตร์

ความแตกต่างเชิงโครงสร้างระหว่างฉบับต่างๆ ของ*แฟรงเกนสไตน์*ได้รับการวิเคราะห์ด้วยเทคนิคที่ทับซ้อนกัน^{[ 3 ]}

ปัญหาของโครงสร้างที่ไม่เป็นลำดับชั้นในเอกสารได้รับการยอมรับมาตั้งแต่ปี 1988 การแก้ไขปัญหานี้โดยเปรียบเทียบกับกระบวนทัศน์หลักของข้อความที่เป็นลำดับชั้นเดียว ( ลำดับชั้นของวัตถุเนื้อหาหรือOHCO ) ในตอนแรกคิดว่าเป็นเพียงปัญหาทางเทคนิค แต่ในความเป็นจริงแล้วกลับยากกว่ามาก^{[ 4 ]} ในปี 2008 Jeni Tennisonได้ระบุว่าการทับซ้อนของมาร์กอัปเป็น "ปัญหาหลักที่เหลืออยู่สำหรับนักเทคโนโลยีมาร์กอัป" ^{[ 5 ]} การทับซ้อนของมาร์กอัปยังคงเป็นปัญหาหลักในการศึกษาข้อความทางศาสนศาสตร์แบบดิจิทัลในปี 2019 และเป็นเหตุผลสำคัญที่ทำให้สาขานี้ยังคงใช้รูปแบบมาร์กอัปเฉพาะทาง เช่นOpen Scripture Information StandardและTheological Markup Languageแทนที่จะใช้รูปแบบที่ทำงานร่วมกันได้ ตาม Text Encoding Initiativeซึ่งเป็นเรื่องปกติในสาขามนุษยศาสตร์ดิจิทัลอื่น ๆ ^{[ 6 ]}

คุณสมบัติและประเภท

มีความแตกต่างระหว่างรูปแบบที่อนุญาตให้มีการทับซ้อนแบบไม่ต่อเนื่อง และรูปแบบที่อนุญาตให้มีการทับซ้อนแบบต่อเนื่องเท่านั้น บ่อยครั้งที่ 'การทับซ้อนของมาร์กอัป' หมายถึงแบบหลังอย่างเคร่งครัด การทับซ้อนแบบต่อเนื่องสามารถแสดงได้เสมอในรูปแบบเอกสารเชิงเส้นที่มีจุดสำคัญ (โดยทั่วไปคือเครื่องหมายเริ่มต้นและสิ้นสุดที่มีดัชนีร่วมกัน) โดยไม่จำเป็นต้องแบ่งส่วนประกอบ (เชิงตรรกะ) ออกเป็นส่วนประกอบทางกายภาพหลายส่วน การทับซ้อนแบบไม่ต่อเนื่องอาจต้องมีการแบ่งส่วนเอกสาร ความแตกต่างอีกประการหนึ่งในรูปแบบมาร์กอัปที่ทับซ้อนกันคือ องค์ประกอบสามารถทับซ้อนกับองค์ประกอบอื่น ๆ ที่เป็นประเภทเดียวกันได้หรือไม่ ( การทับซ้อนในตัวเอง ) ^{[ 2 ]}

โครงสร้างข้อมูลบางแบบอาจมีลำดับชั้นที่ได้รับสิทธิพิเศษ ตัวอย่างเช่น โครงสร้างข้อมูลที่ใช้ XML บางแบบ จะแสดงลำดับชั้นหนึ่งโดยตรงในโครงสร้างเอกสาร XML และแสดงโครงสร้างอื่นๆ ที่ทับซ้อนกันด้วยวิธีการอื่น ซึ่งโครงสร้างเหล่านี้เรียกว่าโครงสร้างที่ไม่ได้รับสิทธิพิเศษ

Schmidt (2012)ระบุการจำแนกประเภทของการทับซ้อนกันออกเป็นสามประเภท ได้แก่ 1. "ความแตกต่างของเนื้อหาและโครงสร้าง" 2. "การทับซ้อนกันของมุมมองหรือชุดมาร์กอัปหลายชุด" และ 3. "การทับซ้อนกันของแท็กเริ่มต้นและแท็กสิ้นสุดแต่ละรายการภายในมุมมองมาร์กอัปเดียว" นอกจากนี้ บางกรณีที่เห็นได้ชัดว่าเป็นการทับซ้อนกันนั้น แท้จริงแล้วเป็นปัญหาเกี่ยวกับการกำหนดสคีมา ซึ่งสามารถแก้ไขได้ในระดับลำดับชั้น เขากล่าวว่าประเภทที่ 1 นั้นแก้ไขได้ดีที่สุดโดยระบบเอกสารหลายฉบับภายนอกมาร์กอัป แต่ประเภทที่ 2 และ 3 จำเป็นต้องจัดการภายใน

แนวทางและวิธีการดำเนินการ

DeRose (2004 , เกณฑ์การประเมิน) ได้ระบุเกณฑ์หลายประการสำหรับการตัดสินวิธีการแก้ปัญหาการทับซ้อน:

ความอ่านง่ายและความสามารถในการบำรุงรักษา
การสนับสนุนเครื่องมือและความเข้ากันได้กับ XML
รูปแบบการตรวจสอบความถูกต้องที่เป็นไปได้ และ
ความง่ายในการประมวลผล

โดยหลักแล้ว Tag soupไม่ใช่มาร์กอัปที่ทับซ้อนกัน แต่เป็นHTML ที่ผิดรูปแบบ ซึ่งเป็นภาษาที่ไม่ทับซ้อนกัน และอาจกำหนดไว้ไม่ชัดเจนเว็บเบราว์เซอร์ บางตัว พยายามแสดงแท็กเริ่มต้นและแท็กสิ้นสุดที่ทับซ้อนกันด้วยDocument Object Models (DOM) ที่ไม่เป็นลำดับชั้น แต่สิ่งนี้ไม่ได้เป็นมาตรฐานในทุกเบราว์เซอร์และไม่เข้ากันกับลักษณะที่เป็นลำดับชั้นโดยธรรมชาติของ DOM ^{[ 7 ]}^{[ 8 ]} HTML5กำหนดวิธีการที่ตัวประมวลผลควรจัดการกับมาร์กอัปที่ซ้อนกันผิดรูปแบบในไวยากรณ์ HTML และเปลี่ยนให้เป็นลำดับชั้นเดียว^{[ 9 ]} อย่างไรก็ตาม สำหรับXHTMLและ HTML ที่ใช้ SGMLมาร์กอัปที่ซ้อนกันผิดรูปแบบถือเป็นข้อผิดพลาดร้ายแรงและทำให้การประมวลผลโดยระบบที่สอดคล้องกับมาตรฐานเป็นไปไม่ได้^{[ 10 ]} มาตรฐาน HTML กำหนด แนวคิด ของย่อหน้าซึ่งอาจทำให้เกิดการทับซ้อนกับองค์ประกอบอื่น ๆ และอาจไม่ต่อเนื่องกัน^{[ 11 ]}

SGMLซึ่งเป็นพื้นฐานของ HTML เวอร์ชันแรกๆ มีคุณสมบัติที่เรียกว่า CONCUR ซึ่งอนุญาตให้ลำดับชั้นอิสระหลายลำดับสามารถอยู่ร่วมกันได้โดยไม่ต้องให้สิทธิพิเศษใดๆ การตรวจสอบ DTDจะถูกกำหนดไว้สำหรับแต่ละลำดับชั้นที่มี CONCUR เท่านั้น การตรวจสอบข้ามลำดับชั้นไม่ได้ถูกกำหนดไว้ในมาตรฐาน CONCUR ไม่สามารถรองรับการทับซ้อนกันเองได้ และมีการโต้ตอบที่ไม่ดีกับคุณสมบัติการย่อบางอย่างของ SGML คุณสมบัตินี้ได้รับการสนับสนุนจากเครื่องมือต่างๆ น้อยมากและมีการใช้งานจริงน้อยมาก การใช้ CONCUR เพื่อแสดงการทับซ้อนของเอกสารไม่ใช่กรณีการใช้งานที่แนะนำ ตามคำอธิบายของบรรณาธิการมาตรฐาน^{[ 12 ]}^{[ 13 ]}

ภายในภาษาที่มีโครงสร้างแบบลำดับชั้น

มีแนวทางหลายประการในการแสดงการทับซ้อนในภาษาที่ไม่ทับซ้อนกัน^{[ 14 ]} Text Encoding Initiativeซึ่งเป็นรูปแบบการมาร์กอัปแบบ XML ไม่สามารถแสดงการมาร์กอัปที่ทับซ้อนกันได้โดยตรง แนวทางทั้งสี่ด้านล่างนี้ได้รับการแนะนำ^{[ 15 ]} Open Scripture Information Standardเป็นรูปแบบ XML อีกรูปแบบหนึ่งที่ออกแบบมาเพื่อมาร์กอัปพระคัมภีร์โดยใช้ส่วนประกอบหลักที่ว่างเปล่าเพื่อเข้ารหัสส่วนประกอบที่ไม่ได้รับสิทธิ์^{[ 16 ]}

เพื่อแสดงให้เห็นถึงวิธีการเหล่านี้ จะใช้ตัวอย่างประกอบโดยการทำเครื่องหมายประโยคและบรรทัดจากบทละครเรื่องริชาร์ดที่ 3ของวิลเลียม เชกสเปียร์ในส่วนที่มีลำดับความสำคัญ จะใช้บรรทัดเหล่านั้นเป็นตัวอย่าง

เอกสารหลายฉบับ

เอกสารหลายฉบับสามารถให้ลำดับชั้นที่สอดคล้องกันภายในที่แตกต่างกันได้ ข้อดีของแนวทางนี้คือเอกสารแต่ละฉบับนั้นเรียบง่ายและสามารถประมวลผลได้ด้วยเครื่องมือที่มีอยู่ แต่ต้องบำรุงรักษาเนื้อหาที่ซ้ำซ้อนและอาจยากที่จะอ้างอิงข้ามระหว่างมุมมองที่แตกต่างกัน^{[ 17 ]}ด้วยเอกสารหลายฉบับ การทับซ้อนสามารถวิเคราะห์ได้ด้วย เทคนิค การเปรียบเทียบข้อมูลและการเข้ารหัสเดลต้าและในบริบทของ XML จะมีอัลกอริธึมการหาความแตกต่างของโครงสร้าง XML เฉพาะ^{[ 18 ]}^{[ 19 ]}

Schmidt (2012 , 3.5 Variation) แนะนำวิธีการนี้สำหรับการเข้ารหัสรูปแบบต่างๆ ของข้อความเดียว และยอมรับการทำซ้ำของส่วนที่ไม่เปลี่ยนแปลง แทนที่จะพยายามสร้างโครงสร้างที่แสดงถึงรูปแบบทั้งหมดที่มีอยู่ นอกจากนี้ เขายังแนะนำว่าควรดำเนินการจัดเรียงนี้โดยอัตโนมัติ และการจัดเรียงที่ไม่ถูกต้องนั้นเกิดขึ้นได้ยากในทางปฏิบัติ^{[ 20 ]}

ตัวอย่าง พร้อมเส้นที่ขีดไว้:

<line>ข้าพเจ้าขออวยพรท่านใน นาม ของมารดาของท่าน</line> <line>ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</line> <line>เพียงเท่านี้— ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</line> <line>และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</line>

โดยมีการทำเครื่องหมายประโยคไว้:

<ประโยค>ข้าพเจ้าขออวยพรท่านใน นาม ของมารดา ของท่านผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</ประโยค> <ประโยค>เพียงเท่านี้< /ประโยค><ประโยค> — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก< /ประโยค >

เหตุการณ์สำคัญ

ไมล์สโตนเป็นองค์ประกอบว่างเปล่าที่ทำเครื่องหมายจุดเริ่มต้นและจุดสิ้นสุดของส่วนประกอบ โดยทั่วไปจะใช้กลไก XML ID เพื่อระบุว่าองค์ประกอบ "เริ่มต้น" ใดตรงกับองค์ประกอบ "สิ้นสุด" ใด ไมล์สโตนสามารถใช้เพื่อฝังโครงสร้างที่ไม่ได้รับสิทธิ์ภายในภาษาลำดับชั้น ในรูปแบบพื้นฐาน ไมล์สโตนสามารถแสดงเฉพาะการทับซ้อนที่ต่อเนื่องกันเท่านั้น XML ทั่วไปสามารถแยกวิเคราะห์องค์ประกอบไมล์สโตนได้ แต่ไม่เข้าใจความหมายพิเศษขององค์ประกอบเหล่านั้น ดังนั้นจึงไม่สามารถประมวลผลหรือตรวจสอบโครงสร้างที่ไม่ได้รับสิทธิ์ได้อย่างง่ายดาย^{[ 21 ]}^{[ 22 ]}

Milestone มีข้อได้เปรียบตรงที่เครื่องหมายสำหรับองค์ประกอบที่ทับซ้อนกันจะอยู่ที่ขอบเขตที่เกี่ยวข้อง เช่นเดียวกับเครื่องหมายอื่นๆ ซึ่งเป็นข้อได้เปรียบในด้านการบำรุงรักษาและความสามารถในการอ่าน^{[ 23 ]} CLIX ( DeRose 2004 ) เป็นตัวอย่างของแนวทางดังกล่าว

ตัวอย่าง:

<line><sentence-start />ข้าพเจ้าขออวยพรท่านในนาม ของ มารดาของท่าน</line> <line>ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์<sentence-end /></line> <line><sentence-start />แค่นี้ก่อน< sentence - end /><sentence-start /> — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</line> <line>และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก< sentence-end /></line>

เครื่องหมายวรรคตอนและช่องว่างได้รับการระบุว่าเป็น 'การทับซ้อนแบบเข้ารหัส' หรือ 'การทำเครื่องหมายเทียม' ในรูปแบบหลักชัย เนื่องจากขอบเขตของคำ อนุประโยค ประโยค และอื่นๆ ไม่จำเป็นต้องสอดคล้องกับขอบเขตการทำเครื่องหมายอย่างเป็นทางการตามลำดับชั้น^{[ 24 ]}^{[ 25 ]}

นอกจากนี้ยังสามารถใช้หลักไมล์ที่ซับซ้อนกว่าเพื่อแสดงโครงสร้างที่ไม่ต่อเนื่องได้ ตัวอย่างเช่น ความหมาย "ระงับ" และ "ดำเนินการต่อ" ของ TAGML ^{[ 26 ]}สามารถแสดงได้โดยใช้หลักไมล์ เช่น โดยการเพิ่มแอตทริบิวต์เพื่อระบุว่าหลักไมล์แต่ละอันแสดงถึงจุดเริ่มต้น จุดระงับ ดำเนินการต่อ หรือจุดสิ้นสุด การจัดลำดับใหม่และแม้แต่การทับซ้อนกันเองก็สามารถทำได้ในทำนองเดียวกัน โดยการใส่คำอธิบายประกอบหลักไมล์แต่ละอันด้วยการอ้างอิง "ส่วนถัดไป"

เข้าร่วม

การเชื่อมต่อ (Joins)เป็นตัวชี้ภายในลำดับชั้นที่มีสิทธิ์ไปยังส่วนประกอบอื่นๆ ของลำดับชั้นที่มีสิทธิ์ ซึ่งอาจใช้ในการสร้างส่วนประกอบที่ไม่มีสิทธิ์ขึ้นใหม่คล้ายกับการติดตามรายการที่เชื่อมโยงองค์ประกอบที่ไม่มีสิทธิ์เพียงรายการเดียวจะถูกแบ่ง ออกเป็นองค์ประกอบ ย่อยหลาย รายการ ภายในลำดับชั้นที่มีสิทธิ์ องค์ประกอบย่อยเหล่านั้นไม่ได้แสดงถึงหน่วยเดียวในลำดับชั้นที่ไม่มีสิทธิ์ ซึ่งอาจทำให้เข้าใจผิดและทำให้การประมวลผลทำได้ยาก^{[ 27 ]}^{[ 28 ]}แม้ว่าวิธีการนี้จะสามารถรองรับโครงสร้างที่ไม่ต่อเนื่องบางอย่างได้ แต่ก็ไม่สามารถจัดลำดับองค์ประกอบใหม่ได้^{[ 29 ]}อย่างไรก็ตาม วิธีการที่แตกต่างออกไปเล็กน้อยสามารถแสดงการจัดลำดับใหม่ได้โดยการแสดงการเชื่อมต่อออกจากเนื้อหา โดยแลกกับความตรงไปตรงมาและการบำรุงรักษา^{[ 30 ]}

การแสดงผลแบบใช้การเชื่อมต่ออาจทำให้เกิดวงจรระหว่างองค์ประกอบได้ การตรวจจับและปฏิเสธสิ่งเหล่านี้จะเพิ่มความซับซ้อนให้กับการใช้งาน^{[ 31 ]}

ตัวอย่าง:

<line><sentence id= "a" >ข้าพเจ้าขออวยพรท่านในนามของมารดาของท่าน</sentence></line> <line><sentence continues= "a" >ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</sentence></line> <line><sentence id= "b" >แค่นี้ก่อน</sentence><sentence id= "c" > — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</sentence></line> <line><sentence continues= "c" > และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</sentence></line>

เครื่องหมายการยืนหยัด

การทำเครื่องหมายแบบ Stand-offนั้นคล้ายกับการใช้ Join ยกเว้นว่าอาจไม่มีลำดับชั้นพิเศษ: แต่ละส่วนของเอกสารจะได้รับป้ายกำกับ (หรืออาจถูกอ้างอิงโดยออฟเซ็ต) และโครงสร้างเอกสารจะแสดงโดยการชี้ไปยังเนื้อหาจากเครื่องหมายที่ 'แยก' ออกจากเนื้อหา (อาจอยู่ในไฟล์ที่แตกต่างกันโดยสิ้นเชิง) และอาจไม่มีเนื้อหาใดๆ เลย แนวทางของ TEI ระบุว่าความเป็นเอกภาพขององค์ประกอบเป็นข้อได้เปรียบหลักของการทำเครื่องหมายแบบ Stand-off เหนือ Join นอกเหนือจากความสามารถในการสร้างและแจกจ่ายคำอธิบายประกอบแยกต่างหากจากข้อความ อาจเป็นไปได้ว่าผู้เขียนหลายคนใช้เครื่องหมายกับเอกสารแบบอ่านอย่างเดียว^{[ 32 ]}ทำให้เกิดแนวทางการทำงานร่วมกันในการทำเครื่องหมายโดยใช้กลยุทธ์แบ่งและพิชิต^{[ 33 ]}

ตัวอย่าง:

<span id= "a" >ข้าพเจ้าขออวยพรท่าน ใน นามของมารดาของท่าน</span> <span id= "b" >ผู้ซึ่งอธิษฐานภาวนาเพื่อความดีของริชมอนด์อยู่เสมอ</span> <span id= "c" >แค่นี้ก่อนนะ</span> < span id= "d" > — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</span> <span id= "e" >และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</span> ... <line contents= "a" /> <line contents= "b" /> <line contents= "c" d" /> <line contents= "e" /> <sentence contents= "a b" /> <sentence contents= "c" /> <sentence contents= "d e" />

มีการอ้างว่าการแยกมาร์กอัปและข้อความสามารถส่งผลให้มีความเรียบง่ายโดยรวมและเพิ่มความสามารถในการบำรุงรักษา^{[ 34 ]}และในปี 2017 "[สถานะปัจจุบันของศิลปะในการ [แสดง] (...) ข้อมูลที่มีคำอธิบายประกอบทางภาษาศาสตร์คือการใช้การแสดงแบบกราฟที่เรียงลำดับเป็น XML แบบ standoff เป็นรูปแบบหลัก" ^{[ 35 ]}กล่าวคือ standoff เป็นแนวทางที่ได้รับการยอมรับอย่างกว้างขวางที่สุดในการแก้ไขปัญหาการทับซ้อนของมาร์กอัป

รูปแบบ Standoff เป็นพื้นฐานสำหรับมาตรฐาน ISO สำหรับการใส่คำอธิบายประกอบทางภาษาศาสตร์^{[ 36 ]}มีการนำไปใช้สำเร็จในการพัฒนาระบบการจัดการคลังข้อมูล^{[ 37 ]}และ (ณ เดือนเมษายน 2020) กำลังได้รับการพัฒนาอย่างต่อเนื่องใน TEI ^{[ 38 ]}ตัวอย่างหนึ่งที่ตีพิมพ์ของแผนการใส่คำอธิบายประกอบแบบ Standoff ที่ประสบความสำเร็จได้รับการพัฒนาขึ้นเป็นส่วนหนึ่งของโครงการเอกสารภาษาธรรมชาติแบบสองข้อความซึ่งมุ่งเน้นการอนุรักษ์ภาษาที่มีทรัพยากรน้อยหรือใกล้สูญพันธุ์^{[ 39 ]}

ความท้าทาย

การแสดงมาร์กอัปที่ทับซ้อนกันภายในภาษาลำดับชั้นเป็นเรื่องท้าทาย เนื่องจากความซ้ำซ้อนและ/หรือความซับซ้อน ในช่วงปี 2000 ถึง 2010 รูปแบบ standoff ได้รับการยอมรับโดยทั่วไปว่าเป็นแนวทางที่มีแนวโน้มดีที่สุดในที่นี้^{[ 35 ]}แต่ข้อเสียของ standoff คือการตรวจสอบความถูกต้องเป็นเรื่องที่ท้าทายมาก^{[ 40 ]} รูปแบบ standoff ไม่ได้รับการสนับสนุนโดยระบบจัดการฐานข้อมูล ดังนั้น (ภายในปี 2017) จึงมีการเสนอแนะให้ "ใช้ ... XML standoff เป็นรูปแบบ pivot (...) และฐานข้อมูลเชิงสัมพันธ์สำหรับการสืบค้น" ^{[ 35 ]}ในการใช้งานจริง สิ่งนี้ต้องการสถาปัตยกรรมที่ซับซ้อนและ/หรือการแปลงที่ต้องใช้แรงงานมากระหว่างรูปแบบ pivot และการแสดงภายใน ส่งผลให้การบำรุงรักษาเป็นปัญหา^{[ 41 ]}นี่เป็นแรงจูงใจในการพัฒนาระบบจัดการคอร์ปัสบนพื้นฐานของฐานข้อมูลกราฟและการใช้รูปแบบกราฟที่ได้รับการยอมรับเป็นรูปแบบ pivot

ภาษาเฉพาะทาง

ในการนำกลยุทธ์ที่กล่าวมาข้างต้นไปใช้ สามารถขยายภาษามาร์กอัปที่มีอยู่แล้ว (เช่น TEI) หรือออกแบบภาษาเฉพาะทางขึ้นมาใหม่ก็ได้

รูปแบบทางประวัติศาสตร์

LMNLเป็นภาษามาร์กอัปที่ไม่เป็นลำดับชั้น ซึ่งได้รับการอธิบายครั้งแรกในปี 2002 โดยJeni TennisonและWendell Piezโดยจะระบุช่วงของเอกสารด้วยคุณสมบัติและอนุญาตให้มีการทับซ้อนกันได้ CLIX ซึ่งเดิมย่อมาจาก 'Canonical LMNL In XML' เป็นวิธีการแสดงเอกสาร LMNL ใดๆ ในรูปแบบเอกสาร XML แบบไมล์สโตน^{[ 42 ]}นอกจากนี้ยังมีการจัดเรียง XML อีกแบบหนึ่งคือ xLMNL ^{[ 43 ]}
MECSได้รับการพัฒนาโดยWittgenstein Archiveของมหาวิทยาลัยเบอร์เกนอย่างไรก็ตาม มันมีปัญหาหลายประการ ได้แก่ อนุญาตให้มีเอกสารที่ไม่สมเหตุสมผลบางฉบับที่มีองค์ประกอบที่ทับซ้อนกัน ไม่สามารถรองรับการทับซ้อนกันเอง และไม่มีความสามารถในการกำหนดไวยากรณ์แบบ DTD ^[⁴⁴^]ทฤษฎีของGeneral Ordered-Descendant Directed Acyclic Graphs (GODDAGs) แม้ว่าจะไม่ใช่ภาษามาร์กอัปโดยตรง แต่ก็เป็นแบบจำลองข้อมูลทั่วไปสำหรับการมาร์กอัปที่ไม่เป็นลำดับชั้นGODDAGs ที่จำกัดได้รับการออกแบบมาโดยเฉพาะเพื่อให้ตรงกับความหมายของ MECS ส่วน GODDAGs ทั่วไปอาจไม่ต่อเนื่องกันและต้องการภาษาที่มีประสิทธิภาพมากกว่า^[⁴⁵^] TexMECSเป็นผู้สืบทอดของ MECS ซึ่งมีไวยากรณ์ที่เป็นทางการและได้รับการออกแบบมาเพื่อแสดง GODDAG ทุกตัวและไม่มีสิ่งใดที่ไม่ใช่ GODDAG ^[⁴⁶^]
XCONCUR (เดิมชื่อ MuLaX) เป็นการผสมผสานระหว่าง XML และ CONCUR ของ SGML และยังมีภาษาตรวจสอบความถูกต้อง XCONCUR-CL และAPI ที่คล้ายกับSAX อีกด้วย ^{[ 47 ]}^{[ 48 ]}^{[ 49 ]}
Marinelli, Vitali และ Zacchiroli จัดเตรียมอัลกอริธึมเพื่อแปลงระหว่าง GODDAG ที่ถูกจำกัด, ECLIX, LMNL, เอกสารคู่ขนานใน XML, มาร์กอัประยะห่างต่อเนื่อง และ TexMECS ^{[ 50 ]}

ดูเหมือนว่ารูปแบบเหล่านี้จะไม่มีการคงไว้ซึ่งแนวทางปฏิบัติใด ๆ อีกต่อไปแล้ว ความเห็นพ้องของชุมชนดูเหมือนจะมุ่งไปสู่การใช้ XML แบบแยกส่วน หรือรูปแบบที่อิงตามกราฟแทน

ภาษา XML ที่มีการยืนหยัดต่อสู้ได้รับการดูแลรักษาอย่างต่อเนื่อง

GrAF-XML ^{[ 51 ]}การจัดลำดับ XML แบบ standoff ของกรอบงานคำอธิบายประกอบทางภาษาศาสตร์ (LAF) ^{[ 36 ]}ที่ใช้ เช่น สำหรับคลังข้อมูลแห่งชาติอเมริกัน^{[ 52 ]}
PAULA-XML, ^{[ 53 ]}การจัดอนุกรม XML แบบแยกส่วนของแบบจำลองข้อมูลภายใต้ระบบการจัดการคลังข้อมูล ANNIS และชุดตัวแปลง SALT ^{[ 54 ]}
NAF (NLP Annotation Format / Newsreader Annotation Format) ^{[ 55 ]}รูปแบบ XML แบบ standoff ที่พัฒนาขึ้นครั้งแรกในโครงการ NewsReader (FP7, 2013-2015 ^{[ 56 ]} ) ซึ่งปัจจุบันถูกใช้โดยเครื่องมือ NLP เช่น FreeLing ^{[ 57 ]} (รองรับภาษาอังกฤษ สเปน โปรตุเกส อิตาลี ฝรั่งเศส เยอรมัน รัสเซีย คาตาลัน กาลิเซีย โครเอเชีย สโลวีเนีย ฯลฯ) และ EusTagger ^{[ 58 ]} (รองรับภาษาบาสก์ อังกฤษ สเปน)
เอกสารสำคัญของ Charles Harpurถูกเข้ารหัสโดยใช้ 'เอกสารหลายเวอร์ชัน' (MVD) เพื่อแสดงเวอร์ชันต่างๆ ของเอกสาร และเป็นวิธีการระบุการเพิ่มเติม การลบ และการแก้ไขโดยใช้การผสมผสานเชิงกลยุทธ์ของเอกสารหลายฉบับและช่วงระยะห่างภายในแบบจำลองพื้นฐานที่ใช้กราฟ MVD ถูกนำเสนอในรูปแบบไฟล์แอปพลิเคชัน ซึ่งต้องใช้เครื่องมือเฉพาะในการดูหรือแก้ไข^{[ 59 ]}
แผน XML แบบแยกส่วนได้รับการพัฒนาโดย ความร่วมมือระหว่าง Odin , IntentและXigtEditซึ่งมุ่งเน้นไปที่ชุดข้อมูลขนาดใหญ่ของInterlinear Glossed Text (IGT)เพื่อสนับสนุนโครงการทรัพยากรและเอกสารภาษาธรรมชาติ^{[ 39 ]}

แนวทางการเว้นระยะห่างมีสองส่วน ซึ่งโดยทั่วไปเรียกว่า "เนื้อหา" และ "คำอธิบายประกอบ" สิ่งเหล่านี้สามารถแสดงได้ในรูปแบบที่ไม่เกี่ยวข้องกัน คำอธิบายประกอบการเว้นระยะห่างแบบง่ายๆ นั้นเกี่ยวข้องกับรายการคู่ (ตำแหน่ง, ประเภท) เท่านั้น ดังนั้น ในบางแอปพลิเคชัน คำอธิบายประกอบการเว้นระยะห่างจะแสดงในรูปแบบ CSV, JSON ( -LD ) หรือรูปแบบอื่นๆ (เช่นWeb Annotation ^{[ 60 ]} ) หรือรูปแบบกราฟที่อิงตามสตริงURI (ดูด้านล่าง) อย่างไรก็ตาม การแสดงและการตรวจสอบความถูกต้องของเนื้อหาในรูปแบบดังกล่าวทำได้ยากกว่ามากและพบได้น้อยกว่า

รูปแบบที่เป็นทางการตามกราฟ

การทำเครื่องหมายแบบ Standoff ใช้โมเดลข้อมูลที่อิงตามกราฟแบบมีทิศทาง^{[ 61 ]}ซึ่งทำให้การแสดงผลมีความซับซ้อนมากขึ้นเมื่อวางข้อมูลการทำเครื่องหมายไว้ในโครงสร้างต้นไม้ การแสดงลำดับชั้นที่ทับซ้อนกันในกราฟจะช่วยขจัดความท้าทายนี้ ดังนั้นคำอธิบายประกอบแบบ Standoff จึงสามารถแสดงได้อย่างเหมาะสมยิ่งขึ้นในรูปของมัลติกราฟ แบบมีทิศทางทั่วไป และใช้รูปแบบและเทคโนโลยีที่พัฒนาขึ้นเพื่อจุดประสงค์นี้ โดยเฉพาะอย่างยิ่งที่อิงตามResource Description Framework (RDF) [ ^{62 ] [}^{63 ] EARMARK} เป็นการ แสดง RDF / OWL ในยุคแรกๆ ที่ครอบคลุม General Ordered-Descendant Directed Acyclic Graphs (GODDAGs) ^{[ 14 ]}ทฤษฎีของ GODDAGs แม้ว่าจะไม่ใช่ภาษาการทำเครื่องหมายโดยตรง แต่ก็เป็นโมเดลข้อมูลทั่วไปสำหรับการทำเครื่องหมายที่ไม่เป็นลำดับชั้น

RDF เป็นแบบจำลองข้อมูลเชิงความหมายที่ไม่ขึ้นกับการกำหนดเชิงเส้น และมีการกำหนดเชิงเส้นที่แตกต่างกัน รวมถึงรูปแบบ XML ( RDF/XML ) ที่สามารถจำลองให้สะท้อน XML แบบ standoff การกำหนดเชิงเส้นที่อนุญาตให้ RDF แสดงในรูปแบบแอตทริบิวต์ XML ( RDFa ) รูปแบบ JSON ( JSON-LD ) และรูปแบบไบนารีที่ออกแบบมาเพื่ออำนวยความสะดวกในการสอบถามหรือประมวลผล (RDF-HDT, ^{[ 64 ]} RDF-Thrift ^{[ 65 ]} ) RDF มีความหมายเทียบเท่ากับแบบจำลองข้อมูลแบบกราฟที่อยู่เบื้องหลังมาร์กอัปแบบ standoff ไม่จำเป็นต้องใช้เทคโนโลยีเฉพาะทางสำหรับการจัดเก็บ การแยกวิเคราะห์ และการสอบถาม ไฟล์ RDF ที่เชื่อมโยงกันหลายไฟล์ที่แสดงถึงเอกสารหรือคลังข้อมูลถือเป็นตัวอย่างของข้อมูลเปิดที่เชื่อมโยงทางภาษาศาสตร์

เทคนิคที่ได้รับการยอมรับในการเชื่อมโยงกราฟใดๆ กับเอกสารที่มีคำอธิบายประกอบคือการใช้ตัวระบุส่วนย่อย URI เพื่ออ้างอิงถึงส่วนต่างๆ ของข้อความและ/หรือเอกสาร ดูภาพรวมภายใต้คำอธิบายประกอบเว็บ มาตรฐาน คำอธิบายประกอบเว็บมี 'ตัวเลือก' เฉพาะรูปแบบเป็นวิธีการเพิ่มเติม เช่น ตัวเลือกตามออฟเซ็ต การจับคู่สตริง หรือ XPath ^[⁶⁶^]

คำศัพท์ RDF ดั้งเดิมที่สามารถแสดงคำอธิบายประกอบทางภาษาได้แก่: ^{[ 67 ]}

การใส่คำอธิบายประกอบเว็บ^{[ 68 ]}
รูปแบบการแลกเปลี่ยน NLP (NIF) ^{[ 69 ]}
รูปแบบการแลกเปลี่ยน LAPPS (LIF) ^{[ 70 ]}

คำศัพท์ที่เกี่ยวข้อง ได้แก่

POWLA ซึ่งเป็นการแปลง PAULA-XML เป็นอนุกรม OWL2/DL ^{[ 71 ]}
RDF-NAF ซึ่งเป็นการแปลงรูปแบบคำอธิบายประกอบ NLP เป็น RDF ^{[ 72 ]}

ในช่วงต้นปี 2020 กลุ่มชุมชน W3C LD4LT ได้ริเริ่มโครงการเพื่อประสานคำศัพท์เหล่านี้และพัฒนาคำศัพท์ RDF ที่รวมเป็นหนึ่งเดียวสำหรับคำอธิบายประกอบทางภาษาบนเว็บ^{[ 73 ]}

หมายเหตุ

^โครงการริเริ่มการเข้ารหัสข้อความ
^ ^a ^b DeRose 2004 , ประเภทของปัญหา
^ Piez 2014 .
^ Renear, Mylonas & Durand 1993 .
^ เทนนิ สัน 2008
^ MoChridhe 2019
^ ฮิ กสัน 2002
^ซิโวเนน 2003
^ HTML , § 8.2.8 บทนำเกี่ยวกับการจัดการข้อผิดพลาดและกรณีแปลกประหลาดในตัวแยกวิเคราะห์
^ Sperberg-McQueen & Huitfeldt 2000 , 2.1. สัญกรณ์ที่ไม่ใช่ SGML
^ HTML , § 3.2.5.4ย่อหน้า
↑สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.2. เห็นด้วย
^ DeRose 2004 , SGML เห็นด้วย
อรรถ เป็น^ข ^ดิอิโอริโอ, เปโรนี และวิตาลี 2552
^โครงการการเข้ารหัสข้อความ , § 20 โครงสร้างที่ไม่เป็นลำดับชั้น
^ Durusau 2006 .
^โครงการริเริ่มการเข้ารหัสข้อความ § 20.1 การเข้ารหัสหลายรูปแบบของข้อมูลเดียวกัน
^ Schmidt 2009
^ลา ฟงแตน 2016
^ Schmidt 2012 , 4.1 การทำให้ความแปรผันเป็นไปโดยอัตโนมัติ
^โครงการการเข้ารหัสข้อความ § 20.2 การทำเครื่องหมายขอบเขตด้วยองค์ประกอบว่าง
↑สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.4. เหตุการณ์สำคัญ
^ DeRose 2004 , หลักไมล์แบบ TEI
^เบิร์นบอมและธอร์เซน 2015
↑แฮนท์เจนส์ เดกเกอร์ แอนด์ เบียร์นบัม 2017
^ เดค เกอร์ 2018
^โครงการริเริ่มการเข้ารหัสข้อความ § 20.3 การแบ่งส่วนและการประกอบใหม่ขององค์ประกอบเสมือน
^ DeRose 2004 , การแบ่งส่วน (Segmentation)
^ Sperberg-McQueen & Huitfeldt 2000 , 2.5. การแตกแยก.
^ DeRose 2004 , เข้าร่วม
^ Schmidt 2012 , 3.4 การเชื่อมโยงระหว่างกัน
^โครงการการเข้ารหัสข้อความ § 20.4 การทำเครื่องหมายแบบเว้นระยะห่าง
^ Schmidt 2012 , 4.2 การทำเครื่องหมายนอกข้อความ
^ Eggert & Schmidt 2019 , บทสรุป.
↑ ^a ^b ^c Ide และคณะ 2017 , หน้า 99.
^ ^a ^b "ISO 24612:2012" . ISO .
^ Chiarcos et al. 2008 .
^ "การเผชิญหน้า: โครงสร้างจุลภาคของคำอธิบายประกอบ · ปัญหา #1745 · TEIC/TEI" . GitHub .
^ ^a ^b Xia, F., Lewis, WD, Goodman, MW และคณะ การเสริมคุณค่าฐานข้อมูลข้อความที่มีคำอธิบายความหมายแบบบรรทัดต่อบรรทัดที่มีหลายภาษาอย่างมหาศาล Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
↑สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.6. มาร์กอัปขัดแย้ง
^ DeRose 2004 , การกำหนดรูปแบบการเผชิญหน้า
^ DeRose 2004 , CLIX และ LMNL.
^ Piez 2012 .
^ Sperberg-McQueen & Huitfeldt 2000 , 2.7. MECS.
↑สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000
↑ฮุยต์เฟลด์ต แอนด์ สเปอร์เบิร์ก-แมคควีน 2546
^ฮิลเบิร์ต, ชอนเฟลด์ และวิทท์ 2005
^ Witt et al. 2007 .
^ Schonefeld 2008
↑มาริเนลลี, วิตาลี และซัคคิโรลี 2551
^ "ISO GrAF" . 7 มีนาคม 2015.
^ "หน้าหลัก" . anc.org .
^ "PAULA XML: รูปแบบการแลกเปลี่ยนข้อมูลสำหรับคำอธิบายประกอบทางภาษาศาสตร์"เก็บถาวรจากต้นฉบับเมื่อ 2020-08-17
^ Zipser, Florian (18 พฤศจิกายน 2016). "เกลือ" . corpus-tools.org. doi : 10.5281/zenodo.17557 . สืบค้นเมื่อ11 กันยายน 2022 .
↑ "เอ็นเอเอฟ" . GitHub . 30 มิถุนายน 2564.
^ "การสร้างดัชนีเหตุการณ์ที่มีโครงสร้างสำหรับข้อมูลทางการเงินและเศรษฐกิจปริมาณมากเพื่อการตัดสินใจ"บริการข้อมูลการวิจัยและพัฒนาชุมชน (CORDIS )
^ "หน้าหลัก - หน้าแรกของ FreeLing" . เก็บถาวรจากต้นฉบับเมื่อ 2012-04-29 . เรียกดูเมื่อ2020-04-06 .
↑ "การวิเคราะห์ข้อความ | HiTZ Zentroa "
^ Eggert & Schmidt 2019
^ "แบบจำลองข้อมูลคำอธิบายประกอบเว็บ" 23 กุมภาพันธ์ 2560
^ Ide & Suderman 2007
^ Cassidy 2010 , cassidy.
^ Chiarcos 2012 , POWLA.
^ "หน้าหลัก" . rdfhdt.org .
^ "ไบนารี RDF โดยใช้ Apache Thrift" . afs.github.io .
^ "ผู้คัดเลือกและรัฐ" . 23 กุมภาพันธ์ 2560.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). ข้อมูลเชื่อมโยงทางภาษาศาสตร์ การนำเสนอ การสร้าง และการประยุกต์ใช้ Cham: Springer.
^ Verspoor, Karin ; Livingston, Kevin (2012). "Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web" . Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Republic of Korea : 75– 84 . สืบค้นเมื่อ6 เมษายน 2020 .
^ "รูปแบบการแลกเปลี่ยนข้อมูล NLP (NIF) 2.0 - ภาพรวมและเอกสารประกอบ "
^ "ภาพรวมของ LIF "
^ "POWLA"มกราคม 2022
^ "รูปแบบการระบุคำอธิบายประกอบ NLP | ข้อมูลเบื้องต้นเกี่ยวกับ NAF "
^ "มุ่งสู่คำศัพท์ LOD ที่เป็นเอกภาพสำหรับคำอธิบายประกอบทางภาษา" . GitHub . 7 กันยายน 2021.

[FOOTNOTEText_Encoding_Initiative-1] โครงการริเริ่มการเข้ารหัสข้อความ

[FOOTNOTEDeRose2004The_problem_types-2] DeRose 2004 , ประเภทของปัญหา

[FOOTNOTEPiez2014-3] Piez 2014 .

[FOOTNOTERenearMylonasDurand1993-4] Renear, Mylonas & Durand 1993 .

[FOOTNOTETennison2008-5] เทนนิ สัน 2008

[FOOTNOTEMoChridhe2019-6] MoChridhe 2019

[FOOTNOTEHickson2002-7] ฮิ กสัน 2002

[FOOTNOTESivonen2003-8] ซิโวเนน 2003

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagesyntaxhtmlan-introduction-to-error-handling-and-strange-cases-in-the-parser_§_8.2.8_An_introduction_to_error_handling_and_strange_cases_in_the_parser]-9] HTML , § 8.2.8 บทนำเกี่ยวกับการจัดการข้อผิดพลาดและกรณีแปลกประหลาดในตัวแยกวิเคราะห์

[FOOTNOTESperberg-McQueenHuitfeldt20002.1._Non-SGML_Notations-10] Sperberg-McQueen & Huitfeldt 2000 , 2.1. สัญกรณ์ที่ไม่ใช่ SGML

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagedomhtmlparagraphs_§_3.2.5.4_Paragraphs]-11] HTML , § 3.2.5.4ย่อหน้า

[FOOTNOTESperberg-McQueenHuitfeldt20002.2._CONCUR-12] สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.2. เห็นด้วย

[FOOTNOTEDeRose2004SGML_CONCUR-13] DeRose 2004 , SGML เห็นด้วย

[FOOTNOTEDi_IorioPeroniVitali2009-14] อรรถ เป็น^ข ^ดิอิโอริโอ, เปโรนี และวิตาลี 2552

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtml_§_20_Non-hierarchical_Structures]-15] โครงการการเข้ารหัสข้อความ , § 20 โครงสร้างที่ไม่เป็นลำดับชั้น

[FOOTNOTEDurusau2006-16] Durusau 2006 .

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHME_§_20.1_Multiple_Encodings_of_the_Same_Information]-17] โครงการริเริ่มการเข้ารหัสข้อความ § 20.1 การเข้ารหัสหลายรูปแบบของข้อมูลเดียวกัน

[FOOTNOTESchmidt2009-18] Schmidt 2009

[FOOTNOTELa_Fontaine2016-19] ลา ฟงแตน 2016

[FOOTNOTESchmidt20124.1_Automating_Variation-20] Schmidt 2012 , 4.1 การทำให้ความแปรผันเป็นไปโดยอัตโนมัติ

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHBM_§_20.2_Boundary_Marking_with_Empty_Elements]-21] โครงการการเข้ารหัสข้อความ § 20.2 การทำเครื่องหมายขอบเขตด้วยองค์ประกอบว่าง

[FOOTNOTESperberg-McQueenHuitfeldt20002.4._Milestones-22] สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.4. เหตุการณ์สำคัญ

[FOOTNOTEDeRose2004TEI-style_milestones-23] DeRose 2004 , หลักไมล์แบบ TEI

[FOOTNOTEBirnbaumThorsen2015-24] เบิร์นบอมและธอร์เซน 2015

[FOOTNOTEHaentjens_DekkerBirnbaum2017-25] แฮนท์เจนส์ เดกเกอร์ แอนด์ เบียร์นบัม 2017

[FOOTNOTEDekker2018-26] เดค เกอร์ 2018

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHVE_§_20.3_Fragmentation_and_Reconstitution_of_Virtual_Elements]-27] โครงการริเริ่มการเข้ารหัสข้อความ § 20.3 การแบ่งส่วนและการประกอบใหม่ขององค์ประกอบเสมือน

[FOOTNOTEDeRose2004Segmentation-28] DeRose 2004 , การแบ่งส่วน (Segmentation)

[FOOTNOTESperberg-McQueenHuitfeldt20002.5._Fragmentation-29] Sperberg-McQueen & Huitfeldt 2000 , 2.5. การแตกแยก.

[FOOTNOTEDeRose2004Joins-30] DeRose 2004 , เข้าร่วม

[FOOTNOTESchmidt20123.4_Interlinking-31] Schmidt 2012 , 3.4 การเชื่อมโยงระหว่างกัน

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHSO_§_20.4_Stand-off_Markup]-32] โครงการการเข้ารหัสข้อความ § 20.4 การทำเครื่องหมายแบบเว้นระยะห่าง

[FOOTNOTESchmidt20124.2_Markup_Outside_the_Text-33] Schmidt 2012 , 4.2 การทำเครื่องหมายนอกข้อความ

[FOOTNOTEEggertSchmidt2019Conclusion-34] Eggert & Schmidt 2019 , บทสรุป.

[FOOTNOTEIdeChiarcosStedeCassidy2017p.99-35] Ide และคณะ 2017 , หน้า 99.

[autogenerated1-36] "ISO 24612:2012" . ISO .

[FOOTNOTEChiarcosDipperGötzeLeser2008-37] Chiarcos et al. 2008 .

[38] "การเผชิญหน้า: โครงสร้างจุลภาคของคำอธิบายประกอบ · ปัญหา #1745 · TEIC/TEI" . GitHub .

[auto-39] Xia, F., Lewis, WD, Goodman, MW และคณะ การเสริมคุณค่าฐานข้อมูลข้อความที่มีคำอธิบายความหมายแบบบรรทัดต่อบรรทัดที่มีหลายภาษาอย่างมหาศาล Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4

[FOOTNOTESperberg-McQueenHuitfeldt20002.6._Standoff_Markup-40] สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.6. มาร์กอัปขัดแย้ง

[FOOTNOTEDeRose2004Standoff_markup-41] DeRose 2004 , การกำหนดรูปแบบการเผชิญหน้า

[FOOTNOTEDeRose2004CLIX_and_LMNL-42] DeRose 2004 , CLIX และ LMNL.

[FOOTNOTEPiez2012-43] Piez 2012 .

[FOOTNOTESperberg-McQueenHuitfeldt20002.7._MECS-44] Sperberg-McQueen & Huitfeldt 2000 , 2.7. MECS.

[FOOTNOTESperberg-McQueenHuitfeldt2000-45] สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000

[FOOTNOTEHuitfeldtSperberg-McQueen2003-46] ฮุยต์เฟลด์ต แอนด์ สเปอร์เบิร์ก-แมคควีน 2546

[FOOTNOTEHilbertSchonefeldWitt2005-47] ฮิลเบิร์ต, ชอนเฟลด์ และวิทท์ 2005

[FOOTNOTEWittSchonefeldRehmKhoo2007-48] Witt et al. 2007 .

[FOOTNOTESchonefeld2008-49] Schonefeld 2008

[FOOTNOTEMarinelliVitaliZacchiroli2008-50] มาริเนลลี, วิตาลี และซัคคิโรลี 2551

[51] "ISO GrAF" . 7 มีนาคม 2015.

[52] "หน้าหลัก" . anc.org .

[53] "PAULA XML: รูปแบบการแลกเปลี่ยนข้อมูลสำหรับคำอธิบายประกอบทางภาษาศาสตร์"เก็บถาวรจากต้นฉบับเมื่อ 2020-08-17

[54] Zipser, Florian (18 พฤศจิกายน 2016). "เกลือ" . corpus-tools.org. doi : 10.5281/zenodo.17557 . สืบค้นเมื่อ11 กันยายน 2022 .

[55] "เอ็นเอเอฟ" . GitHub . 30 มิถุนายน 2564.

[56] "การสร้างดัชนีเหตุการณ์ที่มีโครงสร้างสำหรับข้อมูลทางการเงินและเศรษฐกิจปริมาณมากเพื่อการตัดสินใจ"บริการข้อมูลการวิจัยและพัฒนาชุมชน (CORDIS )

[57] "หน้าหลัก - หน้าแรกของ FreeLing" . เก็บถาวรจากต้นฉบับเมื่อ 2012-04-29 . เรียกดูเมื่อ2020-04-06 .

[58] "การวิเคราะห์ข้อความ | HiTZ Zentroa "

[FOOTNOTEEggertSchmidt2019-59] Eggert & Schmidt 2019

[60] "แบบจำลองข้อมูลคำอธิบายประกอบเว็บ" 23 กุมภาพันธ์ 2560

[FOOTNOTEIdeSuderman2007-61] Ide & Suderman 2007

[FOOTNOTECassidy2010cassidy-62] Cassidy 2010 , cassidy.

[FOOTNOTEChiarcos2012POWLA-63] Chiarcos 2012 , POWLA.

[64] "หน้าหลัก" . rdfhdt.org .

[65] "ไบนารี RDF โดยใช้ Apache Thrift" . afs.github.io .

[66] "ผู้คัดเลือกและรัฐ" . 23 กุมภาพันธ์ 2560.

[lld-book-67] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). ข้อมูลเชื่อมโยงทางภาษาศาสตร์ การนำเสนอ การสร้าง และการประยุกต์ใช้ Cham: Springer.

[68] Verspoor, Karin ; Livingston, Kevin (2012). "Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web" . Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Republic of Korea : 75– 84 . สืบค้นเมื่อ6 เมษายน 2020 .

[69] "รูปแบบการแลกเปลี่ยนข้อมูล NLP (NIF) 2.0 - ภาพรวมและเอกสารประกอบ "

[70] "ภาพรวมของ LIF "

[71] "POWLA"มกราคม 2022

[72] "รูปแบบการระบุคำอธิบายประกอบ NLP | ข้อมูลเบื้องต้นเกี่ยวกับ NAF "

[73] "มุ่งสู่คำศัพท์ LOD ที่เป็นเอกภาพสำหรับคำอธิบายประกอบทางภาษา" . GitHub . 7 กันยายน 2021.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[

[

[

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

62 ] [

63 ] EARMARK

[ 64 ]

[ 65 ]

[

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

การทำเครื่องหมายที่ทับซ้อนกัน

ประวัติศาสตร์

คุณสมบัติและประเภท

แนวทางและวิธีการดำเนินการ

ภายในภาษาที่มีโครงสร้างแบบลำดับชั้น

เอกสารหลายฉบับ

เหตุการณ์สำคัญ

เข้าร่วม

เครื่องหมายการยืนหยัด

ความท้าทาย

ภาษาเฉพาะทาง

รูปแบบทางประวัติศาสตร์

ภาษา XML ที่มีการยืนหยัดต่อสู้ได้รับการดูแลรักษาอย่างต่อเนื่อง

รูปแบบที่เป็นทางการตามกราฟ

หมายเหตุ

ข้อมูลสำคัญจากบทความ