กลับไปหน้าบทความ

อ่าน 12 นาที

การทำเครื่องหมายที่ทับซ้อนกัน

ใน ภาษามาร์กอัป และ มนุษยศาสตร์ดิจิทัล การทับซ้อน เกิดขึ้นเมื่อเอกสารมีโครงสร้างสองโครงสร้างขึ้นไปที่โต้ตอบกันในลักษณะที่ไม่เป็น ลำดับชั้น...

การทำเครื่องหมายที่ทับซ้อนกัน

ในภาษามาร์กอัปและมนุษยศาสตร์ดิจิทัลการทับซ้อนเกิดขึ้นเมื่อเอกสารมีโครงสร้างสองโครงสร้างขึ้นไปที่โต้ตอบกันในลักษณะที่ไม่เป็นลำดับชั้นเอกสารที่มีมาร์กอัปที่ทับซ้อนกันไม่สามารถแสดงเป็นโครงสร้างต้นไม้ได้นี่เรียกว่ามาร์กอัปพร้อมกัน การทับ ซ้อนเกิดขึ้น ตัวอย่างเช่น ในบทกวีซึ่งอาจมี โครงสร้าง จังหวะของหน่วยวัดและบรรทัด โครงสร้างทางภาษาของประโยคและการอ้างอิง และโครงสร้างทางกายภาพของเล่มและหน้าและคำอธิบายประกอบบรรณาธิการ[ 1 ] [ 2 ]

ประวัติศาสตร์

ความแตกต่างเชิงโครงสร้างระหว่างฉบับต่างๆ ของแฟรงเกนสไตน์ได้รับการวิเคราะห์ด้วยเทคนิคที่ทับซ้อนกัน[ 3 ]

ปัญหาของโครงสร้างที่ไม่เป็นลำดับชั้นในเอกสารได้รับการยอมรับมาตั้งแต่ปี 1988 การแก้ไขปัญหานี้โดยเปรียบเทียบกับกระบวนทัศน์หลักของข้อความที่เป็นลำดับชั้นเดียว ( ลำดับชั้นของวัตถุเนื้อหาหรือOHCO ) ในตอนแรกคิดว่าเป็นเพียงปัญหาทางเทคนิค แต่ในความเป็นจริงแล้วกลับยากกว่ามาก[ 4 ] ในปี 2008 Jeni Tennisonได้ระบุว่าการทับซ้อนของมาร์กอัปเป็น "ปัญหาหลักที่เหลืออยู่สำหรับนักเทคโนโลยีมาร์กอัป" [ 5 ] การทับซ้อนของมาร์กอัปยังคงเป็นปัญหาหลักในการศึกษาข้อความทางศาสนศาสตร์แบบดิจิทัลในปี 2019 และเป็นเหตุผลสำคัญที่ทำให้สาขานี้ยังคงใช้รูปแบบมาร์กอัปเฉพาะทาง เช่นOpen Scripture Information StandardและTheological Markup Languageแทนที่จะใช้รูปแบบที่ทำงานร่วมกันได้ ตาม Text Encoding Initiativeซึ่งเป็นเรื่องปกติในสาขามนุษยศาสตร์ดิจิทัลอื่น ๆ [ 6 ]

คุณสมบัติและประเภท

มีความแตกต่างระหว่างรูปแบบที่อนุญาตให้มีการทับซ้อนแบบไม่ต่อเนื่อง และรูปแบบที่อนุญาตให้มีการทับซ้อนแบบต่อเนื่องเท่านั้น บ่อยครั้งที่ 'การทับซ้อนของมาร์กอัป' หมายถึงแบบหลังอย่างเคร่งครัด การทับซ้อนแบบต่อเนื่องสามารถแสดงได้เสมอในรูปแบบเอกสารเชิงเส้นที่มีจุดสำคัญ (โดยทั่วไปคือเครื่องหมายเริ่มต้นและสิ้นสุดที่มีดัชนีร่วมกัน) โดยไม่จำเป็นต้องแบ่งส่วนประกอบ (เชิงตรรกะ) ออกเป็นส่วนประกอบทางกายภาพหลายส่วน การทับซ้อนแบบไม่ต่อเนื่องอาจต้องมีการแบ่งส่วนเอกสาร ความแตกต่างอีกประการหนึ่งในรูปแบบมาร์กอัปที่ทับซ้อนกันคือ องค์ประกอบสามารถทับซ้อนกับองค์ประกอบอื่น ๆ ที่เป็นประเภทเดียวกันได้หรือไม่ ( การทับซ้อนในตัวเอง ) [ 2 ]

โครงสร้างข้อมูลบางแบบอาจมีลำดับชั้นที่ได้รับสิทธิพิเศษ ตัวอย่างเช่น โครงสร้างข้อมูลที่ใช้ XML บางแบบ จะแสดงลำดับชั้นหนึ่งโดยตรงในโครงสร้างเอกสาร XML และแสดงโครงสร้างอื่นๆ ที่ทับซ้อนกันด้วยวิธีการอื่น ซึ่งโครงสร้างเหล่านี้เรียกว่าโครงสร้างที่ไม่ได้รับสิทธิพิเศษ

Schmidt (2012)ระบุการจำแนกประเภทของการทับซ้อนกันออกเป็นสามประเภท ได้แก่ 1. "ความแตกต่างของเนื้อหาและโครงสร้าง" 2. "การทับซ้อนกันของมุมมองหรือชุดมาร์กอัปหลายชุด" และ 3. "การทับซ้อนกันของแท็กเริ่มต้นและแท็กสิ้นสุดแต่ละรายการภายในมุมมองมาร์กอัปเดียว" นอกจากนี้ บางกรณีที่เห็นได้ชัดว่าเป็นการทับซ้อนกันนั้น แท้จริงแล้วเป็นปัญหาเกี่ยวกับการกำหนดสคีมา ซึ่งสามารถแก้ไขได้ในระดับลำดับชั้น เขากล่าวว่าประเภทที่ 1 นั้นแก้ไขได้ดีที่สุดโดยระบบเอกสารหลายฉบับภายนอกมาร์กอัป แต่ประเภทที่ 2 และ 3 จำเป็นต้องจัดการภายใน

แนวทางและวิธีการดำเนินการ

DeRose (2004 , เกณฑ์การประเมิน) ได้ระบุเกณฑ์หลายประการสำหรับการตัดสินวิธีการแก้ปัญหาการทับซ้อน:

  • ความอ่านง่ายและความสามารถในการบำรุงรักษา
  • การสนับสนุนเครื่องมือและความเข้ากันได้กับ XML
  • รูปแบบการตรวจสอบความถูกต้องที่เป็นไปได้ และ
  • ความง่ายในการประมวลผล

โดยหลักแล้ว Tag soupไม่ใช่มาร์กอัปที่ทับซ้อนกัน แต่เป็นHTML ที่ผิดรูปแบบ ซึ่งเป็นภาษาที่ไม่ทับซ้อนกัน และอาจกำหนดไว้ไม่ชัดเจนเว็บเบราว์เซอร์ บางตัว พยายามแสดงแท็กเริ่มต้นและแท็กสิ้นสุดที่ทับซ้อนกันด้วยDocument Object Models (DOM) ที่ไม่เป็นลำดับชั้น แต่สิ่งนี้ไม่ได้เป็นมาตรฐานในทุกเบราว์เซอร์และไม่เข้ากันกับลักษณะที่เป็นลำดับชั้นโดยธรรมชาติของ DOM [ 7 ] [ 8 ] HTML5กำหนดวิธีการที่ตัวประมวลผลควรจัดการกับมาร์กอัปที่ซ้อนกันผิดรูปแบบในไวยากรณ์ HTML และเปลี่ยนให้เป็นลำดับชั้นเดียว[ 9 ] อย่างไรก็ตาม สำหรับXHTMLและ HTML ที่ใช้ SGMLมาร์กอัปที่ซ้อนกันผิดรูปแบบถือเป็นข้อผิดพลาดร้ายแรงและทำให้การประมวลผลโดยระบบที่สอดคล้องกับมาตรฐานเป็นไปไม่ได้[ 10 ] มาตรฐาน HTML กำหนด แนวคิด ของย่อหน้าซึ่งอาจทำให้เกิดการทับซ้อนกับองค์ประกอบอื่น ๆ และอาจไม่ต่อเนื่องกัน[ 11 ]

SGMLซึ่งเป็นพื้นฐานของ HTML เวอร์ชันแรกๆ มีคุณสมบัติที่เรียกว่า CONCUR ซึ่งอนุญาตให้ลำดับชั้นอิสระหลายลำดับสามารถอยู่ร่วมกันได้โดยไม่ต้องให้สิทธิพิเศษใดๆ การตรวจสอบ DTDจะถูกกำหนดไว้สำหรับแต่ละลำดับชั้นที่มี CONCUR เท่านั้น การตรวจสอบข้ามลำดับชั้นไม่ได้ถูกกำหนดไว้ในมาตรฐาน CONCUR ไม่สามารถรองรับการทับซ้อนกันเองได้ และมีการโต้ตอบที่ไม่ดีกับคุณสมบัติการย่อบางอย่างของ SGML คุณสมบัตินี้ได้รับการสนับสนุนจากเครื่องมือต่างๆ น้อยมากและมีการใช้งานจริงน้อยมาก การใช้ CONCUR เพื่อแสดงการทับซ้อนของเอกสารไม่ใช่กรณีการใช้งานที่แนะนำ ตามคำอธิบายของบรรณาธิการมาตรฐาน[ 12 ] [ 13 ]

ภายในภาษาที่มีโครงสร้างแบบลำดับชั้น

มีแนวทางหลายประการในการแสดงการทับซ้อนในภาษาที่ไม่ทับซ้อนกัน[ 14 ] Text Encoding Initiativeซึ่งเป็นรูปแบบการมาร์กอัปแบบ XML ไม่สามารถแสดงการมาร์กอัปที่ทับซ้อนกันได้โดยตรง แนวทางทั้งสี่ด้านล่างนี้ได้รับการแนะนำ[ 15 ] Open Scripture Information Standardเป็นรูปแบบ XML อีกรูปแบบหนึ่งที่ออกแบบมาเพื่อมาร์กอัปพระคัมภีร์โดยใช้ส่วนประกอบหลักที่ว่างเปล่าเพื่อเข้ารหัสส่วนประกอบที่ไม่ได้รับสิทธิ์[ 16 ]

เพื่อแสดงให้เห็นถึงวิธีการเหล่านี้ จะใช้ตัวอย่างประกอบโดยการทำเครื่องหมายประโยคและบรรทัดจากบทละครเรื่องริชาร์ดที่ 3ของวิลเลียม เชกสเปียร์ในส่วนที่มีลำดับความสำคัญ จะใช้บรรทัดเหล่านั้นเป็นตัวอย่าง

เอกสารหลายฉบับ

เอกสารหลายฉบับสามารถให้ลำดับชั้นที่สอดคล้องกันภายในที่แตกต่างกันได้ ข้อดีของแนวทางนี้คือเอกสารแต่ละฉบับนั้นเรียบง่ายและสามารถประมวลผลได้ด้วยเครื่องมือที่มีอยู่ แต่ต้องบำรุงรักษาเนื้อหาที่ซ้ำซ้อนและอาจยากที่จะอ้างอิงข้ามระหว่างมุมมองที่แตกต่างกัน[ 17 ]ด้วยเอกสารหลายฉบับ การทับซ้อนสามารถวิเคราะห์ได้ด้วย เทคนิค การเปรียบเทียบข้อมูลและการเข้ารหัสเดลต้าและในบริบทของ XML จะมีอัลกอริธึมการหาความแตกต่างของโครงสร้าง XML เฉพาะ[ 18 ] [ 19 ]

Schmidt (2012 , 3.5 Variation) แนะนำวิธีการนี้สำหรับการเข้ารหัสรูปแบบต่างๆ ของข้อความเดียว และยอมรับการทำซ้ำของส่วนที่ไม่เปลี่ยนแปลง แทนที่จะพยายามสร้างโครงสร้างที่แสดงถึงรูปแบบทั้งหมดที่มีอยู่ นอกจากนี้ เขายังแนะนำว่าควรดำเนินการจัดเรียงนี้โดยอัตโนมัติ และการจัดเรียงที่ไม่ถูกต้องนั้นเกิดขึ้นได้ยากในทางปฏิบัติ[ 20 ]

ตัวอย่าง พร้อมเส้นที่ขีดไว้:

<line>ข้าพเจ้าขออวยพรท่านใน นาม ของมารดาของท่าน</line> <line>ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</line> <line>เพียงเท่านี้— ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</line> <line>และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</line>

โดยมีการทำเครื่องหมายประโยคไว้:

<ประโยค>ข้าพเจ้าขออวยพรท่านใน นาม ของมารดา ของท่านผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</ประโยค> <ประโยค>เพียงเท่านี้< /ประโยค><ประโยค> — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก< /ประโยค >

เหตุการณ์สำคัญ

ไมล์สโตนเป็นองค์ประกอบว่างเปล่าที่ทำเครื่องหมายจุดเริ่มต้นและจุดสิ้นสุดของส่วนประกอบ โดยทั่วไปจะใช้กลไก XML ID เพื่อระบุว่าองค์ประกอบ "เริ่มต้น" ใดตรงกับองค์ประกอบ "สิ้นสุด" ใด ไมล์สโตนสามารถใช้เพื่อฝังโครงสร้างที่ไม่ได้รับสิทธิ์ภายในภาษาลำดับชั้น ในรูปแบบพื้นฐาน ไมล์สโตนสามารถแสดงเฉพาะการทับซ้อนที่ต่อเนื่องกันเท่านั้น XML ทั่วไปสามารถแยกวิเคราะห์องค์ประกอบไมล์สโตนได้ แต่ไม่เข้าใจความหมายพิเศษขององค์ประกอบเหล่านั้น ดังนั้นจึงไม่สามารถประมวลผลหรือตรวจสอบโครงสร้างที่ไม่ได้รับสิทธิ์ได้อย่างง่ายดาย[ 21 ] [ 22 ]

Milestone มีข้อได้เปรียบตรงที่เครื่องหมายสำหรับองค์ประกอบที่ทับซ้อนกันจะอยู่ที่ขอบเขตที่เกี่ยวข้อง เช่นเดียวกับเครื่องหมายอื่นๆ ซึ่งเป็นข้อได้เปรียบในด้านการบำรุงรักษาและความสามารถในการอ่าน[ 23 ] CLIX ( DeRose 2004 ) เป็นตัวอย่างของแนวทางดังกล่าว

ตัวอย่าง:

<line><sentence-start />ข้าพเจ้าขออวยพรท่านในนาม ของ มารดาของท่าน</line> <line>ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์<sentence-end /></line> <line><sentence-start />แค่นี้ก่อน< sentence - end /><sentence-start /> — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</line> <line>และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก< sentence-end /></line>

เครื่องหมายวรรคตอนและช่องว่างได้รับการระบุว่าเป็น 'การทับซ้อนแบบเข้ารหัส' หรือ 'การทำเครื่องหมายเทียม' ในรูปแบบหลักชัย เนื่องจากขอบเขตของคำ อนุประโยค ประโยค และอื่นๆ ไม่จำเป็นต้องสอดคล้องกับขอบเขตการทำเครื่องหมายอย่างเป็นทางการตามลำดับชั้น[ 24 ] [ 25 ]

นอกจากนี้ยังสามารถใช้หลักไมล์ที่ซับซ้อนกว่าเพื่อแสดงโครงสร้างที่ไม่ต่อเนื่องได้ ตัวอย่างเช่น ความหมาย "ระงับ" และ "ดำเนินการต่อ" ของ TAGML [ 26 ]สามารถแสดงได้โดยใช้หลักไมล์ เช่น โดยการเพิ่มแอตทริบิวต์เพื่อระบุว่าหลักไมล์แต่ละอันแสดงถึงจุดเริ่มต้น จุดระงับ ดำเนินการต่อ หรือจุดสิ้นสุด การจัดลำดับใหม่และแม้แต่การทับซ้อนกันเองก็สามารถทำได้ในทำนองเดียวกัน โดยการใส่คำอธิบายประกอบหลักไมล์แต่ละอันด้วยการอ้างอิง "ส่วนถัดไป"

เข้าร่วม

การเชื่อมต่อ (Joins)เป็นตัวชี้ภายในลำดับชั้นที่มีสิทธิ์ไปยังส่วนประกอบอื่นๆ ของลำดับชั้นที่มีสิทธิ์ ซึ่งอาจใช้ในการสร้างส่วนประกอบที่ไม่มีสิทธิ์ขึ้นใหม่คล้ายกับการติดตามรายการที่เชื่อมโยงองค์ประกอบที่ไม่มีสิทธิ์เพียงรายการเดียวจะถูกแบ่ง ออกเป็นองค์ประกอบ ย่อยหลาย รายการ ภายในลำดับชั้นที่มีสิทธิ์ องค์ประกอบย่อยเหล่านั้นไม่ได้แสดงถึงหน่วยเดียวในลำดับชั้นที่ไม่มีสิทธิ์ ซึ่งอาจทำให้เข้าใจผิดและทำให้การประมวลผลทำได้ยาก[ 27 ] [ 28 ]แม้ว่าวิธีการนี้จะสามารถรองรับโครงสร้างที่ไม่ต่อเนื่องบางอย่างได้ แต่ก็ไม่สามารถจัดลำดับองค์ประกอบใหม่ได้[ 29 ]อย่างไรก็ตาม วิธีการที่แตกต่างออกไปเล็กน้อยสามารถแสดงการจัดลำดับใหม่ได้โดยการแสดงการเชื่อมต่อออกจากเนื้อหา โดยแลกกับความตรงไปตรงมาและการบำรุงรักษา[ 30 ]

การแสดงผลแบบใช้การเชื่อมต่ออาจทำให้เกิดวงจรระหว่างองค์ประกอบได้ การตรวจจับและปฏิเสธสิ่งเหล่านี้จะเพิ่มความซับซ้อนให้กับการใช้งาน[ 31 ]

ตัวอย่าง:

<line><sentence id= "a" >ข้าพเจ้าขออวยพรท่านในนามของมารดาของท่าน</sentence></line> <line><sentence continues= "a" >ผู้ซึ่งสวดภาวนาอย่างต่อเนื่องเพื่อความดีของริชมอนด์</sentence></line> <line><sentence id= "b" >แค่นี้ก่อน</sentence><sentence id= "c" > — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</sentence></line> <line><sentence continues= "c" > และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</sentence></line>

เครื่องหมายการยืนหยัด

การทำเครื่องหมายแบบ Stand-offนั้นคล้ายกับการใช้ Join ยกเว้นว่าอาจไม่มีลำดับชั้นพิเศษ: แต่ละส่วนของเอกสารจะได้รับป้ายกำกับ (หรืออาจถูกอ้างอิงโดยออฟเซ็ต) และโครงสร้างเอกสารจะแสดงโดยการชี้ไปยังเนื้อหาจากเครื่องหมายที่ 'แยก' ออกจากเนื้อหา (อาจอยู่ในไฟล์ที่แตกต่างกันโดยสิ้นเชิง) และอาจไม่มีเนื้อหาใดๆ เลย แนวทางของ TEI ระบุว่าความเป็นเอกภาพขององค์ประกอบเป็นข้อได้เปรียบหลักของการทำเครื่องหมายแบบ Stand-off เหนือ Join นอกเหนือจากความสามารถในการสร้างและแจกจ่ายคำอธิบายประกอบแยกต่างหากจากข้อความ อาจเป็นไปได้ว่าผู้เขียนหลายคนใช้เครื่องหมายกับเอกสารแบบอ่านอย่างเดียว[ 32 ]ทำให้เกิดแนวทางการทำงานร่วมกันในการทำเครื่องหมายโดยใช้กลยุทธ์แบ่งและพิชิต[ 33 ]

ตัวอย่าง:

<span id= "a" >ข้าพเจ้าขออวยพรท่าน ใน นามของมารดาของท่าน</span> <span id= "b" >ผู้ซึ่งอธิษฐานภาวนาเพื่อความดีของริชมอนด์อยู่เสมอ</span> <span id= "c" >แค่นี้ก่อนนะ</span> < span id= "d" > — ชั่วโมงแห่งความเงียบสงัดคืบคลานเข้ามา</span> <span id= "e" >และความมืดสลัวก็แผ่กระจายไปทางทิศตะวันออก</span> ... <line contents= "a" /> <line contents= "b" /> <line contents= "c" d" /> <line contents= "e" /> <sentence contents= "a b" /> <sentence contents= "c" /> <sentence contents= "d e" />

มีการอ้างว่าการแยกมาร์กอัปและข้อความสามารถส่งผลให้มีความเรียบง่ายโดยรวมและเพิ่มความสามารถในการบำรุงรักษา[ 34 ]และในปี 2017 "[สถานะปัจจุบันของศิลปะในการ [แสดง] (...) ข้อมูลที่มีคำอธิบายประกอบทางภาษาศาสตร์คือการใช้การแสดงแบบกราฟที่เรียงลำดับเป็น XML แบบ standoff เป็นรูปแบบหลัก" [ 35 ]กล่าวคือ standoff เป็นแนวทางที่ได้รับการยอมรับอย่างกว้างขวางที่สุดในการแก้ไขปัญหาการทับซ้อนของมาร์กอัป

รูปแบบ Standoff เป็นพื้นฐานสำหรับมาตรฐาน ISO สำหรับการใส่คำอธิบายประกอบทางภาษาศาสตร์[ 36 ]มีการนำไปใช้สำเร็จในการพัฒนาระบบการจัดการคลังข้อมูล[ 37 ]และ (ณ เดือนเมษายน 2020) กำลังได้รับการพัฒนาอย่างต่อเนื่องใน TEI [ 38 ]ตัวอย่างหนึ่งที่ตีพิมพ์ของแผนการใส่คำอธิบายประกอบแบบ Standoff ที่ประสบความสำเร็จได้รับการพัฒนาขึ้นเป็นส่วนหนึ่งของโครงการเอกสารภาษาธรรมชาติแบบสองข้อความซึ่งมุ่งเน้นการอนุรักษ์ภาษาที่มีทรัพยากรน้อยหรือใกล้สูญพันธุ์[ 39 ]

ความท้าทาย

การแสดงมาร์กอัปที่ทับซ้อนกันภายในภาษาลำดับชั้นเป็นเรื่องท้าทาย เนื่องจากความซ้ำซ้อนและ/หรือความซับซ้อน ในช่วงปี 2000 ถึง 2010 รูปแบบ standoff ได้รับการยอมรับโดยทั่วไปว่าเป็นแนวทางที่มีแนวโน้มดีที่สุดในที่นี้[ 35 ]แต่ข้อเสียของ standoff คือการตรวจสอบความถูกต้องเป็นเรื่องที่ท้าทายมาก[ 40 ] รูปแบบ standoff ไม่ได้รับการสนับสนุนโดยระบบจัดการฐานข้อมูล ดังนั้น (ภายในปี 2017) จึงมีการเสนอแนะให้ "ใช้ ... XML standoff เป็นรูปแบบ pivot (...) และฐานข้อมูลเชิงสัมพันธ์สำหรับการสืบค้น" [ 35 ]ในการใช้งานจริง สิ่งนี้ต้องการสถาปัตยกรรมที่ซับซ้อนและ/หรือการแปลงที่ต้องใช้แรงงานมากระหว่างรูปแบบ pivot และการแสดงภายใน ส่งผลให้การบำรุงรักษาเป็นปัญหา[ 41 ]นี่เป็นแรงจูงใจในการพัฒนาระบบจัดการคอร์ปัสบนพื้นฐานของฐานข้อมูลกราฟและการใช้รูปแบบกราฟที่ได้รับการยอมรับเป็นรูปแบบ pivot

ภาษาเฉพาะทาง

ในการนำกลยุทธ์ที่กล่าวมาข้างต้นไปใช้ สามารถขยายภาษามาร์กอัปที่มีอยู่แล้ว (เช่น TEI) หรือออกแบบภาษาเฉพาะทางขึ้นมาใหม่ก็ได้

รูปแบบทางประวัติศาสตร์

  • LMNLเป็นภาษามาร์กอัปที่ไม่เป็นลำดับชั้น ซึ่งได้รับการอธิบายครั้งแรกในปี 2002 โดยJeni TennisonและWendell Piezโดยจะระบุช่วงของเอกสารด้วยคุณสมบัติและอนุญาตให้มีการทับซ้อนกันได้ CLIX ซึ่งเดิมย่อมาจาก 'Canonical LMNL In XML' เป็นวิธีการแสดงเอกสาร LMNL ใดๆ ในรูปแบบเอกสาร XML แบบไมล์สโตน[ 42 ]นอกจากนี้ยังมีการจัดเรียง XML อีกแบบหนึ่งคือ xLMNL [ 43 ]
  • MECSได้รับการพัฒนาโดยWittgenstein Archiveของมหาวิทยาลัยเบอร์เกนอย่างไรก็ตาม มันมีปัญหาหลายประการ ได้แก่ อนุญาตให้มีเอกสารที่ไม่สมเหตุสมผลบางฉบับที่มีองค์ประกอบที่ทับซ้อนกัน ไม่สามารถรองรับการทับซ้อนกันเอง และไม่มีความสามารถในการกำหนดไวยากรณ์แบบ DTD [ 44 ]ทฤษฎีของGeneral Ordered-Descendant Directed Acyclic Graphs (GODDAGs) แม้ว่าจะไม่ใช่ภาษามาร์กอัปโดยตรง แต่ก็เป็นแบบจำลองข้อมูลทั่วไปสำหรับการมาร์กอัปที่ไม่เป็นลำดับชั้นGODDAGs ที่จำกัดได้รับการออกแบบมาโดยเฉพาะเพื่อให้ตรงกับความหมายของ MECS ส่วน GODDAGs ทั่วไปอาจไม่ต่อเนื่องกันและต้องการภาษาที่มีประสิทธิภาพมากกว่า[ 45 ] TexMECSเป็นผู้สืบทอดของ MECS ซึ่งมีไวยากรณ์ที่เป็นทางการและได้รับการออกแบบมาเพื่อแสดง GODDAG ทุกตัวและไม่มีสิ่งใดที่ไม่ใช่ GODDAG [ 46 ]
  • XCONCUR (เดิมชื่อ MuLaX) เป็นการผสมผสานระหว่าง XML และ CONCUR ของ SGML และยังมีภาษาตรวจสอบความถูกต้อง XCONCUR-CL และAPI ที่คล้ายกับSAX อีกด้วย [ 47 ] [ 48 ] [ 49 ]
  • Marinelli, Vitali และ Zacchiroli จัดเตรียมอัลกอริธึมเพื่อแปลงระหว่าง GODDAG ที่ถูกจำกัด, ECLIX, LMNL, เอกสารคู่ขนานใน XML, มาร์กอัประยะห่างต่อเนื่อง และ TexMECS [ 50 ]

ดูเหมือนว่ารูปแบบเหล่านี้จะไม่มีการคงไว้ซึ่งแนวทางปฏิบัติใด ๆ อีกต่อไปแล้ว ความเห็นพ้องของชุมชนดูเหมือนจะมุ่งไปสู่การใช้ XML แบบแยกส่วน หรือรูปแบบที่อิงตามกราฟแทน

ภาษา XML ที่มีการยืนหยัดต่อสู้ได้รับการดูแลรักษาอย่างต่อเนื่อง

  • GrAF-XML [ 51 ]การจัดลำดับ XML แบบ standoff ของกรอบงานคำอธิบายประกอบทางภาษาศาสตร์ (LAF) [ 36 ]ที่ใช้ เช่น สำหรับคลังข้อมูลแห่งชาติอเมริกัน[ 52 ]
  • PAULA-XML, [ 53 ]การจัดอนุกรม XML แบบแยกส่วนของแบบจำลองข้อมูลภายใต้ระบบการจัดการคลังข้อมูล ANNIS และชุดตัวแปลง SALT [ 54 ]
  • NAF (NLP Annotation Format / Newsreader Annotation Format) [ 55 ]รูปแบบ XML แบบ standoff ที่พัฒนาขึ้นครั้งแรกในโครงการ NewsReader (FP7, 2013-2015 [ 56 ] ) ซึ่งปัจจุบันถูกใช้โดยเครื่องมือ NLP เช่น FreeLing [ 57 ] (รองรับภาษาอังกฤษ สเปน โปรตุเกส อิตาลี ฝรั่งเศส เยอรมัน รัสเซีย คาตาลัน กาลิเซีย โครเอเชีย สโลวีเนีย ฯลฯ) และ EusTagger [ 58 ] (รองรับภาษาบาสก์ อังกฤษ สเปน)
  • เอกสารสำคัญของ Charles Harpurถูกเข้ารหัสโดยใช้ 'เอกสารหลายเวอร์ชัน' (MVD) เพื่อแสดงเวอร์ชันต่างๆ ของเอกสาร และเป็นวิธีการระบุการเพิ่มเติม การลบ และการแก้ไขโดยใช้การผสมผสานเชิงกลยุทธ์ของเอกสารหลายฉบับและช่วงระยะห่างภายในแบบจำลองพื้นฐานที่ใช้กราฟ MVD ถูกนำเสนอในรูปแบบไฟล์แอปพลิเคชัน ซึ่งต้องใช้เครื่องมือเฉพาะในการดูหรือแก้ไข[ 59 ]
  • แผน XML แบบแยกส่วนได้รับการพัฒนาโดย ความร่วมมือระหว่าง Odin , IntentและXigtEditซึ่งมุ่งเน้นไปที่ชุดข้อมูลขนาดใหญ่ของInterlinear Glossed Text (IGT)เพื่อสนับสนุนโครงการทรัพยากรและเอกสารภาษาธรรมชาติ[ 39 ]

แนวทางการเว้นระยะห่างมีสองส่วน ซึ่งโดยทั่วไปเรียกว่า "เนื้อหา" และ "คำอธิบายประกอบ" สิ่งเหล่านี้สามารถแสดงได้ในรูปแบบที่ไม่เกี่ยวข้องกัน คำอธิบายประกอบการเว้นระยะห่างแบบง่ายๆ นั้นเกี่ยวข้องกับรายการคู่ (ตำแหน่ง, ประเภท) เท่านั้น ดังนั้น ในบางแอปพลิเคชัน คำอธิบายประกอบการเว้นระยะห่างจะแสดงในรูปแบบ CSV, JSON ( -LD ) หรือรูปแบบอื่นๆ (เช่นWeb Annotation [ 60 ] ) หรือรูปแบบกราฟที่อิงตามสตริงURI (ดูด้านล่าง) อย่างไรก็ตาม การแสดงและการตรวจสอบความถูกต้องของเนื้อหาในรูปแบบดังกล่าวทำได้ยากกว่ามากและพบได้น้อยกว่า

รูปแบบที่เป็นทางการตามกราฟ

การทำเครื่องหมายแบบ Standoff ใช้โมเดลข้อมูลที่อิงตามกราฟแบบมีทิศทาง[ 61 ]ซึ่งทำให้การแสดงผลมีความซับซ้อนมากขึ้นเมื่อวางข้อมูลการทำเครื่องหมายไว้ในโครงสร้างต้นไม้ การแสดงลำดับชั้นที่ทับซ้อนกันในกราฟจะช่วยขจัดความท้าทายนี้ ดังนั้นคำอธิบายประกอบแบบ Standoff จึงสามารถแสดงได้อย่างเหมาะสมยิ่งขึ้นในรูปของมัลติกราฟ แบบมีทิศทางทั่วไป และใช้รูปแบบและเทคโนโลยีที่พัฒนาขึ้นเพื่อจุดประสงค์นี้ โดยเฉพาะอย่างยิ่งที่อิงตามResource Description Framework (RDF) [ 62 ] [ 63 ] EARMARK เป็นการ แสดง RDF / OWL ในยุคแรกๆ ที่ครอบคลุม General Ordered-Descendant Directed Acyclic Graphs (GODDAGs) [ 14 ]ทฤษฎีของ GODDAGs แม้ว่าจะไม่ใช่ภาษาการทำเครื่องหมายโดยตรง แต่ก็เป็นโมเดลข้อมูลทั่วไปสำหรับการทำเครื่องหมายที่ไม่เป็นลำดับชั้น

RDF เป็นแบบจำลองข้อมูลเชิงความหมายที่ไม่ขึ้นกับการกำหนดเชิงเส้น และมีการกำหนดเชิงเส้นที่แตกต่างกัน รวมถึงรูปแบบ XML ( RDF/XML ) ที่สามารถจำลองให้สะท้อน XML แบบ standoff การกำหนดเชิงเส้นที่อนุญาตให้ RDF แสดงในรูปแบบแอตทริบิวต์ XML ( RDFa ) รูปแบบ JSON ( JSON-LD ) และรูปแบบไบนารีที่ออกแบบมาเพื่ออำนวยความสะดวกในการสอบถามหรือประมวลผล (RDF-HDT, [ 64 ] RDF-Thrift [ 65 ] ) RDF มีความหมายเทียบเท่ากับแบบจำลองข้อมูลแบบกราฟที่อยู่เบื้องหลังมาร์กอัปแบบ standoff ไม่จำเป็นต้องใช้เทคโนโลยีเฉพาะทางสำหรับการจัดเก็บ การแยกวิเคราะห์ และการสอบถาม ไฟล์ RDF ที่เชื่อมโยงกันหลายไฟล์ที่แสดงถึงเอกสารหรือคลังข้อมูลถือเป็นตัวอย่างของข้อมูลเปิดที่เชื่อมโยงทางภาษาศาสตร์

เทคนิคที่ได้รับการยอมรับในการเชื่อมโยงกราฟใดๆ กับเอกสารที่มีคำอธิบายประกอบคือการใช้ตัวระบุส่วนย่อยURI เพื่ออ้างอิงถึงส่วนต่างๆ ของข้อความและ/หรือเอกสาร ดูภาพรวมภายใต้คำอธิบายประกอบเว็บ มาตรฐาน คำอธิบายประกอบเว็บมี 'ตัวเลือก' เฉพาะรูปแบบเป็นวิธีการเพิ่มเติม เช่น ตัวเลือกตามออฟเซ็ต การจับคู่สตริง หรือ XPath [ 66 ]

คำศัพท์ RDF ดั้งเดิมที่สามารถแสดงคำอธิบายประกอบทางภาษาได้แก่: [ 67 ]

  • การใส่คำอธิบายประกอบเว็บ[ 68 ]
  • รูปแบบการแลกเปลี่ยน NLP (NIF) [ 69 ]
  • รูปแบบการแลกเปลี่ยน LAPPS (LIF) [ 70 ]

คำศัพท์ที่เกี่ยวข้อง ได้แก่

  • POWLA ซึ่งเป็นการแปลง PAULA-XML เป็นอนุกรม OWL2/DL [ 71 ]
  • RDF-NAF ซึ่งเป็นการแปลงรูปแบบคำอธิบายประกอบ NLP เป็น RDF [ 72 ]

ในช่วงต้นปี 2020 กลุ่มชุมชน W3C LD4LT ได้ริเริ่มโครงการเพื่อประสานคำศัพท์เหล่านี้และพัฒนาคำศัพท์ RDF ที่รวมเป็นหนึ่งเดียวสำหรับคำอธิบายประกอบทางภาษาบนเว็บ[ 73 ]

หมายเหตุ

  1. ^โครงการริเริ่มการเข้ารหัสข้อความ
  2. ^ a b DeRose 2004 , ประเภทของปัญหา
  3. ^ Piez 2014 .
  4. ^ Renear, Mylonas & Durand 1993 .
  5. ^ เทนนิ สัน 2008
  6. ^ MoChridhe 2019
  7. ^ ฮิ กสัน 2002
  8. ^ซิโวเนน 2003
  9. ^ HTML , § 8.2.8 บทนำเกี่ยวกับการจัดการข้อผิดพลาดและกรณีแปลกประหลาดในตัวแยกวิเคราะห์
  10. ^ Sperberg-McQueen & Huitfeldt 2000 , 2.1. สัญกรณ์ที่ไม่ใช่ SGML
  11. ^ HTML , § 3.2.5.4ย่อหน้า
  12. สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.2. เห็นด้วย
  13. ^ DeRose 2004 , SGML เห็นด้วย
  14. อรรถ เป็นดิอิโอริโอ, เปโรนี และวิตาลี 2552
  15. ^โครงการการเข้ารหัสข้อความ , § 20 โครงสร้างที่ไม่เป็นลำดับชั้น
  16. ^ Durusau 2006 .
  17. ^โครงการริเริ่มการเข้ารหัสข้อความ § 20.1 การเข้ารหัสหลายรูปแบบของข้อมูลเดียวกัน
  18. ^ Schmidt 2009
  19. ^ลา ฟงแตน 2016
  20. ^ Schmidt 2012 , 4.1 การทำให้ความแปรผันเป็นไปโดยอัตโนมัติ
  21. ^โครงการการเข้ารหัสข้อความ § 20.2 การทำเครื่องหมายขอบเขตด้วยองค์ประกอบว่าง
  22. สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.4. เหตุการณ์สำคัญ
  23. ^ DeRose 2004 , หลักไมล์แบบ TEI
  24. ^เบิร์นบอมและธอร์เซน 2015
  25. แฮนท์เจนส์ เดกเกอร์ แอนด์ เบียร์นบัม 2017
  26. ^ เดค เกอร์ 2018
  27. ^โครงการริเริ่มการเข้ารหัสข้อความ § 20.3 การแบ่งส่วนและการประกอบใหม่ขององค์ประกอบเสมือน
  28. ^ DeRose 2004 , การแบ่งส่วน (Segmentation)
  29. ^ Sperberg-McQueen & Huitfeldt 2000 , 2.5. การแตกแยก.
  30. ^ DeRose 2004 , เข้าร่วม
  31. ^ Schmidt 2012 , 3.4 การเชื่อมโยงระหว่างกัน
  32. ^โครงการการเข้ารหัสข้อความ § 20.4 การทำเครื่องหมายแบบเว้นระยะห่าง
  33. ^ Schmidt 2012 , 4.2 การทำเครื่องหมายนอกข้อความ
  34. ^ Eggert & Schmidt 2019 , บทสรุป.
  35. a b c Ide และคณะ 2017 , หน้า 99.
  36. ^ a b "ISO 24612:2012" . ISO .
  37. ^ Chiarcos et al. 2008 .
  38. ^ "การเผชิญหน้า: โครงสร้างจุลภาคของคำอธิบายประกอบ · ปัญหา #1745 · TEIC/TEI" . GitHub .
  39. ^ a b Xia, F., Lewis, WD, Goodman, MW และคณะ การเสริมคุณค่าฐานข้อมูลข้อความที่มีคำอธิบายความหมายแบบบรรทัดต่อบรรทัดที่มีหลายภาษาอย่างมหาศาล Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
  40. สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000 , 2.6. มาร์กอัปขัดแย้ง
  41. ^ DeRose 2004 , การกำหนดรูปแบบการเผชิญหน้า
  42. ^ DeRose 2004 , CLIX และ LMNL.
  43. ^ Piez 2012 .
  44. ^ Sperberg-McQueen & Huitfeldt 2000 , 2.7. MECS.
  45. สเปอร์เบิร์ก-แมคควีน แอนด์ ฮุยต์เฟลด์ 2000
  46. ฮุยต์เฟลด์ต แอนด์ สเปอร์เบิร์ก-แมคควีน 2546
  47. ^ฮิลเบิร์ต, ชอนเฟลด์ และวิทท์ 2005
  48. ^ Witt et al. 2007 .
  49. ^ Schonefeld 2008
  50. มาริเนลลี, วิตาลี และซัคคิโรลี 2551
  51. ^ "ISO GrAF" . 7 มีนาคม 2015.
  52. ^ "หน้าหลัก" . anc.org .
  53. ^ "PAULA XML: รูปแบบการแลกเปลี่ยนข้อมูลสำหรับคำอธิบายประกอบทางภาษาศาสตร์"เก็บถาวรจากต้นฉบับเมื่อ 2020-08-17
  54. ^ Zipser, Florian (18 พฤศจิกายน 2016). "เกลือ" . corpus-tools.org. doi : 10.5281/zenodo.17557 . สืบค้นเมื่อ11 กันยายน 2022 .
  55. "เอ็นเอเอฟ" . GitHub . 30 มิถุนายน 2564.
  56. ^ "การสร้างดัชนีเหตุการณ์ที่มีโครงสร้างสำหรับข้อมูลทางการเงินและเศรษฐกิจปริมาณมากเพื่อการตัดสินใจ"บริการข้อมูลการวิจัยและพัฒนาชุมชน (CORDIS )
  57. ^ "หน้าหลัก - หน้าแรกของ FreeLing" . เก็บถาวรจากต้นฉบับเมื่อ 2012-04-29 . เรียกดูเมื่อ2020-04-06 .
  58. "การวิเคราะห์ข้อความ | HiTZ Zentroa "
  59. ^ Eggert & Schmidt 2019
  60. ^ "แบบจำลองข้อมูลคำอธิบายประกอบเว็บ" 23 กุมภาพันธ์ 2560
  61. ^ Ide & Suderman 2007
  62. ^ Cassidy 2010 , cassidy.
  63. ^ Chiarcos 2012 , POWLA.
  64. ^ "หน้าหลัก" . rdfhdt.org .
  65. ^ "ไบนารี RDF โดยใช้ Apache Thrift" . afs.github.io .
  66. ^ "ผู้คัดเลือกและรัฐ" . 23 กุมภาพันธ์ 2560.
  67. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). ข้อมูลเชื่อมโยงทางภาษาศาสตร์ การนำเสนอ การสร้าง และการประยุกต์ใช้ Cham: Springer.
  68. ^ Verspoor, Karin ; Livingston, Kevin (2012). "Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web" . Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Republic of Korea : 75– 84 . สืบค้นเมื่อ6 เมษายน 2020 .
  69. ^ "รูปแบบการแลกเปลี่ยนข้อมูล NLP (NIF) 2.0 - ภาพรวมและเอกสารประกอบ "
  70. ^ "ภาพรวมของ LIF "
  71. ^ "POWLA"มกราคม 2022
  72. ^ "รูปแบบการระบุคำอธิบายประกอบ NLP | ข้อมูลเบื้องต้นเกี่ยวกับ NAF "
  73. ^ "มุ่งสู่คำศัพท์ LOD ที่เป็นเอกภาพสำหรับคำอธิบายประกอบทางภาษา" . GitHub . 7 กันยายน 2021.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Overlapping_markup&oldid=1348140980 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การทำเครื่องหมายที่ทับซ้อนกัน

ใน ภาษามาร์กอัป และ มนุษยศาสตร์ดิจิทัล การทับซ้อน เกิดขึ้นเมื่อเอกสารมีโครงสร้างสองโครงสร้างขึ้นไปที่โต้ตอบกันในลักษณะที่ไม่เป็น ลำดับชั้น...

ประวัติศาสตร์

ปัญหาของโครงสร้างที่ไม่เป็นลำดับชั้นในเอกสารได้รับการยอมรับมาตั้งแต่ปี 1988 การแก้ไขปัญหานี้โดยเปรียบเทียบกับกระบวนทัศน์หลักของข้อความที่เป็นลำดับชั้นเดียว ( ลำดับชั้นของวัตถุเนื้อหา หรือ OHCO ) ในตอนแรกคิดว่าเป็นเพียงปัญหาทางเทคนิค...

คุณสมบัติและประเภท

มีความแตกต่างระหว่างรูปแบบที่อนุญาตให้มีการทับซ้อนแบบไม่ต่อเนื่อง และรูปแบบที่อนุญาตให้มีการทับซ้อนแบบต่อเนื่องเท่านั้น บ่อยครั้งที่ 'การทับซ้อนของมาร์กอัป' หมายถึงแบบหลังอย่างเคร่งครัด...

แนวทางและวิธีการดำเนินการ

DeRose (2004 , เกณฑ์การประเมิน) ได้ระบุเกณฑ์หลายประการสำหรับการตัดสินวิธีการแก้ปัญหาการทับซ้อน: