กลับไปหน้าบทความ

อ่าน 3 นาที

เอกสารที่มีโครงสร้าง

เอกสาร ที่มีโครงสร้าง คือ เอกสารอิเล็กทรอนิกส์ ที่ใช้รูปแบบ การทำเครื่องหมาย บางอย่าง เพื่อระบุส่วนต่างๆ ของเอกสารว่ามีความหมายแตกต่างกันนอกเหนือจากรูปแบบการจัดวาง ตัวอย่างเช่น...

เอกสารที่มีโครงสร้าง

เอกสารที่มีโครงสร้างคือเอกสารอิเล็กทรอนิกส์ที่ใช้รูปแบบการทำเครื่องหมาย บางอย่าง เพื่อระบุส่วนต่างๆ ของเอกสารว่ามีความหมายแตกต่างกันนอกเหนือจากรูปแบบการจัดวาง ตัวอย่างเช่น เอกสารที่มีโครงสร้างอาจระบุส่วนใดส่วนหนึ่งว่าเป็น "ชื่อบท" (หรือ "ตัวอย่างโค้ด" หรือ "บทกวีสี่บรรทัด") แทนที่จะเป็น "แบบอักษร Helvetica ตัวหนา 24" หรือ "แบบอักษร Courier ที่เยื้องเข้าไป" โดยทั่วไปแล้วส่วนต่างๆ เหล่านี้มักเรียกว่า "ส่วนประกอบ" หรือ "องค์ประกอบ" ของเอกสาร

ภาพรวม

เอกสารที่มีโครงสร้างโดยทั่วไปจะเน้นที่การติดป้ายกำกับสิ่งต่างๆ ที่สามารถนำไปใช้เพื่อวัตถุประสงค์ในการประมวลผลที่หลากหลาย ไม่ใช่เพียงแค่การจัดรูปแบบเท่านั้น ตัวอย่างเช่น การติดป้ายกำกับอย่างชัดเจนว่า "ชื่อบท" หรือ "การเน้นข้อความ" นั้นมีประโยชน์ต่อระบบสำหรับผู้พิการทางสายตามากกว่าการระบุเพียงแค่ "แบบอักษร Helvetica ตัวหนา 24" หรือ "ตัวเอียง" ในทำนองเดียวกัน การติดป้ายกำกับที่มีความหมายของรายการต่างๆ มากมายในเอกสารข้อมูลทางเทคนิคจะช่วยให้สามารถบูรณาการกับฐานข้อมูล ระบบค้นหา แคตตาล็อกออนไลน์ และอื่นๆ ได้ดียิ่งขึ้น

เอกสารที่มีโครงสร้างโดยทั่วไปจะรองรับโครงสร้างลำดับชั้นเป็นอย่างน้อย เช่น รายการ ไม่ใช่เพียงแค่รายการย่อย ส่วน ไม่ใช่เพียงแค่หัวข้อส่วน และอื่นๆ ซึ่งแตกต่างอย่างสิ้นเชิงกับระบบที่เน้นการจัดรูปแบบ ระบบระดับสูงยังรองรับชุดส่วนประกอบอิสระและ/หรือทับซ้อนกันหลายชุดอีกด้วย[ 1 ]

ระบบเอกสารที่มีโครงสร้างช่วยให้สามารถกำหนดประเภทส่วนประกอบและการรวมกันของส่วนประกอบเหล่านั้นผ่าน "สคีมา" ซึ่งคล้ายกับสคีมาของฐานข้อมูล ภาษาที่เป็นทางการสำหรับการระบุสคีมา ได้แก่XSD , Relax NGและSchematronเอกสารที่ปฏิบัติตามกฎเหล่านี้ถือว่า "ถูกต้อง" [ 2 ]บางระบบรองรับประเภทส่วนประกอบที่ยืดหยุ่นในขณะที่ยังคงรักษากฎไวยากรณ์ไว้

Lie และ Saarela ตั้งข้อสังเกตว่า " ภาษามาร์กอัปมาตรฐานทั่วไป (SGML) ได้บุกเบิกแนวคิดของเอกสารที่มีโครงสร้าง" [ 3 ]แม้ว่าระบบก่อนหน้านี้ เช่นScribe , AugmentและFRESSจะมีคุณสมบัติและความสามารถของเอกสารที่มีโครงสร้างมากมาย และXML ซึ่งเป็นผลสืบเนื่องมาจาก SGML ก็ได้รับความนิยมในปัจจุบัน

รูปแบบหนึ่งที่ใช้กันอย่างแพร่หลายสำหรับการแสดงเอกสารที่มีโครงสร้างคือHTMLซึ่งเป็นโครงสร้างที่กำหนดและอธิบายโดยW3Cอย่างไรก็ตาม HTML ไม่ได้มีแท็กเฉพาะสำหรับส่วนประกอบที่เน้นความหมาย เช่น ย่อหน้า หัวเรื่อง และโค้ดเท่านั้น แต่ยังมีแท็กที่เน้นรูปแบบ เช่น ตัวเอียง ตัวหนา และตารางส่วนใหญ่ด้วย ในทางปฏิบัติ HTML บางครั้งถูกใช้เป็นระบบเอกสารที่มีโครงสร้าง แต่ส่วนใหญ่มักใช้เป็นภาษาสำหรับการจัดรูปแบบ

หลายสาขาใช้เอกสารที่มีโครงสร้างผ่านทางสคีมาเฉพาะสาขาที่พวกเขาร่วมกันพัฒนา เช่นJATSสำหรับการตีพิมพ์วารสารTEIสำหรับเอกสารวรรณกรรมUBLและEDIสำหรับการแลกเปลี่ยนข้อมูลทางธุรกิจXTCEสำหรับระบบส่งข้อมูลทางไกลของยานอวกาศREST สำหรับส่วนติดต่อผู้ใช้บนเว็บ และอีกมากมาย นับ ไม่ถ้วน ทุกกรณีเหล่านี้ใช้สคีมาเฉพาะที่อิงตามXML

XMLคือรูปแบบสากลสำหรับเอกสารและข้อมูลที่มีโครงสร้างบนเว็บ

— กลุ่มทำงาน XHTML2 , W3C

ความหมายเชิงโครงสร้าง

ในการเขียนเอกสารที่มีโครงสร้างนั้น จุดเน้นอยู่ที่การเข้ารหัสโครงสร้างเชิงตรรกะของเอกสาร โดยอาจไม่จำเป็นต้องเสียเวลาไปกับการนำเสนอเอกสารนั้นแก่ผู้อ่านผ่านทางหน้ากระดาษหรือหน้าจอ (ในบางกรณี อาจไม่มีการใช้งานดังกล่าวด้วยซ้ำ) เอกสารที่มีโครงสร้างสามารถประมวลผลได้ง่ายด้วยระบบคอมพิวเตอร์ เพื่อดึงและนำเสนอรูปแบบต่างๆ ของเอกสาร ตัวอย่างเช่น ในบทความส่วนใหญ่ของวิกิพีเดีย สารบัญจะถูกสร้างขึ้นโดยอัตโนมัติจากแท็กหัวเรื่องต่างๆ ในเนื้อหาของเอกสาร เนื่องจากการแปลง SGML ของพจนานุกรมภาษาอังกฤษ Oxfordได้แยกแยะความหมายต่างๆ ที่เกี่ยวข้องกับการใช้ตัวเอียงในฉบับพิมพ์อย่างชัดเจน เครื่องมือค้นหาจึงสามารถดึงข้อมูลตามรากศัพท์ คำอ้างอิง และคุณลักษณะอื่นๆ ที่น่าสนใจได้ เมื่อ HTML ให้ข้อมูลเชิงโครงสร้างมากกว่าแค่การจัดรูปแบบ ผู้ใช้ที่มีความบกพร่องทางสายตาจะได้รับอินเทอร์เฟซการอ่านที่ใช้งานได้ง่ายขึ้น เมื่อบริษัทท่องเที่ยวจัดทำแผนการเดินทางเป็นเอกสารที่มีโครงสร้างแทนที่จะเป็นเพียงการแสดงผล เครื่องมือของผู้ใช้สามารถดึงข้อมูลที่จำเป็นและส่งต่อไปยังปฏิทินหรือแอปพลิเคชันอื่นๆ ได้อย่างง่ายดาย

ในHTML ส่วนหนึ่งของโครงสร้างเชิงตรรกะ ของ เอกสารอาจประกอบด้วยเนื้อหาเอกสาร<body>ซึ่งประกอบด้วยหัวข้อระดับแรก<h1>และย่อหน้า<p>

< เนื้อหา>< h1 >เอกสารที่มีโครงสร้าง</ h1 > < p >เอกสารที่มีโครงสร้าง< strong class = "selflink" > </ strong >คือ< a href = "/wiki/Electronic_document" title = "Electronic document" >เอกสารอิเล็กทรอนิกส์</ a >ที่ใช้วิธีการ< a href = "/wiki/Markup_language" title = "Markup language" >มาร์กอัป</ a >เพื่อระบุส่วนต่างๆ ของเอกสารว่ามีความหมายหลากหลายนอกเหนือจากการจัดรูปแบบ</ p ></body>

หนึ่งในคุณสมบัติที่น่าดึงดูดที่สุดของเอกสารที่มีโครงสร้างคือ สามารถนำกลับมาใช้ซ้ำได้ในบริบทต่างๆ มากมาย และนำเสนอในรูปแบบต่างๆ บนโทรศัพท์มือถือ หน้าจอโทรทัศน์ เครื่องสังเคราะห์เสียง และอุปกรณ์อื่นๆ ที่สามารถตั้งโปรแกรมให้ประมวลผลได้

ความหมายอื่นๆ

ข้อความที่ไม่ใช่โครงสร้างอาจมีความหมายอื่นได้ในทำนองเดียวกับวัตถุขนาดใหญ่ แต่ยังคงถือว่าเป็น "โครงสร้างเอกสาร" เพราะเป็นการแสดงข้ออ้างเกี่ยวกับขอบเขตและลักษณะหรือออนโทโลยีของส่วนต่างๆ ของเอกสาร มากกว่าคำแนะนำเกี่ยวกับการนำเสนอ ใน ส่วนของ HTMLข้างต้น<strong>แท็ก `<strong>` หมายความว่าข้อความที่อยู่ภายในนั้นมีความสำคัญ ในทางภาพมักจะแสดงผลด้วยตัวหนา เช่นเดียวกับ<b>`<br>` แต่ในส่วนติดต่อผู้ใช้ด้วยเสียงอาจใช้การเน้นเสียงแทน คำว่าการมาร์กอัปเชิงความหมาย (semantic markup)ไม่รวมถึงการมาร์กอัปเช่น `<br> <b>` ซึ่งไม่ได้แสดงความหมายอื่นใดนอกจากคำแนะนำสำหรับการแสดงผลทางภาพ แม้ว่าตัวแทนอัจฉริยะอาจแยกแยะความหมายเชิงโครงสร้างที่ซ่อนอยู่ได้ แท็ก `<strong>` เป็น "เชิงพรรณนา" หรือ "เชิงโครงสร้าง" ในแง่ที่ว่ามีจุดประสงค์เพื่อติดป้ายกำกับคุณสมบัติเชิงนามธรรมกึ่งภาษาของเนื้อหา มากกว่าที่จะอธิบายการนำเสนอที่เหมาะสมในสื่อใดสื่อหนึ่งโดยเฉพาะ

แท็กโครงสร้างอื่นๆ ใน HTML ได้แก่ <br> และ <br> ส่วน <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q>สคีมาอื่นๆ เช่นDocBookและTEIมีตัวเลือกที่หลากหลายกว่ามาก

แท็ก แองเคอร์<a>ใช้สำหรับโครงสร้างอีกประเภทหนึ่งที่แตกต่างออกไปเล็กน้อย นั่นคือโครงสร้างการเชื่อมต่อหรือการอ้างอิงไขว้ แทนที่จะเป็นการแบ่งส่วนตามช่วง นี่เป็นโครงสร้างประเภทหนึ่ง และเราสามารถสร้างมาร์กอัปทางเลือกสำหรับเอกสารที่แสดงโครงสร้างเฉพาะเดียวกันได้ทั้งสองวิธี เช่น การแสดงเนื้อหาส่วนต่างๆ ด้วยการแทรกข้อความแทนการนำเสนอด้วยไฮเปอร์ลิงก์นำทาง

HTMLตั้งแต่แรกเริ่มมีแท็กที่แสดงความหมายเชิงการนำเสนอ เช่นตัวหนา ( <b>) หรือตัวเอียง ( <i>) หรือเพื่อเปลี่ยนขนาดตัวอักษรหรือมีเอฟเฟกต์อื่นๆ ต่อการนำเสนอ[ 4 ]ภาษามาร์กอัปเวอร์ชันสมัยใหม่ไม่สนับสนุนมาร์กอัปดังกล่าว แต่สนับสนุนมาร์กอัปเชิงพรรณนาที่แมปกับการนำเสนอเฉพาะผ่านสไตล์ชีตซึ่งเป็นวิธีการที่ริเริ่มโดยระบบต่างๆ เช่นScribeและFRESSสามารถแนบสไตล์ชีตที่แตกต่างกันกับมาร์กอัปใดๆ ก็ได้ ไม่ว่าจะเป็นเชิงความหมายหรือเชิงการนำเสนอ เพื่อสร้างการนำเสนอที่แตกต่างกัน แม้ว่าการแมปชื่อแท็ก "ตัวเอียง" กับการนำเสนอแบบตัวหนาจะเข้าใจยากกว่าก็ตาม

บริบทและเจตนา

โดยหลักการแล้ว สิ่งที่ถือว่าเป็น "โครงสร้าง" เทียบกับ "ไม่มีโครงสร้าง" นั้นอาจแตกต่างกันไป ในหนังสือที่เกี่ยวกับศิลปะการจัดพิมพ์โดยเฉพาะ การติดป้ายกำกับว่า "ตัวเอียง" หรือ "ตัวหนา" อาจเป็นประเด็นสำคัญทั้งหมด ตัวอย่างเช่น การอธิบายว่าควรใช้รูปแบบใดในสถานการณ์ใด มักจะต้องการยกตัวอย่างและตัวอย่างค้าน ซึ่งจะไม่มีความหมายอีกต่อไปหากการแสดงผลไม่สอดคล้องกับเนื้อหา ในทำนองเดียวกัน เอกสารฉบับใดฉบับหนึ่งอาจน่าสนใจไม่เพียงแต่ในด้านเนื้อหาเท่านั้น แต่ยังรวมถึงแนวทางการจัดพิมพ์ด้วย ในกรณีเช่นนี้ การอธิบายแนวทางการจัดพิมพ์นั้นไม่เพียงแต่เป็นสิ่งที่พึงปรารถนา แต่ยังจำเป็นอีกด้วย อย่างไรก็ตาม ปัญหานี้ไม่ได้เกิดขึ้นเฉพาะกับโครงสร้างเอกสารเท่านั้น แต่ยังเกิดขึ้นในด้านไวยากรณ์เมื่อพูดถึงไวยากรณ์ และในกรณีอื่นๆ อีกมากมาย

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Structured_document&oldid=1320954234 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ เอกสารที่มีโครงสร้าง

เอกสาร ที่มีโครงสร้าง คือ เอกสารอิเล็กทรอนิกส์ ที่ใช้รูปแบบ การทำเครื่องหมาย บางอย่าง เพื่อระบุส่วนต่างๆ ของเอกสารว่ามีความหมายแตกต่างกันนอกเหนือจากรูปแบบการจัดวาง ตัวอย่างเช่น...

ภาพรวม

เอกสารที่มีโครงสร้างโดยทั่วไปจะเน้นที่การติดป้ายกำกับสิ่งต่างๆ ที่สามารถนำไปใช้เพื่อวัตถุประสงค์ในการประมวลผลที่หลากหลาย ไม่ใช่เพียงแค่การจัดรูปแบบเท่านั้น ตัวอย่างเช่น การติดป้ายกำกับอย่างชัดเจนว่า "ชื่อบท" หรือ "การเน้นข้อความ"...

ความหมายเชิงโครงสร้าง

ในการเขียนเอกสารที่มีโครงสร้างนั้น จุดเน้นอยู่ที่การเข้ารหัสโครงสร้างเชิงตรรกะของเอกสาร โดยอาจไม่จำเป็นต้องเสียเวลาไปกับการนำเสนอเอกสารนั้นแก่ผู้อ่านผ่านทางหน้ากระดาษหรือหน้าจอ (ในบางกรณี อาจไม่มีการใช้งานดังกล่าวด้วยซ้ำ)...

ความหมายอื่นๆ

ข้อความที่ไม่ใช่โครงสร้างอาจมีความหมายอื่นได้ในทำนองเดียวกับวัตถุขนาดใหญ่ แต่ยังคงถือว่าเป็น "โครงสร้างเอกสาร" เพราะเป็นการแสดงข้ออ้างเกี่ยวกับขอบเขตและลักษณะหรือ ออนโทโลยี ของส่วนต่างๆ ของเอกสาร มากกว่าคำแนะนำเกี่ยวกับการนำเสนอ ใน ส่วนของ HTML ข้างต้น แท็ก `...