อ่าน 4 นาที
สื่อและข้อมูลที่เครื่องอ่านได้
ในด้านการสื่อสารและการคำนวณสื่อที่เครื่องอ่านได้ (หรือสื่อที่คอมพิวเตอร์อ่านได้ ) คือสื่อที่สามารถจัดเก็บข้อมูลในรูปแบบที่คอมพิวเตอร์ดิจิทัลหรือเซ็นเซอร์ สามารถอ่านได้ง่าย...
สื่อและข้อมูลที่เครื่องอ่านได้

ในด้านการสื่อสารและการคำนวณสื่อที่เครื่องอ่านได้ (หรือสื่อที่คอมพิวเตอร์อ่านได้ ) คือสื่อที่สามารถจัดเก็บข้อมูลในรูปแบบที่คอมพิวเตอร์ดิจิทัลหรือเซ็นเซอร์ สามารถอ่านได้ง่าย ซึ่งแตกต่างจากสื่อและข้อมูลที่มนุษย์อ่านได้
ผลลัพธ์ที่ได้เรียกว่าข้อมูลที่เครื่องอ่านได้หรือข้อมูลที่คอมพิวเตอร์อ่านได้และตัวข้อมูลเองนั้นสามารถอธิบายได้ว่ามีคุณสมบัติที่เครื่องอ่านได้
ข้อมูล
ข้อมูลที่เครื่องอ่านได้ต้องเป็นข้อมูลที่มีโครงสร้าง[ 1 ]
ความพยายามในการสร้างข้อมูลที่เครื่องอ่านได้เกิดขึ้นตั้งแต่ช่วงทศวรรษ 1960 ในขณะเดียวกันกับการพัฒนาที่สำคัญในด้านการอ่านด้วยเครื่องและการประมวลผลภาษาธรรมชาติ (เช่นELIZA ของ Weizenbaum ) ผู้คนต่างคาดหวังถึงความสำเร็จของฟังก์ชันการอ่านด้วยเครื่องและพยายามสร้างเอกสารที่เครื่องอ่านได้ ตัวอย่างหนึ่งคือ การสร้างแคตตาล็อกผลงานของนักประพันธ์เพลง William Jay Sydemanในรูปแบบที่เครื่องอ่านได้ โดย นักดนตรีวิทยา Nancy B. Reichในปี 1966
ในสหรัฐอเมริกา กฎหมาย OPEN Government Data Act ลงวันที่ 14 มกราคม 2019 กำหนดนิยามของข้อมูลที่เครื่องอ่านได้ว่าเป็น "ข้อมูลในรูปแบบที่คอมพิวเตอร์สามารถประมวลผลได้อย่างง่ายดายโดยไม่ต้องมีการแทรกแซงจากมนุษย์ ในขณะเดียวกันก็ต้องมั่นใจว่าความหมายเชิงความหมายจะไม่สูญหายไป" กฎหมายดังกล่าวสั่งการให้หน่วยงานรัฐบาลกลางของสหรัฐฯ เผยแพร่ข้อมูลสาธารณะในลักษณะดังกล่าว[ 2 ]เพื่อให้มั่นใจว่า "ข้อมูลสาธารณะใดๆ ของหน่วยงานนั้นสามารถอ่านได้ด้วยเครื่อง" [ 3 ]
ข้อมูลที่เครื่องอ่านได้อาจแบ่งออกเป็นสองกลุ่ม: ข้อมูลที่มนุษย์อ่านได้ซึ่งมีการทำเครื่องหมายไว้เพื่อให้เครื่องสามารถอ่านได้เช่นกัน (เช่นไมโครฟอร์แมต , RDF , HTML ) และ รูปแบบ ไฟล์ข้อมูลที่ออกแบบมาเพื่อการประมวลผลโดยเครื่องเป็นหลัก ( CSV , RDF , XML , JSON ) รูปแบบเหล่านี้จะถือว่าเครื่องอ่านได้ก็ต่อเมื่อข้อมูลที่อยู่ภายในนั้นมีโครงสร้างที่เป็นทางการ การส่งออกไฟล์ CSV จากสเปรดชีตที่มีโครงสร้างไม่ดีจะไม่ตรงตามคำจำกัดความนี้
การอ่านได้ด้วยเครื่องจักรไม่ได้มีความหมายเหมือนกับการเข้าถึงได้ทางดิจิทัลเอกสารที่เข้าถึงได้ทางดิจิทัลอาจอยู่บนออนไลน์ ทำให้มนุษย์เข้าถึงได้ง่ายขึ้นผ่านคอมพิวเตอร์ แต่เนื้อหาจะยากต่อการดึงออกมา แปลง และประมวลผลผ่านตรรกะการเขียนโปรแกรมคอมพิวเตอร์ หากเอกสารนั้นไม่สามารถอ่านได้ด้วยเครื่องจักร[ 4 ]
ภาษา XML (Extensible Markup Language ) ถูกออกแบบมาให้ทั้งมนุษย์และเครื่องจักรสามารถอ่านได้ และ ภาษา XSLT ( Extensible Stylesheet Language Transformations ) ใช้เพื่อปรับปรุงการนำเสนอข้อมูลให้มนุษย์อ่านได้ง่ายขึ้น ตัวอย่างเช่น XSLT สามารถใช้ในการแปลง XML ให้เป็นรูปแบบ PDF ( Portable Document Format ) โดยอัตโนมัติ ข้อมูลที่เครื่องจักรอ่านได้สามารถแปลงให้มนุษย์อ่านได้โดยอัตโนมัติ แต่โดยทั่วไปแล้ว การแปลงกลับกันนั้นเป็นไปไม่ได้
เพื่อวัตถุประสงค์ในการดำเนินการตาม พระราชบัญญัติ การปรับปรุงประสิทธิภาพและผลลัพธ์ของรัฐบาล (GPRA) สำนักงานบริหารงบประมาณ (OMB) ได้กำหนด "รูปแบบที่เครื่องอ่านได้" ดังนี้: "รูปแบบในภาษาคอมพิวเตอร์มาตรฐาน (ไม่ใช่ข้อความภาษาอังกฤษ) ที่สามารถอ่านได้โดยอัตโนมัติโดยเว็บเบราว์เซอร์หรือระบบคอมพิวเตอร์ (เช่น XML) เอกสารประมวลผลคำแบบดั้งเดิมและไฟล์รูปแบบเอกสารพกพา (PDF) สามารถอ่านได้ง่ายโดยมนุษย์ แต่โดยทั่วไปแล้วเครื่องจะตีความได้ยาก รูปแบบอื่นๆ เช่น ภาษามาร์กอัปที่ขยายได้ ( XML ) ( JSON ) หรือสเปรดชีตที่มีคอลัมน์ส่วนหัวที่สามารถส่งออกเป็นค่าที่คั่นด้วยเครื่องหมายจุลภาค (CSV) เป็นรูปแบบที่เครื่องอ่านได้ เนื่องจาก HTML เป็นภาษามาร์กอัปเชิงโครงสร้างที่ติดป้ายกำกับส่วนต่างๆ ของเอกสารอย่างรอบคอบ คอมพิวเตอร์จึงสามารถรวบรวมส่วนประกอบของเอกสารเพื่อประกอบสารบัญ โครงร่าง บรรณานุกรมการค้นหาวรรณกรรม ฯลฯ เป็นไปได้ที่จะทำให้เอกสารประมวลผลคำแบบดั้งเดิมและรูปแบบอื่นๆ สามารถอ่านได้ด้วยเครื่อง แต่เอกสารต้องมีองค์ประกอบโครงสร้างที่ได้รับการปรับปรุง" [ 5 ]
สื่อ
ตัวอย่างของสื่อที่เครื่องอ่านได้ ได้แก่ สื่อแม่เหล็ก เช่นดิสก์แม่เหล็กการ์ดเทปและดรัมบัตรเจาะรูและเทปกระดาษดิสก์ออปติคัล บาร์โค้ดและอักขระหมึกแม่เหล็ก
เทคโนโลยีที่เครื่องอ่านได้ทั่วไป ได้แก่ การบันทึกด้วยแม่เหล็ก การประมวลผลรูปคลื่นและบาร์โค้ดการรู้จำอักษรด้วยแสง (OCR) สามารถใช้เพื่อให้เครื่องจักรสามารถอ่านข้อมูลที่มีอยู่สำหรับมนุษย์ได้ ข้อมูลใดๆ ที่สามารถดึงข้อมูลได้ด้วยพลังงานในรูปแบบใดๆ ก็สามารถอ่านได้ด้วยเครื่องจักร
ตัวอย่างเช่น:
- อะคูสติก
- เคมี
- ไฟฟ้า
- การจัดเก็บแบบแม่เหล็ก
- เครื่องกล
- กระป๋องและเรือ
- บัตรเจาะรู
- เทปกระดาษ
- กระบอกหรือแผ่นของกล่องดนตรี
- ร่องเสียง (ดูเพิ่มเติม: ข้อมูลเสียง )
- กระบอกเสียง
- แผ่นเสียงแกรมโมโฟน
- DictaBelt (ร่องบนสายพานพลาสติก)
- ดิสก์อิเล็กทรอนิกส์ความจุ
- กระป๋องและเรือ
- ทัศนศาสตร์
- อุณหพลศาสตร์
แอปพลิเคชัน
เอกสาร
เอกสารที่เครื่องอ่านได้คือเอกสารที่มีเนื้อหาซึ่งสามารถประมวลผลโดยคอมพิวเตอร์ ได้อย่างง่ายดาย เอกสารประเภทนี้แตกต่างจากข้อมูลที่เครื่องอ่านได้ ทั่วไป ตรงที่มีโครงสร้างเพิ่มเติมเพื่อให้บริบทที่จำเป็นต่อการสนับสนุนกระบวนการทางธุรกิจที่สร้างขึ้นมา
แคตตาล็อก
MARC (machine-readable cataloging) คือชุดมาตรฐานรูปแบบดิจิทัล สำหรับการอธิบายรายการต่างๆ ที่จัดทำเป็นแคตตา ล็อกโดยห้องสมุด เช่น หนังสือ ดีวีดี และทรัพยากรดิจิทัล ระบบแคตตาล็อกห้องสมุด แบบคอมพิวเตอร์ และ ซอฟต์แวร์ การจัดการห้องสมุดจำเป็นต้องจัดโครงสร้างระเบียนแคตตาล็อกตามมาตรฐานที่ใช้กันอย่างแพร่หลายในอุตสาหกรรม ซึ่งก็คือ MARC เพื่อให้ข้อมูลบรรณานุกรมสามารถแบ่งปันได้อย่างอิสระระหว่างคอมพิวเตอร์ โครงสร้างของระเบียนบรรณานุกรมเกือบทั้งหมดเป็นไปตามมาตรฐาน MARC นอกจากนี้ยังมีมาตรฐานอื่นๆ ที่ทำงานร่วมกับ MARC เช่นกฎการจัดทำแคตตาล็อกแบบแองโกล-อเมริกัน (AACR)/ การอธิบายและการเข้าถึงทรัพยากร (RDA) ซึ่งให้แนวทางในการกำหนดรูปแบบข้อมูลบรรณานุกรมลงในโครงสร้างระเบียน MARC ในขณะที่มาตรฐานการอธิบายบรรณานุกรมสากล (ISBD) ให้แนวทางในการแสดงระเบียน MARC ในรูปแบบมาตรฐานที่มนุษย์สามารถอ่านได้
พจนานุกรม
พจนานุกรมที่เครื่องอ่านได้ (MRD) คือพจนานุกรมที่จัดเก็บในรูปแบบข้อมูลที่เครื่องอ่านได้แทนที่จะพิมพ์ลงบนกระดาษ เป็นพจนานุกรมอิเล็กทรอนิกส์และฐานข้อมูลคำศัพท์
พจนานุกรมที่เครื่องอ่านได้ (Machine-Readable Dictionary หรือ MRD) คือพจนานุกรมในรูปแบบอิเล็กทรอนิกส์ที่สามารถโหลดลงในฐานข้อมูลและสามารถเรียกค้นได้ผ่านซอฟต์แวร์แอปพลิเคชัน อาจเป็นพจนานุกรมอธิบายความหมายภาษาเดียว หรือพจนานุกรมหลายภาษาเพื่อรองรับการแปลระหว่างสองภาษาขึ้นไป หรือทั้งสองอย่างรวมกัน ซอฟต์แวร์แปลภาษาหลายภาษามักใช้พจนานุกรมแบบสองทิศทาง (bidirectional dictionary) MRD อาจเป็นพจนานุกรมที่มีโครงสร้างเฉพาะที่ถูกเรียกค้นโดยซอฟต์แวร์เฉพาะ (เช่น ออนไลน์ผ่านทางอินเทอร์เน็ต) หรืออาจเป็นพจนานุกรมที่มีโครงสร้างแบบเปิดและพร้อมสำหรับการโหลดลงในฐานข้อมูลคอมพิวเตอร์ ดังนั้นจึงสามารถใช้งานผ่านแอปพลิเคชันซอฟต์แวร์ต่างๆ ได้ พจนานุกรมทั่วไปประกอบด้วยคำหลัก (lemma)พร้อมคำอธิบายต่างๆ พจนานุกรมที่เครื่องอ่านได้อาจมีคุณสมบัติเพิ่มเติมและจึงบางครั้งเรียกว่าพจนานุกรมอัจฉริยะ ตัวอย่างของพจนานุกรมอัจฉริยะคือพจนานุกรมภาษาอังกฤษแบบโอเพนซอร์ส Gellish
คำว่าพจนานุกรมยังใช้หมายถึงคำศัพท์หรือสารานุกรม อิเล็กทรอนิกส์ เช่นที่ใช้ในโปรแกรมตรวจสอบการสะกดคำหากพจนานุกรมจัดเรียงตามลำดับชั้นของแนวคิด (หรือคำศัพท์) แบบประเภทย่อย-ประเภทหลัก จะเรียกว่าอนุกรมวิธานหากมีความสัมพันธ์อื่นๆ ระหว่างแนวคิดเหล่านั้นด้วย จะเรียกว่าออนโทโลยีเครื่องมือค้นหาอาจใช้คำศัพท์ อนุกรมวิธาน หรือออนโทโลยีเพื่อเพิ่มประสิทธิภาพผลการค้นหา พจนานุกรมอิเล็กทรอนิกส์เฉพาะทาง ได้แก่พจนานุกรมทางสัณฐานวิทยาหรือพจนานุกรมทางไวยากรณ์
คำว่า MRD มักถูกเปรียบเทียบกับ พจนานุกรม NLPในแง่ที่ว่า MRD เป็นรูปแบบอิเล็กทรอนิกส์ของพจนานุกรมที่เคยพิมพ์ลงบนกระดาษมาก่อน แม้ว่าโปรแกรมจะใช้ทั้งสองแบบ แต่ในทางกลับกัน คำว่าพจนานุกรม NLP เป็นที่นิยมมากกว่าเมื่อพจนานุกรมถูกสร้างขึ้นใหม่ทั้งหมดโดยคำนึงถึง NLP เป็นหลัก มาตรฐาน ISO สำหรับ MRD และ NLP สามารถแสดงโครงสร้างทั้งสองแบบได้ และเรียกว่าLexical Markup Framework [ 6 ]
หนังสือเดินทาง
หนังสือเดินทางที่อ่านได้ด้วยเครื่อง (MRP) คือเอกสารการเดินทางที่อ่านได้ด้วยเครื่อง (MRTD) โดยข้อมูลในหน้าข้อมูลประจำตัวจะถูกเข้ารหัสใน รูปแบบ การรู้จำอักขระด้วยแสงหลายประเทศเริ่มออกเอกสารการเดินทางที่อ่านได้ด้วยเครื่องในช่วงทศวรรษ 1980 หนังสือเดินทาง สำหรับการเดินทางส่วนใหญ่ ทั่วโลกเป็น MRP องค์การการบินพลเรือนระหว่างประเทศ (ICAO) กำหนดให้รัฐสมาชิก ICAO ทั้งหมดต้องออกเฉพาะ MRP ตั้งแต่วันที่ 1 เมษายน 2553 โดยหนังสือเดินทางที่ไม่ใช่ MRP ทั้งหมดจะหมดอายุภายในวันที่ 24 พฤศจิกายน 2558 [ 7 ]
หนังสือเดินทางที่เครื่องอ่านได้นั้นได้รับการกำหนดมาตรฐานโดย เอกสาร ICAO 9303 (รับรองโดยองค์การมาตรฐานสากลและคณะกรรมการไฟฟ้าสากลในชื่อ ISO/IEC 7501-1) และมีโซนอ่านได้ด้วยเครื่อง ( MRZ ) พิเศษ ซึ่งโดยปกติจะอยู่ด้านล่างของหน้าข้อมูลประจำตัวที่ส่วนต้นของหนังสือเดินทาง เอกสาร ICAO 9303 อธิบายถึงเอกสารสามประเภทที่สอดคล้องกับ ขนาด ISO/IEC 7810 :
- "แบบที่ 3" เป็นรูปแบบทั่วไปของหนังสือเดินทางแบบเล่ม รหัส MRZ ประกอบด้วย 2 บรรทัด × 44 ตัวอักษร
- "แบบที่ 2" ค่อนข้างหายาก โดยมี 2 บรรทัด × 36 ตัวอักษร
- "แบบฟอร์มประเภทที่ 1" มีขนาดเท่าบัตรเครดิต มี 3 แถว แถละ 30 ตัวอักษร
รูปแบบที่กำหนดไว้ตายตัวช่วยให้สามารถระบุประเภทเอกสาร ชื่อ หมายเลขเอกสาร สัญชาติ วันเกิด เพศ และวันหมดอายุของเอกสารได้ ข้อมูลเหล่านี้เป็นข้อมูลที่จำเป็นในหนังสือเดินทาง นอกจากนี้ยังมีพื้นที่สำหรับข้อมูลเพิ่มเติมที่ไม่บังคับ ซึ่งมักขึ้นอยู่กับประเทศ และยังมีวีซ่าแบบอ่านด้วยเครื่องสองขนาดที่กำหนดไว้ในลักษณะเดียวกันอีกด้วย
คอมพิวเตอร์ที่มีกล้องและซอฟต์แวร์ที่เหมาะสมสามารถอ่านข้อมูลบนหนังสือเดินทางที่อ่านได้ด้วยเครื่องโดยตรง これにより ทำให้เจ้าหน้าที่ตรวจคนเข้าเมืองสามารถประมวลผลผู้โดยสารขาเข้าได้เร็วขึ้น และมีความแม่นยำมากกว่าการอ่านหนังสือเดินทางด้วยมือ รวมถึงการป้อนข้อมูลที่รวดเร็วขึ้น สามารถอ่านข้อมูลได้มากขึ้น และจับคู่ข้อมูลกับฐานข้อมูลและรายชื่อผู้ต้องสงสัยของหน่วยงานตรวจคนเข้าเมืองได้ดียิ่งขึ้น
นอกเหนือจากข้อมูลที่อ่านได้ด้วยแสงแล้ว หนังสือเดินทางหลายเล่มยังมี ชิป RFIDซึ่งช่วยให้คอมพิวเตอร์สามารถอ่านข้อมูลได้มากขึ้น เช่น รูปถ่ายของผู้ถือหนังสือเดินทาง หนังสือเดินทางเหล่านี้เรียกว่าหนังสือเดินทางไบโอเมตริกและมีการอธิบายไว้ในมาตรฐาน ICAO 9303 ด้วย
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สื่อและข้อมูลที่เครื่องอ่านได้
ในด้านการสื่อสารและการคำนวณสื่อที่เครื่องอ่านได้ (หรือสื่อที่คอมพิวเตอร์อ่านได้ ) คือสื่อที่สามารถจัดเก็บข้อมูลในรูปแบบที่คอมพิวเตอร์ดิจิทัลหรือเซ็นเซอร์ สามารถอ่านได้ง่าย...
ข้อมูล
ข้อมูลที่เครื่องอ่านได้ต้องเป็น ข้อมูลที่มี โครงสร้าง [ 1 ]
สื่อ
ตัวอย่างของสื่อที่เครื่องอ่านได้ ได้แก่ สื่อแม่เหล็ก เช่น ดิสก์แม่เหล็ก การ์ด เทป และ ดรัม บัตรเจาะรู และเทป กระดาษ ดิสก์ ออปติคัล บาร์ โค้ด และอักขระ หมึก แม่เหล็ก
เอกสาร
เอกสาร ที่เครื่องอ่านได้ คือ เอกสาร ที่มีเนื้อหาซึ่งสามารถประมวลผลโดย คอมพิวเตอร์ ได้อย่างง่ายดาย เอกสารประเภทนี้แตกต่างจาก ข้อมูลที่เครื่องอ่านได้ ทั่วไป ตรงที่มีโครงสร้างเพิ่มเติมเพื่อให้บริบทที่จำเป็นต่อการสนับสนุนกระบวนการทางธุรกิจที่สร้างขึ้นมา