กลับไปหน้าบทความ

อ่าน 2 นาที

อักขระพิเศษ (บล็อก Unicode)

ส่วนพิเศษ (Specials) คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของ ระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane) ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วย จุดรหัส...

อักขระพิเศษ (บล็อก Unicode)

รายการพิเศษ
พิสัยU+FFF0..U+FFFF (16 รหัสจุด)
เครื่องบินบีเอ็มพี
สคริปต์ทั่วไป
มอบหมาย5 รหัสจุด
ยังไม่ได้ใช้งาน9 รหัสอักขระที่สงวนไว้2 อักขระที่ไม่ใช่อักขระ
ประวัติเวอร์ชันยูนิโค้ด
1.0.0 (1991)1 (+1)
2.1 (1998)2 (+1)
3.0 (1999)5 (+3)
เอกสารประกอบเกี่ยวกับยูนิโค้ด
แผนผังรหัส | หน้าเว็บ
หมายเหตุ : [ 1 ] [ 2 ]

ส่วนพิเศษ (Specials)คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane)ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วยจุดรหัส เหล่านี้ :

  • U+FFF9 INTERLINEAR ANNOTATION ANCHOR , ทำเครื่องหมายจุดเริ่มต้นของข้อความที่มีคำอธิบายประกอบ
  • U+FFFAตัวคั่นคำอธิบายแบบบรรทัดต่อบรรทัด , ทำเครื่องหมายจุดเริ่มต้นของอักขระคำอธิบาย
  • U+FFFBตัวจบคำอธิบายประกอบแบบเส้นตรง , ทำเครื่องหมายจุดสิ้นสุดของบล็อกคำอธิบายประกอบ
  • U+FFFCอักขระทดแทนวัตถุ ตัวยึดตำแหน่งในข้อความสำหรับวัตถุอื่นที่ไม่ระบุ เช่น ในเอกสารประกอบ
  • U+FFFD – อักขระ ทดแทน ใช้สำหรับแทนที่อักขระที่ไม่รู้จัก ไม่สามารถจดจำได้ หรือไม่สามารถแสดงได้
  • U+FFFE <noncharacter-FFFE>ไม่ใช่ตัวละคร
  • U+FFFF <noncharacter-FFFF>ไม่ใช่ตัวละคร

U+FFFE <noncharacter-FFFE>และU+FFFF <noncharacter-FFFF>อักขระที่ไม่ใช่อักขระหมายความว่าอักขระเหล่านี้ถูกสงวนไว้ แต่ไม่ทำให้ข้อความ Unicode ผิดรูปแบบ มาตรฐาน Unicode เวอร์ชันตั้งแต่ 3.1.0 ถึง 6.3.0 ระบุว่าอักขระเหล่านี้ไม่ควรใช้สลับกัน ทำให้บางแอปพลิเคชันใช้อักขระเหล่านี้เพื่อเดาการเข้ารหัสข้อความโดยตีความการมีอยู่ของอักขระใดอักขระหนึ่งว่าเป็นสัญญาณว่าข้อความนั้นไม่ใช่ Unicode อย่างไรก็ตาม Corrigendum #9 ในภายหลังระบุว่าอักขระที่ไม่ใช่อักขระนั้นไม่ผิดกฎหมาย ดังนั้นวิธีการตรวจสอบการเข้ารหัสข้อความนี้จึงไม่ถูกต้อง[ 3 ]ตัวอย่างของการใช้งานภายในของ U+FFFE คืออัลกอริทึม CLDRอัลกอริทึม Unicode ที่ขยายนี้จะแมปอักขระที่ไม่ใช่อักขระไปยังน้ำหนักหลักที่ไม่ซ้ำกันขั้นต่ำ[ 4 ]

อักขระ U+FEFF (ZERO WIDTH NO-BREAK SPACE)ของ Unicode สามารถแทรกไว้ที่ต้นข้อความ Unicode เพื่อใช้เป็น เครื่องหมายลำดับไบต์ ( byte order mark)เพื่อระบุลำดับไบต์ (endianness ) เช่น โปรแกรมที่อ่านข้อความที่เข้ารหัสด้วยUTF-16และพบอักขระU+FFFE (noncharacter-FFFE )จากนั้นจึงจะทราบว่าควรสลับลำดับไบต์สำหรับอักขระทั้งหมดที่ตามมา

ชื่อบล็อกใน Unicode 1.0 คือSpecial [ 5 ]

อักขระทดแทน

อักขระทดแทน

อักขระทดแทน � (มักแสดงเป็นรูปสี่เหลี่ยมขนมเปียกปูนที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicodeที่จุดรหัส U+FFFD ใน ตาราง Specialsใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้[ 6 ]

ตัวอย่างเช่น ไฟล์ข้อความที่เข้ารหัสใน รูป แบบ ISO 8859-1ซึ่งมีคำภาษาเยอรมันอยู่fürจะมีไบต์0x66 0xFC 0x72ดังนี้ หากเปิดไฟล์นี้ด้วยโปรแกรมแก้ไขข้อความที่ถือว่าอินพุตเป็นUTF-8ไบต์แรกและไบต์ที่สามจะเป็นการเข้ารหัส UTF-8 ที่ถูกต้องของASCIIแต่ไบต์ที่สอง ( 0xFC) ไม่ถูกต้องใน UTF-8 โปรแกรมแก้ไขข้อความสามารถแทนที่ไบต์นี้ด้วยอักขระทดแทนเพื่อสร้างสตริงของจุดรหัส Unicode ที่ถูกต้องสำหรับการแสดงผล ดังนั้นผู้ใช้จึงเห็น fr

โปรแกรมแก้ไขข้อความที่เขียนไม่ดีอาจเขียนอักขระทดแทน ( 0xEF 0xBF 0xBD) เมื่อผู้ใช้บันทึกไฟล์ ข้อมูลในไฟล์จะกลายเป็น0x66 0xEF 0xBF 0xBD 0x72หากเปิดไฟล์อีกครั้งโดยใช้มาตรฐาน ISO 8859-1 ไฟล์จะแสดงf�r(ปรากฏการณ์นี้เรียกว่าmojibake ) เนื่องจากโปรแกรมแก้ไขข้อความมักจะแปลงข้อผิดพลาดต่างๆ ให้เป็นอักขระทดแทนเดียวกัน จึงเป็นไปไม่ได้ที่จะกู้คืนข้อความต้นฉบับได้

ในอดีต มักใช้ตัวอักษรทดแทนเมื่อไม่มีสัญลักษณ์ในฟอนต์สำหรับตัวอักษรนั้น เช่น ในการแทนที่ฟอนต์อย่างไรก็ตาม ระบบการแสดงผลข้อความสมัยใหม่ส่วนใหญ่จะใช้ ตัวอักษร .notdef ของฟอนต์แทน ซึ่งในกรณีส่วนใหญ่จะเป็นกล่องว่าง หรือหรือในกล่อง[ 7 ] (เบราว์เซอร์นี้แสดง � สำหรับ U+10FFEE) บางครั้งเรียกว่า " เต้าหู้ " ไม่มีจุดรหัสยูนิโค้ดสำหรับสัญลักษณ์นี้ ?X

ดังนั้น ตอนนี้จึงเห็นอักขระทดแทนเฉพาะในกรณีที่เกิดข้อผิดพลาดในการเข้ารหัสเท่านั้น โปรแกรมซอฟต์แวร์บางโปรแกรมจะแปลงไบต์ UTF-8 ที่ไม่ถูกต้องให้เป็นอักขระที่ตรงกันในWindows-1252 (เนื่องจากเป็นสาเหตุที่พบบ่อยที่สุดของข้อผิดพลาดเหล่านี้) ทำให้ไม่เห็นอักขระทดแทนเลย

ตารางยูนิโค้ด

พิเศษ[1] [2] [3]แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
 0123456789เอบีซีดีอีเอฟ
ยู+เอฟเอฟเอ็กซ์ ไอเอเอไอเอเอสไอเอที
หมายเหตุ
1. ^นับตั้งแต่ Unicode เวอร์ชัน 17.0 เป็นต้นไป
2. ^พื้นที่สีเทาแสดงถึงรหัสจุดที่ยังไม่ได้กำหนด
3. ^พื้นที่สีดำแสดงถึงอักขระที่ไม่ใช่ตัวอักขระ (รหัสจุดที่รับประกันว่าจะไม่ถูกกำหนดให้เป็นอักขระที่เข้ารหัสในมาตรฐานยูนิโค้ด)

ประวัติศาสตร์

เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้บันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อก Specials:

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Specials_(Unicode_block)&oldid=1358092155#Replacement_character "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ อักขระพิเศษ (บล็อก Unicode)

ส่วนพิเศษ (Specials) คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของ ระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane) ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วย จุดรหัส...

อักขระทดแทน

อักขระ ทดแทน � (มักแสดงเป็นรูป สี่เหลี่ยมขนมเปียกปูน ที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicode ที่จุดรหัส U+FFFD ใน ตาราง Specials ใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้ [ 6 ]

ตารางยูนิโค้ด

พิเศษ [1] [2] [3] แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF) 0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ ยู+เอฟเอฟเอ็กซ์ ไอเอเอ ไอเอเอส ไอเอที  � หมายเหตุ 1. ^ นับตั้งแต่ Unicode เวอร์ชัน 17.0 เป็นต้นไป 2. ^ พื้นที่สีเทาแสดงถึงรหัสจุดที่ยังไม่ได้กำหนด 3.

ประวัติศาสตร์

เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้บันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อก Specials: