อ่าน 2 นาที
อักขระพิเศษ (บล็อก Unicode)
ส่วนพิเศษ (Specials) คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของ ระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane) ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วย จุดรหัส...
อักขระพิเศษ (บล็อก Unicode)
| รายการพิเศษ | |
|---|---|
| พิสัย | U+FFF0..U+FFFF (16 รหัสจุด) |
| เครื่องบิน | บีเอ็มพี |
| สคริปต์ | ทั่วไป |
| มอบหมาย | 5 รหัสจุด |
| ยังไม่ได้ใช้งาน | 9 รหัสอักขระที่สงวนไว้2 อักขระที่ไม่ใช่อักขระ |
| ประวัติเวอร์ชันยูนิโค้ด | |
| 1.0.0 (1991) | 1 (+1) |
| 2.1 (1998) | 2 (+1) |
| 3.0 (1999) | 5 (+3) |
| เอกสารประกอบเกี่ยวกับยูนิโค้ด | |
| แผนผังรหัส | หน้าเว็บ | |
| หมายเหตุ : [ 1 ] [ 2 ] | |
ส่วนพิเศษ (Specials)คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane)ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วยจุดรหัส เหล่านี้ :
- U+FFF9 INTERLINEAR ANNOTATION ANCHOR , ทำเครื่องหมายจุดเริ่มต้นของข้อความที่มีคำอธิบายประกอบ
- U+FFFAตัวคั่นคำอธิบายแบบบรรทัดต่อบรรทัด , ทำเครื่องหมายจุดเริ่มต้นของอักขระคำอธิบาย
- U+FFFBตัวจบคำอธิบายประกอบแบบเส้นตรง , ทำเครื่องหมายจุดสิ้นสุดของบล็อกคำอธิบายประกอบ
- U+FFFC  อักขระทดแทนวัตถุ ตัวยึดตำแหน่งในข้อความสำหรับวัตถุอื่นที่ไม่ระบุ เช่น ในเอกสารประกอบ
- U+FFFD – อักขระ ทดแทน ใช้สำหรับแทนที่อักขระที่ไม่รู้จัก ไม่สามารถจดจำได้ หรือไม่สามารถแสดงได้
- U+FFFE <noncharacter-FFFE>ไม่ใช่ตัวละคร
- U+FFFF <noncharacter-FFFF>ไม่ใช่ตัวละคร
U+FFFE <noncharacter-FFFE>และU+FFFF <noncharacter-FFFF>อักขระที่ไม่ใช่อักขระหมายความว่าอักขระเหล่านี้ถูกสงวนไว้ แต่ไม่ทำให้ข้อความ Unicode ผิดรูปแบบ มาตรฐาน Unicode เวอร์ชันตั้งแต่ 3.1.0 ถึง 6.3.0 ระบุว่าอักขระเหล่านี้ไม่ควรใช้สลับกัน ทำให้บางแอปพลิเคชันใช้อักขระเหล่านี้เพื่อเดาการเข้ารหัสข้อความโดยตีความการมีอยู่ของอักขระใดอักขระหนึ่งว่าเป็นสัญญาณว่าข้อความนั้นไม่ใช่ Unicode อย่างไรก็ตาม Corrigendum #9 ในภายหลังระบุว่าอักขระที่ไม่ใช่อักขระนั้นไม่ผิดกฎหมาย ดังนั้นวิธีการตรวจสอบการเข้ารหัสข้อความนี้จึงไม่ถูกต้อง[ 3 ]ตัวอย่างของการใช้งานภายในของ U+FFFE คืออัลกอริทึม CLDRอัลกอริทึม Unicode ที่ขยายนี้จะแมปอักขระที่ไม่ใช่อักขระไปยังน้ำหนักหลักที่ไม่ซ้ำกันขั้นต่ำ[ 4 ]
อักขระ U+FEFF (ZERO WIDTH NO-BREAK SPACE)ของ Unicode สามารถแทรกไว้ที่ต้นข้อความ Unicode เพื่อใช้เป็น เครื่องหมายลำดับไบต์ ( byte order mark)เพื่อระบุลำดับไบต์ (endianness ) เช่น โปรแกรมที่อ่านข้อความที่เข้ารหัสด้วยUTF-16และพบอักขระU+FFFE (noncharacter-FFFE )จากนั้นจึงจะทราบว่าควรสลับลำดับไบต์สำหรับอักขระทั้งหมดที่ตามมา
ชื่อบล็อกใน Unicode 1.0 คือSpecial [ 5 ]
อักขระทดแทน

อักขระทดแทน � (มักแสดงเป็นรูปสี่เหลี่ยมขนมเปียกปูนที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicodeที่จุดรหัส U+FFFD ใน ตาราง Specialsใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้[ 6 ]
ตัวอย่างเช่น ไฟล์ข้อความที่เข้ารหัสใน รูป แบบ ISO 8859-1ซึ่งมีคำภาษาเยอรมันอยู่fürจะมีไบต์0x66 0xFC 0x72ดังนี้ หากเปิดไฟล์นี้ด้วยโปรแกรมแก้ไขข้อความที่ถือว่าอินพุตเป็นUTF-8ไบต์แรกและไบต์ที่สามจะเป็นการเข้ารหัส UTF-8 ที่ถูกต้องของASCIIแต่ไบต์ที่สอง ( 0xFC) ไม่ถูกต้องใน UTF-8 โปรแกรมแก้ไขข้อความสามารถแทนที่ไบต์นี้ด้วยอักขระทดแทนเพื่อสร้างสตริงของจุดรหัส Unicode ที่ถูกต้องสำหรับการแสดงผล ดังนั้นผู้ใช้จึงเห็น f�r
โปรแกรมแก้ไขข้อความที่เขียนไม่ดีอาจเขียนอักขระทดแทน ( 0xEF 0xBF 0xBD) เมื่อผู้ใช้บันทึกไฟล์ ข้อมูลในไฟล์จะกลายเป็น0x66 0xEF 0xBF 0xBD 0x72หากเปิดไฟล์อีกครั้งโดยใช้มาตรฐาน ISO 8859-1 ไฟล์จะแสดงf�r(ปรากฏการณ์นี้เรียกว่าmojibake ) เนื่องจากโปรแกรมแก้ไขข้อความมักจะแปลงข้อผิดพลาดต่างๆ ให้เป็นอักขระทดแทนเดียวกัน จึงเป็นไปไม่ได้ที่จะกู้คืนข้อความต้นฉบับได้
ในอดีต มักใช้ตัวอักษรทดแทนเมื่อไม่มีสัญลักษณ์ในฟอนต์สำหรับตัวอักษรนั้น เช่น ในการแทนที่ฟอนต์อย่างไรก็ตาม ระบบการแสดงผลข้อความสมัยใหม่ส่วนใหญ่จะใช้ ตัวอักษร .notdef ของฟอนต์แทน ซึ่งในกรณีส่วนใหญ่จะเป็นกล่องว่าง หรือหรือในกล่อง[ 7 ] (เบราว์เซอร์นี้แสดง � สำหรับ U+10FFEE) บางครั้งเรียกว่า " เต้าหู้ " ไม่มีจุดรหัสยูนิโค้ดสำหรับสัญลักษณ์นี้ ?X
ดังนั้น ตอนนี้จึงเห็นอักขระทดแทนเฉพาะในกรณีที่เกิดข้อผิดพลาดในการเข้ารหัสเท่านั้น โปรแกรมซอฟต์แวร์บางโปรแกรมจะแปลงไบต์ UTF-8 ที่ไม่ถูกต้องให้เป็นอักขระที่ตรงกันในWindows-1252 (เนื่องจากเป็นสาเหตุที่พบบ่อยที่สุดของข้อผิดพลาดเหล่านี้) ทำให้ไม่เห็นอักขระทดแทนเลย
ตารางยูนิโค้ด
| พิเศษ[1] [2] [3]แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF) | ||||||||||||||||
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
| ยู+เอฟเอฟเอ็กซ์ | ไอเอเอ | ไอเอเอส | ไอเอที |  | � | |||||||||||
หมายเหตุ
| ||||||||||||||||
ประวัติศาสตร์
เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้บันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อก Specials:
| เวอร์ชั่น | รหัสจุดสุดท้าย[ a ] | นับ | รหัสUTC | รหัสL2 | รหัสWG2 | เอกสาร |
|---|---|---|---|---|---|---|
| 1.0.0 | ยู+เอฟเอฟดี | 1 | (รอการกำหนด) | |||
| U+FFFE..FFFF | 2 | (รอการกำหนด) | ||||
| L2/01-295R | มัวร์, ลิซ่า (6 พฤศจิกายน 2001), "ญัตติ 88-M2", รายงานการประชุม UTC/L2 ครั้งที่ 88 | |||||
| L2/01-355 | N2369 (html , doc ) | เดวิส, มาร์ค (26 กันยายน 2544), คำขออนุญาตใช้ FFFF, FFFE ใน UTF-8 ในข้อความของ ISO/IEC 10646 | ||||
| L2/02-154 | เอ็น2403 | Umamaheswaran, VS (2002-04-22), "9.3 การอนุญาตให้ใช้ FFFF และ FFFE ใน UTF-8", ร่างรายงานการประชุม WG 2 ครั้งที่ 41, โรงแรมฟีนิกซ์, สิงคโปร์, 2001-10-15/19 | ||||
| 2.1 | ยู+เอฟเอฟเอฟซี | 1 | ยูทีซี/1995-056 | Sargent, Murray (1995-12-06), คำแนะนำในการเข้ารหัสอักขระ WCH_EMBEDDING | ||
| ยูทีซี/1996-002 | อลิแพรนด์, โจน; ฮาร์ท, เอ็ดวิน; กรีนฟิลด์, สตีฟ (5 มีนาคม 1996), "วัตถุฝังตัว", UTC #67 นาที | |||||
| เอ็น1365 | Sargent, Murray (18 มีนาคม 1996), บทสรุปข้อเสนอ – อักขระทดแทนวัตถุ | |||||
| เอ็น1353 | Umamaheswaran, VS; Ksar, Mike (25 มิถุนายน 1996), "8.14", ร่างบันทึกการประชุม WG2 โคเปนเฮเกน ครั้งที่ 30 | |||||
| L2/97-288 | N1603 | Umamaheswaran, VS (24 ตุลาคม 1997), "7.3", รายงานการประชุมที่ไม่ได้รับการยืนยัน, การประชุม WG 2 ครั้งที่ 33, เฮราคลิออน, ครีต, กรีซ, 20 มิถุนายน – 4 กรกฎาคม 1997 | ||||
| L2/98-004R | เอ็น1681 | ข้อความของ ISO 10646 – AMD 18 สำหรับการลงทะเบียน PDAM และการลงคะแนนเสียง FPDAM , 22 ธันวาคม 1997 | ||||
| L2/98-070 | อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์, "ข้อคิดเห็นเพิ่มเติมเกี่ยวกับ 2.1", รายงานการประชุมร่วมระหว่าง UTC และ L2 จากการประชุมที่คูเปอร์ติโน วันที่ 25-27 กุมภาพันธ์ 1998 | |||||
| L2/98-318 | เอ็น1894 | ข้อความที่แก้ไขแล้วของ 10646-1/FPDAM 18, การแก้ไขเพิ่มเติมที่ 18: สัญลักษณ์และอื่นๆ , 22 ตุลาคม 1998 | ||||
| 3.0 | U+FFF9..FFFB | 3 | L2/97-255R | อลิแพรนด์, โจน (3 ธันวาคม 1997), "ข้อเสนอ 3 มิติสำหรับสัญกรณ์แบบอินไลน์ (รูบี้)", รายงานการประชุมที่ได้รับการอนุมัติ – การประชุมร่วม UTC #73 และ L2 #170, พาโลอัลโต, แคลิฟอร์เนีย – 4-5 สิงหาคม 1997 | ||
| L2/98-055 | Freytag, Asmus (1998-02-22) รองรับการใช้คำอธิบายประกอบแบบอินไลน์และอินเตอร์ลิเนียร์ | |||||
| L2/98-070 | อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์, "3.C.5. การสนับสนุนการใช้งานคำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์", รายงานการประชุมร่วมระหว่าง UTC และ L2 จากการประชุมที่คูเปอร์ติโน วันที่ 25-27 กุมภาพันธ์ 1998 | |||||
| L2/98-099 | เอ็น1727 | Freytag, Asmus (18 มีนาคม 1998), การสนับสนุนการนำคำอธิบายประกอบระหว่างบรรทัดไปใช้ในงานพิมพ์ของเอเชียตะวันออก | ||||
| L2/98-158 | อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์ (26 พฤษภาคม 1998), "คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์", ร่างรายงานการประชุม – การประชุมร่วม UTC #76 และ NCITS Subgroup L2 #173, เทรดดี้ฟริน, เพนซิลเวเนีย, 20-22 เมษายน 1998 | |||||
| ล2/98-286 | เอ็น1703 | Umamaheswaran, VS; Ksar, Mike (1998-07-02), "8.14", รายงานการประชุมที่ยังไม่ได้รับการยืนยัน, การประชุม WG 2 ครั้งที่ 34, เรดมอนด์, วอชิงตัน, สหรัฐอเมริกา; 1998-03-16--20 | ||||
| L2/98-270 | ฮิอุระ ฮิเดกิ; โคบายาชิ ทัตสึโอะ (29 กรกฎาคม 1998) ข้อเสนอแนะสำหรับข้อเสนอการใส่คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์ | |||||
| L2/98-281R (pdf , html ) | อลิแพรนด์, โจน (31 กรกฎาคม 1998), "การใส่คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์ (III.C.1.c)", รายงานการประชุมที่ยังไม่ได้รับการยืนยัน – การประชุมร่วมของกลุ่มย่อย UTC #77 และ NCITS L2 #174, เรดมอนด์, วอชิงตัน -- 29-31 กรกฎาคม 1998 | |||||
| ล2/98-363 | เอ็น1861 | Sato, TK (1998-09-01), เครื่องหมายทับทิม | ||||
| L2/98-372 | N1884R2 (pdf , doc ) | วิสเลอร์, เคน และคณะ (22 กันยายน 1998) อักขระเพิ่มเติมสำหรับ UCS | ||||
| ล2/98-416 | N1882.zip | เอกสารสนับสนุนการใช้งานคำอธิบายประกอบแบบแทรกบรรทัด , 23 กันยายน 1998 | ||||
| ล2/98-329 | เอ็น1920 | การลงทะเบียน PDAM รวมกันและการลงคะแนนเพื่อพิจารณาใน WD สำหรับ ISO/IEC 10646-1/Amd. 30, การแก้ไขเพิ่มเติม 30: อักขระละตินและอักขระอื่นๆ เพิ่มเติม 28 ตุลาคม 1998 | ||||
| แอล2/98-421อาร์ | Suignard, Michel; Hiura, Hideki (4 ธันวาคม 1998), หมายเหตุเกี่ยวกับอักขระคำอธิบายประกอบระหว่างบรรทัด PDAM 30 | |||||
| L2/99-010 | N1903 (pdf , html , doc ) | Umamaheswaran, VS (1998-12-30), "8.2.15", รายงานการประชุม WG 2 ครั้งที่ 35, ลอนดอน, สหราชอาณาจักร; 1998-09-21--25 | ||||
| L2/98-419 (pdf , doc ) | อลิแพรนด์, โจน (5 กุมภาพันธ์ 1999), "อักขระคำอธิบายประกอบระหว่างบรรทัด", รายงานการประชุมที่ได้รับอนุมัติ -- การประชุมร่วม UTC #78 และ NCITS Subgroup L2 #175, ซานโฮเซ, แคลิฟอร์เนีย -- 1-4 ธันวาคม 1998 | |||||
| ยูทีซี/1999-021 | ดูเออร์สต์, มาร์ติน; Bosak, Jon (1999-06-08), คำสั่ง W3C XML CG เกี่ยวกับอักขระคำอธิบายประกอบ | |||||
| L2/99-176R | มัวร์, ลิซ่า (4 พฤศจิกายน 1999), "แถลงการณ์ประสานงานของ W3C เกี่ยวกับอักขระคำอธิบายประกอบ", รายงานการประชุมร่วมระหว่าง UTC/L2 ในซีแอตเติล วันที่ 8-10 มิถุนายน 1999 | |||||
| L2/01-301 | วิสเลอร์, เคน (1 สิงหาคม 2544), "E. ระบุว่า "ไม่แนะนำอย่างยิ่ง" สำหรับการแลกเปลี่ยนข้อความธรรมดา", การวิเคราะห์การยกเลิกการใช้งานอักขระในมาตรฐานยูนิโค้ด | |||||
| ||||||
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อักขระพิเศษ (บล็อก Unicode)
ส่วนพิเศษ (Specials) คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของ ระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane) ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วย จุดรหัส...
อักขระทดแทน
อักขระ ทดแทน � (มักแสดงเป็นรูป สี่เหลี่ยมขนมเปียกปูน ที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicode ที่จุดรหัส U+FFFD ใน ตาราง Specials ใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้ [ 6 ]
ตารางยูนิโค้ด
พิเศษ [1] [2] [3] แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF) 0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ ยู+เอฟเอฟเอ็กซ์ ไอเอเอ ไอเอเอส ไอเอที  � หมายเหตุ 1. ^ นับตั้งแต่ Unicode เวอร์ชัน 17.0 เป็นต้นไป 2. ^ พื้นที่สีเทาแสดงถึงรหัสจุดที่ยังไม่ได้กำหนด 3.
ประวัติศาสตร์
เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้บันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อก Specials: