อักขระพิเศษ (บล็อก Unicode)

Q: อักขระทดแทน

อักขระ ทดแทน � (มักแสดงเป็นรูป สี่เหลี่ยมขนมเปียกปูน ที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicode ที่จุดรหัส U+FFFD ใน ตาราง Specials ใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้ [ 6 ]

Q: ตารางยูนิโค้ด

พิเศษ [1] [2] [3] แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF) 0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ ยู+เอฟเอฟเอ็กซ์ ไอเอเอ ไอเอเอส ไอเอที � หมายเหตุ 1. ^ นับตั้งแต่ Unicode เวอร์ชัน 17.0 เป็นต้นไป 2. ^ พื้นที่สีเทาแสดงถึงรหัสจุดที่ยังไม่ได้กำหนด 3.

รายการพิเศษ
รายการพิเศษ
พิสัย	U+FFF0..U+FFFF (16 รหัสจุด)
เครื่องบิน	บีเอ็มพี
สคริปต์	ทั่วไป
มอบหมาย	5 รหัสจุด
ยังไม่ได้ใช้งาน	9 รหัสอักขระที่สงวนไว้2 อักขระที่ไม่ใช่อักขระ
ประวัติเวอร์ชันยูนิโค้ด
1.0.0 (1991)	1 (+1)
2.1 (1998)	2 (+1)
3.0 (1999)	5 (+3)
เอกสารประกอบเกี่ยวกับยูนิโค้ด
	แผนผังรหัส \| หน้าเว็บ
	หมายเหตุ :

ส่วนพิเศษ (Specials)คือ บล็อกอักขระ ยูนิโค้ด ขนาดสั้น ที่จัดสรรไว้ที่ส่วนท้ายสุดของระนาบหลายภาษาพื้นฐาน (Basic Multilingual Plane)ที่ระดับ U+FFF0–FFFF ซึ่งประกอบด้วยจุดรหัส เหล่านี้ :

U+FFF9 INTERLINEAR ANNOTATION ANCHOR , ทำเครื่องหมายจุดเริ่มต้นของข้อความที่มีคำอธิบายประกอบ
U+FFFAตัวคั่นคำอธิบายแบบบรรทัดต่อบรรทัด , ทำเครื่องหมายจุดเริ่มต้นของอักขระคำอธิบาย
U+FFFBตัวจบคำอธิบายประกอบแบบเส้นตรง , ทำเครื่องหมายจุดสิ้นสุดของบล็อกคำอธิบายประกอบ
U+FFFC อักขระทดแทนวัตถุ ตัวยึดตำแหน่งในข้อความสำหรับวัตถุอื่นที่ไม่ระบุ เช่น ในเอกสารประกอบ
U+FFFD – อักขระ ทดแทน ใช้สำหรับแทนที่อักขระที่ไม่รู้จัก ไม่สามารถจดจำได้ หรือไม่สามารถแสดงได้
U+FFFE <noncharacter-FFFE>ไม่ใช่ตัวละคร
U+FFFF <noncharacter-FFFF>ไม่ใช่ตัวละคร

U+FFFE <noncharacter-FFFE>และU+FFFF <noncharacter-FFFF>อักขระที่ไม่ใช่อักขระหมายความว่าอักขระเหล่านี้ถูกสงวนไว้ แต่ไม่ทำให้ข้อความ Unicode ผิดรูปแบบ มาตรฐาน Unicode เวอร์ชันตั้งแต่ 3.1.0 ถึง 6.3.0 ระบุว่าอักขระเหล่านี้ไม่ควรใช้สลับกัน ทำให้บางแอปพลิเคชันใช้อักขระเหล่านี้เพื่อเดาการเข้ารหัสข้อความโดยตีความการมีอยู่ของอักขระใดอักขระหนึ่งว่าเป็นสัญญาณว่าข้อความนั้นไม่ใช่ Unicode อย่างไรก็ตาม Corrigendum #9 ในภายหลังระบุว่าอักขระที่ไม่ใช่อักขระนั้นไม่ผิดกฎหมาย ดังนั้นวิธีการตรวจสอบการเข้ารหัสข้อความนี้จึงไม่ถูกต้อง^{[ 3 ]}ตัวอย่างของการใช้งานภายในของ U+FFFE คืออัลกอริทึม CLDRอัลกอริทึม Unicode ที่ขยายนี้จะแมปอักขระที่ไม่ใช่อักขระไปยังน้ำหนักหลักที่ไม่ซ้ำกันขั้นต่ำ^{[ 4 ]}

อักขระ U+FEFF (ZERO WIDTH NO-BREAK SPACE)ของ Unicode สามารถแทรกไว้ที่ต้นข้อความ Unicode เพื่อใช้เป็น เครื่องหมายลำดับไบต์ ( byte order mark)เพื่อระบุลำดับไบต์ (endianness ) เช่น โปรแกรมที่อ่านข้อความที่เข้ารหัสด้วยUTF-16และพบอักขระU+FFFE (noncharacter-FFFE )จากนั้นจึงจะทราบว่าควรสลับลำดับไบต์สำหรับอักขระทั้งหมดที่ตามมา

ชื่อบล็อกใน Unicode 1.0 คือSpecial ^{[ 5 ]}

อักขระทดแทน

อักขระทดแทน � (มักแสดงเป็นรูปสี่เหลี่ยมขนมเปียกปูนที่มีเครื่องหมายคำถาม) เป็นสัญลักษณ์ที่พบใน มาตรฐาน Unicodeที่จุดรหัส U+FFFD ใน ตาราง Specialsใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงสตรีมข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้^{[ 6 ]}

ตัวอย่างเช่น ไฟล์ข้อความที่เข้ารหัสใน รูป แบบ ISO 8859-1ซึ่งมีคำภาษาเยอรมันอยู่fürจะมีไบต์0x66 0xFC 0x72ดังนี้ หากเปิดไฟล์นี้ด้วยโปรแกรมแก้ไขข้อความที่ถือว่าอินพุตเป็นUTF-8ไบต์แรกและไบต์ที่สามจะเป็นการเข้ารหัส UTF-8 ที่ถูกต้องของASCIIแต่ไบต์ที่สอง ( 0xFC) ไม่ถูกต้องใน UTF-8 โปรแกรมแก้ไขข้อความสามารถแทนที่ไบต์นี้ด้วยอักขระทดแทนเพื่อสร้างสตริงของจุดรหัส Unicode ที่ถูกต้องสำหรับการแสดงผล ดังนั้นผู้ใช้จึงเห็น f�r

โปรแกรมแก้ไขข้อความที่เขียนไม่ดีอาจเขียนอักขระทดแทน ( 0xEF 0xBF 0xBD) เมื่อผู้ใช้บันทึกไฟล์ ข้อมูลในไฟล์จะกลายเป็น0x66 0xEF 0xBF 0xBD 0x72หากเปิดไฟล์อีกครั้งโดยใช้มาตรฐาน ISO 8859-1 ไฟล์จะแสดงfï¿½r(ปรากฏการณ์นี้เรียกว่าmojibake ) เนื่องจากโปรแกรมแก้ไขข้อความมักจะแปลงข้อผิดพลาดต่างๆ ให้เป็นอักขระทดแทนเดียวกัน จึงเป็นไปไม่ได้ที่จะกู้คืนข้อความต้นฉบับได้

ในอดีต มักใช้ตัวอักษรทดแทนเมื่อไม่มีสัญลักษณ์ในฟอนต์สำหรับตัวอักษรนั้น เช่น ในการแทนที่ฟอนต์อย่างไรก็ตาม ระบบการแสดงผลข้อความสมัยใหม่ส่วนใหญ่จะใช้ ตัวอักษร .notdef ของฟอนต์แทน ซึ่งในกรณีส่วนใหญ่จะเป็นกล่องว่าง หรือหรือในกล่อง^[⁷^] (เบราว์เซอร์นี้แสดง � สำหรับ U+10FFEE) บางครั้งเรียกว่า " เต้าหู้ " ไม่มีจุดรหัสยูนิโค้ดสำหรับสัญลักษณ์นี้ ?X

ดังนั้น ตอนนี้จึงเห็นอักขระทดแทนเฉพาะในกรณีที่เกิดข้อผิดพลาดในการเข้ารหัสเท่านั้น โปรแกรมซอฟต์แวร์บางโปรแกรมจะแปลงไบต์ UTF-8 ที่ไม่ถูกต้องให้เป็นอักขระที่ตรงกันในWindows-1252 (เนื่องจากเป็นสาเหตุที่พบบ่อยที่สุดของข้อผิดพลาดเหล่านี้) ทำให้ไม่เห็นอักขระทดแทนเลย

ตารางยูนิโค้ด

พิเศษ^[1]^[2]^[3]แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
	0	1	2	3	4	5	6	7	8	9	เอ	บี	ซี	ดี	อี	เอฟ
ยู+เอฟเอฟเอ็กซ์										ไอเอเอ	ไอเอเอส	ไอเอที		�
หมายเหตุ 1. ^นับตั้งแต่ Unicode เวอร์ชัน 17.0 เป็นต้นไป 2. ^พื้นที่สีเทาแสดงถึงรหัสจุดที่ยังไม่ได้กำหนด 3. ^พื้นที่สีดำแสดงถึงอักขระที่ไม่ใช่ตัวอักขระ (รหัสจุดที่รับประกันว่าจะไม่ถูกกำหนดให้เป็นอักขระที่เข้ารหัสในมาตรฐานยูนิโค้ด)

ประวัติศาสตร์

เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้บันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อก Specials:

เวอร์ชั่น	รหัสจุดสุดท้าย^{[ a ]}	นับ	รหัสUTC	รหัสL2	รหัสWG2	เอกสาร
1.0.0	ยู+เอฟเอฟดี	1				(รอการกำหนด)
	U+FFFE..FFFF	2				(รอการกำหนด)
				L2/01-295R		มัวร์, ลิซ่า (6 พฤศจิกายน 2001), "ญัตติ 88-M2", รายงานการประชุม UTC/L2 ครั้งที่ 88
				L2/01-355	N2369 (html , doc )	เดวิส, มาร์ค (26 กันยายน 2544), คำขออนุญาตใช้ FFFF, FFFE ใน UTF-8 ในข้อความของ ISO/IEC 10646
				L2/02-154	เอ็น2403	Umamaheswaran, VS (2002-04-22), "9.3 การอนุญาตให้ใช้ FFFF และ FFFE ใน UTF-8", ร่างรายงานการประชุม WG 2 ครั้งที่ 41, โรงแรมฟีนิกซ์, สิงคโปร์, 2001-10-15/19
2.1	ยู+เอฟเอฟเอฟซี	1	ยูทีซี/1995-056			Sargent, Murray (1995-12-06), คำแนะนำในการเข้ารหัสอักขระ WCH_EMBEDDING
			ยูทีซี/1996-002			อลิแพรนด์, โจน; ฮาร์ท, เอ็ดวิน; กรีนฟิลด์, สตีฟ (5 มีนาคม 1996), "วัตถุฝังตัว", UTC #67 นาที
					เอ็น1365	Sargent, Murray (18 มีนาคม 1996), บทสรุปข้อเสนอ – อักขระทดแทนวัตถุ
					เอ็น1353	Umamaheswaran, VS; Ksar, Mike (25 มิถุนายน 1996), "8.14", ร่างบันทึกการประชุม WG2 โคเปนเฮเกน ครั้งที่ 30
				L2/97-288	N1603	Umamaheswaran, VS (24 ตุลาคม 1997), "7.3", รายงานการประชุมที่ไม่ได้รับการยืนยัน, การประชุม WG 2 ครั้งที่ 33, เฮราคลิออน, ครีต, กรีซ, 20 มิถุนายน – 4 กรกฎาคม 1997
				L2/98-004R	เอ็น1681	ข้อความของ ISO 10646 – AMD 18 สำหรับการลงทะเบียน PDAM และการลงคะแนนเสียง FPDAM , 22 ธันวาคม 1997
				L2/98-070		อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์, "ข้อคิดเห็นเพิ่มเติมเกี่ยวกับ 2.1", รายงานการประชุมร่วมระหว่าง UTC และ L2 จากการประชุมที่คูเปอร์ติโน วันที่ 25-27 กุมภาพันธ์ 1998
				L2/98-318	เอ็น1894	ข้อความที่แก้ไขแล้วของ 10646-1/FPDAM 18, การแก้ไขเพิ่มเติมที่ 18: สัญลักษณ์และอื่นๆ , 22 ตุลาคม 1998
3.0	U+FFF9..FFFB	3		L2/97-255R		อลิแพรนด์, โจน (3 ธันวาคม 1997), "ข้อเสนอ 3 มิติสำหรับสัญกรณ์แบบอินไลน์ (รูบี้)", รายงานการประชุมที่ได้รับการอนุมัติ – การประชุมร่วม UTC #73 และ L2 #170, พาโลอัลโต, แคลิฟอร์เนีย – 4-5 สิงหาคม 1997
				L2/98-055		Freytag, Asmus (1998-02-22) รองรับการใช้คำอธิบายประกอบแบบอินไลน์และอินเตอร์ลิเนียร์
				L2/98-070		อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์, "3.C.5. การสนับสนุนการใช้งานคำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์", รายงานการประชุมร่วมระหว่าง UTC และ L2 จากการประชุมที่คูเปอร์ติโน วันที่ 25-27 กุมภาพันธ์ 1998
				L2/98-099	เอ็น1727	Freytag, Asmus (18 มีนาคม 1998), การสนับสนุนการนำคำอธิบายประกอบระหว่างบรรทัดไปใช้ในงานพิมพ์ของเอเชียตะวันออก
				L2/98-158		อลิแพรนด์, โจน; วิงค์เลอร์, อาร์โนลด์ (26 พฤษภาคม 1998), "คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์", ร่างรายงานการประชุม – การประชุมร่วม UTC #76 และ NCITS Subgroup L2 #173, เทรดดี้ฟริน, เพนซิลเวเนีย, 20-22 เมษายน 1998
				ล2/98-286	เอ็น1703	Umamaheswaran, VS; Ksar, Mike (1998-07-02), "8.14", รายงานการประชุมที่ยังไม่ได้รับการยืนยัน, การประชุม WG 2 ครั้งที่ 34, เรดมอนด์, วอชิงตัน, สหรัฐอเมริกา; 1998-03-16--20
				L2/98-270		ฮิอุระ ฮิเดกิ; โคบายาชิ ทัตสึโอะ (29 กรกฎาคม 1998) ข้อเสนอแนะสำหรับข้อเสนอการใส่คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์
				L2/98-281R (pdf , html )		อลิแพรนด์, โจน (31 กรกฎาคม 1998), "การใส่คำอธิบายประกอบแบบอินไลน์และอินเตอร์ไลน์ (III.C.1.c)", รายงานการประชุมที่ยังไม่ได้รับการยืนยัน – การประชุมร่วมของกลุ่มย่อย UTC #77 และ NCITS L2 #174, เรดมอนด์, วอชิงตัน -- 29-31 กรกฎาคม 1998
				ล2/98-363	เอ็น1861	Sato, TK (1998-09-01), เครื่องหมายทับทิม
				L2/98-372	N1884R2 (pdf , doc )	วิสเลอร์, เคน และคณะ (22 กันยายน 1998) อักขระเพิ่มเติมสำหรับ UCS
				ล2/98-416	N1882.zip	เอกสารสนับสนุนการใช้งานคำอธิบายประกอบแบบแทรกบรรทัด , 23 กันยายน 1998
				ล2/98-329	เอ็น1920	การลงทะเบียน PDAM รวมกันและการลงคะแนนเพื่อพิจารณาใน WD สำหรับ ISO/IEC 10646-1/Amd. 30, การแก้ไขเพิ่มเติม 30: อักขระละตินและอักขระอื่นๆ เพิ่มเติม 28 ตุลาคม 1998
				แอล2/98-421อาร์		Suignard, Michel; Hiura, Hideki (4 ธันวาคม 1998), หมายเหตุเกี่ยวกับอักขระคำอธิบายประกอบระหว่างบรรทัด PDAM 30
				L2/99-010	N1903 (pdf , html , doc )	Umamaheswaran, VS (1998-12-30), "8.2.15", รายงานการประชุม WG 2 ครั้งที่ 35, ลอนดอน, สหราชอาณาจักร; 1998-09-21--25
				L2/98-419 (pdf , doc )		อลิแพรนด์, โจน (5 กุมภาพันธ์ 1999), "อักขระคำอธิบายประกอบระหว่างบรรทัด", รายงานการประชุมที่ได้รับอนุมัติ -- การประชุมร่วม UTC #78 และ NCITS Subgroup L2 #175, ซานโฮเซ, แคลิฟอร์เนีย -- 1-4 ธันวาคม 1998
			ยูทีซี/1999-021			ดูเออร์สต์, มาร์ติน; Bosak, Jon (1999-06-08), คำสั่ง W3C XML CG เกี่ยวกับอักขระคำอธิบายประกอบ
				L2/99-176R		มัวร์, ลิซ่า (4 พฤศจิกายน 1999), "แถลงการณ์ประสานงานของ W3C เกี่ยวกับอักขระคำอธิบายประกอบ", รายงานการประชุมร่วมระหว่าง UTC/L2 ในซีแอตเติล วันที่ 8-10 มิถุนายน 1999
				L2/01-301		วิสเลอร์, เคน (1 สิงหาคม 2544), "E. ระบุว่า "ไม่แนะนำอย่างยิ่ง" สำหรับการแลกเปลี่ยนข้อความธรรมดา", การวิเคราะห์การยกเลิกการใช้งานอักขระในมาตรฐานยูนิโค้ด
^รหัสจุดและชื่ออักขระที่เสนออาจแตกต่างจากรหัสจุดและชื่ออักขระฉบับสุดท้าย

ดูเพิ่มเติม

อักขระควบคุมยูนิโค้ด

[final-8] รหัสจุดและชื่ออักขระที่เสนออาจแตกต่างจากรหัสจุดและชื่ออักขระฉบับสุดท้าย

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[

[ a ]

อักขระพิเศษ (บล็อก Unicode)

อักขระทดแทน

ตารางยูนิโค้ด

ประวัติศาสตร์

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ