ยูทีเอฟ-อีบีซีดีไอ

Q: Oracle UTFE

Oracle UTFE เป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracle ซึ่งคล้ายกับ รูปแบบ CESU-8 ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น [ 2 ]

ยูทีเอฟ-อีบีซีดีไอ
สร้างโดย	ไอบีเอ็ม
คำจำกัดความ	รายงานทางเทคนิค Unicode ฉบับที่ 16
อ้างอิงจาก	ยูทีเอฟ-8
แปลง / เข้ารหัส	ยูนิโค้ด

UTF-EBCDICเป็นการเข้ารหัสอักขระที่สามารถเข้ารหัสจุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ในUnicodeโดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8ที่ใช้ได้สูงสุด 4 ไบต์) ^{[ 1 ]}มีจุดประสงค์เพื่อให้เป็น มิตร กับ EBCDICเพื่อให้แอปพลิเคชัน EBCDIC เดิมบนเมนเฟรมสามารถประมวลผลอักขระได้โดยไม่ยากนัก ข้อดีของ UTF-EBCDIC สำหรับระบบที่ใช้ EBCDIC เดิมนั้นคล้ายกับข้อดีของUTF-8 สำหรับระบบที่ใช้ ASCII เดิม รายละเอียดเกี่ยวกับ UTF-EBCDIC ได้รับการกำหนดไว้ในรายงานทางเทคนิคของ Unicode ฉบับที่ 16

ในการสร้างเวอร์ชันที่เข้ารหัส UTF-EBCDIC ของชุดรหัส Unicode นั้น จะต้องใช้การเข้ารหัสตาม UTF-8 (ที่รู้จักในข้อกำหนดว่า UTF-8-Mod) ก่อน (ซึ่งจะสร้างสิ่งที่ข้อกำหนดเรียกว่าลำดับ I8) ความแตกต่างหลักระหว่างการเข้ารหัสนี้กับ UTF-8 คือ การเข้ารหัสนี้อนุญาตให้รหัส Unicode U+0080ถึงU+009F ( รหัสควบคุม C1 ) สามารถแสดงเป็นไบต์เดียวได้ และจึงสามารถแมปไปยังรหัสควบคุม EBCDIC ที่สอดคล้องกันได้ในภายหลัง เพื่อให้บรรลุเป้าหมายนี้ UTF-8-Mod ใช้101xxxxxแทน10xxxxxxเป็นรูปแบบสำหรับไบต์ต่อท้ายในลำดับหลายไบต์ เนื่องจากสามารถเก็บได้เพียง 5 บิตแทนที่จะเป็น 6 บิต การเข้ารหัส UTF-8-Mod ของรหัสที่สูงกว่าU+03FFจึงมีขนาดใหญ่กว่าการเข้ารหัส UTF-8

การแปลง UTF-8-Mod จะคงข้อมูลไว้ในรูปแบบ ASCII (ตัวอย่างเช่นU+0041 "A" ยังคงเข้ารหัสเป็น0x41 ) ดังนั้นแต่ละไบต์จะถูกส่งผ่านตารางค้นหาแบบย้อนกลับได้ (หนึ่งต่อหนึ่ง) เพื่อสร้างการเข้ารหัส UTF-EBCDIC สุดท้าย ตัวอย่างเช่น0x41ในตารางนี้จะแมปกับ0xC1ดังนั้นการเข้ารหัส UTF-EBCDIC ของU+0041 ("A" ใน Unicode) คือ0xC1 ("A" ใน EBCDIC)

UTF-EBCDIC แทบจะไม่ถูกใช้งานเลย แม้แต่ในเมนเฟรมที่ใช้ EBCDIC ซึ่งเป็นระบบปฏิบัติการที่ออกแบบมาสำหรับมันก็ตาม ระบบปฏิบัติการเมนเฟรมของ IBM ที่ใช้ EBCDIC เช่น z/OSมักใช้UTF-16เพื่อรองรับ Unicode อย่างสมบูรณ์ ตัวอย่างเช่นIBM Db2 , COBOL , PL/I , Javaและ ชุดเครื่องมือ XML ของ IBM รองรับ UTF-16 บนเมนเฟรมของ IBM

เค้าโครงหน้าโค้ด

ใน UTF-EBCDIC มีอักขระ 160 ตัวที่เข้ารหัสแบบไบต์เดียว (เทียบกับ 128 ตัวใน UTF-8) จะเห็นได้ว่าส่วนที่เป็นไบต์เดียวนั้นคล้ายกับIBM-1047มากกว่า IBM-37 เนื่องจากตำแหน่งของวงเล็บเหลี่ยมส่วน CCSID 37 นั้นมี [] อยู่ที่เลขฐานสิบหก BA และ BB แทนที่จะอยู่ที่เลขฐานสิบหก AD และ BD ตามลำดับ

ยูทีเอฟ-อีบีซีดีไอ
	0	1	2	3	4	5	6	7	8	9	เอ	บี	ซี	ดี	อี	เอฟ
0x	นูแอล	เอสโอเอช	เอสทีเอ็กซ์	อีทีเอ็กซ์	ส.	เอชที	เอสเอสเอ	เดล	EPA	ไออาร์ไอ	เอสเอส2	วีที	เอฟเอฟ	ซีอาร์	ดังนั้น	ไอเอส
1x	ดีแอลอี	ดีซี1	ดีซี2	ดีซี3	โอเอสซี	แอลเอฟ	ปริญญาตรี	อีเอสเอ	สามารถ	อีเอ็ม	พียู2	เอสเอส3	เอฟเอส	จีเอส	อาร์เอส	เรา
2x	แพด	กระโดด	บีเอฟพี	เอ็นบีเอช	อินเดีย	เอ็นแอล	อีทีบี	เอสเอส	เอชทีเอส	เอชทีเจ	วีทีเอส	พีแอลดี	พีแอลยู	เอ็นคิว	แอก	เบล
3x	ดีซีเอส	พียู1	ซิน	เอสทีเอส	ซีเอช	เอ็มดับเบิลยู	สปา	อีโอที	เอสโอเอส	เอสจีซีไอ	เอสซีไอ	ซีเอสไอ	ดีซี4	นาค	นายกรัฐมนตรี	ซับ
4x	เอสพี	•	•	•	•	•	•	•	•	•	•	.	<	(	+	\|
5x	&	•	•	•	•	•	•	•	•	•	!	$	*	)	;	^
6x	-	/	•	•	•	•	•	•	•	•	•	,	%	_	>	?
7x	•	•	•	•	2	2	2	2	2	`	:	#	@	'	=	"
8x	2	เอ	ข	ค	ง	อี	เอฟ	จี	ชม.	ฉัน	2	2	2	2	2	2
9x	2	เจ	เค	ล	ม	n	โอ	พี	q	ร	2	2	2	2	2	2
ขวาน	2	~	ส	ที	คุณ	วี	ว	x	y	z	2	2	2	[	2	2
บีเอ็กซ์	2	2	2	2	2	2	2	3	3	3	3	3	3	]	3	3
ซีเอ็กซ์	{	เอ	บี	ซี	ดี	อี	เอฟ	จี	ชม	ฉัน	3	3	3	3	3	3
ดีเอ็กซ์	}	เจ	เค	แอล	เอ็ม	เอ็น	โอ	พี	คิว	อาร์	3	3	4	4	4	4
อดีต	\	4	เอส	ที	ยู	วี	ว	X	วาย	ซ	4	4	4	5	5
เอฟเอ็กซ์	0	1	2	3	4	5	6	7	8	9						เอพีซี

ไบต์เริ่มต้นสำหรับลำดับที่มีจำนวนไบต์ตามนั้น คำแนะนำเมื่อวางเมาส์เหนือข้อความจะแสดงจุดรหัสต่ำสุดที่เข้ารหัสโดยใช้ไบต์เริ่มต้นนั้น

ไบต์เริ่มต้นที่ไม่ใช่การรวมกันของไบต์ต่อเนื่องทั้งหมดที่ถูกต้อง อาจเป็นเพราะเป็นรูปแบบที่ยาวเกินไปที่ไม่ถูกต้อง (คำแนะนำจะแสดงจุดรหัสของลำดับที่ถูกต้องแรก) หรือเพราะมันเข้ารหัสจุดรหัสที่มากกว่า U+10FFFF

ไบต์ต่อเนื่อง คำแนะนำจะแสดงค่าเลขฐานสิบหกของ 5 บิตที่บวกกัน

ไบต์ที่ไม่ได้ใช้งาน รวมถึงไบต์นำที่สามารถเริ่มต้นรูปแบบยาวเกินที่ไม่ถูกต้องได้เท่านั้น ตัวอย่างเช่น 0x76 เพราะแม้แต่ 0x76 0x73 (ซึ่งแมปกับลำดับ UTF-8-Mod 0xC2 0xBF) ก็จะเป็นเพียงการเข้ารหัสยาวเกินของ U+005F (ซึ่งเข้ารหัสอย่างถูกต้องเป็น UTF-8-Mod 0x5F, UTF-EBCDIC 0x6D)

Oracle UTFE

Oracle UTFEเป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracleซึ่งคล้ายกับ รูปแบบ CESU-8ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น^{[ 2 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

VS Umamaheswaran, รายงานทางเทคนิค Unicode ฉบับที่ 16: นิยามของ UTF-EBCDIC (16 เมษายน 2545)

[ 1 ]

[ 2 ]

ยูทีเอฟ-อีบีซีดีไอ

เค้าโครงหน้าโค้ด

Oracle UTFE

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ