อ่าน 3 นาที
ยูทีเอฟ-อีบีซีดีไอ
UTF-EBCDIC เป็นการ เข้ารหัสอักขระ ที่สามารถเข้ารหัส จุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ใน Unicode โดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8 ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]...
ยูทีเอฟ-อีบีซีดีไอ
| สร้างโดย | ไอบีเอ็ม |
|---|---|
| คำจำกัดความ | รายงานทางเทคนิค Unicode ฉบับที่ 16 |
| อ้างอิงจาก | ยูทีเอฟ-8 |
| แปลง / เข้ารหัส | ยูนิโค้ด |
UTF-EBCDICเป็นการเข้ารหัสอักขระที่สามารถเข้ารหัสจุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ในUnicodeโดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]มีจุดประสงค์เพื่อให้เป็น มิตร กับ EBCDICเพื่อให้แอปพลิเคชัน EBCDIC เดิมบนเมนเฟรมสามารถประมวลผลอักขระได้โดยไม่ยากนัก ข้อดีของ UTF-EBCDIC สำหรับระบบที่ใช้ EBCDIC เดิมนั้นคล้ายกับข้อดีของUTF-8 สำหรับระบบที่ใช้ ASCII เดิม รายละเอียดเกี่ยวกับ UTF-EBCDIC ได้รับการกำหนดไว้ในรายงานทางเทคนิคของ Unicode ฉบับที่ 16
ในการสร้างเวอร์ชันที่เข้ารหัส UTF-EBCDIC ของชุดรหัส Unicode นั้น จะต้องใช้การเข้ารหัสตาม UTF-8 (ที่รู้จักในข้อกำหนดว่า UTF-8-Mod) ก่อน (ซึ่งจะสร้างสิ่งที่ข้อกำหนดเรียกว่าลำดับ I8) ความแตกต่างหลักระหว่างการเข้ารหัสนี้กับ UTF-8 คือ การเข้ารหัสนี้อนุญาตให้รหัส Unicode U+0080ถึงU+009F ( รหัสควบคุม C1 ) สามารถแสดงเป็นไบต์เดียวได้ และจึงสามารถแมปไปยังรหัสควบคุม EBCDIC ที่สอดคล้องกันได้ในภายหลัง เพื่อให้บรรลุเป้าหมายนี้ UTF-8-Mod ใช้101xxxxxแทน10xxxxxxเป็นรูปแบบสำหรับไบต์ต่อท้ายในลำดับหลายไบต์ เนื่องจากสามารถเก็บได้เพียง 5 บิตแทนที่จะเป็น 6 บิต การเข้ารหัส UTF-8-Mod ของรหัสที่สูงกว่าU+03FFจึงมีขนาดใหญ่กว่าการเข้ารหัส UTF-8
การแปลง UTF-8-Mod จะคงข้อมูลไว้ในรูปแบบ ASCII (ตัวอย่างเช่นU+0041 "A" ยังคงเข้ารหัสเป็น0x41 ) ดังนั้นแต่ละไบต์จะถูกส่งผ่านตารางค้นหาแบบย้อนกลับได้ (หนึ่งต่อหนึ่ง) เพื่อสร้างการเข้ารหัส UTF-EBCDIC สุดท้าย ตัวอย่างเช่น0x41ในตารางนี้จะแมปกับ0xC1ดังนั้นการเข้ารหัส UTF-EBCDIC ของU+0041 ("A" ใน Unicode) คือ0xC1 ("A" ใน EBCDIC)
UTF-EBCDIC แทบจะไม่ถูกใช้งานเลย แม้แต่ในเมนเฟรมที่ใช้ EBCDIC ซึ่งเป็นระบบปฏิบัติการที่ออกแบบมาสำหรับมันก็ตาม ระบบปฏิบัติการเมนเฟรมของ IBM ที่ใช้ EBCDIC เช่น z/OSมักใช้UTF-16เพื่อรองรับ Unicode อย่างสมบูรณ์ ตัวอย่างเช่นIBM Db2 , COBOL , PL/I , Javaและ ชุดเครื่องมือ XML ของ IBM รองรับ UTF-16 บนเมนเฟรมของ IBM
เค้าโครงหน้าโค้ด
ใน UTF-EBCDIC มีอักขระ 160 ตัวที่เข้ารหัสแบบไบต์เดียว (เทียบกับ 128 ตัวใน UTF-8) จะเห็นได้ว่าส่วนที่เป็นไบต์เดียวนั้นคล้ายกับIBM-1047มากกว่า IBM-37 เนื่องจากตำแหน่งของวงเล็บเหลี่ยมส่วน CCSID 37 นั้นมี [] อยู่ที่เลขฐานสิบหก BA และ BB แทนที่จะอยู่ที่เลขฐานสิบหก AD และ BD ตามลำดับ
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0x | นูแอล | เอสโอเอช | เอสทีเอ็กซ์ | อีทีเอ็กซ์ | ส. | เอชที | เอสเอสเอ | เดล | EPA | ไออาร์ไอ | เอสเอส2 | วีที | เอฟเอฟ | ซีอาร์ | ดังนั้น | ไอเอส |
| 1x | ดีแอลอี | ดีซี1 | ดีซี2 | ดีซี3 | โอเอสซี | แอลเอฟ | ปริญญาตรี | อีเอสเอ | สามารถ | อีเอ็ม | พียู2 | เอสเอส3 | เอฟเอส | จีเอส | อาร์เอส | เรา |
| 2x | แพด | กระโดด | บีเอฟพี | เอ็นบีเอช | อินเดีย | เอ็นแอล | อีทีบี | เอสเอส | เอชทีเอส | เอชทีเจ | วีทีเอส | พีแอลดี | พีแอลยู | เอ็นคิว | แอก | เบล |
| 3x | ดีซีเอส | พียู1 | ซิน | เอสทีเอส | ซีเอช | เอ็มดับเบิลยู | สปา | อีโอที | เอสโอเอส | เอสจีซีไอ | เอสซีไอ | ซีเอสไอ | ดีซี4 | นาค | นายกรัฐมนตรี | ซับ |
| 4x | เอสพี | • | • | • | • | • | • | • | • | • | • | . | < | ( | + | | |
| 5x | & | • | • | • | • | • | • | • | • | • | ! | $ | * | ) | ; | ^ |
| 6x | - | / | • | • | • | • | • | • | • | • | • | , | % | _ | > | ? |
| 7x | • | • | • | • | 2 | 2 | 2 | 2 | 2 | ` | : | # | @ | ' | = | " |
| 8x | 2 | เอ | ข | ค | ง | อี | เอฟ | จี | ชม. | ฉัน | 2 | 2 | 2 | 2 | 2 | 2 |
| 9x | 2 | เจ | เค | ล | ม | n | โอ | พี | q | ร | 2 | 2 | 2 | 2 | 2 | 2 |
| ขวาน | 2 | ~ | ส | ที | คุณ | วี | ว | x | y | z | 2 | 2 | 2 | [ | 2 | 2 |
| บีเอ็กซ์ | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 | 3 | ] | 3 | 3 |
| ซีเอ็กซ์ | { | เอ | บี | ซี | ดี | อี | เอฟ | จี | ชม | ฉัน | 3 | 3 | 3 | 3 | 3 | 3 |
| ดีเอ็กซ์ | } | เจ | เค | แอล | เอ็ม | เอ็น | โอ | พี | คิว | อาร์ | 3 | 3 | 4 | 4 | 4 | 4 |
| อดีต | \ | 4 | เอส | ที | ยู | วี | ว | X | วาย | ซ | 4 | 4 | 4 | 5 | 5 | |
| เอฟเอ็กซ์ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอพีซี |
Oracle UTFE
Oracle UTFEเป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracleซึ่งคล้ายกับ รูปแบบ CESU-8ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น[ 2 ]
ดูเพิ่มเติม
ลิงก์ภายนอก
- VS Umamaheswaran, รายงานทางเทคนิค Unicode ฉบับที่ 16: นิยามของ UTF-EBCDIC (16 เมษายน 2545)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ยูทีเอฟ-อีบีซีดีไอ
UTF-EBCDIC เป็นการ เข้ารหัสอักขระ ที่สามารถเข้ารหัส จุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ใน Unicode โดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8 ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]...
เค้าโครงหน้าโค้ด
ใน UTF-EBCDIC มีอักขระ 160 ตัวที่เข้ารหัสแบบไบต์เดียว (เทียบกับ 128 ตัวใน UTF-8) จะเห็นได้ว่าส่วนที่เป็นไบต์เดียวนั้นคล้ายกับ IBM-1047 มากกว่า IBM-37 เนื่องจากตำแหน่งของวงเล็บเหลี่ยม ส่วน CCSID 37 นั้นมี [] อยู่ที่เลขฐานสิบหก BA และ BB...
Oracle UTFE
Oracle UTFE เป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracle ซึ่งคล้ายกับ รูปแบบ CESU-8 ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น [ 2 ]
ลิงก์ภายนอก
VS Umamaheswaran, รายงานทางเทคนิค Unicode ฉบับที่ 16: นิยามของ UTF-EBCDIC (16 เมษายน 2545) ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=UTF-EBCDIC&oldid=1340829326 "