กลับไปหน้าบทความ

อ่าน 3 นาที

ยูทีเอฟ-อีบีซีดีไอ

UTF-EBCDIC เป็นการ เข้ารหัสอักขระ ที่สามารถเข้ารหัส จุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ใน Unicode โดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8 ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]...

ยูทีเอฟ-อีบีซีดีไอ

ยูทีเอฟ-อีบีซีดีไอ
สร้างโดยไอบีเอ็ม
คำจำกัดความรายงานทางเทคนิค Unicode ฉบับที่ 16
อ้างอิงจากยูทีเอฟ-8
แปลง / เข้ารหัสยูนิโค้ด

UTF-EBCDICเป็นการเข้ารหัสอักขระที่สามารถเข้ารหัสจุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ในUnicodeโดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]มีจุดประสงค์เพื่อให้เป็น มิตร กับ EBCDICเพื่อให้แอปพลิเคชัน EBCDIC เดิมบนเมนเฟรมสามารถประมวลผลอักขระได้โดยไม่ยากนัก ข้อดีของ UTF-EBCDIC สำหรับระบบที่ใช้ EBCDIC เดิมนั้นคล้ายกับข้อดีของUTF-8 สำหรับระบบที่ใช้ ASCII เดิม รายละเอียดเกี่ยวกับ UTF-EBCDIC ได้รับการกำหนดไว้ในรายงานทางเทคนิคของ Unicode ฉบับที่ 16

ในการสร้างเวอร์ชันที่เข้ารหัส UTF-EBCDIC ของชุดรหัส Unicode นั้น จะต้องใช้การเข้ารหัสตาม UTF-8 (ที่รู้จักในข้อกำหนดว่า UTF-8-Mod) ก่อน (ซึ่งจะสร้างสิ่งที่ข้อกำหนดเรียกว่าลำดับ I8) ความแตกต่างหลักระหว่างการเข้ารหัสนี้กับ UTF-8 คือ การเข้ารหัสนี้อนุญาตให้รหัส Unicode U+0080ถึงU+009F ( รหัสควบคุม C1 ) สามารถแสดงเป็นไบต์เดียวได้ และจึงสามารถแมปไปยังรหัสควบคุม EBCDIC ที่สอดคล้องกันได้ในภายหลัง เพื่อให้บรรลุเป้าหมายนี้ UTF-8-Mod ใช้101xxxxxแทน10xxxxxxเป็นรูปแบบสำหรับไบต์ต่อท้ายในลำดับหลายไบต์ เนื่องจากสามารถเก็บได้เพียง 5 บิตแทนที่จะเป็น 6 บิต การเข้ารหัส UTF-8-Mod ของรหัสที่สูงกว่าU+03FFจึงมีขนาดใหญ่กว่าการเข้ารหัส UTF-8

การแปลง UTF-8-Mod จะคงข้อมูลไว้ในรูปแบบ ASCII (ตัวอย่างเช่นU+0041 "A" ยังคงเข้ารหัสเป็น0x41 ) ดังนั้นแต่ละไบต์จะถูกส่งผ่านตารางค้นหาแบบย้อนกลับได้ (หนึ่งต่อหนึ่ง) เพื่อสร้างการเข้ารหัส UTF-EBCDIC สุดท้าย ตัวอย่างเช่น0x41ในตารางนี้จะแมปกับ0xC1ดังนั้นการเข้ารหัส UTF-EBCDIC ของU+0041 ("A" ใน Unicode) คือ0xC1 ("A" ใน EBCDIC)

UTF-EBCDIC แทบจะไม่ถูกใช้งานเลย แม้แต่ในเมนเฟรมที่ใช้ EBCDIC ซึ่งเป็นระบบปฏิบัติการที่ออกแบบมาสำหรับมันก็ตาม ระบบปฏิบัติการเมนเฟรมของ IBM ที่ใช้ EBCDIC เช่น z/OSมักใช้UTF-16เพื่อรองรับ Unicode อย่างสมบูรณ์ ตัวอย่างเช่นIBM Db2 , COBOL , PL/I , Javaและ ชุดเครื่องมือ XML ของ IBM รองรับ UTF-16 บนเมนเฟรมของ IBM

เค้าโครงหน้าโค้ด

ใน UTF-EBCDIC มีอักขระ 160 ตัวที่เข้ารหัสแบบไบต์เดียว (เทียบกับ 128 ตัวใน UTF-8) จะเห็นได้ว่าส่วนที่เป็นไบต์เดียวนั้นคล้ายกับIBM-1047มากกว่า IBM-37 เนื่องจากตำแหน่งของวงเล็บเหลี่ยมส่วน CCSID 37 นั้นมี [] อยู่ที่เลขฐานสิบหก BA และ BB แทนที่จะอยู่ที่เลขฐานสิบหก AD และ BD ตามลำดับ

ยูทีเอฟ-อีบีซีดีไอ
0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ
0x นูแอลเอสโอเอชเอสทีเอ็กซ์อีทีเอ็กซ์ส.เอชทีเอสเอสเอเดลEPAไออาร์ไอเอสเอส2วีทีเอฟเอฟซีอาร์ดังนั้นไอเอส
1x ดีแอลอีดีซี1ดีซี2ดีซี3โอเอสซีแอลเอฟปริญญาตรีอีเอสเอสามารถอีเอ็มพียู2เอสเอส3เอฟเอสจีเอสอาร์เอสเรา
2x แพดกระโดดบีเอฟพีเอ็นบีเอชอินเดียเอ็นแอลอีทีบีเอสเอสเอชทีเอสเอชทีเจวีทีเอสพีแอลดีพีแอลยูเอ็นคิวแอกเบล
3x ดีซีเอสพียู1ซินเอสทีเอสซีเอชเอ็มดับเบิลยูสปาอีโอทีเอสโอเอสเอสจีซีไอเอสซีไอซีเอสไอดีซี4นาคนายกรัฐมนตรีซับ
4x  เอสพี .<(+|
5x &!$*);^
6x -/,%_>?
7x 2 2 2 2 2 `:#@'="
8x 2 เออีเอฟจีชม.ฉัน2 2 2 2 2 2
9x 2 เจเคnโอพีq2 2 2 2 2 2
ขวาน 2 ~ทีคุณวีxyz2 2 2 [2 2
บีเอ็กซ์ 2 2 2 2 2 2 2 3 3 3 3 3 3 ]3 3
ซีเอ็กซ์ {เอบีซีดีอีเอฟจีชมฉัน3 3 3 3 3 3
ดีเอ็กซ์ }เจเคแอลเอ็มเอ็นโอพีคิวอาร์3 3 4 4 4 4
อดีต \4 เอสทียูวีXวาย4 4 4 5 5
เอฟเอ็กซ์ 0123456789เอพีซี
  ไบต์เริ่มต้นสำหรับลำดับที่มีจำนวนไบต์ตามนั้น คำแนะนำเมื่อวางเมาส์เหนือข้อความจะแสดงจุดรหัสต่ำสุดที่เข้ารหัสโดยใช้ไบต์เริ่มต้นนั้น
  ไบต์เริ่มต้นที่ไม่ใช่การรวมกันของไบต์ต่อเนื่องทั้งหมดที่ถูกต้อง อาจเป็นเพราะเป็นรูปแบบที่ยาวเกินไปที่ไม่ถูกต้อง (คำแนะนำจะแสดงจุดรหัสของลำดับที่ถูกต้องแรก) หรือเพราะมันเข้ารหัสจุดรหัสที่มากกว่า U+10FFFF
  ไบต์ต่อเนื่อง คำแนะนำจะแสดงค่าเลขฐานสิบหกของ 5 บิตที่บวกกัน
  ไบต์ที่ไม่ได้ใช้งาน รวมถึงไบต์นำที่สามารถเริ่มต้นรูปแบบยาวเกินที่ไม่ถูกต้องได้เท่านั้น ตัวอย่างเช่น 0x76 เพราะแม้แต่ 0x76 0x73 (ซึ่งแมปกับลำดับ UTF-8-Mod 0xC2 0xBF) ก็จะเป็นเพียงการเข้ารหัสยาวเกินของ U+005F (ซึ่งเข้ารหัสอย่างถูกต้องเป็น UTF-8-Mod 0x5F, UTF-EBCDIC 0x6D)

Oracle UTFE

Oracle UTFEเป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracleซึ่งคล้ายกับ รูปแบบ CESU-8ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น[ 2 ]

ดูเพิ่มเติม

  • VS Umamaheswaran, รายงานทางเทคนิค Unicode ฉบับที่ 16: นิยามของ UTF-EBCDIC (16 เมษายน 2545)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=UTF-EBCDIC&oldid=1340829326 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ยูทีเอฟ-อีบีซีดีไอ

UTF-EBCDIC เป็นการ เข้ารหัสอักขระ ที่สามารถเข้ารหัส จุดรหัส อักขระที่ถูกต้องทั้งหมด 1,112,064 จุด ใน Unicode โดยใช้ 1 ถึง 5 ไบต์ (ตรงข้ามกับ UTF-8 ที่ใช้ได้สูงสุด 4 ไบต์) [ 1 ]...

เค้าโครงหน้าโค้ด

ใน UTF-EBCDIC มีอักขระ 160 ตัวที่เข้ารหัสแบบไบต์เดียว (เทียบกับ 128 ตัวใน UTF-8) จะเห็นได้ว่าส่วนที่เป็นไบต์เดียวนั้นคล้ายกับ IBM-1047 มากกว่า IBM-37 เนื่องจากตำแหน่งของวงเล็บเหลี่ยม ส่วน CCSID 37 นั้นมี [] อยู่ที่เลขฐานสิบหก BA และ BB...

Oracle UTFE

Oracle UTFE เป็นรูปแบบ Unicode 3.0 UTF-8 ของฐานข้อมูล Oracle ซึ่งคล้ายกับ รูปแบบ CESU-8 ของ UTF-8 โดยที่อักขระเสริมจะถูกเข้ารหัสเป็นอักขระ 4 ไบต์สองตัวแทนที่จะเป็นอักขระ 4 หรือ 5 ไบต์ตัวเดียว ใช้ได้เฉพาะบนแพลตฟอร์ม EBCDIC เท่านั้น [ 2 ]

ลิงก์ภายนอก

VS Umamaheswaran, รายงานทางเทคนิค Unicode ฉบับที่ 16: นิยามของ UTF-EBCDIC (16 เมษายน 2545) ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=UTF-EBCDIC&oldid=1340829326 "