อ่าน 8 นาที
รหัสอักษรจีนสำหรับการแลกเปลี่ยนข้อมูล
รหัสอักขระจีนสำหรับการแลกเปลี่ยนข้อมูล ( ภาษาจีน :中文資訊交換碼) หรือCCCIIเป็นชุดอักขระที่พัฒนาโดยกลุ่มวิเคราะห์อักขระจีนในไต้หวันเผยแพร่ครั้งแรกในปี 1980...
รหัสอักษรจีนสำหรับการแลกเปลี่ยนข้อมูล
ตัวอักษร圓(วงกลม, เงินเยนญี่ปุ่น , เงินหยวนจีน ) ในสี่ชั้นของ CCCII | |
| ภาษา | จีนญี่ปุ่นเกาหลี |
|---|---|
| มาตรฐาน | MARC-8 , ANSI/NISO Z39.64 (ทั้งเวอร์ชัน EACC) |
| สถานะปัจจุบัน | ส่วนใหญ่ใช้โดยระบบห้องสมุด |
| การจำแนกประเภท | TBCSสำหรับภาษาจีน ญี่ปุ่น และเกาหลี (CJK) อิงตามโครงสร้างISO 2022 และส่วนประกอบ JACKPHY ของ MARC |
รหัสอักขระจีนสำหรับการแลกเปลี่ยนข้อมูล ( ภาษาจีน :中文資訊交換碼) หรือCCCIIเป็นชุดอักขระที่พัฒนาโดยกลุ่มวิเคราะห์อักขระจีนในไต้หวันเผยแพร่ครั้งแรกในปี 1980 และขยายเพิ่มเติมอย่างมีนัยสำคัญในปี 1982 และ 1987 [ 1 ]
ส่วนใหญ่ใช้โดยระบบห้องสมุด [ 2 ] [ 3 ] เป็นหนึ่งในระบบการเข้ารหัสภาษาจีนดั้งเดิม ที่จัดตั้งขึ้นในยุคแรกและมีความซับซ้อนที่สุด (ก่อนการจัดตั้งBig5ในปี 1984 และCNS 11643ในปี 1986) [ 2 ]โดดเด่นด้วยระบบการเข้ารหัสเฉพาะตัวสำหรับอักษรจีนตัวย่อและรูปแบบ อื่นๆ ของชุดอักษรจีน หลัก [ 1 ]
รูปแบบหนึ่งของ CCCII เวอร์ชันก่อนหน้าถูกใช้โดยหอสมุดรัฐสภาเป็นส่วนหนึ่งของMARC-8ภายใต้ชื่อEast Asian Character Code ( EACC , ANSI/NISO Z39.64) [ 4 ]ซึ่งเป็นส่วนหนึ่งของ การสนับสนุน JACKPHY ของMARC 21อย่างไรก็ตาม EACC มีอักขระน้อยกว่า CCCII เวอร์ชันล่าสุด[ 5 ] [ 1 ]งานที่Appleสร้างขึ้นโดยอิงจาก CJK Thesaurus ของ Research Libraries Groupซึ่งใช้ในการบำรุงรักษา EACC เป็นหนึ่งในบรรพบุรุษโดยตรงของชุดUnihanของUnicode [ 6 ]
ออกแบบ

ช่วงไบต์
CCCII ได้รับการออกแบบให้เป็นชุด 94n ตามที่กำหนดโดยISO/IEC 2022 [ 1 ] อักขระภาษาจีนแต่ละตัวจะถูกแทนด้วยรหัส 3 ไบต์ โดยแต่ละไบต์เป็น 7 บิต ระหว่าง0x21และ 0x7E รวมทั้งสองค่า ดังนั้น จำนวนอักขระภาษาจีนสูงสุดที่สามารถแทนได้ใน CCCII คือ 94×94×94 = 830584 ในทางปฏิบัติ จำนวนอักขระที่สามารถเข้ารหัสได้ด้วย CCCII จะน้อยกว่าจำนวนนี้ เนื่องจากอักขระแบบแปรผันจะถูกเข้ารหัสในระนาบ ISO 2022 ที่เกี่ยวข้องภายใต้ CCCII ดังนั้นจุดรหัสส่วนใหญ่จะต้องสงวนไว้สำหรับอักขระแบบแปรผัน
อย่างไรก็ตาม ในทางปฏิบัติ บางครั้งมีการใช้ไบต์ที่อยู่นอกช่วงเหล่านี้ รหัส 0x212320 ถูกใช้โดยการใช้งานบางอย่างเป็น ช่องว่าง อักษรภาพ[ 8 ]ข้อกำหนด CCCII ที่ใช้โดยห้องสมุดในฮ่องกงใช้รหัสที่ขึ้นต้นด้วย 0x2120 สำหรับเครื่องหมายวรรคตอนและสัญลักษณ์[ 9 ]ไบต์แรก 0x7F ถูกใช้โดยตัวแปรบางตัวเพื่อเข้ารหัสรหัสสำหรับอักษรจีนบางตัวใน Unified Repertoire and OrderingหรือCJK Unified Ideographs Extension A ที่ไม่สามารถใช้ งานได้ (เช่น 0x7F3449 สำหรับ U+3449 หรือ 0x7F796E สำหรับ U+796E; [ 9 ]โปรดสังเกตว่าไบต์ต่อเนื่องตรงกับ รหัส UCS-2BE อย่างไร ) และอาจรวมถึงไบต์ที่อยู่นอกช่วง 0x21–0x7E หรือแม้แต่ 0x20–0x7F เช่น 0x7F551C สำหรับ U+551C [ 10 ] 0x7F5AA4 สำหรับ U+5AA4 [ 10 ]หรือ 0x7F8EDA สำหรับ U+8EDA [ 9 ]
การปฏิสัมพันธ์กับมาตรฐาน ISO 2022
CCCII/EACC ไม่ได้ลงทะเบียนในทะเบียนชุดอักขระเข้ารหัสระหว่างประเทศที่ใช้กับลำดับการหลีกเลี่ยง [ 11 ]และด้วยเหตุนี้จึงไม่มีการกำหนดมาตรฐาน escape สำหรับใช้กับ ISO 2022 MARC-8 กำหนดให้ EACC ใช้ไบต์ F ส่วนตัว0x31 ( ) 1ในการใช้งาน ANSI X3.41 (ISO 2022) [ 12 ]
เลเยอร์และอักขระแบบต่างๆ
ระนาบ ISO 2022 จำนวน 94 ระนาบถูกจัดกลุ่มเป็น 16 ชั้น โดยแต่ละชั้นมี 6 ระนาบ (ยกเว้นชั้นที่ 16 ซึ่งประกอบด้วยระนาบ 91–94 จำนวน 4 ระนาบ) [ 1 ]ชั้นที่ 1 ประกอบด้วยทั้งอักษรจีนที่ไม่ใช่อักษรจีนและ อักษร จีนโดยอักษรจีนที่ไม่ใช่อักษรจีนและอักษรจีนที่ใช้บ่อยที่สุดจะอยู่ในระนาบที่ 1 และอีก 5 ระนาบที่เหลือประกอบด้วยอักษรจีนที่ใช้น้อยกว่า[ 1 ]ชั้นที่ 2 ประกอบด้วยอักษรจีนตัวย่อโดยหมายเลขแถวและหมายเลขเซลล์จะเหมือนกับ อักษร จีนตัวเต็มในชั้นที่ 1 ชั้นที่ 3 ถึง 12 ประกอบด้วยรูปแบบที่แตกต่างกัน เพิ่มเติม โดยหมายเลขแถวและหมายเลขเซลล์จะเหมือนกับสองชั้นแรก[ 13 ]
เลเยอร์สี่ชั้นสุดท้ายใช้สำหรับวัตถุประสงค์อื่นโดยเฉพาะ เลเยอร์ 13 ประกอบด้วยอักขระเพิ่มเติมสำหรับ การสนับสนุน ภาษาญี่ปุ่น ( คะนะและโคคุจิ ของญี่ปุ่น ) และเลเยอร์ 14 ประกอบด้วยอักขระเพิ่มเติมสำหรับ การสนับสนุน ภาษาเกาหลี ( ฮันกึล ) [ 13 ]เลเยอร์ 15 ไม่ได้ใช้งาน (สงวนไว้) ในขณะที่เลเยอร์ 16 ใช้สำหรับอักขระอื่น[ 1 ]
การออกแบบที่โดดเด่นนี้ได้รับการวิพากษ์วิจารณ์โดย Christian Wittern จากสถาบันวิจัยพุทธศาสนาเซนนานาชาติแห่งมหาวิทยาลัย Hanazonoซึ่งยืนยันว่าความสัมพันธ์ของตัวแปรอักขระ "มีความซับซ้อนมากและไม่สามารถแสดงออกมาในตารางรหัสแบบตายตัว มิติเดียว" [ 3 ] Ken Lundeอธิบายว่าเป็น "หนึ่งในมาตรฐานชุดอักขระที่คิดมาอย่างดีที่สุดจากไต้หวัน" โดยอธิบายโครงสร้างของมันว่า "น่าชื่นชมอย่างแท้จริง" แต่สรุปว่า การแทนที่รูปแบบตัวแปร OpenTypeสามารถให้ฟังก์ชันการทำงานในระดับเดียวกันได้[ 1 ]
CCCII กำหนดจุดรหัสประมาณ 53940 จุดตามฉบับปี 1987 แม้ว่าฉบับร่างล่าสุดจากปี 1989 จะขยายเป็น 75684 จุดรหัส (ประกอบด้วยอักขระที่ไม่ซ้ำกัน 44167 ตัวและตัวแปร 31517 ตัว) EACC ซึ่งเป็นตัวแปรที่ใช้โดยหอสมุดรัฐสภาประกอบด้วยชุดอักขระที่เล็กกว่าเพียง 15686 ตัว[ 1 ]
การรับเลี้ยงบุตรบุญธรรม
ณ ปี 1995 CCCII หรือ EACC ถูกใช้ส่วนใหญ่ในห้องสมุดในสหรัฐอเมริกาฮ่องกงและไต้หวันแม้ว่า CCCII จะสัญญาว่าจะครอบคลุมภาษาจีน ญี่ปุ่น และเกาหลี(CJK)ทั้งหมด แต่การสนับสนุนก็จำกัดอยู่เฉพาะฮาร์ดแวร์เฉพาะทาง ความยากลำบากในการระบุว่าควรใช้ตัวอักษรรากหรือตัวอักษรแปรผันเมื่อใด ซึ่งยิ่งแย่ลงไปอีกเนื่องจากขาดสัญลักษณ์อ้างอิงที่กำหนดไว้อย่างมั่นคง ทำให้การนำไปใช้มีข้อจำกัดมากขึ้น ส่งผลให้Big5ถูกใช้กันอย่างแพร่หลายมากขึ้นสำหรับภาษาจีนในดินแดนเหล่านั้นนอกเหนือจากการใช้งานในห้องสมุด (เนื่องจากUnicodeยังไม่ได้รับการยอมรับอย่างกว้างขวางในขณะนั้น) [ 3 ]
ณ ปี 2009 EACC ยังคงถูกใช้งานอย่างกว้างขวางเพื่อวัตถุประสงค์ทางบรรณานุกรมเฉพาะทาง[ 1 ]นอกจากนี้ยังเป็นต้นแบบที่สำคัญของ Unicode ด้วย: [ 1 ]งานที่Appleเกี่ยวกับฐานข้อมูลอ้างอิงตัวอักษร CJK โดยอิงจาก CJK Thesaurus ของ Research Libraries Groupซึ่งใช้ในการบำรุงรักษา EACC ได้ถูกรวมเข้ากับการพัฒนาชุดUnihanของUnicode โดยตรง [ 6 ] ตัวอักษร ฮันจิของ Unicode ถูกอ้างอิงถึงรหัส CCCII และ EACC ที่เกี่ยวข้องใน ฐานข้อมูล Unihanในคีย์และ[ 4 ]อย่างไรก็ตาม เนื่องจากเกณฑ์การรวมตัวอักษรของ Unicode (อิงตามที่ใช้โดยJIS X 0208 ของญี่ปุ่น และตามที่ใช้โดยสมาคมเพื่อรหัสภาษาจีนทั่วไปในประเทศจีน) แตกต่างจากที่ใช้โดย CCCII ดังนั้นตัวอักษรที่แตกต่างกันทั้งหมดจึงไม่ได้ถูกแมปเป็นรายตัว[ 6 ] ตารางการแมปสำหรับฮันจิฮันกุล คานะและเครื่องหมายวรรคตอนระหว่าง EACC และ Unicode มีให้บริการจากหอสมุดแห่งชาติ[ 14 ]kCCCIIkEACC
ตารางแสดงเครื่องหมายวรรคตอน สัญลักษณ์ คะนะ และจาโม
ต่อไปนี้เป็นแผนภูมิสำหรับเครื่องหมายวรรคตอน สัญลักษณ์อักษรคะนะและอักษรฮันกุลจาโมซึ่งแสดงตัวอักษรและระบุการจับคู่ Unicode ที่เป็นไปได้ โดยจะอ้างอิงจากข้อมูลการจับคู่ที่เผยแพร่แล้วเท่าที่จะเป็นไปได้
ด้านล่างนี้ละเว้นการแมป Unicode สำหรับพยางค์ฮันกุล แต่ได้รับการบันทึกไว้โดยหอสมุดรัฐสภา[ 15 ]อักษรจีน CCCII มีจำนวนหลายหมื่นตัว[ 1 ] [ 3 ]และไม่ได้แสดงไว้ด้านล่าง (ยกเว้นในกรณีที่รวมอยู่ในช่วงที่ไม่ใช่อักษรจีน เช่น รากศัพท์หรือตัวเลข) แต่การแมปไปยัง Unicode นั้นมีอยู่ในฐานข้อมูล Unihan [ 4 ]และจากแหล่งอื่น[ 10 ] [ 9 ]
ชุดอักขระ 0x2120 (ระนาบ 1 แถว 0: เครื่องหมายวรรคตอนฮ่องกง)
แม้ว่า CCCII มักจะเป็นชุด 94 n [ 1 ]และโดยทั่วไปจึงไม่ได้ใช้รหัสที่ขึ้นต้นด้วย 0x2120 [ 10 ]แต่รูปแบบต่อไปนี้ถูกใช้โดยตัวแปรที่ใช้โดยห้องสมุดในฮ่องกง: [ 9 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | 、 | 。 | ・ | ゙ | ゚ | ´ | ` | ¨ |  ̄ | ヽ | ヾ | ゝ | ゞ | |||
| 3x | 〃 | 〆 | ‖ | … | ‥ | |||||||||||
| 4x | “ | 〔 | 〕 | 「 | 」 | 『 | 』 | 【 | 】 | ± | × | ÷ | ||||
| 5x | ≠ | ≦ | ≧ | ∞ | ∴ | ♂ | ♀ | ° | ℃ | ¢ | ปอนด์ | § | ☆ | ★ | ○ | ● |
| 6x | ′ | " | ◎ | |||||||||||||
| 7x | ◇ | ◆ | □ | ■ | △ | ▲ | ▽ | ▼ | ※ | 〒 | → | ← | ↑ | ↓ |
ชุดอักขระ 0x2121 (ระนาบ 1 แถว 1: สงวนไว้สำหรับปุ่มควบคุม)
ไม่มีการกำหนดอักขระใดๆ ในระนาบ 1 แถว 1 ซึ่งสงวนไว้สำหรับรหัสควบคุม[ 1 ]
ชุดอักขระ 0x2122 (ระนาบ 1 แถว 2: ตัวดำเนินการทางคณิตศาสตร์)
แถวนี้ประกอบด้วยตัวดำเนินการทางคณิตศาสตร์ EACC เว้นแถวนี้ว่างไว้[ 14 ]ตารางต่อไปนี้อ้างอิงจากแหล่งข้อมูลจากไต้หวัน[ 2 ] [ 10 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ∞ | + | − | ± | × | ⋅ | ÷ | ∕ | = | ≠ | ≡ | ≈ | ~ | ∝ | < | |
| 3x | > | ≮ | ≯ | ≤ | ≥ | ≪ | ≫ | ∂ | ∫ | Δ | ∆ | ∇ | ▫ | ∠ | ⊤ | ∥ |
| 4x | ≅ | ≞ | ∴ | ∃ | ∀ | ∪ | ∩ | ⊂ | ⊃ | ⇒ | ⇔ | ∋ | ∈ | ∉ | ∑ | ㏒ |
| 5x | ㏑ | ℯ | π | √ | ︕ | ⎸ | ⎹ | 〈 | 〉 | |||||||
| 6x | ||||||||||||||||
| 7x |
ตารางต่อไปนี้อ้างอิงจากข้อมูล CCCII ที่จัดทำโดย Hong Kong Innovative Users Group ซึ่งเป็นกลุ่มห้องสมุดในฮ่องกง และจัดทำโดยมหาวิทยาลัยฮ่องกง[ 17 ] [ 9 ]โดยใช้รูปแบบที่แตกต่างกันโดยสิ้นเชิงในแถวนี้:
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ∈ | ∋ | ⊆ | ⊇ | ⊂ | ⊃ | ∪ | ∩ | ∧ | ∨ | ¬ | ⇒ | ⇔ | ∀ | ∃ | |
| 3x | ∠ | ⊥ | ⌒ | ∂ | ∇ | ≡ | ≒ | ≪ | ≫ | √ | ∽ | ∝ | ∵ | ∫ | ∬ | |
| 4x | Å | ‰ | ♯ | ♭ | ♪ | † | ‡ | ¶ | ◯ | |||||||
| 5x | ─ | │ | ┌ | ┐ | ┘ | └ | ├ | ┬ | ┤ | ┴ | ┼ | ━ | ┃ | ┏ | ┓ | ┛ |
| 6x | ┗ | ┣ | ┳ | ┫ | ┻ | ╋ | ┠ | ┯ | ┨ | ┷ | ┿ | ┝ | ┰ | ┥ | ┸ | ╂ |
| 7x |
ชุดอักขระ 0x2123 (ระนาบ 1 แถว 3: โรมันและเครื่องหมายวรรคตอน)
แถวนี้ประกอบด้วยเครื่องหมายวรรคตอนตัวเลขอาหรับตะวันตกและตัวอักษรโรมัน[ 10 ]เปรียบเทียบแถวที่ 3 ของรหัส Wansungและแถวที่ 3 ของ GB 2312
รูปแบบต่างๆ เข้ารหัสช่องว่างอักษรภาพ (U+3000) ที่ 0x212320 (ซึ่งข้อกำหนด MARC ยอมรับ) [ 8 ] [ 9 ] 0x212321 (ซึ่งระบุไว้ในมาตรฐาน ANSI และ MARC ก็ยอมรับเช่นกัน) [ 8 ] [ 9 ]หรือ 0x21635F [ 10 ] EACC รวมเฉพาะเครื่องหมายยัติภังค์วงเล็บ และช่องว่างอักษรภาพไว้ในชุดนี้[ 8 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | IDSP[ก] | ! / idsp [ b ] | " | # | $ | % | & | ' | ( / ( | ) / ) | * | + | , | - / - | . | / |
| 3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
| 4x | @ | เอ | บี | ซี | ดี | อี | เอฟ | จี | ชม | ฉัน | เจ | เค | แอล | เอ็ม | เอ็น | โอ |
| 5x | พี | คิว | อาร์ | เอส | ที | ยู | วี | ว | X | วาย | ซ | [ | \ | ] | ↑ | _ |
| 6x | ` / ' | เอ | ข | ค | ง | อี | เอฟ | จี | ชม. | ฉัน | เจ | เค | ล | ม | n | โอ |
| 7x | พี | q | ร | ส | ที | คุณ | วี | ว | x | y | z | { | | | } | ~ |
ชุดอักขระ 0x212A (ระนาบ 1 แถว 10: อักขระ IME ภายในและเครื่องหมายเกตะ)
ใน EACC แถวนี้ประกอบด้วย อักขระที่แมป พื้นที่ใช้งานส่วนตัว หลายตัว ที่ใช้ภายในเพื่อแสดงส่วนประกอบของอักขระโดยวิธีการป้อนข้อมูลRLIN [ 18 ]ซึ่งห้องสมุดรัฐสภาใช้สำหรับการจัดทำรายการที่ไม่ใช่โรมัน[ 19 ]อักขระส่วนประกอบเหล่านี้ควรใช้ภายในโดยIME เท่านั้น และหากพบที่อื่น อาจถูกแทนที่ด้วยเครื่องหมายเกตะ (U+3013) [ 18 ]ซึ่งแถวนี้รวมอยู่ที่ 0x212A46 ด้วย แถวนี้ไม่ได้กำหนดไว้ใน CCCII [ 1 ]แต่เครื่องหมายเกตะก็มีอยู่ในตำแหน่งนั้นในการแมปบางรายการสำหรับ CCCII ด้วย[ 10 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | � | � | � | � | � | � | � | � | � | � | � | � | � | � | ||
| 3x | � | � | � | � | � | � | � | � | � | � | � | � | � | � | � | |
| 4x | � | � | � | � | � | � | 〓 | |||||||||
| 5x | ||||||||||||||||
| 6x | ||||||||||||||||
| 7x |
ชุดอักขระ 0x212B (ระนาบ 1 แถว 11: เครื่องหมายวรรคตอน)
แถวนี้ประกอบด้วยเครื่องหมายวรรคตอนต่างๆ ที่ใช้ในภาษาจีน[ 1 ] [ 8 ]รวมถึงสัญลักษณ์อื่นๆ CCCII ประกอบด้วยเครื่องหมายวรรคตอน 35 ตัวในแถวนี้[ 1 ] EACC ประกอบด้วยอักขระเพียง 13 ตัวในแถวนี้ (แสดงในกรอบด้านล่าง) [ 8 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ︵ | ︶ | ﹁ | ﹂ | " | 」 | ︳ | _ | ﹃ | ﹄ | 『 | 』 | ︴ | ﹏ | ︹ | |
| 3x | ︺ | 〔 / [ | 〕 / ] | 。 | ・/ . | 、 | ⋮ | ⋯ | , | ; | : | ? | ︱ | ! | ︲ | ︱ |
| 4x | ' | ' | “ | ” | 《 | 》 | 【 | 】 | 〖 | 〗 | ||||||
| 5x | $ | ¢ | ₡ | ปอนด์ | ¥ | ₨ | ง. | ส. | / | # | % | ⅌ | @ | ¶ | ® | |
| 6x | © | ℅ | และ | § | † | ‡ | * | |||||||||
| 7x | ヽ | ヾ | ゝ | ゞ | α | 〒 |
ชุดอักขระ 0x212C–0x212E (ระนาบ 1 แถว 12–14: รากและลำดับ)
แถวเหล่า นี้ประกอบด้วยอักษรจีน [ 1 ]เลขโรมัน[ 10 ]ลำต้นฟ้าและกิ่งก้านโลก[ 16 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ~ | ~ | ~ | ~ | ~ | ⼅ | ⼆ | ⼇ | ~ | ⼉ | ~ | ⼋ | ⼌ | |||
| 3x | ⼍ | ⼎ | ⼏ | ~ | ⼑ | ⼒ | ~ | ⼔ | ⼕ | ⼖ | ⼗ | ⼘ | ⼙ | ⼚ | ⼛ | ~ |
| 4x | ⼝ | ⼞ | ⼟ | ⼠ | ⼡ | ⼢ | ⼣ | ⼤ | ⼥ | ⼦ | ⼧ | ⼨ | ⼩ | ⼪ | ⼫ | |
| 5x | ⼬ | ⼭ | ⼮ | ⼯ | ⼰ | ⼱ | ⼲ | ⼳ | ⼴ | ⼵ | ⼶ | ⼷ | ~ | ~ | ⼺ | ~ |
| 6x | ~ | ~ | ⼾ | ⼿ | ⽀ | ⽁ | ⽂ | ⽃ | ⽄ | ⽅ | ⽆ | ⽇ | ⽈ | ⽉ | ⽊ | |
| 7x | ⽋ | ⽌ | ⽍ | ⽎ | ⽏ | ⽐ | ⽑ | ⽒ | ⽓ | ⽔ | ⽕ | ⽖ | ⽗ | ⽘ | ⽙ |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ⽚ | ⽛ | ⽜ | ⽝ | ⽞ | ⽟ | ⽠ | ⽡ | ⽢ | ⽣ | ⽤ | ⽥ | ⽦ | ⽧ | ||
| 3x | ⽨ | ⽩ | ⽪ | ⽫ | ⽬ | ⽭ | ⽮ | ⽯ | ⽰ | ⽱ | ⽲ | ⽳ | ⽴ | ⽵ | ⽶ | |
| 4x | ⽷ | ⽸ | ⽹ | ⽺ | ⽻ | ⽼ | ⽽ | ⽾ | ⽿ | ⾀ | ⾁ | ⾂ | ⾃ | ⾄ | ⾅ | ⾆ |
| 5x | ⾇ | ⾈ | ⾉ | ⾊ | ⾋ | ⾌ | ⾍ | ⾎ | ⾏ | ⾐ | ⾑ | ⾒ | ⾓ | ⾔ /訁 | ⾕ | |
| 6x | ⾖ | ⾗ | ⾘ | ⾙ | ⾚ | ⾛ | ⾜ | ⾝ | ⾞ | ⾟ | ⾠ | ⾡ | ⾢ | ⾣ | ⾤ | ⾥ |
| 7x | ⾦ /釒 | ⾧ | ⾨ | ⾩ | ⾪ | ⾫ | ⾬ | ⾭ | ⾮ | ⾯ | ⾰ | ⾱ | ⾲ |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ⾳ | ⾴ | ⾵ | ⾶ | ⾷ /飠 | ⾸ | ⾹ | ⾺ | ⾻ | ⾼ | ⾽ | ⾾ | ⾿ | ⿀ | ||
| 3x | ⿁ | ⿂ | ⿃ | ⿄ | ⿅ | ⿆ | ⿇ | ⿈ | ⿉ | ⿊ | ⿋ | ⿌ | ⿍ | |||
| 4x | ⿎ | ⿏ | ⿐ | ⿑ | ⿒ | ⿓ | ⿔ | ⿕ | ||||||||
| 5x | 甲 | 乙 | 丙 | 丁 | 戊 | 己 | 庚 | 辛 | 壬 | 癸 | ||||||
| 6x | 子 | 丑 | 寅 | 卯 | 辰 | 巳 | 午 | 未 | 申 | 酉 | 戌 | 亥 | ||||
| 7x | Ⅰ | Ⅱ | Ⅲ | Ⅳ | Ⅴ | Ⅵ | Ⅶ | Ⅷ | Ⅸ | Ⅹ | Ⅺ | Ⅻ |
ชุดอักขระ 0x212F (ระนาบ 1 แถว 15: ตัวเลขจีนและโบโปโมโฟ)
แถวนี้ประกอบด้วยตัวเลขจีนและอักษรโบโปโมโฟ[ 1 ] EACC ประกอบด้วยเลขศูนย์อักษรภาพ (〇) เท่านั้น[ 8 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | 〡 | 〢 | 〣 | 〤 | 〥 | 〦 | 〧 | 〨 | 〩 | 〸 | 〹 | 〺 | ||||
| 3x | 〇 | หนึ่ง | 二 | 三 | 四 | 五 | 六 | 七 | 八 | 九 | 十 | 百 | 千 | 万 | ||
| 4x | 零 | 壹 | 貳 | 參 | 肆 | 伍 | 陸 | 柒 | 捌 | 玖 | 拾 | 佰 | 仟 | 萬 | 億 | |
| 5x | ˊ | ˇ | ˋ | ˙ / ﹒ [ c ] | ㄅ | ㄆ | ㄇ | ㄈ | ㄉ | ㄊ | ㄋ | ㄌ | ㄍ | ㄎ | ㄏ | ㄐ |
| 6x | ㄑ | ㄒ | ㄓ | ㄔ | ㄕ | ㄖ | ㄗ | ㄘ | ㄙ | ㄚ | ㄛ | ㄜ | ㄝ | ㄞ | ㄟ | ㄠ |
| 7x | ㄡ | ㄢ | ㄣ | ㄤ | ㄥ | ㄦ | ㄧ | ㄨ | ㄩ | ü |
ชุดอักขระ 0x272B (ระนาบ 7 แถว 11: เครื่องหมายอ้างอิง)
แถวนี้มีเครื่องหมายอ้างอิง ( kome jirushi ) [ 10 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 6x | ※ |
ชุดอักขระ 0x272E–0x272F (ระนาบ 7 แถว 14–15: bopomofo ทางเลือก)
รูปแบบที่ห้องสมุดในฮ่องกงใช้ไม่ได้รวมอักขระ bopomofo ไว้ในระนาบ 1 แถว 15 แต่รวมไว้ในเค้าโครงที่แตกต่างกันในระนาบ 7 [ 9 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7x | ㄅ | ㄆ | ㄇ | ㄈ | ㄉ | ㄊ | ㄋ | ㄌ | ㄍ | ㄎ |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ㄏ | ㄐ | ㄑ | ㄒ | ㄓ | ㄔ | ㄕ | ㄖ | ㄗ | ㄘ | ㄙ | ㄚ | ㄛ | ㄜ | ㄝ | |
| 3x | ㄞ | ㄟ | ㄠ | ㄡ | ㄢ | ㄣ | ㄤ | ㄥ | ㄦ | ㄧ | ㄨ | ㄩ |
ชุดอักขระ 0x6921 (ระนาบ 73 แถว 1: เครื่องหมายวรรคตอนภาษาญี่ปุ่น)
แถวนี้อยู่ในระนาบที่ 73 ซึ่งเป็นระนาบแรกของชั้นที่ 13 ซึ่งมีอักขระที่รวมไว้สำหรับการสนับสนุนภาษาญี่ปุ่น[ 13 ]ประกอบด้วยเครื่องหมายวรรคตอน[ 8 ]เปรียบเทียบกับแถวที่ 1 ของ JIS X 0208ซึ่งแถวนี้มักจะปฏิบัติตามเค้าโครงของอักขระที่รวมอยู่
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | • | |||||||||||||||
| 3x | 々 | 〆 | — | |||||||||||||
| 4x | ||||||||||||||||
| 5x | 〈 | 〉 | 《 | 》 | ||||||||||||
| 6x | ||||||||||||||||
| 7x |
ชุดอักขระ 0x6924 (ระนาบ 73 แถว 4: ฮิรากานะ)
แถวนี้มีตัวอักษรฮิรากานะเปรียบเทียบกับแถวที่ 4 ของมาตรฐาน JIS X 0208
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ぁ | あ | ぃ | ครับ | ぅ | เอ่อ | ぇ | え | ぉ | お | คะ | が | กิ | ぎ | く | |
| 3x | ぐ | け | げ | こ | ご | さ | ざ | ชิ | じ | เลย | ず | せ | ぜ | そ | ぞ | ตะ |
| 4x | だ | ち | ぢ | っ | つ | づ | て | で | と | ど | นะ | に | ぬ | ね | の | ฮะ |
| 5x | ば | ぱ | ひ | び | ぴ | ふ | ぶ | ぷ | へ | べ | ぺ | ほ | ぼ | ぽ | มะ | み |
| 6x | む | め | เช่นกัน | ゃ | や | ゅ | ゆ | ょ | よ | ら | ริ | รุ | れ | ろ | ゎ | わ |
| 7x | ゐ | ゑ | を | ง |
ชุดอักขระ 0x6925 (ระนาบ 73 แถว 5: คาตาคานะ)
แถวนี้ประกอบด้วยอักษรคาตาคานะเปรียบเทียบกับแถวที่ 5 ของ JIS X 0208ซึ่งตรงกับแถวนี้ นอกจากนี้ยังมีการเพิ่มอักษรดากุเต็นและฮันดากุเต็นแยก ต่างหากอีกด้วย
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ァ | อา | dir | ไอ | ゥ | ウ | ェ | エ | ォ | オ | คะ | ガ | キ | ギ | ค | |
| 3x | グ | ケ | ゲ | โค | ゴ | サ | ザ | ซิ | ジ | ス | ズ | セ | ゼ | ソ | ゾ | ต้า |
| 4x | ダ | チ | ヂ | ッ | ツ | ヅ | テ | デ | ท | ด | ナ | ニ | ヌ | ネ | ノ | ハ |
| 5x | บะ | パ | ヒ | ビ | ピ | ฟ | ブ | プ | ヘ | ベ | ペ | ホ | ボ | ポ | マ | มิ |
| 6x | ム | メ | モ | ャ | ヤ | ュ | ユ | ョ | ヨ | รา | ลี | แอล | レ | ร | ヮ | ワ |
| 7x | ヰ | ヱ | ヲ | ง | ヴ | ヵ | ヶ | ◌゙/゛ | ◌゚/゜ |
ชุดอักขระ 0x6F24–0x6F25 (ระนาบ 79 แถว 4–5: jamo)
แถวเหล่านี้ประกอบด้วยจาโมเกาหลี
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5x | ㄱ | ㄴ | ㄷ | ㄹ | ㅁ | ㅂ | ㅅ | ㅇ | ㅈ | |||||||
| 6x | ㅊ | คิ. | ㅌ | ㅍ | ㅎ | ㄲ | ㄸ | ㅃ | ||||||||
| 7x | ㅆ | ㅉ | ㅏ | ㅐ | ㅑ | ㅓ | ㅔ | ㅕ | ㅗ | ㅘ | ㅛ |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ㅜ | ㅠ | ㅡ | ㅢ | ㅣ |
ชุดอักขระ 0x6F76 (ระนาบ 79 แถว 86: อักษรฮันกุลโบราณ)
แถวนี้ประกอบด้วย อักษร ฮันกุล โบราณหลายตัว ที่ไม่ได้ใช้เป็นประจำอีกต่อไป หลายตัวถูกแมปไปยัง พื้นที่ ใช้งานส่วนตัว[ 18 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ㆁ | ㆆ | ㅿ | � | ㆍ | |||||||||||
| 3x | ||||||||||||||||
| 4x | � | � | � | � | � | � | � | � | � | � | � | � | � | � | � | � |
| 5x | � | � | � | � | � | � | � | � | ||||||||
| 6x | ||||||||||||||||
| 7x |
ชุดอักขระ 0x7B25 (ระนาบ 91 แถว 5: อักษรคาตาคานะเสริม)
แถวนี้ประกอบด้วยอักษรคาตาคา นะเพิ่มเติม ที่ใช้เขียนหน่วยเสียงต่างประเทศ[ 10 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7x | ヷ | ヸ | ヹ |
ดูเพิ่มเติม
เชิงอรรถ
- ^นอกช่วงไบต์ท้ายของชุด ISO 2022 94 nแต่มีการบันทึกไว้ว่ามีการใช้งานโดยการใช้งานบางอย่าง [ 8 ]
- ^การเข้ารหัสพื้นที่อักษรภาพที่ระบุในมาตรฐาน ANSI สำหรับ EACC [ 8 ]ใช้เป็นเครื่องหมายอัศเจรีย์ใน CCCII [ 10 ]นอกเหนือจากเครื่องหมายอัศเจรีย์ที่ 0x212B3D [ 16 ] CCCII เวอร์ชัน HKIUG ของฮ่องกงเป็นไปตาม EACC ที่นี่ [ 9 ]
- ^การแมป Encode::HanExtra ใช้ U+FE52 สำหรับอักขระนี้ [ 10 ]อย่างไรก็ตาม ปรากฏที่นี่ตามหลัง ˊ, ˇ และ ˋ [ 16 ] ซึ่ง เป็นเครื่องหมายวรรณยุกต์อีกสามตัว สำหรับ bopomofo การแมป U+02D9 มักใช้สำหรับเครื่องหมายวรรณยุกต์นี้ในช่วงการ เข้ารหัส bopomofo เช่น Big5 [ 20 ]
ลิงก์ภายนอก
- เว็บไซต์อย่างเป็นทางการของ CNS 11643 (มีเวอร์ชันภาษาอังกฤษให้เลือกดู) มีข้อมูลเกี่ยวกับชุดอักขระ CCCII ในส่วน "รหัสข้อมูลภาษาจีน"
- แผนผังการแปลง EACC เป็น Unicode ฉบับสมบูรณ์ จากหอสมุดแห่งชาติสหรัฐอเมริกา
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ รหัสอักษรจีนสำหรับการแลกเปลี่ยนข้อมูล
รหัสอักขระจีนสำหรับการแลกเปลี่ยนข้อมูล ( ภาษาจีน :中文資訊交換碼) หรือCCCIIเป็นชุดอักขระที่พัฒนาโดยกลุ่มวิเคราะห์อักขระจีนในไต้หวันเผยแพร่ครั้งแรกในปี 1980...
ออกแบบ
อักขระเก้าตัวจากการใช้งาน CCCII หรือ EACC ซึ่งเข้ารหัสเป็นรูปแบบต่างๆ ของ劍( ดาบสองคม ) ตัวที่เก้าคือ 釖 ซึ่งโดยปกติจะเป็นรูปแบบหนึ่งของ刀 [ 7 ]
ช่วงไบต์
CCCII ได้รับการออกแบบให้เป็นชุด 94n ตาม ที่กำหนดโดย ISO/IEC 2022 [ 1 ] อักขระ ภาษาจีนแต่ละตัวจะถูกแทนด้วยรหัส 3 ไบต์ โดยแต่ละไบต์เป็น 7 บิต ระหว่าง 0x21 และ 0x7E รวมทั้งสองค่า ดังนั้น จำนวนอักขระภาษาจีนสูงสุดที่สามารถแทนได้ใน CCCII คือ 94×94×94 = 830584...
การปฏิสัมพันธ์กับมาตรฐาน ISO 2022
CCCII/EACC ไม่ได้ลงทะเบียนใน ทะเบียนชุดอักขระเข้ารหัสระหว่างประเทศที่ใช้กับลำดับการหลีกเลี่ยง [ 11 ] และด้วยเหตุนี้จึงไม่มีการกำหนดมาตรฐาน escape สำหรับใช้กับ ISO 2022 MARC-8 กำหนดให้ EACC ใช้ไบต์ F ส่วนตัว 0x31 ( ) 1 ในการใช้งาน ANSI X3.41 (ISO 2022) [ 12 ]