อ่าน 29 นาที
จีไอเอส X 0208
JIS X 0208 เป็น ชุดอักขระ 2 ไบต์ที่ระบุเป็น มาตรฐานอุตสาหกรรมของญี่ปุ่น ประกอบด้วยอักขระกราฟิก 6879 ตัวที่เหมาะสำหรับการเขียนข้อความ ชื่อสถานที่ ชื่อบุคคล และอื่นๆ ใน ภาษา ญี่ปุ่น...
จีไอเอส X 0208
| ชื่อเล่น | จีไอเอส ซี 6226 |
|---|---|
| ภาษา | การสนับสนุนบางส่วน : |
| มาตรฐาน | มาตรฐาน JIS X 0208:1978 ถึง 1997 |
| การจำแนกประเภท | |
| ส่วนขยาย |
|
| รูปแบบการเข้ารหัส |
|
| นำหน้าโดย | จีไอเอส X 0201 |
| ประสบความสำเร็จโดย | จีไอเอส X 0213 |
| การเข้ารหัสอื่นๆ ที่เกี่ยวข้อง | เอกสารอ้างอิงเพิ่มเติม: JIS X 0212 รหัส DBCS อื่นๆ ของ ISO 2022 CJK: |
JIS X 0208 เป็น ชุดอักขระ 2 ไบต์ที่ระบุเป็นมาตรฐานอุตสาหกรรมของญี่ปุ่นประกอบด้วยอักขระกราฟิก 6879 ตัวที่เหมาะสำหรับการเขียนข้อความ ชื่อสถานที่ ชื่อบุคคล และอื่นๆ ในภาษาญี่ปุ่น ชื่ออย่างเป็นทางการของมาตรฐานปัจจุบันคือ7 บิตและ 8 บิตดับเบิลไบต์รหัส KANJI ชุดสำหรับการแลกเปลี่ยนข้อมูล( 7 ビット及び8ビットの2 hibaイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō โคคังโย ฟูโกกะ คันจิ ชูโก)มาตรฐานนี้ได้รับการกำหนดขึ้นครั้งแรกในชื่อJIS C 6226ในปี 1978 และได้รับการแก้ไขเพิ่มเติมในปี 1983, 1990 และ 1997 IBM เรียกมาตรฐานนี้ว่าCode page 952และเวอร์ชันปี 1978 ก็ถูกเรียกว่าCode page 955โดย IBM เช่นกัน
ขอบเขตการใช้งานและความเข้ากันได้
ชุดอักขระ JIS X 0208 มีวัตถุประสงค์หลักเพื่อการแลกเปลี่ยนข้อมูล(情報交換, jōhō kōkan )ระหว่างระบบประมวลผลข้อมูลและอุปกรณ์ที่เชื่อมต่ออยู่ หรือระหว่างระบบสื่อสารข้อมูลด้วยกันเอง ชุดอักขระนี้สามารถใช้สำหรับการประมวลผลข้อมูลและการประมวลผลข้อความได้
การใช้งานชุดอักขระบางส่วนไม่ถือว่าเข้ากันได้ เนื่องจากมีบางที่ที่เกิดเหตุการณ์เช่นนี้ขึ้น เช่น คณะกรรมการร่างมาตรฐานฉบับแรกได้ระมัดระวังในการแยกอักขระระหว่างระดับ 1 และระดับ 2 และมาตรฐานฉบับที่สองได้สลับอักขระตัวแปรบางตัว (異体字, itaiji ) ระหว่างระดับต่างๆ อย่างน้อยในมาตรฐานฉบับแรกและฉบับที่สอง จึงมีการสันนิษฐานว่าระบบคอมพิวเตอร์ภาษาญี่ปุ่นที่ไม่ใช้คันจิและใช้งานเฉพาะระดับ 1 เคยได้รับการพิจารณาสำหรับการพัฒนา อย่างไรก็ตาม การใช้งานดังกล่าวไม่เคยถูกระบุว่าเข้ากันได้ แม้ว่าจะมีตัวอย่างเช่นNEC PC-9801 รุ่นแรกๆ อยู่ก็ตาม[ 1 ]
แม้ว่าจะมีข้อกำหนดในมาตรฐาน JIS X 0208:1997 เกี่ยวกับความเข้ากันได้ แต่ในปัจจุบันโดยทั่วไปถือว่ามาตรฐานนี้ไม่ได้รับรองความเข้ากันได้ และไม่ใช่มาตรฐานการผลิตอย่างเป็นทางการที่เทียบเท่ากับการประกาศความเข้ากันได้ด้วยตนเอง[ 2 ]ด้วยเหตุนี้ในทางปฏิบัติผลิตภัณฑ์ที่ "เข้ากันได้" กับ JIS X 0208 จึงไม่ถือว่ามีอยู่จริง คำศัพท์เช่น "สอดคล้อง" (準拠, junkyo )และ "รองรับ" (対応, taiō )รวมอยู่ใน JIS X 0208 แต่ความหมายของคำเหล่านี้แตกต่างกันไปในแต่ละบุคคล
แผนผังรหัส
ไบต์นำ
ไบต์การเข้ารหัสตัวแรกจะตรงกับหมายเลขแถวหรือหมายเลขเซลล์บวก 0x20 หรือ 32 ในระบบเลขฐานสิบ (ดูด้านล่าง) ดังนั้น ชุดรหัสที่เริ่มต้นด้วย 0x21 จะมีหมายเลขแถวเป็น 1 และเซลล์ที่ 1 จะมีไบต์ต่อเนื่องเป็น 0x21 (หรือ 33) และเป็นเช่นนี้ต่อไป
สำหรับไบต์นำที่ใช้สำหรับอักขระอื่นที่ไม่ใช่คันจิจะมีลิงก์ไปยังแผนภูมิในหน้านี้ซึ่งแสดงรายการอักขระที่เข้ารหัสภายใต้ไบต์นำนั้น สำหรับไบต์นำที่ใช้สำหรับคันจิ จะมีลิงก์ไปยังส่วนที่เกี่ยวข้องในดัชนีคันจิของ Wiktionary
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | เอสพี | 1-_ | 2-_ | 3-_ | 4-_ | 5-_ | 6-_ | 7-_ | 8-_ | 9-_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | 15-_ |
| 3x | 16-_ | 17-_ | 18-_ | 19-_ | 20-_ | 21-_ | 22-_ | 23-_ | 24-_ | 25-_ | 26-_ | 27-_ | 28-_ | 29-_ | 30-_ | 31-_ |
| 4x | 32-_ | 33-_ | 34-_ | 35-_ | 36-_ | 37-_ | 38-_ | 39-_ | 40-_ | 41-_ | 42-_ | 43-_ | 44-_ | 45-_ | 46-_ | 47-_ |
| 5x | 48-_ | 49-_ | 50-_ | 51-_ | 52-_ | 53-_ | 54-_ | 55-_ | 56-_ | 57-_ | 58-_ | 59-_ | 60-_ | 61-_ | 62-_ | 63-_ |
| 6x | 64-_ | 65-_ | 66-_ | 67-_ | 68-_ | 69-_ | 70-_ | 71-_ | 72-_ | 73-_ | 74-_ | 75-_ | 76-_ | 77-_ | 78-_ | 79-_ |
| 7x | 80-_ | 81-_ | 82-_ | 83-_ | 84-_ | 85-_ | 86-_ | 87-_ | 88-_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | เดล |
แถวที่ไม่ใช่คันจิ
ชุดอักขระ 0x21 (แถวที่ 1, อักขระพิเศษ)
ผู้จำหน่ายบางรายใช้การแมป Unicode ที่แตกต่างกันเล็กน้อยสำหรับชุดนี้เมื่อเทียบกับชุดด้านล่าง ตัวอย่างเช่นMicrosoftแมป kuten 1-29 (JIS 0x213D) ไปยัง U+2015 (เส้นแนวนอน) [ 3 ]ในขณะที่Appleแมปไปยัง U+2014 (เส้นประยาว) [ 4 ]ในทำนองเดียวกัน Microsoft แมป kuten 1-61 (JIS 0x215D) ไปยัง U+FF0D [ 3 ] (รูปแบบความกว้างเต็มของ U+002D เครื่องหมายยัติภังค์-ลบ) และ Apple แมปไปยัง U+2212 (เครื่องหมายลบ) [ 4 ]การแมป Unicode ของเส้นประคลื่นก็แตกต่างกันไปในแต่ละผู้จำหน่าย ดูเซลล์ที่มีเชิงอรรถด้านล่าง
เครื่องหมายวรรคตอน ASCII และJISCII (แสดงในภาพด้วยพื้นหลังสีเหลือง) อาจใช้การแมปแบบอื่นกับ บล็อก Halfwidth และ Fullwidth Formsหากใช้ในการเข้ารหัสที่ผสมผสาน JIS X 0208 กับASCIIหรือกับJIS X 0201เช่นShift JIS , EUC-JPหรือISO 2022- JP
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | IDSP | 、 | 。 | , | . | • | : | ; | ? | ! | ゛ | ゜ | ´ | ` | ¨ | |
| 3x | ^ | ‾ | _ | ヽ | ヾ | ゝ | ゞ | 〃 | 仝 | 々 | 〆 | 〇 | — | — [ค] | - | / |
| 4x | \ | 〜[ d ] | ‖ [ e ] | | | … | ‥ | ' | ' | “ | ” | ( | ) | 〔 | 〕 | [ | ] |
| 5x | { | } | 〈 | 〉 | 《 | 》 | 「 | 」 | 『 | 』 | 【 | 】 | + | − [ f ] | ± | × |
| 6x | ÷ | = | ≠ | < | > | ≦ | ≧ | ∞ | ∴ | ♂ | ♀ | ° | ′ | " | ℃ | ¥ |
| 7x | $ | ¢ | ปอนด์ | % | # | & | * | @ | § | ☆ | ★ | ○ | ● | ◎ | ◇ |
ชุดอักขระ 0x22 (แถวที่ 2, อักขระพิเศษ)
อักขระส่วนใหญ่ในชุดนี้ถูกเพิ่มเข้ามาในปี 1983 ยกเว้นอักขระ 0x2221–0x222E (kuten 2-1 ถึง 2-14 หรือบรรทัดแรกของตารางด้านล่าง) ซึ่งรวมอยู่ในมาตรฐานเวอร์ชันดั้งเดิมปี 1978
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ◆ | □ | ■ | △ | ▲ | ▽ | ▼ | ※ | 〒 | → | ← | ↑ | ↓ | 〓 | ||
| 3x | ∈ | ∋ | ⊆ | ⊇ | ⊂ | ⊃ | ||||||||||
| 4x | ∪ | ∩ | ∧ | ∨ | ¬ | ⇒ | ⇔ | ∀ | ||||||||
| 5x | ∃ | ∠ | ⊥ | ⌒ | ∂ | |||||||||||
| 6x | ∇ | ≡ | ≒ | ≪ | ≫ | √ | ∽ | ∝ | ∵ | ∫ | ∬ | |||||
| 7x | Å | ‰ | ♯ | ♭ | ♪ | † | ‡ | ¶ | ◯ |
ชุดอักขระ 0x23 (แถวที่ 3, ตัวเลขและเลขโรมัน)
ชุดอักขระนี้ประกอบด้วยส่วนย่อยของ ชุดอักขระคง ที่ ISO 646 (และด้วยเหตุนี้จึงเป็นส่วนย่อยของทั้งASCIIและ ชุดอักขระโรมัน JIS X 0201 ) โดยไม่รวมเครื่องหมายวรรคตอนและสัญลักษณ์ ประกอบด้วยตัวเลขอาหรับตะวันตกและตัวพิมพ์ใหญ่และตัวพิมพ์เล็กของอักษรละตินพื้นฐานอักขระในชุดนี้อาจใช้การแมป Unicode ทางเลือกไปยัง บล็อก Halfwidth และ Fullwidth Formsหากใช้ในการเข้ารหัสที่รวม JIS X 0208 กับ ASCII หรือกับ JIS X 0201 เช่นEUC-JP , Shift JISหรือISO 2022- JP
เปรียบเทียบกับแถวที่ 3 ของ KPS 9566ซึ่งตรงกับแถวนี้ทุกประการ และเปรียบเทียบและหาความแตกต่างระหว่างแถวที่ 3 ของ KS X 1001และGB 2312ซึ่งรวมถึง มาตรฐาน ISO 646 เวอร์ชันต่างๆ ของแต่ละประเทศไว้ ในแถวนี้ทั้งหมด แทนที่จะใช้เฉพาะชุดตัวอักษรและตัวเลขเท่านั้น
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ||||||||||||||||
| 3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ||||||
| 4x | เอ | บี | ซี | ดี | อี | เอฟ | จี | ชม | ฉัน | เจ | เค | แอล | เอ็ม | เอ็น | โอ | |
| 5x | พี | คิว | อาร์ | เอส | ที | ยู | วี | ว | X | วาย | ซ | |||||
| 6x | เอ | ข | ซี | ง | อี | เอฟ | จี | ชม. | ฉัน | เจ | เค | ล | ม | n | โอ | |
| 7x | พี | q | ร | ส | ที | คุณ | วี | ว | x | y | z |
ชุดอักขระ 0x24 (แถวที่ 4, ฮิรากานะ)
แถวนี้ประกอบด้วยอักษรฮิรากานะของ ญี่ปุ่น
เปรียบเทียบแถวที่ 4 ของ GB 2312ซึ่งตรงกับแถวนี้ และเปรียบเทียบและหาความแตกต่างระหว่างแถวที่ 10 ของ KPS 9566และKS X 1001ซึ่งใช้รูปแบบเดียวกัน แต่ในแถวที่ต่างกัน
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ぁ | あ | ぃ | ครับ | ぅ | เอ่อ | ぇ | え | ぉ | お | คะ | が | กิ | ぎ | く | |
| 3x | ぐ | け | げ | こ | ご | さ | ざ | ชิ | じ | เลย | ず | せ | ぜ | そ | ぞ | ตะ |
| 4x | だ | ち | ぢ | っ | つ | づ | て | で | と | ど | นะ | に | ぬ | ね | の | ฮะ |
| 5x | ば | ぱ | ひ | び | ぴ | ふ | ぶ | ぷ | へ | べ | ぺ | ほ | ぼ | ぽ | มะ | み |
| 6x | む | め | เช่นกัน | ゃ | や | ゅ | ゆ | ょ | よ | ら | ริ | รุ | れ | ろ | ゎ | わ |
| 7x | ゐ | ゑ | を | ง |
ชุดอักขระ 0x25 (แถวที่ 5, คาตาคานะ)
แถวนี้ประกอบด้วยอักษรคาตาคานะของ ญี่ปุ่น
เปรียบเทียบแถวที่ 5 ของ GB 2312ซึ่งตรงกับแถวนี้ เปรียบเทียบและเปรียบต่างแถวที่ 11 ของ KPS 9566และKS X 1001ซึ่งใช้รูปแบบเดียวกัน แต่ในแถวที่ต่างกัน เปรียบต่างรูปแบบการเขียนอักษรคาตาคานะที่แตกต่างกันอย่างมากของJIS X 0201
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ァ | อา | dir | ไอ | ゥ | ウ | ェ | エ | ォ | オ | คะ | ガ | キ | ギ | ค | |
| 3x | グ | ケ | ゲ | โค | ゴ | サ | ザ | ซิ | ジ | ス | ズ | セ | ゼ | ソ | ゾ | ต้า |
| 4x | ダ | チ | ヂ | ッ | ツ | ヅ | テ | デ | ท | ด | ナ | ニ | ヌ | ネ | ノ | ハ |
| 5x | บะ | パ | ヒ | ビ | ピ | ฟ | ブ | プ | ヘ | ベ | ペ | ホ | ボ | ポ | マ | มิ |
| 6x | ム | メ | モ | ャ | ヤ | ュ | ユ | ョ | ヨ | รา | ลี | แอล | レ | ร | ヮ | ワ |
| 7x | ヰ | ヱ | ヲ | ง | ヴ | ヵ | ヶ |
ชุดอักขระ 0x26 (แถวที่ 6, ภาษากรีก)
แถวนี้ประกอบด้วยข้อมูลพื้นฐานสำหรับอักษรกรีก สมัยใหม่ โดยไม่มีเครื่องหมายกำกับเสียงหรือ ตัวซิก มา ตัวสุดท้าย
เปรียบเทียบแถวที่ 6 ของ GB 2312 และ GB 12345กับแถวที่ 6 ของ KPS 9566ซึ่งมีตัวอักษรกรีกแบบเดียวกันในรูปแบบเดียวกัน แม้ว่าGB 12345จะเพิ่มรูปแบบการนำเสนอในแนวตั้ง และ KPS 9566 จะเพิ่มตัวเลขโรมัน เปรียบเทียบและเปรียบต่างแถวที่ 5 ของ KS X 1001ซึ่งจัดเรียงตัวอักษรกรีกใหม่เพื่อให้ตัวเลขโรมันอยู่ก่อน
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | เอ | บี | Γ | Δ | อี | Ζ | เอช | Θ | ไอ | เค | Λ | เอ็ม | เอ็น | Ξ | โอ | |
| 3x | Π | พี | Σ | ที | ย. | Φ | Χ | Ψ | Ω | |||||||
| 4x | α | เบต้า | γ | δ | ε | ζ | η | θ | ไอ | κ | λ | μ | ν | ξ | โอ | |
| 5x | π | ρ | σ | τ | υ | φ | χ | ψ | ω | |||||||
| 6x | ||||||||||||||||
| 7x |
ชุดอักขระ 0x27 (แถวที่ 7, อักษรซีริลลิก)
แถวนี้ประกอบด้วยอักษรรัสเซีย สมัยใหม่ และอาจไม่เพียงพอสำหรับการแสดงอักษรซีริลลิกรูปแบบอื่น ๆ
เปรียบเทียบแถวที่ 7 ของ GB 2312ซึ่งตรงกับแถวนี้ และเปรียบเทียบและหาความแตกต่างระหว่างแถวที่ 12 ของ KS X 1001กับแถวที่ 5 ของ KPS 9566ซึ่งใช้รูปแบบเดียวกัน (แต่ในแถวที่ต่างกัน)
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | เอ | บี | บี | Г | ด | อี | Ё | Ж | 3 | И | Й | เค | แอล | ม. | Н | |
| 3x | โอ | พี | พี | ซี | ที | У | ฟ | Х | Ц | Ч | Ш | Щ | Ъ | ฉัน | Ь | อี |
| 4x | Ю | Я | ||||||||||||||
| 5x | а | บ | в | г | д | เอ | ё | ж | 3 | และ | й | เค | л | ม | น | |
| 6x | โอ | п | р | ซี | ต | у | ф | х | ц | ч | ш | щ | ъ | ы | ь | э |
| 7x | ю | я |
ชุดอักขระ 0x28 (แถวที่ 8, การวาดกล่อง)
ตัวอักษรทั้งหมดในชุดนี้ถูกเพิ่มเข้ามาในปี 1983 และไม่มีอยู่ในฉบับแก้ไขมาตรฐานดั้งเดิมปี 1978
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | │ | ─ | ┐ | ┌ | └ | ┘ | ┤ | ┬ | ├ | ┴ | ┼ | ━ | ┃ | ┏ | ┓ | |
| 3x | ┗ | ┛ | ┫ | ┳ | ┣ | ┻ | ╋ | ┠ | ┯ | ┨ | ┷ | ┿ | ┝ | ┰ | ┥ | ┷ |
| 4x | ╂ | |||||||||||||||
| 5x | ||||||||||||||||
| 6x | ||||||||||||||||
| 7x |
ชุดอักขระเสริม 0x2D (แถวที่ 13, อักขระพิเศษของ NEC)
แถวที่ 9 ถึง 15 ของมาตรฐาน JIS X 0208 เว้นว่างไว้
อย่างไรก็ตาม รูปแบบต่อไปนี้สำหรับแถวที่ 13 ซึ่งNEC นำเสนอเป็นครั้งแรก เป็นส่วนขยายทั่วไป มีการใช้ (โดยมีการเปลี่ยนแปลงเล็กน้อยตามที่ระบุไว้ในเชิงอรรถ) โดยWindows-932 [ 3 ] (ซึ่งตรงกับมาตรฐานการเข้ารหัสWHATWG ที่ใช้โดย HTML5 ) โดยตัวแปร PostScript (แต่ตั้งแต่KanjiTalkเวอร์ชัน 7 ไม่ใช่ตัวแปรปกติ) [ 5 ]ของMacJapaneseและโดยJIS X 0213 (ซึ่งเป็นรุ่นต่อจาก JIS X 0208) [ 5 ] [ 6 ]แตกต่างจากส่วนขยายอื่นๆ ที่สร้างโดย Windows-932/WHATWG และ JIS X 0213 ทั้งสองตรงกันแทนที่จะขัดแย้งกัน ดังนั้นการถอดรหัสแถวนี้ส่วนใหญ่จึงได้รับการสนับสนุนดีกว่าส่วนขยายอื่นๆ ที่สร้างโดย JIS X 0213
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2x | ① | ② | ③ | ④ | ⑤ | ⑥ | ⑦ | ⑧ | ⑨ | ⑩ | ⑪ | ⑫ | ⑬ | ⑭ | ⑮ | |
| 3x | ⑯ | ⑰ | ⑱ | ⑲ | ⑳ | Ⅰ | Ⅱ | Ⅲ | Ⅳ | Ⅴ | Ⅵ | Ⅶ | Ⅷ | Ⅸ | Ⅹ | Ⅺ [ g ] |
| 4x | ㍉ | ㌔ | ㌢ | ㍍ | ㌘ | ㌧ | ㌃ | ㌶ | ㍑ | ㍗ | ㌍ | ㌦ | ㌣ | ㌫ | ㍊ | ㌻ |
| 5x | ㎜ | ㎝ | ㎞ | ㎎ | ㎏ | ㏄ | ㎡ | Ⅻ [ g ] | ㍻ [ h ] | |||||||
| 6x | 〝 | 〟 | หมายเลข | ㏍ | หมายเลข | ㊤ | ㊥ | ㊦ | ㊧ | ㊨ | ㈱ | ㈲ | ㈹ | ㍾ | ㍽ | ㍼ |
| 7x | ≒ [ i ] | ≡ [ i ] | ∫ [ i ] | ∮ | ∑ | √ [ i ] | ⊥ [ i ] | ∠ [ i ] | ∟ | ⊿ | ∵ [ i ] | ∩ [ i ] | ∪ [ i ] | ❖ [ g ] | ☞ [ g ] |
แถวคันจิ
โครงสร้างโค้ด
ในการแสดงรหัสอักขระจะใช้หมายเลขคอลัมน์/บรรทัดสำหรับรหัสหนึ่งไบต์ และ หมายเลข คูเท็นสำหรับรหัสสองไบต์ ส่วนวิธีการระบุอักขระโดยไม่ต้องอาศัยรหัส จะใช้ชื่ออักขระ
รหัสไบต์เดี่ยว
อักขระ กราฟิก JIS X 0208 เกือบทั้งหมดถูกแทนด้วยสองไบต์ โดยแต่ละไบต์มีอย่างน้อยเจ็ดบิต อย่างไรก็ตามอักขระควบคุม ทุกตัว รวมถึงช่องว่าง ธรรมดา (แต่ไม่ใช่ช่องว่างเชิงอักษร ) จะถูกแทนด้วยรหัสหนึ่งไบต์ ในการแทนค่าการรวมกันของบิต(ビット組合せ, bitto kumiawase )ของรหัสหนึ่งไบต์ จะใช้ตัวเลขทศนิยมสองตัว คือตัวเลขคอลัมน์และตัวเลขบรรทัด บิตที่มีลำดับสูงสามบิตจากเจ็ดบิต หรือบิตที่มีลำดับสูงสี่บิตจากแปดบิต นับจากศูนย์ถึงเจ็ดหรือจากศูนย์ถึงสิบห้าตามลำดับ จะประกอบเป็นตัวเลขคอลัมน์ บิตที่มีลำดับต่ำสี่บิต นับจากศูนย์ถึงสิบห้าจะประกอบเป็นตัวเลขบรรทัด ตัวเลขทศนิยมแต่ละตัวจะสอดคล้องกับตัวเลขฐานสิบหก หนึ่งหลัก ตัวอย่างเช่น การรวมกันของบิตที่สอดคล้องกับอักขระกราฟิก "ช่องว่าง" คือ 010 0000 ในรูปแบบเลข 7 บิต และ 0010 0000 ในรูปแบบเลข 8 บิต ในสัญกรณ์คอลัมน์/บรรทัด จะแสดงเป็น 2/0 การแสดงรหัสไบต์เดียวเดียวกันในรูปแบบอื่น ได้แก่ 0x20 ในรูปแบบเลขฐานสิบหก หรือ 32 ในรูปแบบเลขฐานสิบเดียว
รหัสจุดและรหัสหมายเลข
รหัสแบบดับเบิลไบต์ถูกจัดเรียงเป็นกลุ่มหมายเลข 94 กลุ่ม แต่ละกลุ่มเรียกว่าแถว(区, ku ; แปลตรงตัวว่า "ส่วน")แต่ละแถวประกอบด้วยรหัสหมายเลข 94 รหัส แต่ละรหัสเรียกว่าเซลล์(点, ten ; แปลตรงตัวว่า "จุด") [ j ] ทำให้มีจุดรหัสที่เป็นไปได้ทั้งหมด 8836 จุด (94 × 94) (แม้ว่าจะไม่ได้กำหนดทั้งหมด ดูด้านล่าง) จุดเหล่านี้ถูกจัดเรียงในมาตรฐานในตารางรหัส 94 แถว 94 คอลัมน์
หมายเลขแถวและหมายเลขเซลล์ (แต่ละหมายเลขตั้งแต่ 1 ถึง 94 สำหรับรหัส JIS X 0208 มาตรฐาน) ประกอบกันเป็น จุด คุเท็น(区点)ซึ่งใช้แทนจุดรหัสแบบสองไบต์ หมายเลขรหัสหรือหมายเลขคุเท็น(区点番号, kuten bangō )แสดงในรูปแบบ "แถว-เซลล์" โดยคั่นด้วยเครื่องหมายขีดกลางตัวอย่างเช่น ตัวอักษร "亜" มีจุดรหัสอยู่ที่แถวที่ 16 เซลล์ที่ 1 ดังนั้นหมายเลขรหัสจึงแสดงเป็น "16-01"
ใน JIS X 0208 แบบ 7 บิต (ซึ่งอาจเปลี่ยนไปใช้ใน JIS X 0202 / ISO-2022-JP ) ไบต์ทั้งสองต้องอยู่ในช่วง 94 ไบต์ของ0x 21 (ใช้สำหรับแถวหรือเซลล์หมายเลข 1) ถึง 0x7E (ใช้สำหรับแถวหรือเซลล์หมายเลข 94) ซึ่งตรงกับช่วงที่ใช้สำหรับอักขระพิมพ์ ASCII 7 บิตพอดี โดยไม่นับช่องว่าง ดังนั้นไบต์ที่เข้ารหัสจึงได้มาจากการเพิ่ม 0x20 (32) ให้กับแต่ละหมายเลข[ 7 ]ตัวอย่างเช่น ตัวอย่างข้างต้นของ 16-01 ("亜") จะถูกแทนด้วยไบต์EUC-JP0x30 0x21แบบ 8 บิตจะใช้ช่วง 0xA1 ถึง 0xFE แทน (โดยตั้งค่าบิตสูงสุดเป็น 1) ในขณะที่การเข้ารหัสอื่นๆ เช่นShift JISใช้การแปลงที่ซับซ้อนกว่า Shift JIS มีพื้นที่การเข้ารหัสมากกว่าที่จำเป็นสำหรับ JIS X 0208 เอง ส่วนขยายเฉพาะของ Shift JIS บางส่วนสำหรับ JIS X 0208 ใช้หมายเลขแถวที่สูงกว่า 94 [ 8 ]
โครงสร้างนี้ยังใช้ในGB 2312 ของจีนแผ่นดินใหญ่ ซึ่งรู้จักกันในชื่อดั้งเดิมว่า区位; qūwèiและ KS C 5601 ของเกาหลีใต้ (ปัจจุบันคือKS X 1001 ) ซึ่งkuและtenรู้จักกันในชื่อhang [ 9 ] ( 행 ;行; haeng ) และyol [ 9 ] ( 열 ;列; yeol ) ตามลำดับJIS X 0213 ในภายหลังได้ขยายโครงสร้างนี้โดยมีระนาบ (面, men ; แปลตรงตัวว่า "หน้า") ของแถว มากกว่าหนึ่งระนาบ ซึ่งเป็นโครงสร้างที่ใช้โดยCNS 11643และเกี่ยวข้องกับโครงสร้างที่ใช้โดย CCCII
รหัสจุดที่ยังไม่ได้กำหนด
ในบรรดาโค้ด 2 ไบต์ แถวที่ 9 ถึง 15 และ 85 ถึง 94 เป็นจุดโค้ดที่ไม่ได้กำหนด(空き領域, aki ryōiki )กล่าวคือ เป็นจุดโค้ดที่ไม่มีอักขระใด ๆ ถูกกำหนดให้ นอกจากนี้ เซลล์บางเซลล์ในแถวอื่น ๆ ก็เป็นจุดโค้ดที่ไม่ได้กำหนดเช่นกัน
พื้นที่ว่างเหล่านี้มีรหัสอักขระที่ไม่ควรนำมาใช้ เว้นแต่จะมีการตกลงกันไว้ล่วงหน้าระหว่างฝ่ายที่เกี่ยวข้อง อักขระ ( ไกจิ ) สำหรับการแลกเปลี่ยนข้อมูลไม่ควรถูกกำหนดให้กับรหัสอักขระที่ยังไม่ได้กำหนด
แม้ว่าจะกำหนดอักขระให้กับรหัสจุดที่ยังไม่ได้กำหนด อักขระกราฟิกที่กำหนดไว้ในมาตรฐานไม่ควรถูกกำหนดให้กับรหัสจุดเหล่านั้น และไม่ควรกำหนดอักขระเดียวกันให้กับรหัสจุดที่ยังไม่ได้กำหนดหลายจุด อักขระไม่ควรซ้ำกันในชุดอักขระ
นอกจากนี้ เมื่อกำหนดตัวอักษรให้กับรหัสจุดที่ยังไม่ได้กำหนด จำเป็นต้องระมัดระวังเรื่องการรวมกลุ่มของอักษรคันจิ ตัวอย่างเช่น แถวที่ 25 เซลล์ที่ 66 ตรงกับอักษรคันจิที่มีความหมายว่า "สูง" หรือ "แพง" โดยทั้งรูปแบบที่มีส่วนประกอบคล้ายตัวอักษร "ปาก" (口) อยู่ตรงกลาง (高) และรูปแบบที่พบได้น้อยกว่าที่มีโครงสร้างคล้ายบันไดในตำแหน่งเดียวกัน (髙) ต่างก็ถูกรวมอยู่ในรหัสจุดเดียวกัน ดังนั้น การจำกัดจุดที่ 25-66 ไว้เฉพาะรูปแบบ "ปาก" และกำหนดรูปแบบ "บันได" ให้กับรหัสจุดที่ยังไม่ได้กำหนด จึงถือเป็นการละเมิดมาตรฐานทางเทคนิค
ในทางปฏิบัติ อย่างไรก็ตาม รูปแบบ Shift JIS เฉพาะของผู้ผลิตหลายราย รวมถึงWindows-932และMacJapaneseจะเข้ารหัสส่วนขยายของผู้ผลิตในแถวที่ไม่ได้จัดสรรของพื้นที่การเข้ารหัสสำหรับ JIS X 0208 นอกจากนี้ รหัสส่วนใหญ่ที่ไม่ได้กำหนดไว้ใน JIS X 0208 จะถูกกำหนดโดยมาตรฐาน JIS X 0213 ที่ใหม่กว่า
ชื่อตัวละคร
อักขระแต่ละตัวใน JIS X 0208 จะมีชื่อ เรียก การใช้ชื่อของอักขระทำให้สามารถระบุอักขระได้โดยไม่ต้องอาศัยรหัส ชื่อของอักขระจะสอดคล้องกับมาตรฐานชุดอักขระอื่นๆ โดยเฉพาะอย่างยิ่งชุดอักขระรหัสสากล (UCS/ Unicode ) ดังนั้นนี่จึงเป็นแหล่งข้อมูลหนึ่งที่เป็นไปได้สำหรับการแมปอักขระไปยังชุดอักขระต่างๆ เช่น Unicode ตัวอย่างเช่น อักขระใน คอลัมน์ที่ 4 บรรทัดที่ 1 ของ ISO/IEC 646 International Reference Version ( US-ASCII ) และอักขระในแถวที่ 3 เซลล์ที่ 33 ของ JIS X 0208 มีชื่อว่า "LATIN CAPITAL LETTER A" เหมือนกัน ดังนั้น อักขระที่ตำแหน่ง 4/1 ใน ASCII และอักขระที่ตำแหน่ง 3-33 ใน JIS X 0208 จึงถือได้ว่าเป็นอักขระเดียวกัน (แม้ว่าในทางปฏิบัติ จะมี การแมปแบบอื่นสำหรับอักขระใน JIS X 0208 เนื่องจากการเข้ารหัสให้ ASCII แยกต่างหาก) ในทางกลับกัน อักขระ ASCII 2/2 (เครื่องหมายอัญประกาศ), 2/7 (เครื่องหมายอะพอสโทรฟี), 2/13 (เครื่องหมายยัติภังค์ลบ) และ 7/14 (เครื่องหมายทิลเด) สามารถระบุได้ว่าเป็นอักขระที่ไม่มีอยู่ในมาตรฐานนี้
ชื่อตัวอักษรที่ไม่ใช่คันจิใช้อักษรโรมันตัวพิมพ์ใหญ่ เว้นวรรค และเครื่องหมายยัติภังค์ ตัวอักษรที่ไม่ใช่คันจิจะได้รับชื่อสามัญในภาษาญี่ปุ่น(日本語通用名称, Nihongo tsūyō meishō )แต่บางข้อกำหนดสำหรับชื่อเหล่านี้ไม่มีอยู่[ k ]ในทางกลับกัน ชื่อของคันจิจะถูกกำหนดโดยอัตโนมัติตามการแสดงเลขฐานสิบหกที่สอดคล้องกันของรหัสใน UCS/Unicode ชื่อของคันจิสามารถหาได้โดยการเติม "CJK UNIFIED IDEOGRAPH-" ไว้ข้างหน้าโค้ดพอยต์ Unicode ตัวอย่างเช่น แถวที่ 16 เซลล์ที่ 1 (亜) ตรงกับ U+4E9C ใน UCS ดังนั้นชื่อของมันจะเป็น "CJK UNIFIED IDEOGRAPH-4E9C" คันจิไม่มีชื่อสามัญในภาษาญี่ปุ่น
ชุดคันจิ
ภาพรวม
มาตรฐาน JIS X 0208 กำหนดชุดอักขระกราฟิกจำนวน 6879 ตัว ซึ่งสอดคล้องกับรหัสสองไบต์ โดยแต่ละไบต์มีเจ็ดหรือแปดบิต ใน JIS X 0208 ชุดนี้เรียกว่าชุดคันจิ(漢字集合, kanji shūgō ) ซึ่งประกอบด้วยคันจิ 6355 ตัว และ อักขระที่ไม่ใช่คันจิ(非漢字, hikanji )อีก 524 ตัวรวมถึงอักขระต่างๆ เช่นอักษรละตินคะนะและอื่นๆ
- อักขระพิเศษ
- ครอบครองแถวที่ 1 และ 2 มีสัญลักษณ์อธิบาย 18 ตัว (記述記号, kijutsu kigō )เช่น "ช่องว่างในอุดมคติ" ( ) และเครื่องหมายจุลภาคและมหัพภาค ของญี่ปุ่น ; เครื่องหมายกำกับเสียงแปดตัวเช่นdakuten และ handakuten ; 10 ตัวอักษรสำหรับสิ่งที่ตามหลังคานะหรือคันจิ(仮名又HA漢字に準じるもの, kana mata wa kanji ni junjiru mono )เช่นเครื่องหมายวนซ้ำ ; เครื่องหมายวงเล็บ 22 ตัว(括弧記号, kakko kigō ) ; 45 สัญลักษณ์ทางคณิตศาสตร์(学術記号, กาคุจุสึ คิโก ) ; และสัญลักษณ์หน่วย 32 ตัว ซึ่งรวมถึงสัญลักษณ์สกุลเงินและเครื่องหมายไปรษณีย์รวมเป็นอักขระทั้งหมด 147 ตัว
- ตัวเลข
- ใช้พื้นที่ส่วนหนึ่งของแถวที่ 3 ประกอบด้วยตัวเลขสิบหลัก ตั้งแต่ "0" ถึง "9"
- อักษรละติน
- ใช้พื้นที่ส่วนหนึ่งของแถวที่ 3 ประกอบด้วยตัวอักษรภาษาอังกฤษ 26 ตัว ทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก รวมทั้งหมด 52 ตัว
- ฮิรากานะ
- อยู่ในแถวที่ 4 ประกอบด้วยอักษรคะนะที่ไม่มีเสียง 48 ตัว (รวมถึง wiและweที่เลิกใช้แล้ว) อักษรคะนะที่มีเสียง 20 ตัว ( dakuten ) อักษรคะนะกึ่งมีเสียง 5 ตัว ( handakuten ) และอักษรคะนะขนาดเล็ก 10 ตัว สำหรับเสียงที่ออกเสียงผ่านเพดานปากและเสียงที่กลืนเสียง รวมทั้งหมด 83 ตัว
- คาตาคานะ
- ตรงบริเวณแถวที่ 5 มี 86 ตัวอักษร นอกเหนือจากคาตาคานะที่เทียบเท่ากับตัวอักษรฮิระงะนะตัวคา / เค คานะ ตัวเล็ก (ヵ/ヶ) และวูคานะ (ヴ)
- อักษรกรีก
- อยู่ในแถวที่ 6 ประกอบด้วยอักษรกรีก 24 ตัว ทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก (ยกเว้นซิกมา ตัวสุดท้าย ) รวมเป็น 48 ตัว
- อักษรซีริลลิก
- อยู่ในแถวที่ 7 ประกอบด้วยตัวอักษร 33 ตัวของอักษรรัสเซียทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก รวมทั้งหมด 66 ตัว
- ตัวละครวาดกล่อง
- อยู่ในแถวที่ 8 ประกอบด้วยส่วนบาง ส่วนหนา และส่วนผสมระหว่างบางและหนา รวมทั้งหมด 32 ส่วน
- คันจิ
- อักขระ 2,965 ตัวของระดับ 1 (第1水準, dai ni suijun )จากแถว 16 ถึงแถว 47 และ 3,390 อักขระของระดับ 2 (第2水準, dai ni suijun )จากแถว 48 ถึงแถว 84 รวมเป็น 6,355 ตัว
อักขระพิเศษ ตัวเลข และอักขระละติน
สำหรับอักขระพิเศษในชุดคันจิ อักขระบางตัวจากชุดอักขระกราฟิกของเวอร์ชันอ้างอิงสากล (IRV) ของISO/IEC 646 :1991 (เทียบเท่ากับASCII ) ไม่มีอยู่ใน JIS X 0208 ได้แก่ อักขระสี่ตัวที่กล่าวถึงข้างต้น คือ "เครื่องหมายอัญประกาศ" "เครื่องหมายอะพอสโทรฟี" "เครื่องหมายยัติภังค์ลบ" และ "เครื่องหมายทิลเด" สามตัวแรกถูกแยกออกเป็นรหัสจุดที่แตกต่างกันในชุดคันจิ (Nishimura, 1978; มาตรฐาน JIS X 0221-1:2001 มาตรา 3.8.7) ส่วน "เครื่องหมายทิลเด" ใน IRV นั้นไม่มีอักขระที่ตรงกันในชุดคันจิ
ในตารางต่อไปนี้ อักขระ IRV ของ ISO/IEC 646:1991 ที่กล่าวถึงจะถูกเปรียบเทียบกับอักขระที่เทียบเท่ากันหลายตัวใน JIS X 0208 ยกเว้นอักขระ IRV "TILDE" ซึ่งจะถูกเปรียบเทียบกับ "WAVE DASH" ของ JIS X 0208 ข้อมูลในคอลัมน์ "สัญลักษณ์" ใช้รหัส UCS/Unicode ดังนั้นรายละเอียดการแสดงผลอาจแตกต่างกันไป
อักขระ ASCII/IRV ที่ไม่มีค่าเทียบเท่าที่แน่นอนใน JIS X 0208 ได้รับการกำหนดรหัสจุดในภายหลังโดยJIS X 0213ซึ่งแสดงไว้ด้านล่าง เช่นเดียวกับ การแมปอักขระ ทั้งสี่ตัว ของ Microsoft
| ISO/IEC 646:1991 IRV | จีไอเอส X 0208 | ||||||
|---|---|---|---|---|---|---|---|
| คอลัมน์/แถว | x0213 [ 6 ] | ไมโครซอฟต์ | เครื่องหมาย | ชื่อ | คูเทน | เครื่องหมาย | ชื่อ |
| 2/2 | 1-2-16 | 92-94 [ A ] 115-24 [ B ] | " | เครื่องหมายอัญประกาศ | 1-15 | ¨ | ไดเอรีซิส |
| 1-40 | “ | เครื่องหมายอัญประกาศคู่ซ้าย | |||||
| 1-41 | ” | เครื่องหมายอัญประกาศคู่ขวา | |||||
| 1-77 | " | ดับเบิ้ลไพรม์ | |||||
| 2/7 | 1-2-15 | 92-93 [ A ] 115-23 [ B ] | ' | อะพอสโทรฟี | 1-13 | ´ | สำเนียงเฉียบคม |
| 1-38 | ' | เครื่องหมายอัญประกาศเดี่ยวซ้าย | |||||
| 1-39 | ' | เครื่องหมายอัญประกาศเดี่ยวขวา | |||||
| 1-76 | ′ | ไพรม์ | |||||
| 2/13 | 1-2-17 | 1-61 [ C ] | - | ไฮเฟน-ลบ | 1-30 | - | ยัติภังค์ |
| 1-61 | − | เครื่องหมายลบ | |||||
| 7/14 | 1-2-18 | 1-33 [ D ] | ~ | ทิลเด | (ไม่มีอักขระที่ตรงกัน) | ||
| (ไม่มีอักขระที่ตรงกัน) | 1-33 | 〜 | เวฟ แดช[ดี] | ||||
- ^ a bจาก "NEC เลือกใช้ส่วนขยายของ IBM" ใช้รหัสหน่วยที่ไม่ได้จัดสรรใน JIS X 0208
- ^ a bจาก "ส่วนขยายของ IBM" อยู่นอกช่วงของ JIS X 0208 แต่สามารถเข้ารหัสได้ใน Shift_JIS
- ^ไมโครซอฟต์ถือว่าเครื่องหมายลบ JIS เป็นรูปแบบเต็มความกว้างของเครื่องหมายยัติภังค์
- ^ a bเครื่องหมายคลื่นประชิดบางครั้งถือเป็นรูปแบบความกว้างเต็มของเครื่องหมายทิลเด เช่น โดย Microsoft (ดูTilde § การเข้ารหัส Unicode และ Shift JIS ของเครื่องหมายคลื่นประชิด ) เครื่องหมายทิลเด ASCII / IRVเป็นจุดรหัสที่กำกวมซึ่งอาจปรากฏเป็นเครื่องหมายเน้นเสียงทิลเด (˜) หรือเป็นเส้นประที่มีความโค้งเท่ากัน (∼) แม้ว่าเส้นประจะพบได้บ่อยกว่าเนื่องจากเครื่องหมายเน้นเสียงเว้นวรรคมีจุดรหัสแยกต่างหากในWindows-1252ไม่มีอักขระ JIS X 0208 สำหรับเครื่องหมายเน้นเสียงทิลเด อักขระ 1-2-18 ใน JIS X 0213 แสดงเป็นเครื่องหมายเน้นเสียงทิลเดในแผนภูมิรหัส[ 6 ]
นั่นหมายความว่าชุดตัวอักษรคันจิเป็นชุดตัวอักษรที่ไม่สามารถปรับให้เข้ากับมาตรฐานอื่นได้แพร่หลายที่สุดในโลก และถือเป็นหนึ่งในจุดอ่อนของมาตรฐานนี้
แม้ว่าชุดคันจิและชุด IRV จะมีอักขระพิเศษ ตัวเลข และตัวอักษรละติน 90 ตัวเหมือนกัน แต่มาตรฐานนี้ไม่ได้จัดเรียงตามแบบ ISO/IEC 646 อักขระ 90 ตัวนี้ถูกแบ่งออกเป็นแถวที่ 1 (เครื่องหมายวรรคตอน) และแถวที่ 3 (ตัวอักษรและตัวเลข) แม้ว่าแถวที่ 3 จะจัดเรียงตามแบบ ISO 646 สำหรับตัวอักษรและตัวเลข 62 ตัวเท่านั้น (เช่น4/1("A") ใน ISO 646 จะกลายเป็น2/3 4/1(ie 3-33) ใน JIS X 0208)
ส่วนสาเหตุที่ตัวเลข ตัวอักษรละติน และอื่นๆ ในชุดคันจิเป็น "ตัวอักษรและตัวเลขแบบเต็มความกว้าง" (全角英数字, zenkaku eisūji )และการนำไปใช้ในครั้งแรกจึงมีการตีความที่แตกต่างจาก IRV นั้น เชื่อกันว่าเป็นเพราะความไม่เข้ากันเหล่านี้
นับตั้งแต่มาตรฐานแรก ก็สามารถแสดงตัวอักษรผสม(合成, gōsei )เช่นตัวเลขในวงกลมตัวอักษรเชื่อมสำหรับชื่อหน่วยวัด และเลขโรมันได้[ 10 ]โดยไม่ได้กำหนด จุดรหัส kuten แยกต่างหาก แม้ว่าบริษัทแต่ละแห่งที่ผลิตระบบสารสนเทศจะพยายามแสดงตัวอักษรเหล่านี้ตามที่ลูกค้าต้องการโดยการประกอบตัวอักษร แต่ไม่มีบริษัทใดร้องขอให้เพิ่มตัวอักษรเหล่านี้ลงในมาตรฐาน แต่เลือกที่จะนำเสนอเป็นgaijiใน รูปแบบกรรมสิทธิ์แทน
ในมาตรฐานฉบับที่สี่ (1997) อักขระเหล่านี้ทั้งหมดได้รับการกำหนดไว้อย่างชัดเจนว่าเป็นอักขระที่ใช้ประกอบการเลื่อนตำแหน่งปัจจุบัน กล่าวคือ เป็นอักขระเว้นวรรคนอกจากนี้ ยังมีการกำหนดว่าไม่ควรสร้างอักขระเหล่านี้โดยการประกอบอักขระอื่นเข้าด้วยกัน ด้วยเหตุนี้ จึงไม่อนุญาตให้ใช้เครื่องหมายกำกับเสียง แทนอักขระละติน เลย ยกเว้น สัญลักษณ์ อังสตรอม ( Å ) ในแถวที่ 2 ช่องที่ 82 เท่านั้น
ฮิรากานะและคาตาคานะ
อักษรฮิรากานะและคาตาคานะใน JIS X 0208 แตกต่างจากJIS X 0201 ตรง ที่รวม เครื่องหมาย ดากุเท็นและฮันดากุเท็นเป็นส่วนหนึ่งของตัวอักษร นอกจากนี้ยังรวมถึงอักษรคาตาคานะwi (ヰ)และwe (ヱ) (ซึ่งเลิกใช้แล้วในภาษาญี่ปุ่นสมัยใหม่) และอักษรwa ตัวเล็ก (ヮ)ซึ่งไม่มีใน JIS X 0201 ด้วย
การจัดเรียงคะนะใน JIS X 0208 นั้นแตกต่างจากการจัดเรียงคะตะคะนะใน JIS X 0201 ใน JIS X 0201 พยางค์จะขึ้นต้นด้วยwo (ヲ)ตามด้วยคะนะตัวเล็กเรียงตาม ลำดับ โกะจูองตามด้วยคะนะขนาดเต็มตามลำดับโกะจูอง เช่นกัน (ヲァイゥェォャュョッーアイウエオ......ラリルレロワン). ในทางกลับกัน ใน JIS X 0208 คะนะจะถูกจัดเรียงก่อนตาม ลำดับ โกะจูองจากนั้นตามลำดับ "คะนะขนาดเล็ก คะนะขนาดเต็ม คะนะที่มีดาคุเต็น และคะนะที่มีแฮนคุเต็น" โดยที่คะนะพื้นฐานเดียวกันจะถูกจัดกลุ่มเข้ากับอนุพันธ์ของมัน (ぁあぃいぅうぇえぉお......っつづ......ฮะばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん) การจัดลำดับนี้ได้รับเลือกเพื่ออำนวยความสะดวกในการจัดเรียงการค้นหาพจนานุกรมที่ใช้คานะได้ง่ายขึ้น (Yasuoka, 2006) [ลิตร]
ดังที่กล่าวมาข้างต้น ในมาตรฐานนี้ ลำดับของอักษรคาตาคานะที่กำหนดไว้ก่อนหน้านี้ใน JIS X 0201 ไม่ได้ถูกนำมาใช้ใน JIS X 0208 คาดว่าสาเหตุที่อักษรคาตาคานะใน JIS X 0201 เป็น " คานะครึ่งความกว้าง " นั้น เกิดจากความไม่เข้ากันกับอักษรคาตาคานะในมาตรฐานนี้ จุดนี้จึงเป็นหนึ่งในจุดอ่อนของมาตรฐานนี้เช่นกัน
คันจิ
วิธีการคัดเลือกอักษรคันจิในมาตรฐานนี้จากแหล่งที่มาใด เหตุใดจึงแบ่งออกเป็นระดับ 1 และระดับ 2 และวิธีการจัดเรียงทั้งหมดได้รับการอธิบายอย่างละเอียดในมาตรฐานฉบับที่สี่ (1997) ตามคำอธิบายนั้น อักษรคันจิที่รวมอยู่ในรายการอักษรคันจิทั้งสี่รายการต่อไปนี้สะท้อนให้เห็นในอักษร 6349 ตัวของมาตรฐานฉบับแรก (1978)
- รายการตัวอักษรคันจิสำหรับรหัสมาตรฐาน (ชั่วคราว) (標準ECOード用漢字表 (試案) , Hyōjun Kōdo-yō Kanjihyō (Shian) )คณะ กรรมการประมวลผลข้อมูลตัวอักษรคันจิ ของสมาคมประมวลผลข้อมูลแห่งประเทศญี่ปุ่นได้รวบรวมรายการนี้ในปี 1971 ใน "ผลการวิเคราะห์สารบรรณทางจดหมาย" ด้านล่าง ดูเหมือนว่าจะมีอักขระ 6,086 ตัว
- คันจิพื้นฐานสำหรับการใช้การประมวลผลข้อมูลด้านการบริหาร(行政情報処理用基本漢字, Gyōsei Jōhō Shoriyō Kihon Kanji )เลือกโดยหน่วยงานบริหารจัดการการบริหารแห่งประเทศญี่ปุ่นในปี พ.ศ. 2518 ประกอบด้วยอักขระ 2,817 ตัว สำหรับข้อมูลเพื่อวัตถุประสงค์ในการคัดเลือก หน่วยงานได้จัดทำรายงานซึ่งเริ่มต้นด้วย "รายการตัวอักษรคันจิสำหรับรหัสมาตรฐาน (เบื้องต้น)" ซึ่งเปรียบเทียบรายการตัวอักษรคันจิหลายรายการ "ผลการวิเคราะห์การโต้ตอบและความถี่ของการใช้ตัวอักษรคันจิสำหรับการประมวลผลข้อมูลด้านการบริหาร ใช้การเลือกตัวอักษรคันจิแบบปกติ" (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Jōhō Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka )หรือ "ผลการวิเคราะห์สารบรรณ" (対応分析結果, ไทโอ บุนเซกิ เคกกะ )โดยย่อ
- อักษรคันจิสำหรับการลงทะเบียนชื่อบุคคลสำคัญของญี่ปุ่น(日本生命収容人名漢字, Nihon Seimei Shūyō Jinmei Kanji )เป็นหนึ่งในรายการอักษรคันจิที่ประกอบขึ้นเป็น "ผลการวิเคราะห์ความสัมพันธ์" ซึ่งประกอบด้วยอักษร 3044 ตัว ปัจจุบันรายการนี้ไม่มีอยู่แล้ว รายการต้นฉบับไม่มีอยู่สำหรับคณะกรรมการร่างฉบับแรก รายการอักษรคันจินี้สะท้อนอยู่ในมาตรฐานที่ใช้ตาม "ผลการวิเคราะห์ความสัมพันธ์"
- คันจิสำหรับรายการเขตบริหารแห่งชาติ(土行政区画総覧使用漢字, Kokudo Gyōsei Kukaku Sōran Shiyō Kanji )หนึ่งในรายการตัวอักษรคันจิที่ประกอบด้วย "ผลการวิเคราะห์ความสัมพันธ์" ประกอบด้วยอักขระ 3251 ตัว เป็นอักษรคันจิที่ใช้ในรายชื่อสถานที่บริหารทั้งหมดที่รวบรวมโดยศูนย์ข้อมูลภูมิศาสตร์ญี่ปุ่น "รายชื่อเขตบริหารแห่งชาติ" (土行政区画総覧, Kokudo Gyōsei Kukaku Sōran )คณะกรรมการร่างชุดเดิมไม่ได้ตรวจสอบรายชื่อดังกล่าว ตัวอักษรคันจิที่ใช้ในรายการนี้เป็นไปตาม "ผลการวิเคราะห์สารบรรณ"
ในมาตรฐานที่สองและสาม มีการเพิ่มตัวอักษรคันจิระดับ 2 อีก 4 และ 2 ตัว ตามลำดับ ทำให้จำนวนคันจิทั้งหมดเป็น 6355 ตัว นอกจากนี้ ในมาตรฐานที่สอง รูปแบบตัวอักษรก็มีการเปลี่ยนแปลง รวมถึงการสลับตำแหน่งระหว่างระดับต่างๆ ด้วย และในมาตรฐานที่สามก็มีการเปลี่ยนแปลงรูปแบบตัวอักษรเช่นกัน รายละเอียดเพิ่มเติมจะกล่าวถึงด้านล่าง
การแบ่งระดับ
อักษรคันจิระดับ 1 จำนวน 2,965 ตัว อยู่ในแถวที่ 16 ถึง 47 ส่วนอักษรคันจิระดับ 2 จำนวน 3,390 ตัว อยู่ในแถวที่ 48 ถึง 84
สำหรับระดับ 1 ตัวอักษรที่พบได้ทั่วไปในรายการอักษรคันจิหลายรายการถูกเลือก โดยใช้คันจิโทโยคันจิฉบับร่างแก้ไข และคันจิจินเมโย คันจิเป็นพื้นฐาน นอกจากนี้ ยังได้ปรึกษา JIS C 6260 ("รหัสระบุจังหวัดโทโดฟุเคน"; ปัจจุบันคือJIS X 0401 ) และ JIS C 6261 ("รหัสระบุเมือง ตำบล และหมู่บ้าน"; ปัจจุบันคือJIS X 0402 ) โดยตั้งใจจัดคันจิสำหรับจังหวัดเมือง อำเภอ ตำบล หมู่บ้านเกือบทั้งหมดของญี่ปุ่นไว้ในระดับ 1 [ m ]ยิ่งไปกว่านั้น ยังมีการเพิ่มการแก้ไขโดยผู้เชี่ยวชาญอีกด้วย
ระดับ 2 จัดทำขึ้นสำหรับอักษรคันจิที่ปรากฏอยู่ในรายการหลักทั้งสี่รายการข้างต้น แต่ไม่ได้รับการคัดเลือกสำหรับระดับ 1 ดังที่กล่าวไว้ด้านล่าง อักษรคันจิในระดับ 1 เรียงลำดับตามการออกเสียง ดังนั้นในบรรดาอักษรคันจิที่ยากต่อการระบุการออกเสียง จึงมีบางส่วนที่ถูกย้ายจากระดับ 1 ไปยังระดับ 2 โดยพิจารณาจากเกณฑ์ดังกล่าว (นิชิมูระ, 1978)
เนื่องจากการตัดสินใจเหล่านี้ โดยส่วนใหญ่แล้ว ระดับ 1 จะมีคันจิที่ใช้บ่อยกว่า และระดับ 2 จะมีคันจิที่ใช้ไม่บ่อยกว่า แต่แน่นอนว่าสิ่งเหล่านี้ถูกตัดสินตามมาตรฐานในสมัยนั้น เมื่อเวลาผ่านไป คันจิระดับ 2 บางตัวก็ถูกใช้บ่อยขึ้น เช่น ตัวที่มีความหมายว่า "ทะยาน" (翔) และตัวที่มีความหมายว่า "ระยิบระยับ" (煌) และในทางกลับกัน คันจิระดับ 1 บางตัวก็ถูกใช้น้อยลง โดยเฉพาะอย่างยิ่งตัวที่มีความหมายว่า "เซนติเมตร" (糎) และ "มิลลิเมตร" (粍) จากคันจิ jōyō ในปัจจุบัน 30 ตัวอยู่ในระดับ 2 [ n ]ในขณะที่หายไปทั้งหมด 3 ตัว (塡󠄀, 剝󠄀 และ 頰󠄀) [ o ]จากคันจิ jinmeiyō ในปัจจุบัน 192 ตัวอยู่ในระดับ 2 [ p ]ในขณะที่ 105 ตัวไม่ได้เป็นส่วนหนึ่งของมาตรฐาน[ q ]
การจัดเตรียม
อักษรคันจิในระดับ 1 จะถูกจัดเรียงตามลำดับ "การอ่านที่เป็นตัวแทน" (เช่น การอ่านตามแบบแผนที่เลือกไว้สำหรับมาตรฐานนี้เท่านั้น) การอ่านของอักษรคันจิอาจเป็นการอ่านแบบonหรือkunการอ่านจะถูกจัดเรียงตามลำดับgojūon [ r ]โดยทั่วไป การอ่าน แบบ on (เสียงภาษาจีน) ถือเป็นการอ่านที่เป็นตัวแทน ในกรณีที่อักษรคันจิมีการ อ่านแบบ on หลายแบบ การอ่านที่พิจารณาว่ามีการใช้บ่อยที่สุดจะถูกใช้เป็นการอ่านที่เป็นตัวแทน (มาตรฐาน JIS C 6226-1978 มาตรา 3.4) สำหรับอักษรคันจิจำนวนเล็กน้อยที่ไม่มีการ อ่าน แบบ onหรือมี การอ่าน แบบ onที่ไม่ค่อยเป็นที่รู้จักและไม่ได้ใช้กันทั่วไป การอ่าน แบบ kunจะถูกนำมาใช้เป็นการอ่านที่เป็นตัวแทน ในกรณีที่ต้องใช้การอ่าน แบบ kun ของคำกริยาเป็นการอ่านที่เป็นตัวแทน จะใช้รูปแบบ ren'yōkei (แทนที่จะเป็นshūshikei )
ตัวอย่างเช่น เซลล์ที่ 1 ถึง 41 ในแถวที่ 16 มีอักขระ 41 ตัวที่เรียงลำดับตามการอ่านที่ขึ้นต้นด้วย"a"ในจำนวนนี้ มีอักขระ 22 ตัว รวมถึง 16-10 (葵: อ่านว่า " ki "; อ่านแบบ คุนว่า " aoi ") และ 16-32 (粟: อ่านว่า " zoku " และ " shoku "; อ่านแบบ คุนว่า " awa ") ที่เรียงลำดับตาม การอ่าน แบบคุน 16-09 (逢: อ่านว่า " hō ", อ่าน แบบคุนว่า " a(i) ") และ 16-23 (扱: อ่านว่า " sō " และ " kyū ", อ่านแบบคุ นว่า " atsuka(i) ") เป็นเพียงสองตัวอย่างของ คำกริยาแบบ ren'yōkeiที่ใช้สำหรับการอ่านแบบตัวแทน
ในกรณีที่การอ่านแทนเหมือนกันระหว่างคันจิที่แตกต่างกัน คันจิที่ใช้ การอ่าน แบบออนจะถูกจัดวางไว้ก่อนคันจิที่ใช้ การอ่าน แบบคุนในกรณีที่ การอ่าน แบบออนหรือคุนเหมือนกันมากกว่าหนึ่งคันจิคัน จิเหล่านั้นจะถูกจัดเรียงตาม รากศัพท์หลักและ จำนวน ขีด
ไม่ว่าจะอยู่ในระดับ 1 หรือระดับ 2 อักษรอิตาอิจิจะถูกจัดเรียงตามแบบอย่างโดยตรง ตัวอย่างเช่น ในระดับ 2 หลังจากแถวที่ 49 ช่องที่ 88 (劍) ตัวอักษรที่ตามมาทันทีจะเบี่ยงเบนจากกฎทั่วไป (จำนวนขีดในกรณีนี้) โดยมีตัวอักษรที่แตกต่างกันสามแบบตั้งแต่ 49-88 (劔,劒และ剱) [ s ]
ตัวอักษรคันจิในระดับ 2 เรียงลำดับตามรากศัพท์หลักและจำนวนเส้นขีด หากคุณสมบัติทั้งสองนี้เหมือนกันสำหรับคันจิที่แตกต่างกัน ก็จะเรียงลำดับตามการอ่าน
คันจิจากแหล่งที่ไม่ทราบที่มา
| คูเทน | เครื่องหมาย | การจำแนกประเภท |
|---|---|---|
| 52-55 | 墸 | ไม่ทราบ |
| 52-63 | 壥 | ไม่ทราบ |
| 54-12 | 妛 | แหล่งที่มาไม่ชัดเจน |
| 55-27 | 彁 | ไม่สามารถระบุได้ |
| 57-43 | 挧 | แหล่งที่มาไม่ชัดเจน |
| 58-83 | 暃 | แหล่งที่มาไม่ชัดเจน |
| 59-91 | 椦 | แหล่งที่มาไม่ชัดเจน |
| 60-57 | 槞 | แหล่งที่มาไม่ชัดเจน |
| 74-12 | 蟐 | แหล่งที่มาไม่ชัดเจน |
| 74-57 | 袮 | แหล่งที่มาไม่ชัดเจน |
| 79-64 | 閠 | แหล่งที่มาไม่ชัดเจน |
| 81-50 | 駲 | แหล่งที่มาไม่ชัดเจน |
มีการชี้ให้เห็นว่ามีอักษรคันจิในชุดคันจิที่ไม่พบในพจนานุกรมคันจิฉบับสมบูรณ์ และไม่ทราบแหล่งที่มา ตัวอย่างเช่น เพียงหนึ่งปีหลังจากมีการกำหนดมาตรฐานครั้งแรก ทาจิมะ (1979) รายงานว่าเขาได้ยืนยันอักษรคันจิ 63 ตัวที่ไม่พบในชินจิเก็น (พจนานุกรมคันจิขนาดใหญ่ที่ตีพิมพ์โดยคาโดคาวะ โชเท็น ) หรือในได คัน-วา จิเท็นและอักษรเหล่านั้นก็ไม่มีความหมายในฐานะเรียคุจิประเภทใดๆ เขาตั้งข้อสังเกตว่าจะเป็นการดีกว่าหากอักษรคันจิที่ไม่มีอยู่ในพจนานุกรมคันจิได้รับการคัดเลือกจากแหล่งที่มาที่แน่นอน อักษรคันจิเหล่านี้จึงเป็นที่รู้จักกันในชื่อ "อักษรผี" (幽霊文字, yūrei moji )หรือ "คันจิผี" (幽霊漢字, yūrei kanji )และชื่ออื่นๆ อีกมากมาย
คณะกรรมการร่างมาตรฐานฉบับที่สี่ก็มองเห็นปัญหาของการมีอักษรคันจิที่ไม่ทราบแหล่งที่มาเช่นกัน จึงได้ทำการสอบถามถึงแหล่งข้อมูลที่คณะกรรมการร่างฉบับแรกอ้างอิงถึง ผลที่ได้คือ พบว่าคณะกรรมการร่างฉบับเดิมได้พึ่งพา "ผลการวิเคราะห์ความสัมพันธ์" เป็นอย่างมากในการรวบรวมอักษรคันจิ เมื่อคณะกรรมการร่างตรวจสอบ "ผลการวิเคราะห์ความสัมพันธ์" ก็พบว่าอักษรคันจิจำนวนมากที่รวมอยู่ในชุดอักษรคันจิ แต่ไม่พบในพจนานุกรมคันจิฉบับสมบูรณ์นั้น มาจาก "อักษรคันจิชื่อทะเบียนราษฎรญี่ปุ่น" และ "อักษรคันจิสำหรับรายชื่อเขตการปกครองแห่งชาติ" ที่กล่าวถึงใน "ผลการวิเคราะห์ความสัมพันธ์"
ได้รับการยืนยันแล้วว่าไม่มีต้นฉบับของ "อักษรคันจิชื่อทะเบียนราษฎรญี่ปุ่น" ที่อ้างอิงใน "ผลการวิเคราะห์ความสอดคล้อง" อยู่จริง สำหรับ "รายชื่อเขตการปกครองแห่งชาติ" นั้นซาซาฮาระ ฮิโรยูกิจากคณะกรรมการร่างฉบับที่สี่ ได้ตรวจสอบอักษรคันจิที่ปรากฏในหน้าพัฒนามาตรฐานฉบับแรก นอกจากนี้ คณะกรรมการยังได้ศึกษาเอกสารโบราณจำนวนมาก รวมถึงตัวอย่างชื่อบุคคลจำนวนมากในฐานข้อมูลสมุดโทรศัพท์ ของ NTT ด้วย
จากการตรวจสอบอย่างละเอียดถี่ถ้วน คณะกรรมการสามารถลดจำนวนอักษรคันจิที่ไม่สามารถระบุแหล่งที่มาได้อย่างมั่นใจเหลือเพียงสิบสองตัว ดังแสดงในตารางด้านข้าง ในจำนวนนี้ สันนิษฐานว่าอักษรหลายตัวเกิดขึ้นจากข้อผิดพลาดในการคัดลอก โดยเฉพาะอย่างยิ่ง 妛 น่าจะเกิดขึ้นเมื่อช่างพิมพ์พยายามสร้าง 𡚴 โดยการตัดและแปะ 山 และ 女 เข้าด้วยกัน เงาจากกระบวนการนั้นถูกตีความผิดว่าเป็นเส้น ทำให้เกิดเป็น 妛 (สามารถดูภาพประกอบได้ในหนังสือJōyō kanji jiten )
การรวมรูปแบบต่างๆ ของอักษรคันจิ
ตามข้อกำหนดในมาตรฐานฉบับที่สี่ (1997) การรวม(包摂, hōsetsu ; ไม่ใช่คำเดียวกับที่ใช้ใน " unification " ของUnicodeแม้ว่าจะเป็นแนวคิดที่คล้ายคลึงกัน)คือการกำหนดรหัสจุดเดียวกันให้กับอักขระโดยไม่คำนึงถึงรูปแบบอักขระที่แตกต่างกัน ในมาตรฐานฉบับที่สี่สัญลักษณ์ที่อนุญาตมีจำกัด และขอบเขตที่ สัญลักษณ์ ออลโลกราฟิก เฉพาะ ถูกรวมเข้ากับ รหัสจุด กราฟิกนั้นถูกกำหนดไว้อย่างชัดเจน
นอกจากนี้ ตามข้อกำหนดในมาตรฐานแล้วอักษรภาพ(字体, jitai ; แปลตรงตัวว่า "ตัวอักษร")คือแนวคิดเชิงนามธรรมเกี่ยวกับการแสดงผลกราฟิกของตัวอักษร ส่วนรูปทรงตัวอักษร(字形, jikei ; แปลตรงตัวว่า "รูปร่างตัวอักษร"; ในแง่หนึ่งก็เป็น "อักษรภาพ" เช่นกัน แต่ถูกแยกความแตกต่างในระดับที่แตกต่างกันเพื่อวัตถุประสงค์ในการกำหนดมาตรฐาน)คือการแสดงผลเป็นรูปร่างกราฟิกที่อักษรภาพนั้นมีในความเป็นจริง (เช่น เนื่องจากการเขียนด้วยมือ การพิมพ์ การแสดงผลบนหน้าจอ ฯลฯ) สำหรับอักษรภาพเดียว มีรูปทรงตัวอักษรที่แตกต่างกันได้มากมายนับไม่ถ้วน ทั้งในแง่รูปธรรมและ/หรือที่มองเห็นได้ ความแตกต่างระหว่างรูปทรงตัวอักษรของอักษรภาพหนึ่งเรียกว่า "ความแตกต่างในการออกแบบ" ( デザインの差, dezain no sa )
ขอบเขตที่อักษรภาพหนึ่งๆ ถูกรวมเข้ากับจุดรหัสเดียวจะถูกกำหนดตาม "อักษรภาพตัวอย่าง" (例示字体, reiji jitai ) ของจุดรหัสนั้น และ "เกณฑ์การรวม" (包摂規準, hōsetsu kijun )ที่สามารถนำมาใช้กับอักษรภาพตัวอย่างนั้นได้ กล่าวคือ อักษรภาพตัวอย่างสำหรับจุดรหัสหนึ่งๆ จะใช้ได้กับจุดรหัสนั้น และอักษรภาพใดๆ ที่ส่วนประกอบของอักษรภาพตัวอย่างถูกแทนที่ตามเกณฑ์การรวมก็จะใช้ได้กับจุดรหัสนั้น ด้วย
ตัวอย่างเช่น สัญลักษณ์ตัวอย่างที่ 33-46 (僧) ประกอบด้วยรากศัพท์ 9 (亻) และอักษรคันจิที่ต่อมากลายเป็นอักษรโซคานะ (曽) นอกจากนี้ ในเกณฑ์การรวม 101 ยังมีอักษรคันจิแสดงอยู่สามตัว ตัวแรกมีรูปแบบที่พบเห็นได้บ่อยที่สุดในภาษาญี่ปุ่น (曽) ตัวที่สองมีรูปแบบดั้งเดิมมากกว่า (曾) ซึ่งเส้นสองเส้นแรกประกอบเป็นรากศัพท์ 12 (ตัวเลขคันจิสำหรับเลข 8:八) และตัวที่สามคล้ายกับตัวที่สอง ยกเว้นว่ารากศัพท์ 12 กลับด้าน (曾) ดังนั้น การเรียงสับเปลี่ยนทั้งสามแบบ (僧,僧,僧) จึงใช้ได้กับรหัสจุดที่บรรทัด 33 เซลล์ 46 ทั้งหมด
ในมาตรฐานฉบับที่สี่ ซึ่งรวมถึงข้อแก้ไขข้อผิดพลาดสำหรับการพิมพ์ครั้งแรก มีเกณฑ์การรวมมาตรฐานทั้งหมด 186 ข้อ
เมื่อตัวอย่างอักษรของรหัสจุดประกอบด้วยอักษรย่อยมากกว่าหนึ่งส่วน เกณฑ์การรวมสามารถนำไปใช้กับแต่ละส่วนได้ หลังจากใช้เกณฑ์การรวมกับอักษรย่อยส่วนใดส่วนหนึ่งแล้ว ส่วนนั้นจะไม่สามารถใช้เกณฑ์การรวมเพิ่มเติมได้อีก นอกจากนี้ ไม่อนุญาตให้ใช้เกณฑ์การรวมหากอักษรที่ได้นั้นทับซ้อนกับอักษรของรหัสจุดอื่นโดยสมบูรณ์
ตัวอย่างอักษรคันจิเป็นเพียงตัวอย่างสำหรับรหัสอักขระนั้น ๆ เท่านั้น ไม่ใช่อักษรคันจิที่ "ได้รับการรับรอง" จากมาตรฐาน นอกจากนี้ เกณฑ์การรวมมาตรฐานควรใช้เฉพาะกับอักษรคันจิที่ใช้กันทั่วไป และเพื่อวัตถุประสงค์ในการกำหนดรหัสอักขระให้กับมาตรฐานนี้เท่านั้น มาตรฐานขอให้ไม่สร้างอักษรคันจิที่ไม่ได้ใช้โดยทั่วไปโดยอิงจากตัวอย่างอักษรคันจิและเกณฑ์การรวมมาตรฐาน
ตัวอักษรคันจิในชุดคันจิไม่ได้ถูกเลือกอย่างสอดคล้องกันโดยสมบูรณ์ตามเกณฑ์การรวมมาตรฐาน ตัวอย่างเช่น แม้ว่า 41-7 จะตรงกับรูปแบบที่เส้นขีดที่สามและสี่ไขว้กัน (彥) เช่นเดียวกับรูปแบบที่เส้นขีดที่สามและสี่ไม่ไขว้กัน (彦) ตามเกณฑ์การรวมมาตรฐานข้อ 72 แต่ 20-73 ตรงกับรูปแบบที่เส้นขีดที่สามและสี่ไม่ไขว้กัน (顔) เท่านั้น และ 80-90 ตรงกับรูปแบบที่เส้นขีดที่สามและสี่ไขว้กัน (顏) เท่านั้น
ในมาตรฐานฉบับที่สี่ คำว่า "การรวม" "เกณฑ์การรวม" และ "ตัวอย่างอักษร" ถูกนำมาใช้ ตั้งแต่ฉบับที่หนึ่งจนถึงฉบับที่สาม อักษรคันจิและความสัมพันธ์ระหว่างอักษรคันจิถูกจัดกลุ่มเป็นสามประเภท ได้แก่ "อิสระ" (独立, dokuritsu ) "เข้ากันได้" (対応, taiō )และ "เทียบเท่า" (同値, dōchi )โดยมีการอธิบายว่าอักษรที่ได้รับการยอมรับว่าเทียบเท่ากันนั้น "รวมกันเป็นเพียงจุดเดียว" "ความเทียบเท่า" นั้นรวมถึงอักษรคันจิที่มีความแตกต่างกันเนื่องจากรูปแบบ และอักษรคันจิที่มีความแตกต่างในรูปทรงเล็กน้อย นอกเหนือจากอักษรคันจิที่มีรูปร่างเหมือนกันทุกประการ
ในมาตรฐานฉบับแรก ระบุไว้ว่า "มาตรฐานนี้...ไม่ได้กำหนดรายละเอียดเฉพาะของรูปแบบตัวอักษร" (มาตรา 3.1) และยังระบุอีกว่า "จุดประสงค์ของมาตรฐานนี้คือการกำหนดแนวคิดทั่วไปของตัวอักษรและรหัสของตัวอักษร การออกแบบรูปแบบตัวอักษรและอื่นๆ นั้นอยู่นอกขอบเขตของมาตรฐานนี้" ในมาตรฐานฉบับที่สองและสามก็มีหมายเหตุในทำนองเดียวกันว่าการออกแบบรูปแบบตัวอักษรเฉพาะนั้นอยู่นอกขอบเขตของมาตรฐานนี้ (หมายเหตุในข้อ 1) มาตรฐานฉบับที่สี่ก็ระบุเช่นกันว่า "มาตรฐานนี้ควบคุมตัวอักษรกราฟิก ตลอดจนรูปแบบบิต และการใช้งาน การออกแบบเฉพาะของตัวอักษรแต่ละตัว และอื่นๆ นั้นอยู่นอกขอบเขตของมาตรฐานนี้" (JIS X 0208:1997 ข้อ 1)
เกณฑ์การรวมเพื่อความเข้ากันได้
ในมาตรฐานที่ 4 ได้กำหนด "เกณฑ์การรวมเพื่อรักษาความเข้ากันได้กับมาตรฐานก่อนหน้านี้" (過去の規格との互換性を維持したための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun )การประยุกต์ใช้งานจำกัดอยู่ที่ 29 จุดรหัสซึ่งมีสัญลักษณ์แตกต่างกันอย่างมากระหว่างมาตรฐาน JIS C 6226-1983 ในและหลังและ JIS C 6226-1978 สำหรับจุดรหัส 29 จุดนั้น สัญลักษณ์จาก JIS C 6226-1983 เป็นต้นไปจะแสดงเป็น "A" และสัญลักษณ์จาก JIS C 6226-1978 เป็น "B" ในแต่ละสัญลักษณ์ สามารถใช้ทั้งอักษร "A" และ "B" ได้ อย่างไรก็ตาม เพื่อให้เป็นไปตามมาตรฐาน จะต้องระบุอย่างชัดเจนว่าได้ใช้รูปแบบ "A" หรือ "B" สำหรับแต่ละจุดรหัส
การเข้ารหัสอักขระ
รูปแบบการเข้ารหัสที่กำหนดโดย JIS X 0208
ในมาตรฐาน JIS X 0208:1997 มาตรา 7 เมื่อรวมกับภาคผนวก 1 และ 2 ได้กำหนดรูปแบบการเข้ารหัสทั้งหมดแปดแบบ
ในคำอธิบายด้านล่างนี้ พื้นที่ "CL" (ควบคุมด้านซ้าย), "GL" (กราฟิกด้านซ้าย), "CR" (ควบคุมด้านขวา) และ "GR" (กราฟิกด้านขวา) จะหมายถึงช่วงตั้งแต่ 0/0 ถึง 1/15, 2/1 ถึง 7/14, 8/0 ถึง 9/15 และ 10/1 ถึง 15/14 ตามลำดับ ในรูปแบบคอลัมน์/บรรทัด สำหรับแต่ละรหัส 2/0 จะถูกกำหนดอักขระกราฟิก "SPACE" และ 7/15 จะถูกกำหนดอักขระควบคุม "DELETE" อักขระควบคุม C0 (ที่กำหนดไว้ในJIS X 0211และตรงกับISO/IEC 6429 ) จะถูกกำหนดให้กับพื้นที่ CL
- การเข้ารหัส 7 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานแล้ว ชุดไบต์คู่ JIS X 0208 ถูกกำหนดให้กับส่วน GL
- การเข้ารหัส 8 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานแล้ว เหมือนกับการเข้ารหัส 7 บิต แต่กำหนดในรูปของไบต์ 8 บิต บริเวณ CR อาจไม่ได้ใช้งาน หรืออาจเข้ารหัสอักขระควบคุม C1จาก JIS X 0211 บริเวณ GR ไม่ได้ใช้งาน
- ฉบับอ้างอิงสากล + การเข้ารหัส 7 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานเองแล้ว การเปลี่ยนตำแหน่งอักขระควบคุมจะกำหนดให้ISO/IEC 646 :1991 IRV (International Reference Version ซึ่งเทียบเท่ากับUS-ASCII ) อยู่ในภูมิภาค GL ส่วนการเปลี่ยนตำแหน่งออกจะกำหนดให้ชุดไบต์คู่ JIS X 0208 อยู่ในภูมิภาคเดียวกัน
- อักษรละติน + การเข้ารหัส 7 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานเอง เช่นเดียวกับ IRV+7-bit แต่แทนที่ ISO/IEC 646:IRV ด้วยISO/IEC 646:JP (ชุดตัวอักษรโรมันของJIS X 0201 )
- ฉบับอ้างอิงสากล + การเข้ารหัส 8 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานเองแล้ว ISO/IEC 646:IRV จัดอยู่ในกลุ่มภาษาเกลิก (GL) และ JIS X 0208 จัดอยู่ในกลุ่มภาษากรีก (GR) ซึ่งโดยพื้นฐานแล้วเป็นส่วนย่อยของEUC-JPโดยไม่รวมอักษรคาตาคานะครึ่งความกว้างจากJIS X 0201และอักษรคันจิเพิ่มเติมจากJIS X 0212
- อักษรละติน + การเข้ารหัส 8 บิตสำหรับอักษรคันจิ
- ระบุไว้ในมาตรฐานเอง เช่นเดียวกับ IRV+8-bit แต่แทนที่ ISO/IEC 646:IRV ด้วย ISO/IEC 646:JP
- ชุดอักขระแบบ Shift-coded
- กำหนดไว้ในภาคผนวก 1: "การเป็นตัวแทนแบบ Shift-Coded" ( SHIFTT符号化表現, Shifuto Fugōka Hyōgen )คำจำกัดความที่เชื่อถือได้ของShift JIS
- ชุดอักขระที่เข้ารหัสตาม RFC 1468
- ระบุไว้ในภาคผนวก 2: "การแสดงผลแบบเข้ารหัส RFC 1468" ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen )คล้ายกับISO-2022-JP (ซึ่งได้รับการกำหนดอย่างเป็นทางการใน RFC 1468) แต่กำหนดโดยใช้ไบต์แปดบิต ในขณะที่ ISO-2022-JP กำหนดโดยใช้ไบต์เจ็ดบิต
ในบรรดาการเข้ารหัสที่กำหนดไว้ในมาตรฐานที่สี่ มีเพียงชุดอักขระที่เข้ารหัสแบบ "Shift" เท่านั้นที่ลงทะเบียนโดยIANA [ 11 ] อย่างไรก็ตามการเข้ารหัสอื่นๆ บางส่วนมีความเกี่ยวข้องอย่างใกล้ชิดกับการเข้ารหัสที่ลงทะเบียนโดย IANA ซึ่งกำหนดไว้ในที่อื่น (EUC-JP และ ISO-2022-JP)
ลำดับการหลีกเลี่ยงสำหรับ JIS X 0202 / ISO 2022
JIS X 0208 สามารถใช้ได้ภายในISO 2022 /JIS X 0202 (ซึ่ง ISO-2022-JP เป็นส่วนย่อย) ลำดับการหลีกเลี่ยง (ESC ) เพื่อกำหนด JIS X 0208 ให้กับชุดรหัส ISO 2022 ทั้งสี่ชุดแสดงไว้ด้านล่าง โดยที่ "ESC" หมายถึงอักขระควบคุม " Escape " (0x1B หรือ 1/11)
| มาตรฐาน | จีโอ | จี1 | จี2 | จี3 |
|---|---|---|---|---|
| 78 | เอสซีเอส 2/4 4/0 | ESC 2/4 2/9 4/0 | ESC 2/4 2/10 4/0 | ESC 2/4 2/11 4/0 |
| 83 | เอสซีเอส 2/4 4/2 | เอสซี 2/4 2/9 4/2 | ESC 2/4 2/10 4/2 | เอสซี 2/4 2/11 4/2 |
| ตั้งแต่ปี 90 เป็นต้นไป | ESC 2/6 4/0 ESC 2/4 4/2 | ESC 2/6 4/0 ESC 2/4 2/9 4/2 | ESC 2/6 4/0 ESC 2/4 2/10 4/2 | ESC 2/6 4/0 ESC 2/4 2/11 4/2 |
ลำดับการหลีกเลี่ยงที่เริ่มต้นด้วย ESC 2/4 จะเลือกชุดอักขระแบบหลายไบต์ ลำดับการหลีกเลี่ยงที่เริ่มต้นด้วย ESC 2/6 จะระบุการแก้ไขของการเลือกชุดอักขระที่จะตามมา JIS C 6226:1978 ระบุโดยไบต์ตัวระบุชุด 94 ไบต์@แบบหลายไบต์ 4/0 (ตรงกับ ASCII) JIS C 6226:1983 / JIS X 0208:1983 ระบุโดยไบต์ตัวระบุชุด 94 ไบต์แบบหลายไบต์ 4/2 ( B) JIS X 0208:1990 ก็ระบุโดยไบต์ตัวระบุชุด 94 ไบต์ 4/2 เช่นกัน แต่สามารถแยกแยะได้ด้วยตัวระบุการแก้ไข 4/0 ( @)
การเข้ารหัสซ้ำของ ASCII และ JIS X 0201
เมื่อใช้ชุดอักษรคันจิของมาตรฐานนี้ร่วมกับชุดอักขระกราฟิก ISO/IEC 646:1991 IRV ( ASCII ) หรือชุดอักขระกราฟิก JIS X 0201 สำหรับอักษรละติน ( JIS-Roman ) การจัดการกับอักขระที่พบได้ทั่วไปในทั้งสองชุดจะกลายเป็นปัญหา เว้นแต่จะใช้วิธีการพิเศษ อักขระที่รวมอยู่ในทั้งสองชุดจะไม่สามารถจับคู่กันได้แบบหนึ่งต่อหนึ่ง และอักขระตัวเดียวอาจมีจุดรหัสมากกว่าหนึ่งจุด กล่าวคือ อาจทำให้เกิดการเข้ารหัสซ้ำซ้อน
มาตรฐาน JIS X 0208:1997 ในส่วนที่เกี่ยวกับการใช้ตัวอักษรเดียวกันในทั้งสองชุดนั้น โดยพื้นฐานแล้วห้ามการใช้รหัสจุดในชุดคันจิ (ซึ่งเป็นหนึ่งในสองรหัสจุด) เพื่อขจัดปัญหาการเข้ารหัสซ้ำซ้อน โดยถือว่าตัวอักษรที่มีชื่อเดียวกันเป็นตัวอักษรเดียวกัน
ตัวอย่างเช่น ทั้งชื่อของตัวอักษรที่ตรงกับรูปแบบบิต 4/1 ใน ASCII และชื่อของตัวอักษรที่ตรงกับแถวที่ 3 เซลล์ที่ 33 ของชุดคันจิ ต่างก็เป็น "LATIN CAPITAL LETTER A" ในรหัส 8 บิต International Reference Version + สำหรับคันจิ ไม่ว่าจะใช้รูปแบบบิต 4/1 หรือรูปแบบบิตที่ตรงกับแถวที่ 3 เซลล์ที่ 33 ของชุดคันจิ (10/3 12/1) ตัวอักษร " A " (เช่น "LATIN CAPITAL LETTER A") จะถูกแทนด้วยรูปแบบบิตดังกล่าว มาตรฐานห้ามใช้รูปแบบบิต "10/3 12/1" เพื่อพยายามกำจัดการเข้ารหัสที่ซ้ำซ้อน
เนื่องจากระบบบางระบบถือว่าอักขระในรหัสจุดของชุดคันจิเป็น " อักขระเต็มความกว้าง " และอักขระใน ASCII หรือ JIS-Roman เป็นอักขระที่แตกต่างกัน การใช้รหัสจุดของชุดคันจิจึงได้รับอนุญาตเฉพาะเพื่อความเข้ากันได้กับเวอร์ชันก่อนหน้าเท่านั้น ตัวอย่างเช่น เพื่อความเข้ากันได้กับเวอร์ชันก่อนหน้า อนุญาตให้ถือว่า 10/3 12/1 ในรหัส International Reference Version + 8-bit สำหรับคันจิ สอดคล้องกับตัว "A" ที่มีความกว้างเต็ม
หากใช้ชุดอักษรคันจิร่วมกับ ASCII หรือ JIS-Roman แม้ว่าจะปฏิบัติตามมาตรฐานอย่างเคร่งครัด ก็ไม่รับประกันว่าจะมีรหัสการเข้ารหัสที่ไม่ซ้ำกันสำหรับตัวอักษรแต่ละตัว ตัวอย่างเช่น ในรหัส International Reference Version + 8-bit สำหรับอักษรคันจิ สามารถใช้รูป แบบบิต 2/13 แทน เครื่องหมายยัติภังค์สำหรับตัวอักษร "HYPHEN-MINUS" ได้ เช่นเดียวกับการใช้แถวที่ 1 เซลล์ที่ 30 ของชุดอักษรคันจิ (รูปแบบบิต 10/1 11/14) สำหรับตัวอักษร "HYPHEN" นอกจากนี้ มาตรฐานยังไม่ได้กำหนดว่าควรใช้แบบใดสำหรับอะไร ดังนั้นเครื่องหมายยัติภังค์จึงไม่มีรหัสการเข้ารหัสที่ไม่ซ้ำกัน ปัญหาเดียวกันนี้ส่งผลกระทบต่อเครื่องหมายลบเครื่องหมายอัญประกาศและอื่นๆ ด้วย
ยิ่งไปกว่านั้น แม้ว่าจะใช้ชุดอักษรคันจิเป็นรหัสแยกต่างหาก ก็ไม่มีการรับประกันว่าการเข้ารหัสตัวอักษรที่ไม่ซ้ำกันจะถูกนำไปใช้ ในหลายกรณี ช่องว่าง " IDEOGRAPHIC SPACE " แบบเต็มความกว้างที่แถวที่ 1 เซลล์ที่ 1 และช่องว่างแบบครึ่งความกว้าง (2/0) จะอยู่ร่วมกัน ความแตกต่างระหว่างทั้งสองนั้นไม่สามารถอธิบายได้ด้วยตนเอง และไม่ได้ระบุไว้ในมาตรฐาน
การเปรียบเทียบรูปแบบการเข้ารหัสที่ใช้ในทางปฏิบัติ
| การเข้ารหัส | ชื่ออื่น | 7 บิต? [ A ] | ISO 2022 ? | ไร้สัญชาติ? [ B ] | รองรับASCIIหรือไม่? | 0x00–7F เป็น ASCII เสมอหรือไม่? | ซูเปอร์เซ็ตของ JIS X 0201แบบ 8 บิต? | รองรับมาตรฐานJIS X 0212หรือไม่? | การซิงโครไนซ์อัตโนมัติแบบไบต์ต่อไบต์? | การซิงโครไนซ์ตัวเองแบบบิตไวส์? |
|---|---|---|---|---|---|---|---|---|---|---|
| ISO-2022-JP | " JIS " (JIS X 0202) | ใช่ | ใช่ | ไม่[ C ] | ใช่ | ลำดับอาจไม่ใช่ ASCII [ C ] | ไม่ (สามารถเข้ารหัสได้) [ D ] | เป็นไปได้[ E ] | เลขที่ | เลขที่ |
| ชิฟต์_จีไอเอส | "เอสจีไอเอส" | เลขที่ | เลขที่ | ใช่ | เกือบ[ F ] | ไบต์ที่แยกเดี่ยวอาจไม่ใช่ ASCII [ G ] | ใช่ | เลขที่ | เลขที่ | เลขที่ |
| ยูซี-เจพี | "UJIS" (Unixized JIS) | เลขที่ | ใช่[ H ] | ใช่[ H ] | โดยปกติ[ฉัน] | ใช่ | ไม่ (เข้ารหัส) [ J ] | โดยปกติจะพร้อมใช้งาน[ K ] | เลขที่ | เลขที่ |
| รูปแบบ Unicodeสำหรับการเปรียบเทียบ[ L ] | ||||||||||
| ยูทีเอฟ-8 | เลขที่ | เลขที่ | ใช่ | ใช่ | ใช่ | ไม่ (เข้ารหัส) | มีอยู่ | ใช่ | โดยปกติ[ M ] | |
| ยูทีเอฟ-16 | "ยูนิโค้ด" [ N ] | เลขที่ | เลขที่ | ใช่ | เลขที่ | เลขที่ | ไม่ (เข้ารหัส) | มีอยู่ | เฉพาะคำที่มีความละเอียดมากกว่า 16 บิตเท่านั้น | เลขที่ |
| GB 18030 | เลขที่ | ไม่[ O ] | ใช่ | ใช่ | ไบต์ที่แยกออกมาอาจไม่ใช่ ASCII | ไม่ (เข้ารหัส) | มีอยู่ | เลขที่ | เลขที่ | |
| ยูทีเอฟ-32 | เลขที่ | เลขที่ | ใช่ | เลขที่ | เลขที่ | ไม่ (เข้ารหัส) | มีอยู่ | โดยปกติ ในทางปฏิบัติ[ P ] | เลขที่ | |
- ^กล่าวคือ ไม่จำเป็นต้องส่งข้อมูลแบบสะอาด 8 บิต
- ^กล่าวคือ ลำดับที่ใช้ในการเข้ารหัสอักขระที่กำหนดจะเหมือนกันเสมอ ไม่ว่าอักขระก่อนหน้าจะเป็นอะไรก็ตาม ดูได้จากวิชาวิทยาศาสตร์คอมพิวเตอร์
- มาตรฐานISO -2022-JP เป็นการ เข้ารหัส แบบมีสถานะ : ชุดอักขระทั้งหมดถูกเข้ารหัสบนช่วง 0x21–7E และสลับไปมาระหว่างชุดอักขระโดยใช้ รหัสหลีกเลี่ยง ANSI ดังนั้น ในขณะที่สถานะเริ่มต้นเป็น ASCII ลำดับของอักขระที่ไม่ใช่ ASCII ทั้งหมดสามารถเข้ารหัสด้วยไบต์ ASCII ได้
- ^อักษรคาตาคานะ JIS X 0201 มีให้เลือกใช้ใน JIS X 0202 และ ISO 2022 แต่ไม่ได้รวมอยู่ในโปรไฟล์ ISO-2022-JP พื้นฐาน แม้ว่าจะเป็นส่วนขยายที่ใช้กันทั่วไปก็ตาม
- ^ JIS X 0212 มีให้เลือกใช้ใน JIS X 0202 และ ISO 2022 และรวมอยู่ในโปรไฟล์ ISO-2022-JP-1 และ ISO-2022-JP-2 แต่ไม่รวมอยู่ในโปรไฟล์ ISO-2022-JP พื้นฐาน
- ^อักขระไบต์เดียว 0x21–7E ใน Shift_JIS นั้นเป็น ISO-646-JP อย่างถูกต้อง เพื่อให้เป็นซูเปอร์เซ็ตของ JIS X 0201 แบบ 8 บิต แต่โดยทั่วไปจะถูกถอดรหัส (ไม่จำเป็นต้องแสดงผล) เป็น ASCII ซึ่งแตกต่างกันเพียงสองจุดเท่านั้น
- ^ไบต์ ASCII บางส่วน (ไม่ใช่ทั้งหมด) อาจปรากฏเป็นไบต์ที่สอง แต่ไม่ใช่ไบต์แรกของอักขระสองไบต์ใน Shift_JIS ดังนั้น ในลำดับของไบต์ ASCII สองไบต์ขึ้นไป ไบต์ที่สองเป็นต้นไปจะต้องเป็นอักขระ ASCII (หรือ ISO-646-JP) เสมอ
- ^ a b EUC รูปแบบแพ็ค (Packed-format EUC) ใช้กลไกของ ISO 2022 โดยมีการกำหนดชุดอักขระไว้ล่วงหน้า หลีกเลี่ยงการใช้การหลีกเลี่ยง (escape) ในการกำหนดชุดอักขระและการเลื่อนแบบล็อก (locking shift) ในขณะที่สามารถใช้การเลื่อนแบบเดี่ยว (single shift) ในลักษณะที่ไม่ขึ้นกับสถานะ (non-stateful) ได้ อย่างไรก็ตาม ยังคงปฏิบัติตามข้อจำกัดของ ISO 2022 อยู่
- ^อักขระไบต์เดียว 0x21–7E ใน EUC-JP โดยทั่วไปถือว่าเป็น ASCII แต่บางครั้งก็ถือว่าเป็น ISO-646- JP
- ^ต่างจาก Shift_JIS, EUC-JP จะไม่รองรับอินพุต JIS X 0201 แบบ 8 บิตโดยตรงหากไม่มีการแปลงก่อน เนื่องจากวิธีการแสดงตัวอักษรคาตาคานะ JIS X 0201 (ที่มีการเลื่อนบิตเดียว) นั้นแตกต่างกัน
- ^มาตรฐาน JIS X 0212 ใน EUC-JP ไม่ได้ถูกนำมาใช้เสมอไป
- ^นอกจากคุณสมบัติของการเข้ารหัสแล้ว รูปแบบ Unicode ยังมีข้อดีเพิ่มเติมที่เกิดจากชุดอักขระพื้นฐาน: โดยไม่จำกัดเฉพาะอักขระที่เข้ารหัสแบบ JIS แต่สามารถแสดงอักขระทั้งหมดของ UCS (รวมถึงอักขระที่เข้ารหัสแบบ JIS ทั้งหมด) และจึงเหมาะสำหรับการใช้งานในระดับสากล นอกจากนี้ยังได้รับผลกระทบน้อยกว่าจากส่วนขยายที่เป็นกรรมสิทธิ์ที่ขัดแย้งกัน เนื่องจากมีชุดอักขระพื้นฐานที่กว้างกว่าและพื้นที่ใช้งานส่วนตัวที่กำหนดไว้
- ^การเลื่อนเฟรมแบบบิตไวส์ส่วนใหญ่ของข้อความที่เข้ารหัส UTF-8 จะทำให้ได้ UTF-8 ที่ไม่ถูกต้อง แต่เป็นไปได้ที่จะสร้างลำดับของอักขระที่ยังคงเป็น UTF-8 ที่ถูกต้องแม้ว่าจะมีการเลื่อนเฟรมไปหนึ่งบิตหรือมากกว่านั้นก็ตาม
- ^เฉพาะโดย Microsoft เท่านั้น
- ^แม้ว่า GB 18030 และ GBK จะเป็นส่วนขยายของรูปแบบ EUC-CN ของ GB/T 2312 แต่ก็ไม่ได้ปฏิบัติตามข้อจำกัดของ EUC หรือ ISO 2022 ซึ่งแตกต่างจาก EUC-JP (หรือ EUC-CN ดั้งเดิม)
- ^แม้ว่าในทางทฤษฎี UTF-32 จะซิงโครไนซ์ตัวเองได้เฉพาะกับ dword 32 บิตเท่านั้น แต่การใช้ค่า 32 บิตเพื่อแทนค่า 21 บิตหมายความว่า ในทางปฏิบัติ UTF-32 จะมีบิตศูนย์ต่อเนื่องอย่างน้อย 11 บิตที่ส่วนบนสุดของแต่ละอักขระ ซึ่งโดยปกติแล้วสามารถใช้เพื่อจัดแนวให้ตรงกับขอบเขตของอักขระได้ ขึ้นอยู่กับโค้ดพอยต์ที่เกี่ยวข้อง
ประวัติศาสตร์
จนกว่าจะครบห้าปีนับจากวันที่มาตรฐานอุตสาหกรรมของญี่ปุ่นได้รับการกำหนด ยืนยัน หรือแก้ไข มาตรฐานฉบับก่อนหน้าจะเข้าสู่กระบวนการยืนยัน แก้ไข หรือยกเลิก นับตั้งแต่มีการกำหนดมาตรฐานดังกล่าว มาตรฐานนี้ได้รับการแก้ไขมาแล้วสามครั้ง และปัจจุบันมาตรฐานฉบับที่สี่มีผลบังคับใช้
มาตรฐานแรก
มาตรฐานแรกคือJIS C 6226-1978 "รหัสชุดอักขระกราฟิกญี่ปุ่นสำหรับการแลกเปลี่ยนข้อมูล" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei )ซึ่งกำหนดโดยรัฐมนตรีว่าการกระทรวงการค้าและอุตสาหกรรมระหว่างประเทศ ของญี่ปุ่น เมื่อวันที่ 1 มกราคม 1978 เรียกสั้น ๆ ว่า78JISคณะ กรรมการวิจัยและศึกษามาตรฐานรหัสคันจิของ JIPDEC ซึ่งได้รับมอบหมายจาก สำนักงานวิทยาศาสตร์และเทคโนโลยีอุตสาหกรรม ได้จัดทำร่างมาตรฐานนี้ขึ้น โดย มีโมริกุจิ ชิเกอิจิเป็น ประธานคณะกรรมการ
รหัสประกอบด้วยอักษรที่ไม่ใช่คันจิ 453 ตัว (รวมถึงฮิรากานะ คาตาคานะ อักษรโรมัน กรีก และซีริลลิก และเครื่องหมายวรรคตอน) และอักษรคันจิ 6349 ตัว (คันจิระดับ 1 จำนวน 2965 ตัว และคันจิระดับ 2 จำนวน 3384 ตัว) รวมทั้งหมด 6802 ตัว[ 12 ]ในขณะนั้นยังไม่มีอักษรวาดกรอบมาตรฐานดังกล่าวถูกกำหนดไว้ในแบบอักษร Ishii Mincho ของ บริษัท Shaken จำกัด
มาตรฐานที่สอง
มาตรฐานฉบับที่สองJIS C 6226-1983 "รหัสชุดอักขระกราฟิกภาษาญี่ปุ่นสำหรับการแลกเปลี่ยนข้อมูล" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei )ได้ปรับปรุงมาตรฐานฉบับแรกเมื่อวันที่ 1 กันยายน 1983 เรียกอีกชื่อหนึ่งว่า83JIS ร่างมาตรฐานนี้จัดทำโดยคณะกรรมการ JIS ที่เกี่ยวข้องกับรหัสคันจิของ JIPDEC ซึ่งได้รับมอบหมายจาก AIST โดยมี Motooka Tōruเป็น ประธานคณะกรรมการ
ร่างมาตรฐานฉบับที่สองนี้จัดทำขึ้นโดยพิจารณาจากปัจจัยต่างๆ เช่น การประกาศใช้คันจิโจโยการบังคับใช้คันจิจินเมโย และการกำหนดมาตรฐานเทเล เท็กซ์ภาษาญี่ปุ่นโดยกระทรวงไปรษณีย์และโทรคมนาคมนอกจากนี้ การปรับปรุงครั้งต่อไปยังดำเนินการเพื่อให้สอดคล้องกับมาตรฐาน JIS C 6234-1983 (รูปแบบตัวอักษรสำหรับเครื่องพิมพ์เมทริกซ์ 24 พิกเซล ปัจจุบันคือ JIS X 9052)
- การเพิ่มอักขระพิเศษ
- มีการเพิ่มอักขระพิเศษอีก 39 ตัว โดยในจำนวน 39 ตัวนี้ ได้รับการคัดเลือกตาม คำแนะนำ ของ JICSTและจากมาตรฐานต่างๆ เช่น JIS Z 8201-1981 (สัญลักษณ์ทางคณิตศาสตร์) และ JIS Z 8202-1982 (ปริมาณ หน่วย และสัญลักษณ์ทางเคมี) ซึ่งเป็นสิ่งที่ไม่สามารถแสดงได้ด้วยองค์ประกอบทางเคมี
- ตัวละครวาดกล่องที่เพิ่มเข้ามาใหม่
- มีการเพิ่มอักขระวาดกรอบ 32 ตัว
- การสลับรหัสจุดอิตาอิจิ
- มี การสลับรหัสจุดสำหรับ คู่ ตัวอักษรคันจิ 22 คู่ โดยที่ตัวอักษรที่อยู่ในระดับ 2 จะถูกย้ายไปที่ระดับ 1 และในทางกลับกัน[ 12 ] [ 13 ]ตัวอย่างเช่น แถวที่ 36 เซลล์ที่ 59 ของตัวอักษรมาตรฐานตัวแรก (壺) ในระดับ 1 ถูกย้ายไปที่แถวที่ 52 เซลล์ที่ 68 ของตัวอักษรมาตรฐานตัวแรก (壷) ในระดับ 2 และจุดที่เดิมอยู่ที่แถวที่ 52 เซลล์ที่ 68 (壷) ก็ถูกย้ายไปที่แถวที่ 36 เซลล์ที่ 59 เช่นกัน
- เพิ่มเติมตัวอักษรคันจิระดับ 2
- อักขระสามตัวจากระดับ 1 และอักขระหนึ่งตัวจากระดับ 2 ได้รับจุดรหัสใหม่ที่จุดรหัสที่ยังไม่ได้กำหนดไว้ก่อนหน้านี้ในแถวที่ 84 ในฐานะคันจิระดับ 2 อิตาอิจิสำหรับแต่ละจุดรหัสเหล่านั้นได้รับการกำหนดใหม่ไปยังตำแหน่งเดิม[ 14 ]ตัวอย่างเช่น แถวที่ 84 เซลล์ที่ 1 ในมาตรฐานที่สอง (堯) ถูกย้ายไปที่นั่นเพื่อรองรับรูปแบบที่แตกต่างกันซึ่งไม่ได้รวมอยู่ในมาตรฐานแรกที่แถวที่ 22 เซลล์ที่ 38 ในฐานะคันจิระดับ 1 (尭)
- การปรับเปลี่ยนรูปแบบตัวอักษร
- รูปแบบตัวอักษรของคันจิประมาณ 300 ตัวได้รับการแก้ไข[ 15 ]
ในบรรดาการเปลี่ยนแปลงรูปแบบตัวอักษรคันจิประมาณ 300 ตัวนั้น ตัวอักษรระดับ 1 หลายตัวที่อยู่ในรูปแบบของพจนานุกรมคังซีถูกเปลี่ยนเป็นรูปแบบต่างๆ โดยเฉพาะอย่างยิ่งรูปแบบที่ง่ายขึ้น (เช่นryakujiและshinjitai แบบขยาย ) ตัวอย่างเช่น รหัสจุดสองจุดที่มักเป็นเป้าหมายของการวิพากษ์วิจารณ์เนื่องจากมีการเปลี่ยนแปลงอย่างมาก ได้แก่ แถวที่ 18 ช่องที่ 10 (78JIS:鷗, 83JIS:鴎) และแถวที่ 38 ช่องที่ 34 (78JIS:瀆, 83JIS:涜)
มีการเปลี่ยนแปลงเล็กน้อยหลายอย่างที่แตกต่างจากรูปแบบคังซี ตัวอย่างเช่น แถวที่ 25 ช่องที่ 84 (鵠) สูญเสียส่วนหนึ่งของเส้นขีดไป นอกจากนี้ ในอักษรคันจิระดับ 1 บางตัวที่ไม่ได้อยู่ในรูปแบบคังซี ก็มีการเปลี่ยนแปลงให้เป็นรูปแบบคังซี ตัวอย่างเช่น แถวที่ 80 ช่องที่ 49 (靠) เพิ่มส่วนหนึ่งของเส้นขีดเข้ามา (เช่นเดียวกับส่วนของเส้นขีดที่หายไปในช่องที่ 25-84)
เพื่อชี้แจงเจตนารมณ์ดั้งเดิมของมาตรฐานฉบับแรก สิ่งเหล่านี้จึงตกอยู่ภายใต้พารามิเตอร์สำหรับเกณฑ์การรวมในมาตรฐานฉบับที่สี่ ความแตกต่างในรูปแบบของตัวอย่างที่กล่าวถึงข้างต้น ("鵠" และ "靠") อยู่ภายใต้พารามิเตอร์สำหรับเกณฑ์การรวมข้อที่ 42 (เกี่ยวกับส่วนประกอบ "告") [ t ]
การเปลี่ยนแปลงรูปแบบตัวอักษรส่วนใหญ่เป็นความแตกต่างระหว่างคันจิระดับ 1 และระดับ 2 โดยเฉพาะอย่างยิ่ง การลดรูปตัวอักษรเกิดขึ้นบ่อยกว่าสำหรับคันจิระดับ 1 มากกว่าคันจิระดับ 2 การลดรูปตัวอักษรที่ใช้กับคันจิระดับ 1 (เช่น "潑" เป็น "溌" และ "醱" เป็น "醗") โดยทั่วไปจะไม่นำไปใช้กับคันจิในระดับ 2 ("撥" ยังคงเหมือนเดิม) คันจิหมายเลข 25-84 (鵠) และ 80-49 (靠) ที่กล่าวถึงข้างต้นได้รับการจัดการที่แตกต่างกันเช่นกัน เนื่องจากหมายเลขแรกอยู่ในระดับ 1 และหมายเลขหลังอยู่ในระดับ 2 ถึงกระนั้นก็มีการเปลี่ยนแปลงบางอย่างโดยไม่คำนึงถึงระดับ ตัวอย่างเช่น ตัวอักษรที่มีส่วนประกอบของ "ประตู" (戸) และ "ฤดูหนาว" (冬) ถูกเปลี่ยนแปลงโดยไม่มีความแตกต่างกันระหว่างคันจิระดับ 1 และระดับ 2
อย่างไรก็ตาม สำหรับรหัสสี 29 จุด (เช่น รหัสสี 18-10 และ 38-34 ที่มีปัญหาซึ่งกล่าวถึงข้างต้น) รูปแบบที่สืบทอดมาจากมาตรฐานฉบับที่สี่ขัดแย้งกับเจตนารมณ์ดั้งเดิมของมาตรฐานฉบับแรก สำหรับรหัสสีเหล่านี้ จึงมีเกณฑ์การรวมพิเศษเพื่อรักษาความเข้ากันได้กับมาตรฐานก่อนหน้าในรหัสสีเหล่านั้น
เมื่อมีการนำหมวดหมู่ "X" ใหม่สำหรับมาตรฐานอุตสาหกรรมของญี่ปุ่น (สำหรับสาขาที่เกี่ยวข้องกับข้อมูล) มาใช้ มาตรฐานที่สองจึงเปลี่ยนชื่อเป็นJIS X 0208-1983 [ 12 ]เมื่อวันที่ 1 มีนาคม พ.ศ. 2530
มาตรฐานที่สาม
มาตรฐานฉบับที่สามJIS X 0208-1990 "รหัสชุดอักขระกราฟิกญี่ปุ่นสำหรับการแลกเปลี่ยนข้อมูล" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō )ได้ปรับปรุงมาตรฐานฉบับที่สองเมื่อวันที่ 1 กันยายน 1990 เรียก สั้น ๆ ว่า 90JIS คณะกรรมการของ สมาคมมาตรฐานญี่ปุ่นซึ่งได้รับมอบหมายจาก AIST ให้ปรับปรุง JIS X 0208 ได้จัดทำร่างขึ้น โดยมีTajima Kazuoเป็น ประธานคณะกรรมการ
มีการเปลี่ยนแปลงอักษรคันจิ 225 ตัว และเพิ่มอักษรอีก 2 ตัวในระดับ 2 (84-05 "凜" และ 84-06 "熙") นี่เป็นการแยกอักษรอิตาอิจิสำหรับอักษร 2 ตัวที่รวมอยู่แล้ว (49-59 "凛" และ 63-70 "煕") การเปลี่ยนแปลงบางส่วนและการเพิ่มเติม 2 ตัวนี้สอดคล้องกับอักษรคันจิจินเมโย 118 ตัว ที่เพิ่มเข้ามาในเดือนมีนาคม พ.ศ. 2533 [ 12 ]มาตรฐานดังกล่าวถูกกำหนดไว้ในHeisei Mincho
มาตรฐานที่สี่
มาตรฐานที่สี่JIS X 0208:1997 "ชุดรหัส KANJI แบบไบต์คู่แบบ 7 บิตและ 8 บิตสำหรับการแลกเปลี่ยนข้อมูล" ( 7ビット及び8ビットの2ルイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō )ปรับปรุงมาตรฐานที่สามเมื่อวันที่ 20 มกราคม พ.ศ. 2540 หรือเรียกสั้น ๆ ว่า97JISได้รับความไว้วางใจจาก AIST คณะกรรมการ JSA เพื่อการวิจัยและการศึกษาชุดอักขระที่เข้ารหัสได้จัดทำแบบร่าง ประธานคณะกรรมการคือชิบาโนะ โคจิ
นโยบายพื้นฐานของการแก้ไขครั้งนี้คือ การไม่เปลี่ยนแปลงชุดอักขระ การชี้แจงข้อกำหนดที่คลุมเครือ และการทำให้มาตรฐานใช้งานง่ายขึ้น ไม่มีการเพิ่ม ลบ หรือจัดเรียงรหัสอักขระใหม่ และตัวอย่างอักขระก็ยังคงเหมือนเดิมทุกประการ อย่างไรก็ตาม ข้อกำหนดของมาตรฐานได้รับการเขียนใหม่และ/หรือเพิ่มเติมอย่างสมบูรณ์ ในขณะที่มาตรฐานฉบับที่สามมีความยาว 65 หน้าโดยไม่รวมคำอธิบาย มาตรฐานฉบับที่สี่มีความยาว 374 หน้าโดยไม่รวมคำอธิบาย
ประเด็นหลักของการปรับปรุงแก้ไขมีดังนี้:
- นิยามของวิธีการเข้ารหัส
- จนกระทั่งถึงมาตรฐานฉบับที่สาม มีเพียงวิธีการเข้ารหัสที่อิงตามส่วนขยายรหัส JIS X 0202 เท่านั้นที่ถูกกำหนดไว้ ซึ่งถือเป็นเรื่องผิดปกติสำหรับชุดอักขระที่เข้ารหัส ในมาตรฐานฉบับที่สี่ ได้มีการกำหนดวิธีการเข้ารหัสที่ไม่ใช้ลำดับหลีกเลี่ยงเพื่อวัตถุประสงค์ในการขยายรหัส
- คำจำกัดความของข้อห้ามทั่วไปในการใช้รหัสอักขระที่ไม่ได้กำหนด และวิธีการใช้งานรหัสอักขระที่ไม่ได้กำหนด
- มาตรฐานที่สาม ในคำอธิบายที่ไม่ได้เป็นส่วนหนึ่งของมาตรฐาน ได้อธิบายสิ่งต่างๆ ราวกับว่ามีบางแห่งที่อนุญาตให้กำหนดค่า gaiji ให้กับจุดรหัสที่ไม่ได้กำหนดไว้ได้ ในมาตรฐานที่สี่ ได้มีการชี้แจงว่าโดยทั่วไปแล้วห้ามใช้จุดรหัสที่ไม่ได้กำหนดไว้ นอกจากนี้ยังได้ระบุเงื่อนไขสำหรับการใช้จุดรหัสที่ไม่ได้กำหนดไว้ด้วย
- การกำจัดรหัสที่ซ้ำซ้อนโดยทั่วไป
- แต่ละอักขระจะได้รับ "ชื่ออักขระ" ที่เชื่อมโยงกับชื่ออักขระในมาตรฐานอื่นๆ นอกจากนี้ ยังมีการระบุวิธีการเข้ารหัสเพื่อใช้งานร่วมกับมาตรฐาน ISO/IEC 646 เวอร์ชันอ้างอิงสากล หรือ JIS X 0201 เมื่อใช้ JIS X 0208 ร่วมกับมาตรฐานใดมาตรฐานหนึ่ง จะมีเพียงรหัสจุดสองรหัสสำหรับอักขระที่มีชื่อเดียวกันที่อนุญาตให้ใช้ได้เพียงรหัสเดียวเท่านั้น ดังนั้น โดยทั่วไปแล้วการเข้ารหัสซ้ำซ้อนจึงถูกกำจัดออกไป
- การตรวจสอบแหล่งที่มาของอักษรคันจิ
- ตัวอักษรที่รวมอยู่ในมาตรฐานฉบับปัจจุบันซึ่งไม่พบในพจนานุกรมคังซีหรือไดคันวาจิเต็นนั้นยังไม่ได้รับการระบุ ดังนั้นจึงได้มีการตรวจสอบอย่างละเอียดว่าการรวมตัวอักษรเหล่านี้เข้ามามีวัตถุประสงค์อะไร และมาจากแหล่งใดในระหว่างการรวบรวมมาตรฐานฉบับแรก
- นิยามของเกณฑ์การรวมคันจิ
- โดยอิงจากสิ่งต่างๆ เช่น เอกสารที่ใช้ในการร่างมาตรฐานฉบับแรก มีความพยายามที่จะฟื้นฟูเจตนารมณ์ของมาตรฐานฉบับแรกเกี่ยวกับขอบเขตของอักษรที่แต่ละรหัสแทน นอกจากนี้ เกณฑ์สำหรับการรวมอักษรคันจิให้เป็นหนึ่งเดียวก็ได้รับการกำหนดไว้อย่างชัดเจน
- การรวมมาตรฐานโดยพฤตินัย
- เมื่อถึงมาตรฐานฉบับที่สี่ วิธีการเข้ารหัสShift JISและISO-2022-JPได้กลายเป็นมาตรฐานโดยพฤตินัยสำหรับการใช้งานคอมพิวเตอร์ส่วนบุคคลและอีเมลตามลำดับ วิธีการเข้ารหัสเหล่านี้ถูกรวมไว้ในชื่อ "Shift-Coded Representation" และ "RFC 1468-Coded Representation" (ดังที่ได้อธิบายไว้ข้างต้น)
ผู้สืบทอด
JIS X 0213 ( คันจิแบบขยาย ) ได้รับการออกแบบ "โดยมีเป้าหมายเพื่อนำเสนอชุดอักขระที่เพียงพอสำหรับการเข้ารหัสภาษาญี่ปุ่นสมัยใหม่ที่ JIS X 0208 ตั้งใจไว้ตั้งแต่แรก" [ 16 ]โดยกำหนดชุดอักขระที่ขยายจากชุดคันจิของ JIS X 0208 ผู้ร่าง JIS X 0213 แนะนำให้ย้ายจาก JIS X 0208 ไปยัง JIS X 0213 โดยมีข้อดีคือ JIS X 0213 เข้ากันได้กับHyōgai Kanji Glyph Listและคันจิ jinmeiyō รุ่นใหม่ กว่า
ตรงกันข้ามกับความคาดหวังของผู้ร่าง การนำมาตรฐาน JIS X 0213 มาใช้กลับไม่รวดเร็วอย่างที่คิดนับตั้งแต่มีการประกาศใช้ในปี 2000 คณะกรรมการร่างมาตรฐาน JIS X 0213:2004 ได้เขียนไว้ (ในปี 2004) ว่า "สถานการณ์ที่ 'สิ่งที่ระบบสารสนเทศส่วนใหญ่สามารถใช้ร่วมกันได้คือ JIS X 0208 เท่านั้น' ยังคงดำเนินต่อไป" (JIS X 0213:2000, ภาคผนวก 1:2004, ส่วนที่ 2.9.7)
สำหรับMicrosoft Windows ซึ่งเป็น ระบบปฏิบัติการหลัก(และเป็นระบบที่ให้สภาพแวดล้อมเดสก์ท็อป หลัก ) ในภาคคอมพิวเตอร์ส่วนบุคคลนั้นชุดคำสั่ง JIS X 0213 ได้ถูกรวมไว้ตั้งแต่Windows Vistaซึ่งวางจำหน่ายในเดือนพฤศจิกายน 2549 ส่วน Mac OS Xนั้นรองรับ JIS X 0213 มาตั้งแต่เวอร์ชัน10.1 (วางจำหน่ายในปี 2544) ระบบปฏิบัติการที่คล้าย Unix หลายระบบเช่นLinuxสามารถรองรับ JIS X 0213 ได้ (หากต้องการ) ดังนั้นจึงเชื่อว่าในอนาคต การรองรับ JIS X 0213 บนคอมพิวเตอร์ส่วนบุคคลจะไม่เป็นอุปสรรคต่อการนำไปใช้งานในที่สุด
ในกลุ่มผู้ร่างมาตรฐาน JIS X 0213 มีบางคนคาดหวังว่าจะได้เห็นการใช้งานร่วมกันระหว่าง JIS X 0208 และ JIS X 0213 ก่อนที่จะมีการนำ JIS X 0213 มาใช้ (Satō, 2004) อย่างไรก็ตาม ปัจจุบัน JIS X 0208 ยังคงถูกใช้งานอยู่ และหลายคนคาดการณ์ว่าจะยังคงเป็นมาตรฐานต่อไป มีอุปสรรคหลายประการที่ต้องเอาชนะหาก JIS X 0213 จะเข้ามาแทนที่ JIS X 0208 ในการใช้งานทั่วไป:
- ชุดตัวอักษรที่ใช้ในโทรศัพท์มือถือ ของญี่ปุ่น ในปัจจุบันนั้นอิงตามมาตรฐาน JIS X 0208 และยังไม่มีการประกาศแผนการใดๆ อย่างเป็นทางการที่จะเปลี่ยนไปใช้มาตรฐาน JIS X 0213 เนื่องจากโทรศัพท์มือถือเป็นส่วนสำคัญของการสื่อสารด้วยข้อความในญี่ปุ่น (ดูวัฒนธรรมโทรศัพท์มือถือของญี่ปุ่น ) และเป็นสื่อที่แพร่หลายและเข้าถึงได้ง่ายสำหรับการส่งอีเมลและการเข้าถึงเว็บไซต์การที่โทรศัพท์มือถือยังไม่เป็นที่นิยมในญี่ปุ่นจึงเป็นอุปสรรคต่อการใช้งานในที่อื่นๆ ด้วย
- JIS X 0213 ไม่สามารถใช้งานร่วมกับ JIS X 0208 ได้อย่างเคร่งครัดในแง่ของเกณฑ์การรวมมาตรฐาน (ดูด้านล่าง ) สำหรับคลังข้อมูลขนาดใหญ่ (เช่นฐานข้อมูลบรรณานุกรมและAozora Bunko ) ที่ใช้ JIS X 0208 และปฏิบัติตามเกณฑ์การรวมมาตรฐานอย่างเคร่งครัดนั้น เชื่อว่าจะเป็นงานที่ยากมากที่จะแปลงข้อมูลทั้งหมดเป็น JIS X 0213 และรักษาระดับความถูกต้องของข้อความให้คงเดิม
- ในทางปฏิบัติ ระบบหลายระบบกำหนดและใช้รหัสอักขระที่ไม่ได้กำหนดไว้ใน JIS X 0208 ตัวอย่างเช่น Windows กำหนดอักขระเพิ่มเติมของ IBM และ NEC และพื้นที่อักขระที่ผู้ใช้กำหนดเอง (ดูWindows-932 ) และโทรศัพท์มือถือกำหนดอีโมจิในบางตำแหน่ง รหัสอักขระของอักขระ เหล่านี้ ขัดแย้งกับรหัสอักขระที่รหัส JIS X 0213 ใช้ ดังนั้นจึงอาจมีความยากลำบากในการย้ายระบบเหล่านี้จาก JIS X 0208 ไปยัง JIS X 0213 นอกจากนี้ยังมีแผนที่จะย้ายไปใช้UCS / Unicodeและใช้ชุดอักขระ JIS X 0213 จากนั้น แต่จนกว่าผู้ดูแลระบบจะสามารถตัดสินได้ว่าการใช้งานคู่ตัวแทน UCS/Unicode และองค์ประกอบอักขระมีความเสถียรเพียงพอ เขาหรือเธออาจลังเลที่จะใช้ชุดอักขระของ JIS X 0213 ที่ต้องการการใช้งานเหล่านั้น
- การปรับปรุงที่นำเสนอโดย JIS X 0213 ส่วนใหญ่เป็นการปรับปรุงตัวอักษรที่ไม่ค่อยได้ใช้บ่อยเท่ากับตัวอักษรที่มีอยู่แล้วใน JIS X 0208 เนื่องจากต้องเพิ่มสัญลักษณ์ตัวอักษรใหม่เกือบสองเท่า แต่การใช้งานสัญลักษณ์เหล่านั้นกลับน้อยลง จึงอาจเป็นการลงทุนที่ไม่คุ้มค่าในหลายกรณี โดยเฉพาะอย่างยิ่งในกรณีที่ทรัพยากรมีจำกัด
การนำไปใช้
เนื่องจาก JIS X 0208 / JIS C 6226 เป็นชุดอักขระ เป็นหลัก ไม่ใช่การเข้ารหัสอักขระ ที่กำหนดไว้อย่างเคร่งครัด บริษัทหลายแห่งจึงได้นำการเข้ารหัสชุดอักขระของตนเองมาใช้
- Apple : MacJapanese (ใช้ระบบไฟล์ Shift_JIS)
- ฟูจิตสึ : รหัสคันจิ JEF (อิงตาม EBCDIC)
- ฮิตาชิ : KEIS (ใช้ชิป EBCDIC)
- IBM : รุ่นต่างๆ รวมถึงIBM-932และIBM-942 (ทั้งสองรุ่นใช้ Shift_JIS)
- ไมโครซอฟต์ : Windows-932 (ใช้ระบบ Shift JIS)
- NEC : JIPS
มาตรฐานเหล่านี้หลายมาตรฐานมีการกำหนดอักขระเฉพาะของผู้ผลิตแทนที่พื้นที่ที่ไม่ได้จัดสรรของมาตรฐาน ตัวอย่างเช่น Windows-932 และ MacJapanese รวมถึง การเข้ารหัสอักขระ PC98ของNECในขณะที่ IBM-932 และ IBM-942 ก็มีการกำหนดอักขระเฉพาะของผู้ผลิตเช่นกัน แต่จะกำหนดไว้ภายนอกพื้นที่ที่ใช้สำหรับ JIS X 0208
ความสัมพันธ์กับมาตรฐานอื่นๆ
ISO/IEC 646 IRV และ ASCII
ดังที่กล่าวไว้ข้างต้น ชุดอักษรคันจิไม่สามารถใช้งานร่วมกับชุดอักษรกราฟิก IRV (ASCII) ของ ISO/IEC 646:1991 ได้ อย่างไรก็ตาม ชุดอักษรคันจิและชุดอักษรกราฟิก IRV สามารถใช้ร่วมกันได้ตามที่ระบุไว้ใน JIS X 0208 (IRV + รหัส 7 บิตสำหรับคันจิ และ IRV + รหัส 8 บิตสำหรับคันจิ) และสามารถใช้ร่วมกันในEUC-JPได้เช่นกัน
จีไอเอส X 0201
ชุดอักษรคันจิขาดอักษร 3 ตัวที่รวมอยู่ใน ชุดอักษรภาพสำหรับอักษรละตินของ JIS X 0201ได้แก่ 2/2 (เครื่องหมายอัญประกาศ), 2/7 (เครื่องหมายอะพอสโทรฟี) และ 2/13 (เครื่องหมายยัติภังค์ลบ) ส่วนชุดอักษรคันจิมีอักษรครบทุกตัวที่รวมอยู่ในชุดอักษรภาพสำหรับอักษรคาตาคานะของ JIS X 0201
ชุดอักษรคันจิและชุดอักษรกราฟิกสำหรับอักษรละตินสามารถใช้ร่วมกันได้ตามที่ระบุไว้ใน JIS X 0208 (อักษรละติน + รหัส 7 บิตสำหรับคันจิ และอักษรละติน + รหัส 8 บิตสำหรับคันจิ) ชุดอักษรคันจิ ชุดอักษรกราฟิกสำหรับอักษรละติน และชุดอักษรกราฟิกสำหรับคาตาคานะของ JIS X 0201 สามารถใช้ร่วมกันได้ตามที่ระบุไว้ใน JIS X 0208 (ชุดอักษรที่เข้ารหัสแบบ Shift; เช่นShift JIS ) ชุดอักษรคันจิและชุดอักษรกราฟิกสำหรับคาตาคานะสามารถใช้ร่วมกันได้ในEUC- JP
จีไอเอส X 0212
มาตรฐาน JIS X 0212 (อักษรคันจิเสริม) กำหนดอักษรเพิ่มเติมพร้อมรหัสจุดเพื่อวัตถุประสงค์ในการประมวลผลข้อมูลที่ต้องการอักษรที่ไม่มีอยู่ใน JIS X 0208 แทนที่จะจัดสรรอักษรภายในชุดอักษรคันจิหลักของ JIS X 0208 มาตรฐานนี้ได้กำหนดชุดอักษรคันจิชุดที่สองขนาด 94x94 ซึ่งประกอบด้วยอักษรเสริม
JIS X 0212 สามารถใช้ร่วมกับ JIS X 0208 ในEUC-JPได้ นอกจากนี้ ทั้ง JIS X 0208 และ JIS X 0212 ยังเป็นมาตรฐานต้นฉบับสำหรับการรวมอักษรฮั่น ของ UCS/Unicode ซึ่งหมายความว่าสามารถรวมอักษรคันจิจากทั้งสองชุดไว้ในเอกสารรูปแบบ Unicode เดียวกันได้
ในบรรดาจุดรหัสที่ JIS X 0208 เวอร์ชันที่สองเปลี่ยนแปลง จุดรหัส 28 จุดใน JIS X 0212 สะท้อนรูปแบบตัวอักษรจากก่อนการเปลี่ยนแปลง[ 17 ]นอกจากนี้ JIS X 0212 ยังกำหนด " เครื่องหมายปิด " ที่ JIS X 0208 กำหนดให้เป็นตัวอักษรที่ไม่ใช่คันจิ ( 〆 , ที่แถว 1 ช่อง 26) ใหม่ให้เป็นคันจิ (乄, ที่แถว 16 ช่อง 17) JIS X 0212 ไม่มีตัวอักษรใดที่เหมือนกับ JIS X 0208 นอกเหนือจากนี้ ดังนั้นจึงไม่เหมาะสำหรับการใช้งานทั่วไปด้วยตัวมันเอง
อย่างไรก็ตาม ในมาตรฐาน JIS X 0208 ฉบับที่สี่ การเชื่อมโยงกับ JIS X 0212 ไม่ได้ถูกกำหนดไว้เลย เชื่อกันว่าเป็นเพราะคณะกรรมการร่างมาตรฐาน JIS X 0208 ฉบับที่สี่มีความเห็นวิพากษ์วิจารณ์วิธีการเลือกและการระบุตัวอักษรของ JIS X 0212 [ 18 ]ความหมายของตัวอักษรและเหตุผลในการเลือกไม่ได้ถูกบันทึกไว้อย่างเหมาะสม ทำให้ยากที่จะระบุว่าตัวอักษรคันจิที่ต้องการตรงกับตัวอักษรคันจิในคลังหรือไม่[ 19 ]ข้อความของมาตรฐานฉบับที่สี่ นอกจากจะชี้ให้เห็นถึงปัญหาของการเลือกตัวอักษรของ JIS X 0212 แล้ว ยังระบุว่า "มีความคิดว่าไม่เพียงแต่การเลือกตัวอักษรจะเป็นไปไม่ได้เท่านั้น แต่ยังไม่สามารถใช้ร่วมกันได้อีกด้วย การเชื่อมโยงกับ JIS X 0212 ไม่ได้ถูกกำหนดไว้เลย" (ส่วนที่ 3.3.1)
จีไอเอส X 0213

JIS X 0213 (คันจิส่วนขยาย) กำหนดชุดคันจิที่ขยายจากชุดคันจิของ JIS X 0208 ตามมาตรฐานนี้ "ได้รับการออกแบบโดยมีเป้าหมายเพื่อนำเสนอชุดอักขระที่เพียงพอสำหรับการเข้ารหัสภาษาญี่ปุ่นสมัยใหม่ตามที่ JIS X 0208 ตั้งใจไว้ตั้งแต่แรก" [ 16 ]
ชุดคันจิของ JIS X 0213 ประกอบด้วยอักขระทั้งหมดที่สามารถแสดงในชุดคันจิของ JIS X 0208 พร้อมด้วยอักขระเพิ่มเติมอีกมากมาย โดยรวมแล้ว JIS X 0213 กำหนดอักขระที่ไม่ใช่คันจิ 1183 ตัว และคันจิ 10,050 ตัว (รวมทั้งหมด 11,233 ตัว) ภายในระนาบ 94x94 สองระนาบ(面, men )ระนาบแรก (อักขระที่ไม่ใช่คันจิและคันจิระดับ 1–3) อิงตาม JIS X 0208 ในขณะที่ระนาบที่สอง (คันจิระดับ 4) ออกแบบมาให้พอดีกับแถวที่ไม่ได้จัดสรรของ JIS X 0212 ทำให้สามารถใช้งานในEUC-JPได้[ 20 ] JIS X 0213 ยังกำหนดShift_JISx0213ซึ่งเป็นตัวแปรของ Shift_JIS ที่สามารถเข้ารหัส JIS X 0213 ทั้งหมดได้
โดยส่วนใหญ่แล้ว JIS X 0213 ระนาบที่ 1 เป็นซูเปอร์เซ็ตของ JIS X 0208 อย่างไรก็ตาม เกณฑ์การรวมรหัสที่ใช้กับบางจุดรหัสใน JIS X 0213 นั้นแตกต่างจาก JIS X 0208 ดังนั้น ตัวอักษรคันจิบางคู่ที่เคยใช้จุดรหัสเดียวใน JIS X 0208 เนื่องจากมีการรวมรหัสแล้ว จึงได้รับจุดรหัสที่แยกกันใน JIS X 0213 ตัวอย่างเช่น ตัวอักษรที่แถวที่ 33 เซลล์ที่ 46 ของ JIS X 0208 ("僧" ดังที่กล่าวไว้ข้างต้น ) รวมรูปแบบต่างๆ ไว้หลายแบบเนื่องจากส่วนประกอบด้านขวาของตัวอักษร ใน JIS X 0213 รูปแบบสองแบบ (แบบที่มีส่วนประกอบ "丷") ถูกรวมไว้ที่ระนาบ 1 แถว 33 เซลล์ 46 และอีกแบบหนึ่ง (แบบที่มีส่วนประกอบ "八") อยู่ที่ระนาบ 1 แถว 14 เซลล์ 41 ดังนั้น จึงไม่สามารถกำหนดได้โดยอัตโนมัติว่า JIS X 0208 แถว 33 เซลล์ 46 ควรถูกแมปไปยัง JIS X 0213 ระนาบ 1 แถว 33 เซลล์ 46 หรือระนาบ 1 แถว 14 เซลล์ 41 [ u ]ซึ่งจำกัดขอบเขตที่ JIS X 0213 สามารถถือว่าเข้ากันได้กับ JIS X 0208 ดังที่คณะกรรมการร่าง JIS X 0213 ยอมรับ[ 21 ]
อย่างไรก็ตาม โดยส่วนใหญ่แล้ว แถวmเซลล์nใน JIS X 0208 จะตรงกับระนาบ 1 แถวmเซลล์nใน JIS X 0213 ดังนั้นจึงไม่ค่อยเกิดความสับสนในทางปฏิบัติมากนัก เนื่องจากแบบอักษรส่วนใหญ่ได้ใช้สัญลักษณ์ที่แสดงใน JIS X 0208 และผู้ใช้ส่วนใหญ่ไม่ได้ตระหนักถึงเกณฑ์การรวมมาตรฐานนี้อย่างชัดเจน
ISO/IEC 10646 และยูนิโค้ด
ชุดอักษรคันจิ JIS X 0208 เป็นหนึ่งในมาตรฐานต้นฉบับสำหรับการรวมอักษรฮั่นในISO/IEC 10646 (UCS) และUnicodeอักษรคันจิทุกตัวใน JIS X 0208 สอดคล้องกับรหัสจุดของตัวเองในBasic Multilingual Plane (BMP) ของ UCS/Unicode
อักขระที่ไม่ใช่คันจิใน JIS X 0208 จะตรงกับรหัสจุดของตัวเองใน BMP เช่นกัน อย่างไรก็ตาม สำหรับอักขระพิเศษบางตัว ระบบบางระบบจะใช้การจับคู่ที่แตกต่างจากของ UCS/Unicode (ซึ่งอิงตามชื่ออักขระที่กำหนดใน JIS X 0208:1997)
เชิงอรรถ
คำอธิบาย
- ^ขาดเครื่องหมายกำกับเสียงภาษากรีกและมาตัวสุดท้าย
- ^ a b c d ( ถอนออก )
- ^ JIS และ Apple: U+2014.Unicode, [ b ] Microsoft และ WHATWG: U+2015.
- ^ Microsoft และ WHATWG: U+FF5E.Unicode, [ b ] JIS และ Apple: U+301C.
- ^ Microsoft และ WHATWG: U+2225.Unicode, [ b ] JIS และ Apple: U+2016.
- ^ Microsoft: U+FF0D.Unicode, [ b ] JIS และ Apple: U+2212.WHATWG: U+FF0D ในการถอดรหัส ยกเว้นในกรณีพิเศษทั้งสองอย่างในการเข้ารหัส
- ^ a b c dเพิ่มใน JIS X 0213
- ^ไม่มีในเวอร์ชันดั้งเดิมของส่วนขยาย ซึ่งมีมาก่อนยุคเฮเซตำแหน่งรหัสถูกเลือกโดย NEC หรือ Microsoft [ 5 ]ไม่มีใน Macintosh PostScript
- ^ a b c d e f g h iทำซ้ำโดยการเพิ่มในแถวที่ 2 ในปี 1983 ไม่ได้เข้ารหัสที่นี่ (แต่ไม่ได้จัดสรร) ใน JIS X 0213 [ 5 ]แต่เข้ารหัสซ้ำที่นี่โดย Microsoft และ WHATWG สำหรับการเข้ารหัส PostScript ของ Macintosh จะมีการเพิ่ม Private Use U+F87F ต่อท้ายฟอร์มที่ถอดรหัสด้วย ฟังก์ชันไลบรารี macOSเพื่อให้สามารถส่งกลับได้
- ^ดังที่แสดงในตารางรหัสที่ลงทะเบียนไว้ในทะเบียนสากลของชุดอักขระรหัสที่ใช้กับลำดับการหลีกเลี่ยง ก่อนมาตรฐานฉบับที่สี่ (1997) ku (区)และ ten (点)ถูกเรียกว่า "section" และ "position" ตามลำดับในภาษาอังกฤษ สำหรับที่มาของการเปลี่ยนแปลงในภาษาอังกฤษ ในมาตรฐาน JIS X 0221-1995 (UCS) ซึ่งแปลมาจาก ISO/IEC 10646-1:1993 คำว่า "group", "plane", "row" และ "cell" สามารถแปลเป็น gun (群) , men (面) , ku (区)และ ten (点)ได้ อย่างไรก็ตาม แถวและเซลล์ของ JIS X 0208 และแถวและเซลล์ของ UCSนั้นมีแนวคิดที่แตกต่างกัน
- ^ชื่อตัวอักษรเขียนด้วยอักษรโรมันและใช้กันทั่วโลก ดังนั้นจึงถือได้ว่าเป็นธรรมเนียมสากล คล้ายกับชื่อวิทยาศาสตร์ของสิ่งมีชีวิต ในแง่ของความคล้ายคลึงนี้ ชื่อสามัญของตัวอักษรญี่ปุ่นจึงเปรียบเสมือนการใช้ชื่อสามัญของสิ่งมีชีวิต
- ^สำหรับการค้นหาหรือเรียงลำดับตามตัวอักษรคะนะอย่างครบถ้วน จะต้องคำนึงถึงการอ่านคำ เครื่องหมายซ้ำ และอื่นๆ ด้วย การเรียงลำดับสตริงตัวอักษรญี่ปุ่นมีกำหนดไว้ในมาตรฐาน JIS X 4061 (การเรียงลำดับสตริงตัวอักษรญี่ปุ่น)
- ^ตามที่ยาซูโอกะ (2001a) กล่าวไว้ ดูเหมือนว่าจะมีข้อผิดพลาดโดยไม่ได้ตั้งใจอยู่บ้าง ตัวอย่างเช่น เขาสังเกตว่า ba (旛; 58-57)ของอินบะและ shi (泗; 61-89)ของชิซุย คุมาโมโตะไม่ได้เป็นส่วนหนึ่งของระดับ 1
- ^รายการ:丼󠄀傲󠄀刹󠄀哺󠄀喩และตอนนี้ ·แล้ว·····················································································································
- ^ตัวอักษรคันจิ jōyō 𠮟󠄀 จะแสดงเฉพาะในรูปแบบทางการ 叱 เท่านั้น
- ^รายการ:乘คืนนี้ ····················································································· ················································································ ········································································· ········································································· ·แล้ว······························································································ ·································································· ············································································ ·แล้ว········································································································ ·แล้ว············································································ ······················································································· ·แล้ว······································································· ·········································································· ········································································································ ·························································································· ·แล้ว·············································································································
- ^รายการ:焰ฉันรู้ว่า禱คืนนี้薰คืนนี้ อาหารทะเล·ทะเล·ทะเล·ทะเล·ทะเล·ทะเล·ทะเล·ทะเล·ทะเล·ทะเล視คืนนี้層คืนนี้晚·󠄀卑·碑·賓·敏·侮·勉·步·墨·每·祐·欄··虜·淚·󠄀類·曆··歷·練·鍊·錄··俱·瘦·吞·寬··廊··朗·懲
- ^สำหรับเซลล์ที่ 30 และ 31 ในแถวที่ 19 ลำดับการอ่านที่เป็นตัวแทนนั้นสลับกัน ดังนั้น ลำดับที่ถูกต้องควรจะเป็น kaeru (蛙, "กบ")ตามด้วย kaori (馨, "กลิ่น")แต่ตำแหน่งของพวกมันกลับสลับกัน โดย kaoriอยู่ก่อน kaeru
- ^นอกจากนี้ รูปแบบที่ใช้เป็นหลัก (剣) อยู่ที่แถวที่ 23 เซลล์ที่ 85 ในระดับที่ 1 และรูปแบบอื่นอีกหนึ่งรูปแบบ (釼) สามารถพบได้โดยจัดกลุ่มเป็นอักษรที่มีรากศัพท์ "ทอง"ที่แถวที่ 78 เซลล์ที่ 63 ในระดับที่ 2
- ^คำถามที่ว่าควรใช้สัญลักษณ์ใดบ้างภายในเกณฑ์การรวมนั้น ขึ้นอยู่กับนักออกแบบตัวอักษร โดยขึ้นอยู่กับเรื่องนั้น (และสถานการณ์ของผู้ใช้ปลายทาง) เป็นไปได้ว่าทั้งสองแบบอาจไม่เป็นไปตามรูปแบบสไตล์คังซี หรืออาจเป็นไปได้ว่าแบบใดแบบหนึ่งอาจไม่เป็นไปตามรูปแบบนั้น หรืออาจเป็นไปตามรูปแบบนั้นทั้งคู่ หรืออาจเป็นไปตามรูปแบบใดรูปแบบหนึ่งก็ได้
- ^นี่คือความไม่แน่นอนเช่นเดียวกับที่ว่า "เครื่องหมายยัติภังค์และลบ" ใน ISO/IEC 646 ควรจะถูกแปลงเป็น "เครื่องหมายยัติภังค์" หรือ "เครื่องหมายลบ" ใน JIS X 0208
อ้างอิงเชิงอรรถ
- ^ "ทำไมญี่ปุ่นถึงไม่สร้าง iPod" . Gatunka . 5 พฤษภาคม 2008.
- ^ JIS X 0208 ไม่ใช่หนึ่งในมาตรฐานที่รวมอยู่ในรายการระบบเป้าหมายที่ใช้ได้สำหรับการแสดงเครื่องหมาย JIS ใหม่ซึ่งประกาศโดยกระทรวงเศรษฐกิจ การค้า และอุตสาหกรรมเมื่อวันที่ 17 มกราคม 2550
- ^ a b c Steele, Shawn (15 เมษายน 1998). "CP932.TXT: ตารางแปลง cp932 เป็น Unicode" . Microsoft.(รหัสในรูปแบบ Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
- ^ a b "แผนที่ (เวอร์ชันภายนอก) จากการเข้ารหัสภาษาญี่ปุ่นของ Mac OS ไปยัง Unicode 2.1 และเวอร์ชันที่ใหม่กว่า" Apple.(รหัสในรูปแบบ Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
- ↑ a b c dลุนเด, เคน (21 มีนาคม พ.ศ. 2562). "ประวัติโดยย่อของการมัดชื่อในยุคของญี่ปุ่น " บล็อกประเภท CJK อะโด บีอิงค์
- ^ a b cคณะกรรมการมาตรฐานอุตสาหกรรมญี่ปุ่น ISO -IR-233: ชุดอักขระกราฟิกภาษาญี่ปุ่นสำหรับการ แลกเปลี่ยนข้อมูล ระนาบ 1 (ปรับปรุง ISO-IR 228) (PDF) ITSCJ/ IPSJ
- ^ Unicode, Inc. (14 ตุลาคม 2011). "JIS X 0208 (1990) เป็น Unicode" .
- ↑ แวน เคสเทอเรน, แอนน์ , "Index jis0208" , มาตรฐานการเข้ารหัส , WHATWG
- ^ a b Jungshik Shin (14 ตุลาคม 2011). "KSX1001.TXT: ตารางแปลง KS X 1001 เป็น Unicode" . Unicode, Inc.
- ^มาตรฐาน JIS C 6225-1979 (รหัสอักขระควบคุมสำหรับชุดอักขระกราฟิกของญี่ปุ่นเพื่อการแลกเปลี่ยนข้อมูล) ได้กำหนดอักขระควบคุมสำหรับจุดเริ่มต้นและจุดสิ้นสุดขององค์ประกอบ JIS C 6225 ได้เปลี่ยนชื่อเป็น JIS X 0207ในปี 1987 และถูกยกเลิกในปี 1997
- ^ในชุดอักขระ IANA การกำหนด Shift JIS นั้นอ้างอิงถึง JIS X 0208:1997 ภาคผนวก 1
- ^ a b c d "15. ประวัติของ JIS X 0208" (PDF)ชุดอักขระกราฟิกภาษาญี่ปุ่นของ IBM สำหรับรหัส UNIX ขยาย (EUC) IBM หน้า 371 เก็บถาวร(PDF)จากต้นฉบับเมื่อวันที่ 8 ธันวาคม 2017 เรียกดูเมื่อวันที่ 8 ธันวาคม 2017
- ^ Lunde, Ken. "ภาคผนวก Q § 78-vs-83-3" . การประมวลผลข้อมูล CJKV (เอกสารประกอบเพิ่มเติม) . O'Reilly.โปรดสังเกตการรวมรหัส kuten ที่ไม่ได้ใส่เครื่องหมายขีดกลาง
- ^ Lunde, Ken. "ภาคผนวก Q § 78-vs-83-2" . การประมวลผลข้อมูล CJKV (เอกสารประกอบเพิ่มเติม) . O'Reilly.โปรดสังเกตการรวมรหัส kuten ที่ไม่ได้ใส่เครื่องหมายขีดกลาง
- ^ตามที่ Nomura (1984) ระบุ จำนวนรูปแบบตัวอักษรที่เปลี่ยนแปลง รวมถึงการย้ายระหว่างจุดรหัส มีจำนวน 294 รูปแบบ ส่วนตามที่ Shibano (1997a) และข้อความในมาตรฐานฉบับที่สี่ ระบุ จำนวนรูปแบบตัวอักษรที่เปลี่ยนแปลงมีจำนวน 300 รูปแบบ
- ↑ ต้นฉบับภาษาญี่ปุ่น: 「JIS X 0208 が当初符号化を意図していた現代日本語を符号化すRUために十分な文字集合を提供しことを目的として設計された」
- ^ Lunde, Ken. "ภาคผนวก Q § TJ2" . การประมวลผลข้อมูล CJKV (เอกสารประกอบเพิ่มเติม) . O'Reilly.โปรดสังเกตการรวมรหัส kuten ที่ไม่ได้ใส่เครื่องหมายขีดกลาง
- ↑ตัวอย่างเช่น ชิบาโนะ โคจิ (1997a) ซึ่งทำหน้าที่เป็นประธานคณะกรรมการร่างมาตรฐานที่ 4 กล่าวถึงวิธีการคัดเลือกดังนี้: "มันอยู่บนพื้นฐานของความเข้าใจอย่างผิวเผินในการเลือกชุดอักขระของ JIS X 0208 มันเป็นความเข้าใจที่ผิดพลาด" (ต้นฉบับภาษาญี่ปุ่น:「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) และ "มีปัญหาใหญ่ในการสืบสวนชุดอักขระทั้งหมดที่มีอักขระเกิน 10,000 ตัว" (ต้นฉบับภาษาญี่ปุ่น:「1万字を越える水準の文字集合の検討としてな、大な問題がある」 )
- ^มารุคาวะ, คาซูชิ. "ชุดตัวอักษร JIS – JIS X 0212:1990" . เก็บถาวรจากต้นฉบับเมื่อวันที่ 22 พฤษภาคม 2548
- ^ Chang, Hyeshik (31 ตุลาคม 2021). "เอกสารอ่านสำหรับ CJKCodecs" . cPython . มูลนิธิซอฟต์แวร์ Python.
- ^ JIS X 0213:2000 มาตรา 5.3.2, JIS X 0213:2000 ภาคผนวก 1:2004 มาตรา 3.2.2
ดูเพิ่มเติม
- ชุดอักขระที่เข้ารหัส JIS
- JIS X 0201 "ชุดอักขระเข้ารหัส 7 บิตและ 8 บิตสำหรับการแลกเปลี่ยนข้อมูล"
- JIS X 0202 "เทคโนโลยีสารสนเทศ – โครงสร้างรหัสอักขระและเทคนิคการขยาย" ( ISO/IEC 2022 )
- มาตรฐาน JIS X 0208 "ชุดอักษรคันจิแบบเข้ารหัสสองไบต์ 7 บิตและ 8 บิตสำหรับการแลกเปลี่ยนข้อมูล"
- JIS X 0211 "ฟังก์ชันควบคุมสำหรับชุดอักขระเข้ารหัส" ( ISO/IEC 6429 )
- JIS X 0212 "รหัสชุดอักขระกราฟิกเสริมของญี่ปุ่นสำหรับการแลกเปลี่ยนข้อมูล"
- JIS X 0213 "ชุดอักษรคันจิแบบขยายที่เข้ารหัสแบบดับเบิลไบต์ 7 บิตและ 8 บิตสำหรับการแลกเปลี่ยนข้อมูล"
- JIS X 0221 "ชุดอักขระเข้ารหัสหลายอ็อกเท็ตสากล (UCS)" ( ISO/IEC 10646 )
- ชินจิไตแบบขยาย
- ความช่วยเหลือ:ภาษาญี่ปุ่น
ลิงก์ภายนอก
- เอกสารทะเบียนระหว่างประเทศถูกเก็บถาวรเมื่อวันที่ 12 พฤษภาคม 2023 ที่Wayback Machineซึ่งดูแลโดย IPSJ/ITSCJ
- ชุดตัวอักษรญี่ปุ่น JIS C 6226-1978
- ชุดตัวอักษรญี่ปุ่น JIS C 6226-1983
- อัปเดตการลงทะเบียนชุดอักขระกราฟิกภาษาญี่ปุ่น 87 สำหรับการแลกเปลี่ยนข้อมูล
- (ในภาษาญี่ปุ่น) การค้นหาฐานข้อมูลของคณะกรรมการมาตรฐานอุตสาหกรรมแห่งประเทศญี่ปุ่น (สามารถอ่านมาตรฐานล่าสุดได้ที่นี่)
- (ในภาษาญี่ปุ่น) การค้นหาฐานข้อมูลของสมาคมมาตรฐานแห่งประเทศญี่ปุ่น : (สามารถซื้อสำเนามาตรฐานฉบับล่าสุดได้ที่นี่)
- (ในภาษาญี่ปุ่น) บทบัญญัติที่เกี่ยวข้องกับการรวมมาตรฐานในมาตรฐาน JIS X 0208 และ 0213
- (ในภาษาญี่ปุ่น) บรรณารักษ์ออนไลน์ – รายการคันจิมาตรฐาน JIS
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ จีไอเอส X 0208
JIS X 0208 เป็น ชุดอักขระ 2 ไบต์ที่ระบุเป็น มาตรฐานอุตสาหกรรมของญี่ปุ่น ประกอบด้วยอักขระกราฟิก 6879 ตัวที่เหมาะสำหรับการเขียนข้อความ ชื่อสถานที่ ชื่อบุคคล และอื่นๆ ใน ภาษา ญี่ปุ่น...
ขอบเขตการใช้งานและความเข้ากันได้
ชุดอักขระ JIS X 0208 มีวัตถุประสงค์หลักเพื่อ การแลกเปลี่ยนข้อมูล ( 情報交換 , jōhō kōkan ) ระหว่างระบบประมวลผลข้อมูลและอุปกรณ์ที่เชื่อมต่ออยู่ หรือระหว่างระบบสื่อสารข้อมูลด้วยกันเอง ชุดอักขระนี้สามารถใช้สำหรับการประมวลผลข้อมูลและการประมวลผลข้อความได้
ไบต์นำ
ไบต์การเข้ารหัสตัวแรกจะตรงกับหมายเลขแถวหรือหมายเลขเซลล์บวก 0x20 หรือ 32 ในระบบเลขฐานสิบ (ดูด้านล่าง) ดังนั้น ชุดรหัสที่เริ่มต้นด้วย 0x21 จะมีหมายเลขแถวเป็น 1 และเซลล์ที่ 1 จะมีไบต์ต่อเนื่องเป็น 0x21 (หรือ 33) และเป็นเช่นนี้ต่อไป
แถวที่ไม่ใช่คันจิ
ผู้จำหน่ายบางรายใช้การแมป Unicode ที่แตกต่างกันเล็กน้อยสำหรับชุดนี้เมื่อเทียบกับชุดด้านล่าง ตัวอย่างเช่น Microsoft แมป kuten 1-29 (JIS 0x213D) ไปยัง U+2015 (เส้นแนวนอน) [ 3 ] ในขณะที่ Apple แมปไปยัง U+2014 (เส้นประยาว) [ 4 ] ในทำนองเดียวกัน Microsoft แมป...