อ่าน 5 นาที
T.51/ISO/IEC 6937
T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC...
T.51/ISO/IEC 6937
| ที.51 | |
|---|---|
| ชุดอักขระเข้ารหัสแบบละตินสำหรับบริการโทรคมนาคม | |
| สถานะ | มีผลบังคับใช้ |
| ปีเริ่มต้น | 1984 |
| เวอร์ชั่นล่าสุด | (09/92) กันยายน 2535 |
| องค์กร | ไอทู-ที |
| คณะกรรมการ | กลุ่มศึกษาที่ 8 |
| มาตรฐานที่เกี่ยวข้อง | T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022 , ISO 5426 |
| โดเมน | การเข้ารหัส |
| ใบอนุญาต | สามารถใช้งานได้ฟรี |
| เว็บไซต์ | https://www.itu.int/rec/T-REC-T.51 |
| ชื่อเล่น |
|
|---|---|
| มาตรฐาน |
|
| อ้างอิงจาก | ITU T.61 |
| การเข้ารหัสอื่นๆ ที่เกี่ยวข้อง |
T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC 646 -IRV [ 1 ]ได้รับการพัฒนาร่วมกับITU-T (ในขณะนั้นคือ CCITT ) สำหรับบริการโทรคมนาคมภายใต้ชื่อT.51และกลายเป็นมาตรฐาน ISO ครั้งแรกในปี 1983 รหัสไบต์บางส่วนถูกใช้เป็นไบต์นำสำหรับตัวอักษรที่มีเครื่องหมายกำกับ ค่าของไบต์นำมักจะระบุว่าตัวอักษรนั้นมีเครื่องหมายกำกับใด และไบต์ถัดไปจะมีค่า ASCII สำหรับตัวอักษรที่มีเครื่องหมายกำกับนั้นอยู่
ผู้ร่างมาตรฐาน ISO/IEC 6937 ได้แก่Hugh McGregor Ross , Peter Fenwick, Bernard MartiและLoek Zeckendorf
มาตรฐาน ISO6937/2 กำหนดอักขระ 327 ตัวที่พบในภาษาสมัยใหม่ของยุโรปโดยใช้อักษรละตินอักขระที่ไม่ใช่อักษรละตินของยุโรป เช่นอักษรซีริลลิกและอักษรกรีกไม่ได้รวมอยู่ในมาตรฐานนี้ นอกจากนี้ เครื่องหมายกำกับเสียงบางตัวที่ใช้กับอักษรละติน เช่นเครื่องหมายจุลภาค ในภาษา โรมาเนีย ก็ไม่ได้รวมอยู่ด้วย โดยใช้เครื่องหมายเซดิลลาแทน เนื่องจากในขณะนั้นยังไม่มีการแยกความแตกต่างระหว่างเครื่องหมายเซดิลลาและเครื่องหมายจุลภาค
IANAได้จดทะเบียนชื่อชุดอักขระISO_6937-2-25และISO_6937-2-addสำหรับมาตรฐานเวอร์ชันเก่าสองเวอร์ชัน (รวมถึงรหัสควบคุม) แต่ในทางปฏิบัติ การเข้ารหัสอักขระนี้ไม่ได้ถูกใช้งานบนอินเทอร์เน็ต
อักขระไบต์เดียว
ชุดหลัก (ครึ่งแรก) เดิมทีเป็นไปตามISO 646-IRV ก่อน การแก้ไข ISO /IEC 646:1991ซึ่งส่วนใหญ่เป็นไปตามASCIIแต่ยังคงใช้อักขระ 0x24 เป็น " สัญลักษณ์สกุลเงินระหว่างประเทศ " (¤) แทนสัญลักษณ์ดอลลาร์ ($) ITU T.51 ฉบับปี 1992 อนุญาตให้บริการ CCITT ที่มีอยู่ตีความ 0x24 เป็นสัญลักษณ์สกุลเงินระหว่างประเทศต่อไปได้ แต่กำหนดว่าแอปพลิเคชันโทรคมนาคมใหม่ควรใช้สำหรับสัญลักษณ์ดอลลาร์ (เช่น เป็นไปตาม ISO 646-IRV ปัจจุบัน) และใช้ชุดเสริมแทนสัญลักษณ์สกุลเงินระหว่างประเทศ[ 2 ]
ชุดเสริม (ครึ่งหลัง) ประกอบด้วยอักขระกราฟิกที่มีและไม่มีช่องว่าง สัญลักษณ์เพิ่มเติม และตำแหน่งบางส่วนที่สงวนไว้สำหรับการกำหนดมาตรฐานในอนาคต
ทั้งสองชุดนี้เป็น ชุดอักขระกราฟิก ISO/IEC 2022โดยชุดหลักเป็นชุดรหัส 94 ตัว และชุดรองเป็นชุดรหัส 96 ตัว ในบริบทที่ไม่ได้ใช้เทคนิคการขยายรหัส ISO 2022 ชุดหลักจะถูกกำหนดให้เป็นชุด G0 และเรียกใช้ผ่าน GL ( 0x20..0x7F ) ในขณะที่ชุดเสริมจะถูกกำหนดให้เป็นชุด G2 และเรียกใช้ผ่าน GR (0xA0..0xFF) ในสภาพแวดล้อม 8 บิต หรือโดยใช้รหัสควบคุม 0x19 เป็นการเลื่อนบิตเดียวในสภาพแวดล้อม 7 บิต[ 3 ]การเข้ารหัสรหัส Single Shift Two นี้ตรงกับตำแหน่งในISO-IR -106 [ 4 ]
ลำดับการหลีกเลี่ยง ISO/IEC 2022 เพื่อกำหนดชุดเสริมของ ISO/IEC 6937 เป็นชุด G2 คือESC . R(hex 1B 2E 52) [ 2 ] [ 5 ] [ 6 ]ชุดเสริม ISO 6937/2:1983 รุ่นเก่าได้รับการจดทะเบียนเป็นชุดรหัส 94 ตัว และกำหนดให้เป็น G2 ด้วยESC * l(hex 1B 2A 6C) [ 5 ] [ 7 ]
อักขระสองไบต์
ตัวอักษรที่มีเครื่องหมายเน้นเสียงซึ่งไม่ได้กำหนดรหัสเดี่ยวในชุดหลักหรือชุดเสริม จะถูกเข้ารหัสโดยใช้สองไบต์ ไบต์แรกคือ "เครื่องหมายเน้นเสียงที่ไม่เว้นวรรค" ตามด้วยตัวอักษรจากชุดพื้นฐาน เช่น:
e ตัวเล็กที่มีเครื่องหมายเน้นเสียง (é) = [Acute]+e
มาตรฐาน ITU T.51 จัดสรรคอลัมน์ที่ 4 ของชุดเสริม (เช่น0x C0–CF เมื่อใช้ในรูปแบบ 8 บิต) ให้กับอักขระไดแอกริกที่ไม่เว้นวรรค[ 2 ]อย่างไรก็ตาม ISO/IEC 6937 กำหนดชุดอักขระที่ระบุอย่างครบถ้วน โดยแมปรายการลำดับการประกอบกับ ชื่ออักขระ ISO/IEC 10646ซึ่งตรงกับที่กำหนดไว้ใน Unicode ไบต์ที่ไม่เว้นวรรคที่แยกออกมาไม่ได้รวมอยู่ในชุดนี้ แม้ว่าจะมีตัวแปรการเว้นวรรคของไดแอกริกที่ไม่มีอยู่ใน ASCII รวมอยู่ด้วย โดยที่ช่องว่าง ASCII เป็นไบต์ท้าย[ 5 ] [ 8 ]ดังนั้น มีเพียงการรวมกันของไบต์นำและไบต์ตามบางชุดเท่านั้นที่สอดคล้องกับมาตรฐาน ISO/IEC
ชุดอักขระนี้ยังแนบมากับเวอร์ชัน ITU ของข้อกำหนดเป็นภาคผนวก A แม้ว่าเวอร์ชัน ITU จะไม่ได้อ้างอิงจากข้อความหลักก็ตาม มันถูกอธิบายว่าเป็น "ชุดอักขระที่ครอบคลุม" ของชุดอักขระอักษรละติน[ 2 ]มันสอดคล้องกับชุดของISO/IEC 10367 เมื่อ ใช้ชุดASCII, Latin-1 (หรือLatin-5 ), Latin-2และ ชุด Latin เสริม[ 5 ]
ระบบนี้ยังแตกต่างจาก ระบบ อักขระผสม Unicode ตรงที่รหัสเครื่องหมายกำกับเสียงจะอยู่หน้าตัวอักษร (แทนที่จะอยู่หลังตัวอักษร) ทำให้มีความคล้ายคลึงกับANSEL มากกว่า
ความผิดปกติเล็กน้อยคือตัวอักษรละตินตัวเล็ก G ที่มีเครื่องหมายเซดิลลาจะถูกเข้ารหัสราวกับว่ามีเครื่องหมายเน้นเสียงแบบเฉียบพลัน กล่าวคือ ใช้ไบต์นำ 0xC2 เนื่องจากส่วนห้อยลงมาของตัวอักษรไปรบกวนเครื่องหมายเซดิลลา ทำให้ตัวอักษรตัวเล็กมักจะมีเครื่องหมายจุลภาคกลับหัวอยู่ด้านบน: Ģ ģ
โดยรวมแล้ว สามารถใช้เครื่องหมายกำกับเสียงได้ 13 แบบ ตามด้วยตัวอักษรที่เลือกจากชุดตัวอักษรหลัก:
| สำเนียง | รหัส | ตัวละครที่สอง | ผลลัพธ์ |
|---|---|---|---|
| หลุมฝังศพ | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìòù |
| เฉียบพลัน | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕŕúýź |
| เซอร์คัมเฟล็กซ์ | 0xC3 | ACEGHIJOSUWYaceghijosuwy | ÂĈêĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ |
| ทิลเด | 0xC4 | AINOUainou | ÃĨÑÕŨãĩñõũ |
| มาครง | 0xC5 | AEIOUaeiou | ĀĒĪŌŪāēīōū |
| เบรฟ | 0xC6 | อากูอากู | ĂĞŬăğŭ |
| จุด | 0xC7 | CEGIZcegz | ĊĖĠİŻċėġż |
| อุมเลาต์หรือ ไดเอเรซิส | 0xC8 | AEIOUYaeiouy | ÄËÏÖÜŸäëïöüÿ |
| แหวน | 0xCA | AUau | ÅŮåů |
| เซดิลลา | 0xCB | CGKLNRSTcklnrst | ĢĶĻŅŖŢçķļņŗşţ |
| ดับเบิล อะคิวท์ | 0xCD | อูอูอู | ŐŰőű |
| โอโกเนก | 0xCE | AEIUaeiu | ĄĘĮŲąęįų |
| คารอน | 0xCF | CDELNRSTZcdelnrstz | ĎĚĽŇŘŠŤŽčďěľňřšťž |
เค้าโครงหน้าโค้ด
การอ้างอิงถึงการรวมอักขระในช่วง U+0300—U+036F สำหรับรหัสในช่วง 0xC1—0xCF ด้านล่างนั้นอยู่ภายใต้ข้อจำกัดที่กล่าวไว้ข้างต้น กล่าวคือ ไม่สามารถจับคู่กับรหัสจุดที่ระบุไว้ได้โดยตรง นอกจากนี้ Unicode ยังแยกความแตกต่างระหว่าง 0xE2 กับตัวพิมพ์ใหญ่D ที่มีขีดและตัวพิมพ์ใหญ่Ethซึ่งโดยปกติแล้วจะมีลักษณะแตกต่างจากตัวพิมพ์เล็ก (0xF2 และ 0xF3)
ITU T.51 ฉบับเก่าปี 1988 กำหนดชุดเสริมไว้สองเวอร์ชัน โดยเวอร์ชันแรกไม่มีช่องว่างที่ไม่เว้นวรรค เครื่องหมายยัติภังค์แบบอ่อนเครื่องหมายไม่ใช่ ( ¬ ) และเส้นประ ( ¦ ) ที่มีอยู่ในเวอร์ชันที่สอง เวอร์ชันแรกถูกกำหนดให้เป็นส่วนขยายของ ชุดเสริม T.61และเวอร์ชันที่สองเป็นส่วนขยายของเวอร์ชันแรก[ 9 ]ฉบับปัจจุบัน (1992) มีเฉพาะเวอร์ชันที่สอง ยกเลิกอักขระบางตัว และอัปเดตชุดหลักเป็น ISO-646-IRV ( ASCII ) ปัจจุบัน แม้ว่าบริการโทรคมนาคมที่มีอยู่จะได้รับอนุญาตให้คงพฤติกรรมแบบเก่าไว้ได้[ 2 ]
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0x | ||||||||||||||||
| 1x | ||||||||||||||||
| 2x | เอสพี | ! | " | # | $ / ¤ [ a ] | % | & | ' | ( | ) | * | + | , | - | . | / |
| 3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
| 4x | @ | เอ | บี | ซี | ดี | อี | เอฟ | จี | ชม | ฉัน | เจ | เค | แอล | เอ็ม | เอ็น | โอ |
| 5x | พี | คิว | อาร์ | เอส | ที | ยู | วี | ว | X | วาย | ซ | [ | \ | ] | ^ | _ |
| 6x | ` | เอ | ข | ค | ง | อี | เอฟ | จี | ชม. | ฉัน | เจ | เค | ล | ม | n | โอ |
| 7x | พี | q | ร | ส | ที | คุณ | วี | ว | x | y | z | { | | | } | ~ | |
| 8x | ||||||||||||||||
| 9x | ||||||||||||||||
| ขวาน | เอ็นบีเอสพี | ¡ | ¢ | ปอนด์ | $ [ b ] | ¥ | # [ b ] | § | ¤ | ' | “ | « | ← | ↑ | → | ↓ |
| บีเอ็กซ์ | ° | ± | ² | ³ | × | µ | ¶ | · | ÷ | ' | ” | » | ¼ | ½ | ¾ | ¿ |
| ซีเอ็กซ์ | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ◌̊ | ◌̧ | ◌̲ [ c ] | ◌̋ | ◌̨ | ◌̌ | ||
| ดีเอ็กซ์ | — | ¹ | ® | © | ™ | ♪ | ¬ | ¦ | ⅛ | ⅜ | ⅝ | ⅞ | ||||
| อดีต | Ω | Æ | Đ / Ð | ª | ชม | [ d ] | IJ | Ŀ | Ł | Ø | Œ | º | ไทย | Ŧ | Ŋ | ʼn |
| เอฟเอ็กซ์ | ĸ | æ | đ | ð | ชม | ฉัน | ij | ŀ | ł | ø | œ | ß | ไทย | ŧ | ŋ | อาย |
เวอร์ชัน Videotex
ชุดอักขระเสริมที่ใช้ในมาตรฐาน ITU T.101 สำหรับVideotexนั้นอิงตามชุดอักขระเสริมชุดแรกของมาตรฐาน T.51 ฉบับปี 1988
ชุด G2 เริ่มต้นสำหรับไวยากรณ์ข้อมูล 2 เพิ่ม΅ที่ 0xC0 เพื่อใช้ร่วมกับรหัสจากชุดหลักของภาษากรีก[ 10 ]
ชุดเสริมสำหรับไวยากรณ์ข้อมูล 3 เพิ่มเครื่องหมายที่ไม่เว้นวรรคสำหรับ "เวกเตอร์โอเวอร์บาร์" และโซลิดัสและอักขระกึ่งกราฟิกหลาย ตัว [ 11 ]
ETS 300 เวอร์ชัน 706
มาตรฐาน ETS 300 706 สำหรับWorld System Teletextใช้ชุด G2ตาม ISO 6937 [ 12 ]ซึ่งเป็นชุดย่อยของชุดเสริมของT.61และเป็นชุดย่อยของชุดเสริมชุดแรกของ T.51 ฉบับปี 1988 แต่ขัดแย้งกับ T.51 ฉบับปัจจุบันในบางตำแหน่ง รหัสไดอะคริติกในเวอร์ชัน ETS ระบุว่าเป็น "สำหรับเชื่อมโยงกับ" อักขระจาก ชุด G0 ที่ใช้งานอยู่[ 12 ]เช่นUS-ASCIIหรือBS_viewdataเวอร์ชันนี้แสดงอยู่ในแผนภูมิด้านล่าง
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | เอ | บี | ซี | ดี | อี | เอฟ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ขวาน | เอสพี | ¡ | ¢ | ปอนด์ | $ | ¥ | # | § | ¤ | ' | “ | « | ← | ↑ | → | ↓ |
| บีเอ็กซ์ | ° | ± | ² | ³ | × | µ | ¶ | · | ÷ | ' | ” | » | ¼ | ½ | ¾ | ¿ |
| ซีเอ็กซ์ | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ̣◌̣ | ◌̊ | ◌̧ | ◌̲ | ◌̋ | ◌̨ | ◌̌ | |
| ดีเอ็กซ์ | — | ¹ | ® | © | ™ | ♪ | ₠ | ‰ | α | ⅛ | ⅜ | ⅝ | ⅞ | |||
| อดีต | Ω | Æ | Đ / Ð | ª | ชม | IJ | Ŀ | Ł | Ø | Œ | º | ไทย | Ŧ | Ŋ | ʼn | |
| เอฟเอ็กซ์ | ĸ | æ | đ | ð | ชม | ฉัน | ij | ŀ | ł | ø | œ | ß | ไทย | ŧ | ŋ | ■ |
ดูเพิ่มเติม
- ไอทู ที.50
- ITU T.61เป็นระบบเข้ารหัสอักขระที่เกี่ยวข้องอย่างใกล้ชิดสำหรับการใช้งานTeletex
เชิงอรรถ
- ^อนุญาตให้ใช้งานต่อเนื่องสำหรับ ¤ เฉพาะบริการ CCITT ที่มีอยู่เท่านั้น [ 2 ]
- ^ a bอนุญาตเฉพาะบริการ CCITT ที่มีอยู่เท่านั้น มิฉะนั้นควรใช้การแสดงผลแบบ ASCII [ 2 ]
- ^ระบุไว้ในมาตรฐานเวอร์ชัน ITU ว่ามีการใช้งานสำหรับ ข้อความ ขีดเส้นใต้ร่วมกับอักขระอื่น ๆ รวมถึงอักขระที่มีเครื่องหมายเน้นเสียง แม้ว่ามาตรฐาน ITU ฉบับปี 1988 จะมีรหัสนี้ [ 9 ] แต่ มาตรฐาน ITU ฉบับปี 1992 ไม่สนับสนุนการส่งรหัสนี้และแนะนำให้ใช้ลำดับการหลีกเลี่ยง ANSIแทน แม้ว่าจะกล่าวถึงว่าควรได้รับการตีความอย่างถูกต้องเมื่อระบบที่เกี่ยวข้องได้รับ [ 2 ]มาตรฐานเวอร์ชัน ISO/IEC รุ่นก่อนหน้ายังอนุญาตให้รวมรหัสนี้กับอักขระใด ๆ ในชุดอักขระที่กำหนดไว้ [ 7 ]ในขณะที่การแก้ไขล่าสุดไม่รวมรหัสนี้ [ 5 ]
- ^ร่างฉบับแรกวาง ȷ ไว้ ในตำแหน่งนี้
ลิงก์ภายนอก
- ข้อแนะนำ T.51 ของ ITU
- หน้ามาตรฐาน ISO: ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Add 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
- WD 6937 ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารด้วยข้อความ - อักษรละติน (ฉบับปรับปรุงของ ISO/IEC 6937:1994) เก็บถาวรเมื่อ 2015-01-04 ที่Wayback Machine (ฉบับร่าง ISO/IEC 6937:1994)
- ISO-IR-156 ( การลงทะเบียน ISO-IRของส่วนด้านขวา)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ T.51/ISO/IEC 6937
T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC...
อักขระไบต์เดียว
ชุดหลัก (ครึ่งแรก) เดิมทีเป็นไปตาม ISO 646-IRV ก่อน การแก้ไข ISO /IEC 646:1991ซึ่งส่วนใหญ่เป็นไปตาม ASCII แต่ยังคงใช้อักขระ 0x24 เป็น " สัญลักษณ์สกุลเงินระหว่างประเทศ " (¤) แทนสัญลักษณ์ดอลลาร์ ($) ITU T.
อักขระสองไบต์
ตัวอักษรที่มีเครื่องหมายเน้นเสียงซึ่งไม่ได้กำหนดรหัสเดี่ยวในชุดหลักหรือชุดเสริม จะถูกเข้ารหัสโดยใช้สองไบต์ ไบต์แรกคือ "เครื่องหมายเน้นเสียงที่ไม่เว้นวรรค" ตามด้วยตัวอักษรจากชุดพื้นฐาน เช่น:
เค้าโครงหน้าโค้ด
การอ้างอิงถึง การรวมอักขระ ในช่วง U+0300—U+036F สำหรับรหัสในช่วง 0xC1—0xCF ด้านล่างนั้นอยู่ภายใต้ข้อจำกัดที่กล่าวไว้ข้างต้น กล่าวคือ ไม่สามารถจับคู่กับรหัสจุดที่ระบุไว้ได้โดยตรง นอกจากนี้ Unicode ยังแยกความแตกต่างระหว่าง 0xE2 กับตัวพิมพ์ใหญ่ D ที่มีขีด...