กลับไปหน้าบทความ

อ่าน 5 นาที

T.51/ISO/IEC 6937

T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC...

T.51/ISO/IEC 6937

ที.51
ชุดอักขระเข้ารหัสแบบละตินสำหรับบริการโทรคมนาคม
สถานะมีผลบังคับใช้
ปีเริ่มต้น1984
เวอร์ชั่นล่าสุด(09/92) กันยายน 2535
องค์กรไอทู-ที
คณะกรรมการกลุ่มศึกษาที่ 8
มาตรฐานที่เกี่ยวข้องT.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022 , ISO 5426
โดเมนการเข้ารหัส
ใบอนุญาตสามารถใช้งานได้ฟรี
เว็บไซต์https://www.itu.int/rec/T-REC-T.51
ที.51
ชื่อเล่น
  • รหัสหน้า 20269
  • ISO-IR -90 (รุ่นเก่า)
  • ISO-IR-142 (แบบเก่า)
  • ไอโซ-ไออาร์156
มาตรฐาน
อ้างอิงจากITU T.61
การเข้ารหัสอื่นๆ ที่เกี่ยวข้อง

T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC 646 -IRV [ 1 ]ได้รับการพัฒนาร่วมกับITU-T (ในขณะนั้นคือ CCITT ) สำหรับบริการโทรคมนาคมภายใต้ชื่อT.51และกลายเป็นมาตรฐาน ISO ครั้งแรกในปี 1983 รหัสไบต์บางส่วนถูกใช้เป็นไบต์นำสำหรับตัวอักษรที่มีเครื่องหมายกำกับ ค่าของไบต์นำมักจะระบุว่าตัวอักษรนั้นมีเครื่องหมายกำกับใด และไบต์ถัดไปจะมีค่า ASCII สำหรับตัวอักษรที่มีเครื่องหมายกำกับนั้นอยู่

ผู้ร่างมาตรฐาน ISO/IEC 6937 ได้แก่Hugh McGregor Ross , Peter Fenwick, Bernard MartiและLoek Zeckendorf

มาตรฐาน ISO6937/2 กำหนดอักขระ 327 ตัวที่พบในภาษาสมัยใหม่ของยุโรปโดยใช้อักษรละตินอักขระที่ไม่ใช่อักษรละตินของยุโรป เช่นอักษรซีริลลิกและอักษรกรีกไม่ได้รวมอยู่ในมาตรฐานนี้ นอกจากนี้ เครื่องหมายกำกับเสียงบางตัวที่ใช้กับอักษรละติน เช่นเครื่องหมายจุลภาค ในภาษา โรมาเนีย ก็ไม่ได้รวมอยู่ด้วย โดยใช้เครื่องหมายเซดิลลาแทน เนื่องจากในขณะนั้นยังไม่มีการแยกความแตกต่างระหว่างเครื่องหมายเซดิลลาและเครื่องหมายจุลภาค

IANAได้จดทะเบียนชื่อชุดอักขระISO_6937-2-25และISO_6937-2-addสำหรับมาตรฐานเวอร์ชันเก่าสองเวอร์ชัน (รวมถึงรหัสควบคุม) แต่ในทางปฏิบัติ การเข้ารหัสอักขระนี้ไม่ได้ถูกใช้งานบนอินเทอร์เน็ต

อักขระไบต์เดียว

ชุดหลัก (ครึ่งแรก) เดิมทีเป็นไปตามISO 646-IRV ก่อน การแก้ไข ISO /IEC 646:1991ซึ่งส่วนใหญ่เป็นไปตามASCIIแต่ยังคงใช้อักขระ 0x24 เป็น " สัญลักษณ์สกุลเงินระหว่างประเทศ " (¤) แทนสัญลักษณ์ดอลลาร์ ($) ITU T.51 ฉบับปี 1992 อนุญาตให้บริการ CCITT ที่มีอยู่ตีความ 0x24 เป็นสัญลักษณ์สกุลเงินระหว่างประเทศต่อไปได้ แต่กำหนดว่าแอปพลิเคชันโทรคมนาคมใหม่ควรใช้สำหรับสัญลักษณ์ดอลลาร์ (เช่น เป็นไปตาม ISO 646-IRV ปัจจุบัน) และใช้ชุดเสริมแทนสัญลักษณ์สกุลเงินระหว่างประเทศ[ 2 ]

ชุดเสริม (ครึ่งหลัง) ประกอบด้วยอักขระกราฟิกที่มีและไม่มีช่องว่าง สัญลักษณ์เพิ่มเติม และตำแหน่งบางส่วนที่สงวนไว้สำหรับการกำหนดมาตรฐานในอนาคต

ทั้งสองชุดนี้เป็น ชุดอักขระกราฟิก ISO/IEC 2022โดยชุดหลักเป็นชุดรหัส 94 ตัว และชุดรองเป็นชุดรหัส 96 ตัว ในบริบทที่ไม่ได้ใช้เทคนิคการขยายรหัส ISO 2022 ชุดหลักจะถูกกำหนดให้เป็นชุด G0 และเรียกใช้ผ่าน GL ( 0x20..0x7F ) ในขณะที่ชุดเสริมจะถูกกำหนดให้เป็นชุด G2 และเรียกใช้ผ่าน GR (0xA0..0xFF) ในสภาพแวดล้อม 8 บิต หรือโดยใช้รหัสควบคุม 0x19 เป็นการเลื่อนบิตเดียวในสภาพแวดล้อม 7 บิต[ 3 ]การเข้ารหัสรหัส Single Shift Two นี้ตรงกับตำแหน่งในISO-IR -106 [ 4 ]

ลำดับการหลีกเลี่ยง ISO/IEC 2022 เพื่อกำหนดชุดเสริมของ ISO/IEC 6937 เป็นชุด G2 คือESC . R(hex 1B 2E 52) [ 2 ] [ 5 ] [ 6 ]ชุดเสริม ISO 6937/2:1983 รุ่นเก่าได้รับการจดทะเบียนเป็นชุดรหัส 94 ตัว และกำหนดให้เป็น G2 ด้วยESC * l(hex 1B 2A 6C) [ 5 ] [ 7 ]

อักขระสองไบต์

ตัวอักษรที่มีเครื่องหมายเน้นเสียงซึ่งไม่ได้กำหนดรหัสเดี่ยวในชุดหลักหรือชุดเสริม จะถูกเข้ารหัสโดยใช้สองไบต์ ไบต์แรกคือ "เครื่องหมายเน้นเสียงที่ไม่เว้นวรรค" ตามด้วยตัวอักษรจากชุดพื้นฐาน เช่น:

e ตัวเล็กที่มีเครื่องหมายเน้นเสียง (é) = [Acute]+e 

มาตรฐาน ITU T.51 จัดสรรคอลัมน์ที่ 4 ของชุดเสริม (เช่น0x C0–CF เมื่อใช้ในรูปแบบ 8 บิต) ให้กับอักขระไดแอกริกที่ไม่เว้นวรรค[ 2 ]อย่างไรก็ตาม ISO/IEC 6937 กำหนดชุดอักขระที่ระบุอย่างครบถ้วน โดยแมปรายการลำดับการประกอบกับ ชื่ออักขระ ISO/IEC 10646ซึ่งตรงกับที่กำหนดไว้ใน Unicode ไบต์ที่ไม่เว้นวรรคที่แยกออกมาไม่ได้รวมอยู่ในชุดนี้ แม้ว่าจะมีตัวแปรการเว้นวรรคของไดแอกริกที่ไม่มีอยู่ใน ASCII รวมอยู่ด้วย โดยที่ช่องว่าง ASCII เป็นไบต์ท้าย[ 5 ] [ 8 ]ดังนั้น มีเพียงการรวมกันของไบต์นำและไบต์ตามบางชุดเท่านั้นที่สอดคล้องกับมาตรฐาน ISO/IEC

ชุดอักขระนี้ยังแนบมากับเวอร์ชัน ITU ของข้อกำหนดเป็นภาคผนวก A แม้ว่าเวอร์ชัน ITU จะไม่ได้อ้างอิงจากข้อความหลักก็ตาม มันถูกอธิบายว่าเป็น "ชุดอักขระที่ครอบคลุม" ของชุดอักขระอักษรละติน[ 2 ]มันสอดคล้องกับชุดของISO/IEC 10367 เมื่อ ใช้ชุดASCII, Latin-1 (หรือLatin-5 ), Latin-2และ ชุด Latin เสริม[ 5 ]

ระบบนี้ยังแตกต่างจาก ระบบ อักขระผสม Unicode ตรงที่รหัสเครื่องหมายกำกับเสียงจะอยู่หน้าตัวอักษร (แทนที่จะอยู่หลังตัวอักษร) ทำให้มีความคล้ายคลึงกับANSEL มากกว่า

ความผิดปกติเล็กน้อยคือตัวอักษรละตินตัวเล็ก G ที่มีเครื่องหมายเซดิลลาจะถูกเข้ารหัสราวกับว่ามีเครื่องหมายเน้นเสียงแบบเฉียบพลัน กล่าวคือ ใช้ไบต์นำ 0xC2 เนื่องจากส่วนห้อยลงมาของตัวอักษรไปรบกวนเครื่องหมายเซดิลลา ทำให้ตัวอักษรตัวเล็กมักจะมีเครื่องหมายจุลภาคกลับหัวอยู่ด้านบน: Ģ ģ

โดยรวมแล้ว สามารถใช้เครื่องหมายกำกับเสียงได้ 13 แบบ ตามด้วยตัวอักษรที่เลือกจากชุดตัวอักษรหลัก:

สำเนียง รหัส ตัวละครที่สอง ผลลัพธ์
หลุมฝังศพ0xC1 AEIOUaeiou ÀÈÌÒÙàèìòù
เฉียบพลัน0xC2 ACEILNORSUYZacegilnorsuyz ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕŕúýź
เซอร์คัมเฟล็กซ์0xC3 ACEGHIJOSUWYaceghijosuwy ÂĈêĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ
ทิลเด0xC4 AINOUainou ÃĨÑÕŨãĩñõũ
มาครง0xC5 AEIOUaeiou ĀĒĪŌŪāēīōū
เบรฟ0xC6 อากูอากู ĂĞŬăğŭ
จุด0xC7 CEGIZcegz ĊĖĠİŻċėġż
อุมเลาต์หรือ ไดเอเรซิส 0xC8 AEIOUYaeiouy ÄËÏÖÜŸäëïöüÿ
แหวน0xCA AUau ÅŮåů
เซดิลลา0xCB CGKLNRSTcklnrst ĢĶĻŅŖŢçķļņŗşţ
ดับเบิล อะคิวท์0xCD อูอูอู ŐŰőű
โอโกเนก0xCE AEIUaeiu ĄĘĮŲąęįų
คารอน0xCF CDELNRSTZcdelnrstz ĎĚĽŇŘŠŤŽčďěľňřšťž

เค้าโครงหน้าโค้ด

การอ้างอิงถึงการรวมอักขระในช่วง U+0300—U+036F สำหรับรหัสในช่วง 0xC1—0xCF ด้านล่างนั้นอยู่ภายใต้ข้อจำกัดที่กล่าวไว้ข้างต้น กล่าวคือ ไม่สามารถจับคู่กับรหัสจุดที่ระบุไว้ได้โดยตรง นอกจากนี้ Unicode ยังแยกความแตกต่างระหว่าง 0xE2 กับตัวพิมพ์ใหญ่D ที่มีขีดและตัวพิมพ์ใหญ่Ethซึ่งโดยปกติแล้วจะมีลักษณะแตกต่างจากตัวพิมพ์เล็ก (0xF2 และ 0xF3)

ITU T.51 ฉบับเก่าปี 1988 กำหนดชุดเสริมไว้สองเวอร์ชัน โดยเวอร์ชันแรกไม่มีช่องว่างที่ไม่เว้นวรรค เครื่องหมายยัติภังค์แบบอ่อนเครื่องหมายไม่ใช่ ( ¬ ) และเส้นประ ( ¦ ) ที่มีอยู่ในเวอร์ชันที่สอง เวอร์ชันแรกถูกกำหนดให้เป็นส่วนขยายของ ชุดเสริม T.61และเวอร์ชันที่สองเป็นส่วนขยายของเวอร์ชันแรก[ 9 ]ฉบับปัจจุบัน (1992) มีเฉพาะเวอร์ชันที่สอง ยกเลิกอักขระบางตัว และอัปเดตชุดหลักเป็น ISO-646-IRV ( ASCII ) ปัจจุบัน แม้ว่าบริการโทรคมนาคมที่มีอยู่จะได้รับอนุญาตให้คงพฤติกรรมแบบเก่าไว้ได้[ 2 ]

ISO/IEC 6937 หรือ ITU T.51 (ภาษาละติน)
0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ
0x
1x
2x  เอสพี !"#$ / ¤ [ a ]%&'()*+,-./
3x 0123456789:;<=>?
4x @เอบีซีดีอีเอฟจีชมฉันเจเคแอลเอ็มเอ็นโอ
5x พีคิวอาร์เอสทียูวีXวาย[\]^_
6x `เออีเอฟจีชม.ฉันเจเคnโอ
7x พีqทีคุณวีxyz{|}~
8x
9x
ขวาน เอ็นบีเอสพี¡¢ปอนด์$ [ b ]¥# [ b ]§¤'«
บีเอ็กซ์ °±²³×µ·÷'»¼½¾¿
ซีเอ็กซ์ ◌̀◌́◌̂◌̃◌̄◌̆◌̇◌̈◌̊◌̧◌̲ [ c ]◌̋◌̨◌̌
ดีเอ็กซ์ ¹®©¬¦
อดีต ΩÆĐ / Ъชม[ d ]IJĿŁØŒºไทยŦŊʼn
เอฟเอ็กซ์ ĸæđðชมฉันijŀłøœßไทยŧŋอาย
  ความแตกต่างจากT.61

เวอร์ชัน Videotex

ชุดอักขระเสริมที่ใช้ในมาตรฐาน ITU T.101 สำหรับVideotexนั้นอิงตามชุดอักขระเสริมชุดแรกของมาตรฐาน T.51 ฉบับปี 1988

ชุด G2 เริ่มต้นสำหรับไวยากรณ์ข้อมูล 2 เพิ่ม΅ที่ 0xC0 เพื่อใช้ร่วมกับรหัสจากชุดหลักของภาษากรีก[ 10 ]

ชุดเสริมสำหรับไวยากรณ์ข้อมูล 3 เพิ่มเครื่องหมายที่ไม่เว้นวรรคสำหรับ "เวกเตอร์โอเวอร์บาร์" และโซลิดัสและอักขระกึ่งกราฟิกหลาย ตัว [ 11 ]

ETS 300 เวอร์ชัน 706

มาตรฐาน ETS 300 706 สำหรับWorld System Teletextใช้ชุด G2ตาม ISO 6937 [ 12 ]ซึ่งเป็นชุดย่อยของชุดเสริมของT.61และเป็นชุดย่อยของชุดเสริมชุดแรกของ T.51 ฉบับปี 1988 แต่ขัดแย้งกับ T.51 ฉบับปัจจุบันในบางตำแหน่ง รหัสไดอะคริติกในเวอร์ชัน ETS ระบุว่าเป็น "สำหรับเชื่อมโยงกับ" อักขระจาก ชุด G0 ที่ใช้งานอยู่[ 12 ]เช่นUS-ASCIIหรือBS_viewdataเวอร์ชันนี้แสดงอยู่ในแผนภูมิด้านล่าง

World System Teletext, Latin G2 Set (ETS 300 706:1997) [ 12 ]
0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ
ขวาน  เอสพี ¡¢ปอนด์$¥#§¤'«
บีเอ็กซ์ °±²³×µ·÷'»¼½¾¿
ซีเอ็กซ์ ◌̀◌́◌̂◌̃◌̄◌̆◌̇◌̣̈◌̣◌̊◌̧◌̲◌̋◌̨◌̌
ดีเอ็กซ์ ¹®©α
อดีต ΩÆĐ / ЪชมIJĿŁØŒºไทยŦŊʼn
เอฟเอ็กซ์ ĸæđðชมฉันijŀłøœßไทยŧŋ
  ความแตกต่างจาก T.51

ดูเพิ่มเติม

  • ไอทู ที.50
  • ITU T.61เป็นระบบเข้ารหัสอักขระที่เกี่ยวข้องอย่างใกล้ชิดสำหรับการใช้งานTeletex

เชิงอรรถ

  1. ^อนุญาตให้ใช้งานต่อเนื่องสำหรับ ¤ เฉพาะบริการ CCITT ที่มีอยู่เท่านั้น [ 2 ]
  2. ^ a bอนุญาตเฉพาะบริการ CCITT ที่มีอยู่เท่านั้น มิฉะนั้นควรใช้การแสดงผลแบบ ASCII [ 2 ]
  3. ^ระบุไว้ในมาตรฐานเวอร์ชัน ITU ว่ามีการใช้งานสำหรับ ข้อความ ขีดเส้นใต้ร่วมกับอักขระอื่น ๆ รวมถึงอักขระที่มีเครื่องหมายเน้นเสียง แม้ว่ามาตรฐาน ITU ฉบับปี 1988 จะมีรหัสนี้ [ 9 ] แต่ มาตรฐาน ITU ฉบับปี 1992 ไม่สนับสนุนการส่งรหัสนี้และแนะนำให้ใช้ลำดับการหลีกเลี่ยง ANSIแทน แม้ว่าจะกล่าวถึงว่าควรได้รับการตีความอย่างถูกต้องเมื่อระบบที่เกี่ยวข้องได้รับ [ 2 ]มาตรฐานเวอร์ชัน ISO/IEC รุ่นก่อนหน้ายังอนุญาตให้รวมรหัสนี้กับอักขระใด ๆ ในชุดอักขระที่กำหนดไว้ [ 7 ]ในขณะที่การแก้ไขล่าสุดไม่รวมรหัสนี้ [ 5 ]
  4. ^ร่างฉบับแรกวาง ȷ ไว้ ในตำแหน่งนี้
  • ข้อแนะนำ T.51 ของ ITU
  • หน้ามาตรฐาน ISO: ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Add 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
  • WD 6937 ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารด้วยข้อความ - อักษรละติน (ฉบับปรับปรุงของ ISO/IEC 6937:1994) เก็บถาวรเมื่อ 2015-01-04 ที่Wayback Machine (ฉบับร่าง ISO/IEC 6937:1994)
  • ISO-IR-156 ( การลงทะเบียน ISO-IRของส่วนด้านขวา)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=T.51/ISO/IEC_6937&oldid=1340829438 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ T.51/ISO/IEC 6937

T.51 / ISO/IEC 6937:2001 เทคโนโลยี สารสนเทศ— ชุดอักขระกราฟิกแบบเข้ารหัสสำหรับการสื่อสารข้อความ — อักษรละตินเป็นส่วนขยายแบบหลายไบต์ของASCIIหรือกล่าวให้แม่นยำยิ่งขึ้น คือ ISO/IEC...

อักขระไบต์เดียว

ชุดหลัก (ครึ่งแรก) เดิมทีเป็นไปตาม ISO 646-IRV ก่อน การแก้ไข ISO /IEC 646:1991ซึ่งส่วนใหญ่เป็นไปตาม ASCII แต่ยังคงใช้อักขระ 0x24 เป็น " สัญลักษณ์สกุลเงินระหว่างประเทศ " (¤) แทนสัญลักษณ์ดอลลาร์ ($) ITU T.

อักขระสองไบต์

ตัวอักษรที่มีเครื่องหมายเน้นเสียงซึ่งไม่ได้กำหนดรหัสเดี่ยวในชุดหลักหรือชุดเสริม จะถูกเข้ารหัสโดยใช้สองไบต์ ไบต์แรกคือ "เครื่องหมายเน้นเสียงที่ไม่เว้นวรรค" ตามด้วยตัวอักษรจากชุดพื้นฐาน เช่น:

เค้าโครงหน้าโค้ด

การอ้างอิงถึง การรวมอักขระ ในช่วง U+0300—U+036F สำหรับรหัสในช่วง 0xC1—0xCF ด้านล่างนั้นอยู่ภายใต้ข้อจำกัดที่กล่าวไว้ข้างต้น กล่าวคือ ไม่สามารถจับคู่กับรหัสจุดที่ระบุไว้ได้โดยตรง นอกจากนี้ Unicode ยังแยกความแตกต่างระหว่าง 0xE2 กับตัวพิมพ์ใหญ่ D ที่มีขีด...