กลับไปหน้าบทความ

อ่าน 3 นาที

รหัสอักษรอินเดียสำหรับการแลกเปลี่ยนข้อมูล

รหัส ISCII ( Indian Script Code for Information Interchange ) เป็น ระบบการเข้ารหัส สำหรับแสดงระบบการเขียนต่างๆ ของ อินเดีย โดยเข้ารหัส อักษรหลักของภาษาอินเดีย...

รหัสอักษรอินเดียสำหรับการแลกเปลี่ยนข้อมูล

รหัส ISCII ( Indian Script Code for Information Interchange ) เป็นระบบการเข้ารหัสสำหรับแสดงระบบการเขียนต่างๆ ของอินเดียโดยเข้ารหัสอักษรหลักของภาษาอินเดียและการถอดเสียงเป็นอักษรโรมัน อักษรที่รองรับได้แก่เบงกาลี-อัสสัมเทวนาครีคุชราตีกูรมุขี กันนา ดา มาลายาลัโอเดีย ทมิฬและเตลูกู ISCII ไม่เข้ารหัสระบบการเขียนของอินเดียที่ใช้ภาษาเปอร์เซีย เป็นพื้นฐาน แต่รหัสการสลับระบบการเขียนของ ISCII ก็รองรับภาษาแคชเมียร์สินธี อู ร์ดูเปอร์เซียปัชโตและอาหรับต่อมา ระบบการเขียนที่ใช้ภาษาเปอร์เซียเป็นพื้นฐานได้รับการเข้ารหัสในระบบ PASCII

ISCII ไม่ได้ถูกนำมาใช้อย่างแพร่หลายนอกเหนือจากสถาบันของรัฐบางแห่ง แม้ว่าจะมีการใช้รูปแบบที่ไม่มีกลไกATR บน Mac OS รุ่นคลาสสิก Mac OS Devanagari [ 1 ] และปัจจุบันก็ล้าสมัยไปแล้วโดยUnicode Unicode ใช้บล็อกแยกต่างหากสำหรับแต่ละระบบการเขียนภาษาอินเดีย และส่วนใหญ่ยังคงรักษาเค้าโครง ISCII ไว้ภายในแต่ละบล็อก[ 2 ] : 462

พื้นหลัง

ระบบการเขียนที่ได้มาจากอักษรพราห์มีมีโครงสร้างที่คล้ายคลึงกัน[ 2 ] : 462 ดังนั้น ISCII จึงเข้ารหัสตัวอักษรที่มีค่าเสียงเดียวกันที่จุดรหัสเดียวกัน โดยซ้อนทับสคริปต์ต่างๆ ตัวอย่างเช่น รหัส ISCII 0xB3 0xDB แทน [ki] ซึ่งจะแสดงเป็น കി ในภาษามาลายาลัม, कि ในอักษรเทวนาครี, ਕਿ ในอักษรคุรมุขี และ கி ในภาษาทมิฬ สามารถเลือกระบบการเขียนได้ในข้อความแบบ Rich Text โดยใช้มาร์กอัป หรือในข้อความธรรมดาโดยใช้ รหัส ATRที่อธิบายไว้ด้านล่าง

แรงจูงใจประการหนึ่งในการใช้การเข้ารหัสแบบเดียวคือแนวคิดที่ว่าจะช่วยให้การถอดเสียงจากระบบการเขียนหนึ่งไปยังอีกระบบหนึ่งทำได้ ง่าย [ 2 ] : 462 อย่างไรก็ตาม มีความไม่เข้ากันมากพอที่จะทำให้แนวคิดนี้ไม่สามารถนำไปใช้ได้จริง

ISCII เป็นการเข้ารหัส 8 บิต[ 3 ] : 4 รหัสจุด 128 รหัสล่างเป็นASCII ธรรมดา รหัสจุด 128 รหัสบนเป็นรหัสเฉพาะของ ISCII นอกจากรหัสจุดที่ใช้แทนอักขระแล้ว ISCII ยังใช้รหัสจุดที่มีตัวย่อATRซึ่งระบุว่าไบต์ถัดไปมีข้อมูลสองประเภท ชุดค่าหนึ่งจะเปลี่ยนระบบการเขียนจนกว่าจะถึงตัวบ่งชี้ระบบการเขียนถัดไปหรือสิ้นสุดบรรทัด ชุดค่าอีกชุดหนึ่งจะเลือกโหมดการแสดงผล เช่น ตัวหนาและตัวเอียง ISCII ไม่มีวิธีการระบุระบบการเขียนเริ่มต้น

เค้าโครงหน้าโค้ด

ตารางต่อไปนี้แสดงชุดอักขระสำหรับเทวนาครีชุดรหัสสำหรับอัสสัม เบงกาลี คุชราตี กูรมุขี กันนาดา มาลายาลัม โอริยา ทมิฬ และเตลูกู มีความคล้ายคลึงกัน โดยแต่ละรูปแบบของเทวนาครีจะถูกแทนที่ด้วยรูปแบบที่เทียบเท่ากันในแต่ละระบบการเขียน[ 2 ] : 462 อักขระแต่ละตัวแสดงด้วยรหัสทศนิยมและรหัสยูนิโค้ดที่เทียบเท่ากัน

ISCII เทวนาครี[ 3 ] : 14
0 1 2 3 4 5 6 7 8 9 เอ บี ซี ดี อี เอฟ
0x นูแอลเอสโอเอชเอสทีเอ็กซ์อีทีเอ็กซ์อีโอทีเอ็นคิวแอกเบล  ปริญญาตรี   เอชที   แอลเอฟ   วีที   เอฟเอฟ   ซีอาร์   ดังนั้น   ไอเอส  
1x ดีแอลอีดีซี1ดีซี2ดีซี3ดีซี4นาคซินอีทีบีสามารถ  อีเอ็ม  ซับเอสเอส  เอฟเอส   จีเอส   อาร์เอส   เรา 
2x  เอสพี  !"#$%&'()*+,-./
3x 0123456789:;<=>?
4x @เอบีซีดีอีเอฟจีชมฉันเจเคแอลเอ็มเอ็นโอ
5x พีคิวอาร์เอสทียูวีXวาย[\]^_
6x 'เออีเอฟจีชม.ฉันเจเคnโอ
7x พีqทีคุณวีxyz{|}~เดล
8x
9x
ขวาน อุ อา อิ อี อุ เอ เอ
บีเอ็กซ์ โอ
ซีเอ็กซ์ य़
ดีเอ็กซ์ อินวีि
อดีต เอทีอาร์
เอฟเอ็กซ์ ภายนอก0 1 2 3 4 5 6 8 9
  ไม่ได้กำหนด
  ไบต์นำ

รหัสพิเศษ

อักขระ INV—รหัสจุด D9 (217)
อักขระ INV (พยัญชนะที่มองไม่เห็น) ถูกใช้เป็นพยัญชนะเสมือนเพื่อแสดงองค์ประกอบที่รวมกันในลักษณะแยกเดี่ยว ตัวอย่างเช่น क (ka) + ् (halant) + INV = क्‍ (ครึ่ง ka) เทียบเท่าใน Unicode คือU+200D ZERO WIDTH JOINER ( ZWJ ) อย่างไรก็ตาม ดังที่กล่าวไว้ด้านล่างอักขระ halant ของ ISCII สามารถทำซ้ำหรือรวมกับ nukta ของ ISCII เพื่อให้ได้เอฟเฟกต์ที่สร้างโดยZWNJหรือ ZWJ ใน Unicode ด้วยเหตุนี้Appleจึงแมปอักขระ INV ของ ISCII ไปยังเครื่องหมายซ้ายไปขวา ของ Unicode เพื่อรับประกันการแปลงไปกลับ[ 1 ]
อักขระ ATR—รหัสจุด EF (239)
อักขระ ATR (แอตทริบิวต์) ตามด้วยไบต์โค้ด ใช้สำหรับสลับไปยังแอตทริบิวต์ของฟอนต์อื่น (เช่น ตัวหนา) หรือไปยังภาษา ISCII หรือPASCII อื่น (เช่น ภาษาเบงกาลี) จนถึงลำดับ ATR ถัดไปหรือจนถึงท้ายบรรทัด ไม่มีอักขระที่เทียบเท่าโดยตรงใน Unicode เนื่องจากแอตทริบิวต์ของฟอนต์ไม่ได้เป็นส่วนหนึ่งของ Unicode และแต่ละสคริปต์มีชุดจุดรหัสที่แตกต่างกัน
คุณลักษณะการนำเสนอ[ 3 ] : 31
เอทีอาร์ + ไบต์ตัวช่วยจำตัวเลือกการจัดรูปแบบ
0x30บลัดตัวหนา
0x31อิตาลีตัวเอียง
0x32ยูแอลขีดเส้นใต้
0x33เอ็กซ์พีขยาย
0x34เอชแอลทีไฮไลท์
0x35OTLโครงร่าง
0x36เอสเอชดีเงา
0x37สูงสุดครึ่งบนของตัวละคร (ใช้ร่วมกับ LOW เพื่อสร้างตัวละครที่มีความสูงสองเท่า)
0x38ต่ำครึ่งล่างของตัวละคร (ใช้ร่วมกับ TOP เพื่อสร้างตัวละครที่มีความสูงสองเท่า)
0x39ดีบีแอลทั้งแถวมีความกว้างและความสูงเป็นสองเท่า
การเปลี่ยนไปใช้สคริปต์ ISCII [ 3 ] : 31
เอทีอาร์ + ไบต์ตัวช่วยจำสคริปต์ ISCII
0x40ดีเอฟสคริปต์เริ่มต้น (เช่น สคริปต์ที่จะถูกสลับกลับไปใช้หลังจากขึ้นบรรทัดใหม่)
0x41อาร์เอ็มเอ็นการถอดเสียงเป็นอักษรโรมัน
0x42นักพัฒนาเทวนาครี
0x43บีเอ็นจีอักษรเบงกาลี
0x44ทีเอ็มแอลอักษรทมิฬ
0x45ทีแอลจีอักษรเตลูกู
0x46เอเอสเอ็มอักษรอัสสัม
0x47โอริอักษรโอเดีย
0x48เคเอ็นดีอักษรกันนาดา
0x49MLMอักษรมาลายาลัม
0x4Aจีเจอาร์อักษรคุชราตี
0x4Bพีเอ็นเจกูร์มุคี
เปลี่ยนไปใช้PASCII
เอทีอาร์ + ไบต์ตัวช่วยจำภาษา PASCII
0x71อาร์บีอักษรอาหรับ
0x72พีเอสอักษรเปอร์เซีย
0x73ยูอาร์ดีอักษรภาษาอูร์ดู
0x74เอสเอ็นดีอักษรสินธี
0x75เคเอสเอ็มอักษรแคชเมียร์
0x76PSTอักษรปัชโต
อักขระ EXT—รหัสจุด F0 (240)
อักขระ EXT (ส่วนขยายสำหรับอักษรเวท) ที่ตามด้วยไบต์โค้ด แสดงถึงเครื่องหมายเน้นเสียงในอักษรเวท ซึ่งไม่มีตัวเทียบเท่าโดยตรงในยูนิโค้ด เนื่องจากเครื่องหมายเน้นเสียงในอักษรเวทถูกกำหนดให้กับจุดรหัสที่แตกต่างกัน
อักขระ Halant ्—รหัสจุด E8 (232)
อักขระฮาลันต์ (halant) จะลบสระแฝงออกจากพยัญชนะ และใช้ระหว่างพยัญชนะเพื่อแสดงพยัญชนะควบ ตัวอย่างเช่น ก (ka) + ् (halant) + ต (ta) = กต (kta) ลำดับ ् (halant) + ् (halant) แสดงพยัญชนะควบที่มีฮาลันต์ชัดเจน ตัวอย่างเช่น ก (ka) + ् (halant) + ् (halant) + ต (ta) = กต ลำดับ ् (halant) + ़ (nukta) แสดงพยัญชนะควบที่มีพยัญชนะครึ่งเสียง หากมี ตัวอย่างเช่น ก (ka) + ् (halant) + ़ (nukta) + ต (ta) = กต
ความสอดคล้องระหว่างพฤติกรรม ISCII และ Unicode halent/virama
ไอเอสไอไอยูนิโค้ด
ฮาลันต์เดี่ยวE8ฮาลันต์094D
ฮาลันต์ + ฮาลันต์E8 E8ฮาลันท์ + ZWNJ094D 200C
ฮาลันต์ + นุกตะE8 E9ฮาลันท์ + ZWJ094D 200D
อักขระนุกตะ ़—รหัสจุด E9 (233)
อักขระ นุ กตะที่อยู่หลังอักขระ ISCII ตัวอื่น ใช้สำหรับอักขระหายากจำนวนหนึ่งที่ไม่มีอยู่ในชุดอักขระ ISCII หลัก ตัวอย่างเช่น ก (ka) + ़ (นุกตะ) = ก (qa) อักขระเหล่านี้มีรูปแบบที่ประกอบขึ้นแล้วใน Unicode ดังแสดงในตารางต่อไปนี้
อักขระยูนิโค้ดเดี่ยวที่สอดคล้องกับลำดับนุกตะของ ISCII
รหัสISCIIตัวละครดั้งเดิมตัวละครที่มีนุกตะรหัสจุด ยูนิโค้ด
A1 (161)อุ0950
A6 (166)อิ090C
A7 (167)อี0961
AA (176)0960
บี3 (179)क़0958
บี4 (180)ख़0959
บี5 (181)ग़095A
BA (186)095บี
บีเอฟ (191)ड़095C
C0 (192)ढ़095D
ซี9 (201)095E
DB (219)ि0962
ดีซี (220)0963
DF (223)0944
อีเอ (234)093D

รหัสหน้าสำหรับการแปลง ISCII

ในการแปลงจาก Unicode (UTF-8) ไปเป็นการเข้ารหัส ISCII / ANSI สามารถใช้ชุดรหัสต่อไปนี้ได้:

  • 57002: เทวนาครี (ฮินดี มราฐี สันสกฤต กอนกานี)
  • 57003: ภาษาเบงกาลี
  • 57004: ทมิฬ
  • 57005: เตลูกู
  • 57006: ภาษาอัสสัม
  • 57007: โอเดีย
  • 57008: กันนาดา
  • 57009: มาลายาลัม
  • 57010: คุชราตี
  • 57011: ภาษาปัญจาบ (อักษรคุรมุขี)

รหัสจุดสำหรับทุกภาษา

  • โปรแกรมแปลงไฟล์จาก/เป็น ISCII และจาก/ไปยังฟอนต์ต่างๆ
  • Padma – ส่วนเสริมของ Mozilla สำหรับแปลง ISCII เป็น Unicode เก็บถาวรเมื่อ 2019-10-01 ที่Wayback Machine
  • Padma – ตัวแปลงจาก ISCII เป็น Unicode สำหรับภาษาเตลูกู
  • สคริปต์ PHP สำหรับแปลง ISCII เป็น Unicode
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Indian_Script_Code_for_Information_Interchange&oldid=1348506890 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ รหัสอักษรอินเดียสำหรับการแลกเปลี่ยนข้อมูล

รหัส ISCII ( Indian Script Code for Information Interchange ) เป็น ระบบการเข้ารหัส สำหรับแสดงระบบการเขียนต่างๆ ของ อินเดีย โดยเข้ารหัส อักษรหลักของภาษาอินเดีย...

พื้นหลัง

ระบบการเขียนที่ได้มาจากอักษรพราห์มีมีโครงสร้างที่คล้ายคลึงกัน [ 2 ] : 462 ดังนั้น ISCII จึงเข้ารหัสตัวอักษรที่มีค่าเสียงเดียวกันที่จุดรหัสเดียวกัน โดยซ้อนทับสคริปต์ต่างๆ ตัวอย่างเช่น รหัส ISCII 0xB3 0xDB แทน [ki] ซึ่งจะแสดงเป็น കി ใน ภาษามาลายา ลัม, कि...

เค้าโครงหน้าโค้ด

ตารางต่อไปนี้แสดงชุดอักขระสำหรับ เทวนาครี ชุดรหัสสำหรับอัสสัม เบงกาลี คุชราตี กูรมุขี กันนาดา มาลายาลัม โอริยา ทมิฬ และเตลูกู มีความคล้ายคลึงกัน โดยแต่ละรูปแบบของเทวนาครีจะถูกแทนที่ด้วย รูปแบบที่เทียบเท่ากันในแต่ละระบบการเขียน [ 2 ] : 462...

รหัสพิเศษ

อักขระ INV—รหัสจุด D9 (217) อักขระ INV (พยัญชนะที่มองไม่เห็น) ถูกใช้เป็นพยัญชนะเสมือนเพื่อแสดงองค์ประกอบที่รวมกันในลักษณะแยกเดี่ยว ตัวอย่างเช่น क (ka) + ् (halant) + INV = क्‍ (ครึ่ง ka) เทียบเท่าใน Unicode คือ U+200D ZERO WIDTH JOINER ( ZWJ ) อย่างไรก็ตาม...