กลับไปหน้าบทความ

อ่าน 3 นาที

ตัวอักษร CJK

ใน บริบท ของ การใช้ภาษา ในระดับสากลอักษรCJKเป็นคำรวมที่ใช้เรียกกราฟีมที่ใช้ในระบบการเขียนภาษาจีนญี่ปุ่นและเกาหลีซึ่งแต่ละระบบประกอบด้วยอักษรจีน นอกจากนี้...

ตัวอักษร CJK

แปลประโยค "ชายชราคนนั้นอายุ 72 ปี" เป็นภาษาเวียดนาม กวางตุ้งจีนกลาง( ทั้งตัวย่อและตัวเต็ม ) ญี่ปุ่นและเกาหลี (ทั้งเหนือและใต้ )

ใน บริบท ของ การใช้ภาษา ในระดับสากลอักษรCJKเป็นคำรวมที่ใช้เรียกกราฟีมที่ใช้ในระบบการเขียนภาษาจีนญี่ปุ่นและเกาหลีซึ่งแต่ละระบบประกอบด้วยอักษรจีน นอกจากนี้ ยังอาจใช้ชื่อย่อว่าCJKVเพื่อรวมถึง อักษร Chữ Nôm ซึ่งเป็นอักษร ภาพที่มีต้นกำเนิดจากจีนและเคยใช้เขียนภาษาเวียดนามหรือCJKVZเพื่อรวมถึงอักษร Sawndipที่ ใช้เขียนภาษาจ้วง ด้วย

คลังตัวละคร

ภาษาจีนกลางมาตรฐานและภาษาจีนกวางตุ้งมาตรฐานเขียนด้วยอักษรจีน เกือบทั้งหมด ต้องใช้อักษรจีนมากกว่า 3,000 ตัวสำหรับการรู้หนังสือทั่วไป และมากถึง 40,000 ตัวสำหรับการครอบคลุมที่สมบูรณ์พอสมควร ภาษาญี่ปุ่นใช้อักษรจีนน้อยกว่า การรู้หนังสือทั่วไปในภาษาญี่ปุ่นสามารถคาดหวังได้ด้วยอักษรจีน 2,136 ตัว การใช้อักษรจีนในเกาหลีนั้นหายากขึ้นเรื่อยๆ แม้ว่าการใช้อักษรจีนเฉพาะในชื่อเฉพาะจะต้องการความรู้ (และดังนั้นจึงต้องมี) อักษรจีนจำนวนมาก ณ ปี 2013 นักเรียนชาวเกาหลีใต้บางคนยังคงต้องเรียนรู้ อักษร จีนถึง 1,800 ตัว[ 1 ]

อักษรอื่นๆ ที่ใช้สำหรับภาษาเหล่านี้ เช่น อักษรโบโปโมโฟและพินอินที่อิงตาม อักษร ละตินสำหรับภาษาจีน อักษร ฮิรากานะและคาตาคานะสำหรับภาษาญี่ปุ่น และ อักษร ฮันกุลสำหรับภาษาเกาหลี ไม่ใช่ "อักษรจีน ญี่ปุ่น เกาหลี" อย่างแท้จริง แม้ว่าชุดอักษรจีน ญี่ปุ่น เกาหลี มักจะรวมอักษรเหล่านี้ไว้ด้วยหากจำเป็นเพื่อให้ครอบคลุมภาษาเป้าหมายได้อย่างสมบูรณ์

คาร์ล เลบัน (1971) นักวิชาการด้านจีนศึกษาได้ทำการสำรวจระบบการเข้ารหัสภาษาจีน ญี่ปุ่น และเกาหลี (CJK) ในช่วงแรก

จนกระทั่งต้นศตวรรษที่ 20 ภาษาจีนคลาสสิกเป็นภาษาเขียนของรัฐบาลและวิชาการในเวียดนาม วรรณกรรมยอดนิยมใน ภาษา เวียดนามเขียนด้วย อักษร จู๋นอมซึ่งประกอบด้วยอักษรจีนและอักษรที่สร้างขึ้นในท้องถิ่นจำนวนมาก ตั้งแต่ทศวรรษ 1920 เป็นต้นมา อักษรที่ใช้ในการบันทึกวรรณกรรมคืออักษรเวียดนามที่ อิงตามอักษรละติน [ 2 ] [ 3 ]

การคูณสี่

การทำซ้ำสี่เท่า ( ภาษาจีน :四叠字, แปลตรงตัวว่า "อักษรสี่เท่า") เป็นวิธีการสร้างอักษรจีน ญี่ปุ่น และเกาหลี (CJK) โดยการทำซ้ำอักษรภาพเคน ลุนเดอธิบายอักษรเหล่านี้ว่า "กลุ่มขององค์ประกอบที่เหมือนกันสี่ตัวขึ้นไป พร้อมด้วยองค์ประกอบที่เหมือนกันสามตัวเรียงกันในแนวนอนหรือแนวตั้ง" [ 4 ]อักษรเหล่านี้ส่วนใหญ่ใช้ใน งานเขียนภาษา จีนโบราณและปัจจุบันไม่ค่อยได้ใช้แล้ว ยกเว้นเป็นส่วนประกอบในอักษรภาพฮั่น สมัยใหม่บางตัว เช่น 惙[ 5 ]

ตัวอย่าง

อักขระสี่ตัวความหมายภาษาอังกฤษหมายเหตุ
𪚥(ล้าสมัย) พูดมาก; ช่างพูด龍 (" มังกร " ในตารางสี่ช่อง)
การปรากฏตัวของปลาหลายชนิดใช้ในchengyu生活䲜䲜
(ล้าสมัย) กระจัดกระจายและชัดเจนพบได้เฉพาะในพจนานุกรมประวัติศาสตร์ เช่นShuowen Jiezi เท่านั้น

การเข้ารหัส

จำนวนอักขระที่จำเป็นสำหรับการครอบคลุมความต้องการของภาษาเหล่านี้ทั้งหมดนั้นไม่สามารถบรรจุลงในพื้นที่รหัส 256 ตัวอักขระของการเข้ารหัสอักขระ 8 บิต ได้ จึงจำเป็นต้องใช้การเข้ารหัสแบบความกว้างคงที่ 16 บิตขึ้นไป หรือการเข้ารหัสแบบความยาวแปรผันหลายไบต์ การเข้ารหัสแบบความกว้างคงที่ 16 บิต เช่น การเข้ารหัสจากUnicodeจนถึงเวอร์ชัน 2.0 นั้น ปัจจุบันถูกยกเลิกแล้ว เนื่องจากความต้องการในการเข้ารหัสอักขระมากกว่าที่การเข้ารหัส 16 บิตสามารถรองรับได้—Unicode 5.0 มีอักขระฮั่นประมาณ 70,000 ตัว—และข้อกำหนดของรัฐบาลจีนที่ว่าซอฟต์แวร์ในประเทศจีนต้องรองรับชุดอักขระ GB 18030

แม้ว่าการเข้ารหัส CJK จะมีชุดอักขระร่วมกัน แต่การเข้ารหัสที่ใช้แทนอักขระเหล่านั้นมักได้รับการพัฒนาแยกกันโดยรัฐบาลและบริษัทซอฟต์แวร์ต่างๆ ในเอเชียตะวันออก และไม่สามารถใช้งานร่วมกันได้ยูนิโค้ดได้พยายามที่จะรวมชุดอักขระเหล่านี้เข้าด้วยกันในกระบวนการที่เรียกว่าการรวมฮั่น (Han unification ) ซึ่งก็มีข้อโต้แย้งอยู่บ้าง

การเข้ารหัสอักขระ CJK ควรประกอบด้วยอักขระ Han อย่างน้อยที่สุด บวกกับสคริปต์เสียงเฉพาะภาษา เช่นพินอิน , โบโปโมโฟ , ฮิรากานะ, คาตาคานะ และฮันกุล[ 6 ]

การเข้ารหัสอักขระ CJK ประกอบด้วย:

ชุดอักขระ CJK ใช้ พื้นที่รหัส Unicode ส่วนใหญ่ มีข้อถกเถียงมากมายในหมู่ผู้เชี่ยวชาญชาวญี่ปุ่นด้านอักขระจีนเกี่ยวกับความเหมาะสมและคุณค่าทางเทคนิคของ กระบวนการ รวมอักษรฮั่นซึ่งใช้ในการแปลงชุดอักขระจีนและญี่ปุ่นหลายชุดให้เป็นชุดอักขระเดียวที่เป็นเอกภาพ

ทั้งสามภาษาสามารถเขียนได้ทั้งจากซ้ายไปขวาและจากบนลงล่าง (จากขวาไปซ้ายและจากบนลงล่างในเอกสารโบราณ) แต่โดยทั่วไปแล้วจะถือว่าเป็นอักษรที่เขียนจากซ้ายไปขวาเมื่อกล่าวถึงประเด็นเรื่องการเข้ารหัส

ห้องสมุดต่างๆ ได้ร่วมมือกันกำหนดมาตรฐานการเข้ารหัสสำหรับ อักขระ JACKPHY ​​ในช่วงต้นทศวรรษ 1980 ตามที่Ken Lunde กล่าวไว้ คำย่อ "CJK" เป็นเครื่องหมายการค้า จดทะเบียน ของResearch Libraries Group [ 7 ] (ซึ่งควบรวมกับOCLCในปี 2006) เครื่องหมายการค้าที่ OCLC เป็นเจ้าของระหว่างปี 1987 ถึง 2009 ได้หมดอายุลงแล้ว[ 8 ]

ดูเพิ่มเติม

แหล่งที่มา

  • เดอฟรานซิส, จอห์น . ภาษาจีน: ข้อเท็จจริงและจินตนาการ . โฮโนลูลู: สำนักพิมพ์มหาวิทยาลัยฮาวาย, 1990. ISBN 0-8248-1068-6.
  • ฮันนาส วิลเลียม ซี. ภาวะที่กลืนไม่เข้าคายไม่ออกของเอเชียโฮโนลูลู: สำนักพิมพ์มหาวิทยาลัยฮาวาย, 1997. ISBN 0-8248-1892-X(ปกอ่อน); ISBN 0-8248-1842-3(ปกแข็ง)
  • Lemberg, Werner: แพ็กเกจ CJK สำหรับ LATEX2ε—การสนับสนุนหลายภาษาที่เหนือกว่า Babel. TUGboat, เล่มที่ 18 (1997), ฉบับที่ 3—รายงานการประชุมประจำปี 1997
  • เลบัน, คาร์ล. ระบบการเขียนอัตโนมัติสำหรับภาษาเอเชียตะวันออก (จีน ญี่ปุ่น เกาหลี)รายงานสถานะปัจจุบัน จัดทำขึ้นสำหรับคณะกรรมการบริหาร สมาคมเพื่อการศึกษาเอเชีย 1971
  • ลุนเด, เคน . การประมวลผลข้อมูล CJKV เซบาสโตโพล แคลิฟอร์เนีย: O'Reilly & Associates, 1998. ISBN 1-56592-224-7.
  • CJKV: บทนำโดยสังเขป
  • บทความ Lemberg CJK จากด้านบน, TUGboat18-3
  • เกี่ยวกับ "อักษรจีน ญี่ปุ่น และเกาหลี (CJK)"จาก Wenlin.com
  • FGA: การปรับปรุงชุดอักขระ Unicode CJKV ให้เหมาะสม
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=CJK_characters&oldid=1357688541 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ตัวอักษร CJK

ใน บริบท ของ การใช้ภาษา ในระดับสากลอักษรCJKเป็นคำรวมที่ใช้เรียกกราฟีมที่ใช้ในระบบการเขียนภาษาจีนญี่ปุ่นและเกาหลีซึ่งแต่ละระบบประกอบด้วยอักษรจีน นอกจากนี้...

คลังตัวละคร

ภาษาจีนกลางมาตรฐาน และ ภาษาจีนกวางตุ้งมาตรฐาน เขียนด้วย อักษรจีน เกือบทั้งหมด ต้องใช้อักษรจีนมากกว่า 3,000 ตัวสำหรับการรู้หนังสือทั่วไป และมากถึง 40,000 ตัวสำหรับการครอบคลุมที่สมบูรณ์พอสมควร ภาษาญี่ปุ่นใช้อักษรจีนน้อยกว่า...

การคูณสี่

การทำซ้ำสี่เท่า ( ภาษาจีน : 四叠字 , แปลตรงตัวว่า "อักษรสี่เท่า") เป็นวิธีการสร้างอักษรจีน ญี่ปุ่น และเกาหลี (CJK) โดยการทำซ้ำอักษรภาพ เคน ลุนเด อธิบายอักษรเหล่านี้ว่า "กลุ่มขององค์ประกอบที่เหมือนกันสี่ตัวขึ้นไป...

การเข้ารหัส

จำนวนอักขระที่จำเป็นสำหรับการครอบคลุมความต้องการของภาษาเหล่านี้ทั้งหมดนั้นไม่สามารถบรรจุลงในพื้นที่รหัส 256 ตัวอักขระของ การเข้ารหัสอักขระ 8 บิต ได้ จึงจำเป็นต้องใช้การเข้ารหัสแบบความกว้างคงที่ 16 บิตขึ้นไป หรือการเข้ารหัสแบบความยาวแปรผันหลายไบต์...