กลับไปหน้าบทความ

อ่าน 8 นาที

Google Neural Machine Translation

Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว

Google Neural Machine Translation

Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว โดยใช้โครงข่ายประสาทเทียมเพื่อเพิ่มความคล่องแคล่วและความแม่นยำในการแปลของ Google Translate [ 1 ] [ 2 ] [ 3 ] [ 4 ] โครงข่ายประสาทเทียมประกอบด้วยสองส่วนหลัก คือ ตัวเข้ารหัสและตัวถอดรหัส ซึ่งทั้งสองส่วนมี สถาปัตยกรรม LSTM โดยแต่ละส่วนมี 8 เลเยอร์กว้าง 1024 และ กลไกความสนใจแบบฟีดฟอร์เวิร์ด แบบง่ายๆ 1 เลเยอร์กว้าง 1024 เชื่อมต่อกัน[ 4 ] [ 5 ]จำนวนพารามิเตอร์ทั้งหมดได้รับการอธิบายไว้แตกต่างกันไป เช่น มากกว่า 160 ล้าน[ 6 ]ประมาณ 210 ล้าน[ 7 ] 278 ล้าน[ 8 ]หรือ 380 ล้าน[ 9 ]ระบบนี้ใช้ตัวแยก คำ WordPiece และ กลยุทธ์การถอดรหัส แบบบีม สเคิร์ช และทำงานบนหน่วยประมวลผลเทนเซอร์

ภายในปี 2020 ระบบดังกล่าวได้ถูกแทนที่ด้วยระบบการเรียนรู้เชิงลึกอีกระบบหนึ่งที่ใช้ตัวเข้ารหัส Transformer และตัวถอดรหัส RNN [ 10 ]

GNMT ปรับปรุงคุณภาพการแปลโดยใช้ วิธี การแปลด้วยเครื่องจักรแบบอิงตัวอย่าง (EBMT) ซึ่งระบบเรียนรู้จากตัวอย่างการแปลภาษาหลายล้านตัวอย่าง[ 2 ]สถาปัตยกรรมการเรียนรู้ของระบบที่เสนอโดย GNMT ได้รับการทดสอบครั้งแรกกับภาษามากกว่าร้อยภาษาที่ Google Translate รองรับ[ 2 ]ด้วยกรอบงานแบบครบวงจรขนาดใหญ่ ระบบจะเรียนรู้ไปเรื่อยๆ เพื่อสร้างการแปลที่ดีขึ้นและเป็นธรรมชาติมากขึ้น[ 1 ] GNMT พยายามแปลทั้งประโยคในคราวเดียว แทนที่จะแปลทีละส่วน[ 1 ]เครือข่าย GNMT สามารถดำเนินการแปลด้วยเครื่องจักรระหว่างภาษาได้โดยการเข้ารหัสความหมายของประโยค แทนที่จะจดจำการแปลแบบวลีต่อวลี[ 2 ] [ 11 ]

ประวัติศาสตร์

โครงการGoogle Brainก่อตั้งขึ้นในปี 2011 ใน "ห้องปฏิบัติการวิจัย Google X ที่เป็นความลับ" [ 12 ]โดยJeff Dean นักวิจัยของ Google, Greg Corradoนักวิจัยของ Google และAndrew Ngศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยสแตนฟ อร์ด [ 13 ] [ 14 ] [ 15 ]งานของ Ng นำไปสู่ความก้าวหน้าครั้งสำคัญที่สุดบางส่วนที่ Google และ Stanford [ 12 ]

ในเดือนพฤศจิกายน พ.ศ. 2559 ระบบการแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียมของ Google (GNMT) ได้ถูกนำมาใช้ นับตั้งแต่นั้นเป็นต้นมา Google Translate เริ่มใช้การแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียม (NMT) แทนวิธีการทางสถิติ (SMT) เดิม [ 1 ] [ 16 ] [ 17 ] [ 18 ]ซึ่งใช้มาตั้งแต่เดือนตุลาคม พ.ศ. 2550 ด้วยเทคโนโลยี SMT ที่เป็นกรรมสิทธิ์ภายในองค์กร[ 19 ] [ 20 ]

การฝึก GNMT เป็นความพยายามครั้งใหญ่ในขณะนั้น และจากการประมาณการของ OpenAI ในปี 2018 ต้องใช้การคำนวณประมาณ 79 petaFLOP-days (หรือ 7e21 FLOPs) ซึ่งมากกว่าโมเดลSeq2seq ในปี 2014 ถึง 1.5 เท่า [ 21 ] (แต่เล็กกว่าGPT-J-6Bในปี 2021 ประมาณ 2 เท่า [ 22 ] )

ระบบ NMT ของ Google Translate ใช้เครือข่ายประสาทเทียมขนาดใหญ่ที่มีความสามารถในการเรียนรู้เชิงลึก [ 1 ] [ 2 ] [ 3 ] โดยใช้ตัวอย่างนับล้าน GNMT ปรับปรุงคุณภาพการแปล[ 2 ]โดยใช้บริบทที่กว้างขึ้นเพื่ออนุมานการแปลที่เกี่ยวข้องมากที่สุด จากนั้นผลลัพธ์จะถูกจัดเรียงใหม่และปรับให้เข้ากับภาษาของมนุษย์ตามหลักไวยากรณ์[ 1 ]สถาปัตยกรรมการเรียนรู้ของระบบที่เสนอของ GNMT ได้รับการทดสอบครั้งแรกกับภาษามากกว่าร้อยภาษาที่ Google Translate รองรับ[ 2 ] GNMT ไม่ได้สร้างภาษาตัวกลางสากลของตนเอง แต่มีเป้าหมายเพื่อค้นหาความเหมือนกันระหว่างหลายภาษาโดยใช้ข้อมูลเชิงลึกจากจิตวิทยาและภาษาศาสตร์[ 23 ]เครื่องมือแปลใหม่นี้เปิดใช้งานครั้งแรกสำหรับแปดภาษา ได้แก่ ภาษาอังกฤษและฝรั่งเศส ภาษาเยอรมัน ภาษาสเปน ภาษาโปรตุเกส ภาษาจีน ภาษาญี่ปุ่น ภาษาเกาหลี และภาษาตุรกี ในเดือนพฤศจิกายน 2016 [ 24 ]ในเดือนมีนาคม 2017 ได้เปิดใช้งานภาษาเพิ่มเติมอีกสามภาษา ได้แก่ ภาษารัสเซีย ภาษาฮินดี และภาษาเวียดนาม พร้อมกับภาษาไทยซึ่งเพิ่มการสนับสนุนในภายหลัง[ 25 ] [ 26 ]ในเดือนเดียวกันนั้นได้มีการเพิ่มการสนับสนุนภาษาฮิบรูและภาษาอาหรับด้วยความช่วยเหลือจากชุมชน Google Translate [ 27 ]ในช่วงกลางเดือนเมษายน พ.ศ. 2560 Google เนเธอร์แลนด์ได้ประกาศการสนับสนุนภาษาดัตช์และภาษาอื่นๆ ในยุโรปที่เกี่ยวข้องกับภาษาอังกฤษ[ 28 ]นอกจากนี้ยังมีการเพิ่มการสนับสนุนภาษาอินเดียอีก 9 ภาษา ได้แก่ ฮินดี เบงกาลี มราฐี คุชราตี ปัญจาบ ทมิฬ เตลูกู มาลายาลัม และกันนาดา ในช่วงปลายเดือนเมษายน พ.ศ. 2560 [ 29 ]

ภายในปี 2020 Google ได้เปลี่ยนวิธีการไปใช้ระบบเครือข่ายประสาทเทียมที่แตกต่างกันโดยอิงจากทรานส์ฟอร์เมอร์และได้ยกเลิก NMT ไปแล้ว[ 30 ]

การประเมิน

กล่าวกันว่าระบบ GNMT แสดงถึงการปรับปรุงจาก Google Translate เดิม เนื่องจากสามารถจัดการกับการแปลแบบ "zero-shot translation" ได้ นั่นคือสามารถแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งได้โดยตรง ตัวอย่างเช่น อาจฝึกฝนเฉพาะการแปลจากญี่ปุ่นเป็นอังกฤษและเกาหลีเป็นอังกฤษ แต่สามารถทำการแปลจากญี่ปุ่นเป็นเกาหลีได้ ระบบดูเหมือนจะเรียนรู้ที่จะสร้างการแสดงแทนภาษาระดับกลางที่ไม่ขึ้นกับภาษา (" interlingua ") ซึ่งช่วยให้สามารถทำการแปลแบบ zero-shot translation ได้โดยการแปลงจากและไปยัง interlingua [ 2 ]ก่อนหน้านี้ Google Translate จะแปลภาษาต้นฉบับเป็นภาษาอังกฤษก่อน แล้วจึงแปลภาษาอังกฤษเป็นภาษาเป้าหมายแทนที่จะแปลจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยตรง[ 11 ]

การศึกษาในเดือนกรกฎาคม 2019 ในวารสาร Annals of Internal Medicineพบว่า "Google Translate เป็นเครื่องมือที่มีประสิทธิภาพและแม่นยำสำหรับการแปลการทดลองที่ไม่ใช่ภาษาอังกฤษ" มีเพียงความไม่ลงรอยกันเพียงครั้งเดียวระหว่างผู้ตรวจสอบที่อ่านการทดลองที่แปลด้วยเครื่องเนื่องจากข้อผิดพลาดในการแปล เนื่องจากงานวิจัยทางการแพทย์จำนวนมากถูกยกเว้นจากการทบทวนอย่างเป็นระบบเพราะผู้ตรวจสอบไม่เข้าใจภาษา GNMT จึงมีศักยภาพในการลดอคติและปรับปรุงความแม่นยำในการทบทวนดังกล่าว[ 31 ]

ภาษาที่รองรับโดย GNMT

ณ เดือนธันวาคม 2021 Google Translateรองรับ GNMT ในทุกภาษา โดยภาษาละตินเป็นภาษาล่าสุดที่เพิ่มเข้ามา

  1. ภาษาแอฟริกาans
  2. ชาวแอลเบเนีย
  3. อัมฮาริก
  4. ภาษาอาหรับ
  5. อาร์เมเนีย
  6. อาเซอร์ไบจาน
  7. บาสก์
  8. เบลารุส
  9. เบงกาลี
  10. บอสเนีย
  11. ชาวบัลแกเรีย
  12. พม่า
  13. คาตาลัน
  14. เซบูอาโน
  15. เชวา
  16. ภาษาจีน ( ตัวย่อ )
  17. ภาษาจีน ( ตัวเต็ม )
  18. ชาวคอร์ซิกา
  19. โครเอเชีย
  20. เช็ก
  21. เดนมาร์ก
  22. ดัตช์
  23. ภาษาอังกฤษ
  24. เอสเปรันโต
  25. เอสโตเนีย
  26. ภาษาฟิลิปปินส์ ( ตากาล็อก )
  27. ฟินแลนด์
  28. ภาษาฝรั่งเศส
  29. กาลิเซีย
  30. จอร์เจีย
  31. ภาษาเยอรมัน
  32. กรีก
  33. กุจาราติ
  34. ภาษาครีโอลเฮติ
  35. เฮาซา
  36. ชาวฮาวาย
  37. ภาษาฮีบรู
  38. ภาษาฮินดี
  39. ม้ง
  40. ฮังการี
  41. ไอซ์แลนด์
  42. อิกโบ
  43. ชาวอินโดนีเซีย
  44. ไอริช
  45. อิตาลี
  46. ญี่ปุ่น
  47. ชาวชวา
  48. กันนาดา
  49. คาซัค
  50. เขมร
  51. คินยารวันดา
  52. เกาหลี
  53. ภาษาเคิร์ด ( Kurmanji )
  54. ชาวคีร์กีซ
  55. ลาว
  56. ละติน
  57. ลัตเวีย
  58. ลิทัวเนีย
  59. ลักเซมเบิร์ก
  60. มาซิโดเนีย
  61. มาดากัสการ์
  62. มาเลย์
  63. มาลายาลัม
  64. ชาวมอลตา
  65. ชาวเมารี
  66. ภาษามา Marathi
  67. มองโกล
  68. เนปาลี
  69. นอร์เวย์ ( Bokmål )
  70. โอเดีย
  71. ปัชโต
  72. เปอร์เซีย
  73. ขัด
  74. ภาษาโปรตุเกส
  75. ปัญจาบ ( อักษรคุรมุขี )
  76. โรมาเนีย
  77. รัสเซีย
  78. ชาวซามัว
  79. ภาษาเกลิกสกอตแลนด์
  80. เซอร์เบีย
  81. โชนา
  82. สินธี
  83. สิงหล
  84. สโลวัก
  85. สโลวีเนีย
  86. โซมาลี
  87. โซโธ
  88. ภาษาสเปน
  89. ชาวซุนดาน
  90. สวาฮิลี
  91. สวีเดน
  92. ทาจิก
  93. ทมิฬ
  94. ตาตาร์
  95. เตลูกู
  96. แบบไทย
  97. ตุรกี
  98. เติร์กเมน
  99. ยูเครน
  100. ภาษาอูร์ดู
  101. อุยกูร์
  102. อุซเบก
  103. เวียดนาม
  104. เวลส์
  105. เวสต์ฟรีเซียน
  106. ซูลู
  107. ภาษายิดดิช
  108. โยรูบา
  109. ซูลู

ดูเพิ่มเติม

  • ระบบการแปลด้วยเครื่องจักรโดยใช้โครงข่ายประสาทเทียมของ Google: เชื่อมช่องว่างระหว่างการแปลโดยมนุษย์และการแปลโดยเครื่องจักร
  • ข้อดีและข้อเสียของการแปลด้วยเครื่องจักร
  • การแปลด้วยเครื่องจักรเชิงสถิติ
  • สมาคมการแปลด้วยเครื่องจักรนานาชาติ (IAMT) เก็บถาวรเมื่อวันที่ 24 มิถุนายน 2553 ที่Wayback Machine
  • คลังข้อมูลการแปลด้วยเครื่องจักร (Machine Translation Archive) จัดเก็บเมื่อวันที่ 1 เมษายน 2562 ที่Wayback MachineโดยJohn Hutchinsเป็นคลังข้อมูลอิเล็กทรอนิกส์ (และบรรณานุกรม) ของบทความ หนังสือ และเอกสารในสาขาการแปลด้วยเครื่องจักรและเทคโนโลยีการแปลโดยใช้คอมพิวเตอร์
  • การแปลด้วยเครื่อง (การแปลโดยใช้คอมพิวเตอร์) – ผลงานตีพิมพ์ของจอห์น ฮัทชินส์ (รวมถึงไฟล์ PDFของหนังสือหลายเล่มเกี่ยวกับการแปลด้วยเครื่อง)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Google_Neural_Machine_Translation&oldid=1356257536 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ Google Neural Machine Translation

Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว

ประวัติศาสตร์

โครงการ Google Brain ก่อตั้งขึ้นในปี 2011 ใน "ห้องปฏิบัติการวิจัย Google X ที่เป็นความลับ" [ 12 ] โดย Jeff Dean นักวิจัยของ Google, Greg Corrado นักวิจัยของ Google และ Andrew Ng ศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ จากมหาวิทยาลัยสแตนฟ อร์ด [ 13 ] [ 14 ] [ 15...

การประเมิน

กล่าวกันว่าระบบ GNMT แสดงถึงการปรับปรุงจาก Google Translate เดิม เนื่องจากสามารถจัดการกับการแปลแบบ "zero-shot translation" ได้ นั่นคือสามารถแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งได้โดยตรง ตัวอย่างเช่น อาจฝึกฝนเฉพาะการแปลจากญี่ปุ่นเป็นอังกฤษและเกาหลีเป็นอังกฤษ...

ภาษาที่รองรับโดย GNMT

ณ เดือนธันวาคม 2021 Google Translate รองรับ GNMT ในทุกภาษา โดยภาษาละตินเป็นภาษาล่าสุดที่เพิ่มเข้ามา