อ่าน 8 นาที
Google Neural Machine Translation
Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว
Google Neural Machine Translation
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การแปล |
|---|
| ประเภท |
| ทฤษฎี |
| เทคโนโลยี |
| การแปลเป็นภาษาท้องถิ่น |
| สถาบัน |
|
| หัวข้อที่เกี่ยวข้อง |
|
Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว โดยใช้โครงข่ายประสาทเทียมเพื่อเพิ่มความคล่องแคล่วและความแม่นยำในการแปลของ Google Translate [ 1 ] [ 2 ] [ 3 ] [ 4 ] โครงข่ายประสาทเทียมประกอบด้วยสองส่วนหลัก คือ ตัวเข้ารหัสและตัวถอดรหัส ซึ่งทั้งสองส่วนมี สถาปัตยกรรม LSTM โดยแต่ละส่วนมี 8 เลเยอร์กว้าง 1024 และ กลไกความสนใจแบบฟีดฟอร์เวิร์ด แบบง่ายๆ 1 เลเยอร์กว้าง 1024 เชื่อมต่อกัน[ 4 ] [ 5 ]จำนวนพารามิเตอร์ทั้งหมดได้รับการอธิบายไว้แตกต่างกันไป เช่น มากกว่า 160 ล้าน[ 6 ]ประมาณ 210 ล้าน[ 7 ] 278 ล้าน[ 8 ]หรือ 380 ล้าน[ 9 ]ระบบนี้ใช้ตัวแยก คำ WordPiece และ กลยุทธ์การถอดรหัส แบบบีม สเคิร์ช และทำงานบนหน่วยประมวลผลเทนเซอร์
ภายในปี 2020 ระบบดังกล่าวได้ถูกแทนที่ด้วยระบบการเรียนรู้เชิงลึกอีกระบบหนึ่งที่ใช้ตัวเข้ารหัส Transformer และตัวถอดรหัส RNN [ 10 ]
GNMT ปรับปรุงคุณภาพการแปลโดยใช้ วิธี การแปลด้วยเครื่องจักรแบบอิงตัวอย่าง (EBMT) ซึ่งระบบเรียนรู้จากตัวอย่างการแปลภาษาหลายล้านตัวอย่าง[ 2 ]สถาปัตยกรรมการเรียนรู้ของระบบที่เสนอโดย GNMT ได้รับการทดสอบครั้งแรกกับภาษามากกว่าร้อยภาษาที่ Google Translate รองรับ[ 2 ]ด้วยกรอบงานแบบครบวงจรขนาดใหญ่ ระบบจะเรียนรู้ไปเรื่อยๆ เพื่อสร้างการแปลที่ดีขึ้นและเป็นธรรมชาติมากขึ้น[ 1 ] GNMT พยายามแปลทั้งประโยคในคราวเดียว แทนที่จะแปลทีละส่วน[ 1 ]เครือข่าย GNMT สามารถดำเนินการแปลด้วยเครื่องจักรระหว่างภาษาได้โดยการเข้ารหัสความหมายของประโยค แทนที่จะจดจำการแปลแบบวลีต่อวลี[ 2 ] [ 11 ]
ประวัติศาสตร์
โครงการGoogle Brainก่อตั้งขึ้นในปี 2011 ใน "ห้องปฏิบัติการวิจัย Google X ที่เป็นความลับ" [ 12 ]โดยJeff Dean นักวิจัยของ Google, Greg Corradoนักวิจัยของ Google และAndrew Ngศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยสแตนฟ อร์ด [ 13 ] [ 14 ] [ 15 ]งานของ Ng นำไปสู่ความก้าวหน้าครั้งสำคัญที่สุดบางส่วนที่ Google และ Stanford [ 12 ]
ในเดือนพฤศจิกายน พ.ศ. 2559 ระบบการแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียมของ Google (GNMT) ได้ถูกนำมาใช้ นับตั้งแต่นั้นเป็นต้นมา Google Translate เริ่มใช้การแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียม (NMT) แทนวิธีการทางสถิติ (SMT) เดิม [ 1 ] [ 16 ] [ 17 ] [ 18 ]ซึ่งใช้มาตั้งแต่เดือนตุลาคม พ.ศ. 2550 ด้วยเทคโนโลยี SMT ที่เป็นกรรมสิทธิ์ภายในองค์กร[ 19 ] [ 20 ]
การฝึก GNMT เป็นความพยายามครั้งใหญ่ในขณะนั้น และจากการประมาณการของ OpenAI ในปี 2018 ต้องใช้การคำนวณประมาณ 79 petaFLOP-days (หรือ 7e21 FLOPs) ซึ่งมากกว่าโมเดลSeq2seq ในปี 2014 ถึง 1.5 เท่า [ 21 ] (แต่เล็กกว่าGPT-J-6Bในปี 2021 ประมาณ 2 เท่า [ 22 ] )
ระบบ NMT ของ Google Translate ใช้เครือข่ายประสาทเทียมขนาดใหญ่ที่มีความสามารถในการเรียนรู้เชิงลึก [ 1 ] [ 2 ] [ 3 ] โดยใช้ตัวอย่างนับล้าน GNMT ปรับปรุงคุณภาพการแปล[ 2 ]โดยใช้บริบทที่กว้างขึ้นเพื่ออนุมานการแปลที่เกี่ยวข้องมากที่สุด จากนั้นผลลัพธ์จะถูกจัดเรียงใหม่และปรับให้เข้ากับภาษาของมนุษย์ตามหลักไวยากรณ์[ 1 ]สถาปัตยกรรมการเรียนรู้ของระบบที่เสนอของ GNMT ได้รับการทดสอบครั้งแรกกับภาษามากกว่าร้อยภาษาที่ Google Translate รองรับ[ 2 ] GNMT ไม่ได้สร้างภาษาตัวกลางสากลของตนเอง แต่มีเป้าหมายเพื่อค้นหาความเหมือนกันระหว่างหลายภาษาโดยใช้ข้อมูลเชิงลึกจากจิตวิทยาและภาษาศาสตร์[ 23 ]เครื่องมือแปลใหม่นี้เปิดใช้งานครั้งแรกสำหรับแปดภาษา ได้แก่ ภาษาอังกฤษและฝรั่งเศส ภาษาเยอรมัน ภาษาสเปน ภาษาโปรตุเกส ภาษาจีน ภาษาญี่ปุ่น ภาษาเกาหลี และภาษาตุรกี ในเดือนพฤศจิกายน 2016 [ 24 ]ในเดือนมีนาคม 2017 ได้เปิดใช้งานภาษาเพิ่มเติมอีกสามภาษา ได้แก่ ภาษารัสเซีย ภาษาฮินดี และภาษาเวียดนาม พร้อมกับภาษาไทยซึ่งเพิ่มการสนับสนุนในภายหลัง[ 25 ] [ 26 ]ในเดือนเดียวกันนั้นได้มีการเพิ่มการสนับสนุนภาษาฮิบรูและภาษาอาหรับด้วยความช่วยเหลือจากชุมชน Google Translate [ 27 ]ในช่วงกลางเดือนเมษายน พ.ศ. 2560 Google เนเธอร์แลนด์ได้ประกาศการสนับสนุนภาษาดัตช์และภาษาอื่นๆ ในยุโรปที่เกี่ยวข้องกับภาษาอังกฤษ[ 28 ]นอกจากนี้ยังมีการเพิ่มการสนับสนุนภาษาอินเดียอีก 9 ภาษา ได้แก่ ฮินดี เบงกาลี มราฐี คุชราตี ปัญจาบ ทมิฬ เตลูกู มาลายาลัม และกันนาดา ในช่วงปลายเดือนเมษายน พ.ศ. 2560 [ 29 ]
ภายในปี 2020 Google ได้เปลี่ยนวิธีการไปใช้ระบบเครือข่ายประสาทเทียมที่แตกต่างกันโดยอิงจากทรานส์ฟอร์เมอร์และได้ยกเลิก NMT ไปแล้ว[ 30 ]
การประเมิน
กล่าวกันว่าระบบ GNMT แสดงถึงการปรับปรุงจาก Google Translate เดิม เนื่องจากสามารถจัดการกับการแปลแบบ "zero-shot translation" ได้ นั่นคือสามารถแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งได้โดยตรง ตัวอย่างเช่น อาจฝึกฝนเฉพาะการแปลจากญี่ปุ่นเป็นอังกฤษและเกาหลีเป็นอังกฤษ แต่สามารถทำการแปลจากญี่ปุ่นเป็นเกาหลีได้ ระบบดูเหมือนจะเรียนรู้ที่จะสร้างการแสดงแทนภาษาระดับกลางที่ไม่ขึ้นกับภาษา (" interlingua ") ซึ่งช่วยให้สามารถทำการแปลแบบ zero-shot translation ได้โดยการแปลงจากและไปยัง interlingua [ 2 ]ก่อนหน้านี้ Google Translate จะแปลภาษาต้นฉบับเป็นภาษาอังกฤษก่อน แล้วจึงแปลภาษาอังกฤษเป็นภาษาเป้าหมายแทนที่จะแปลจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยตรง[ 11 ]
การศึกษาในเดือนกรกฎาคม 2019 ในวารสาร Annals of Internal Medicineพบว่า "Google Translate เป็นเครื่องมือที่มีประสิทธิภาพและแม่นยำสำหรับการแปลการทดลองที่ไม่ใช่ภาษาอังกฤษ" มีเพียงความไม่ลงรอยกันเพียงครั้งเดียวระหว่างผู้ตรวจสอบที่อ่านการทดลองที่แปลด้วยเครื่องเนื่องจากข้อผิดพลาดในการแปล เนื่องจากงานวิจัยทางการแพทย์จำนวนมากถูกยกเว้นจากการทบทวนอย่างเป็นระบบเพราะผู้ตรวจสอบไม่เข้าใจภาษา GNMT จึงมีศักยภาพในการลดอคติและปรับปรุงความแม่นยำในการทบทวนดังกล่าว[ 31 ]
ภาษาที่รองรับโดย GNMT
ณ เดือนธันวาคม 2021 Google Translateรองรับ GNMT ในทุกภาษา โดยภาษาละตินเป็นภาษาล่าสุดที่เพิ่มเข้ามา
- ภาษาแอฟริกาans
- ชาวแอลเบเนีย
- อัมฮาริก
- ภาษาอาหรับ
- อาร์เมเนีย
- อาเซอร์ไบจาน
- บาสก์
- เบลารุส
- เบงกาลี
- บอสเนีย
- ชาวบัลแกเรีย
- พม่า
- คาตาลัน
- เซบูอาโน
- เชวา
- ภาษาจีน ( ตัวย่อ )
- ภาษาจีน ( ตัวเต็ม )
- ชาวคอร์ซิกา
- โครเอเชีย
- เช็ก
- เดนมาร์ก
- ดัตช์
- ภาษาอังกฤษ
- เอสเปรันโต
- เอสโตเนีย
- ภาษาฟิลิปปินส์ ( ตากาล็อก )
- ฟินแลนด์
- ภาษาฝรั่งเศส
- กาลิเซีย
- จอร์เจีย
- ภาษาเยอรมัน
- กรีก
- กุจาราติ
- ภาษาครีโอลเฮติ
- เฮาซา
- ชาวฮาวาย
- ภาษาฮีบรู
- ภาษาฮินดี
- ม้ง
- ฮังการี
- ไอซ์แลนด์
- อิกโบ
- ชาวอินโดนีเซีย
- ไอริช
- อิตาลี
- ญี่ปุ่น
- ชาวชวา
- กันนาดา
- คาซัค
- เขมร
- คินยารวันดา
- เกาหลี
- ภาษาเคิร์ด ( Kurmanji )
- ชาวคีร์กีซ
- ลาว
- ละติน
- ลัตเวีย
- ลิทัวเนีย
- ลักเซมเบิร์ก
- มาซิโดเนีย
- มาดากัสการ์
- มาเลย์
- มาลายาลัม
- ชาวมอลตา
- ชาวเมารี
- ภาษามา Marathi
- มองโกล
- เนปาลี
- นอร์เวย์ ( Bokmål )
- โอเดีย
- ปัชโต
- เปอร์เซีย
- ขัด
- ภาษาโปรตุเกส
- ปัญจาบ ( อักษรคุรมุขี )
- โรมาเนีย
- รัสเซีย
- ชาวซามัว
- ภาษาเกลิกสกอตแลนด์
- เซอร์เบีย
- โชนา
- สินธี
- สิงหล
- สโลวัก
- สโลวีเนีย
- โซมาลี
- โซโธ
- ภาษาสเปน
- ชาวซุนดาน
- สวาฮิลี
- สวีเดน
- ทาจิก
- ทมิฬ
- ตาตาร์
- เตลูกู
- แบบไทย
- ตุรกี
- เติร์กเมน
- ยูเครน
- ภาษาอูร์ดู
- อุยกูร์
- อุซเบก
- เวียดนาม
- เวลส์
- เวสต์ฟรีเซียน
- ซูลู
- ภาษายิดดิช
- โยรูบา
- ซูลู
ดูเพิ่มเติม
- การแปลด้วยเครื่องจักรแบบอิงตัวอย่าง
- การแปลด้วยเครื่องจักรแบบใช้กฎเกณฑ์
- การเปรียบเทียบแอปพลิเคชันการแปลด้วยเครื่องจักร
- การแปลด้วยเครื่องจักรเชิงสถิติ
- ปัญญาประดิษฐ์
- แคชโมเดลภาษา
- ภาษาศาสตร์เชิงคำนวณ
- การแปลโดยใช้คอมพิวเตอร์ช่วย
- ประวัติศาสตร์ของการแปลด้วยเครื่องจักร
- รายชื่อเทคโนโลยีเกิดใหม่
- รายชื่อห้องปฏิบัติการวิจัยด้านการแปลด้วยเครื่องจักร
- การแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียม
- การแปลด้วยเครื่องจักร
- เครื่องแปลภาษาสากล
ลิงก์ภายนอก
- ระบบการแปลด้วยเครื่องจักรโดยใช้โครงข่ายประสาทเทียมของ Google: เชื่อมช่องว่างระหว่างการแปลโดยมนุษย์และการแปลโดยเครื่องจักร
- ข้อดีและข้อเสียของการแปลด้วยเครื่องจักร
- การแปลด้วยเครื่องจักรเชิงสถิติ
- สมาคมการแปลด้วยเครื่องจักรนานาชาติ (IAMT) เก็บถาวรเมื่อวันที่ 24 มิถุนายน 2553 ที่Wayback Machine
- คลังข้อมูลการแปลด้วยเครื่องจักร (Machine Translation Archive) จัดเก็บเมื่อวันที่ 1 เมษายน 2562 ที่Wayback MachineโดยJohn Hutchinsเป็นคลังข้อมูลอิเล็กทรอนิกส์ (และบรรณานุกรม) ของบทความ หนังสือ และเอกสารในสาขาการแปลด้วยเครื่องจักรและเทคโนโลยีการแปลโดยใช้คอมพิวเตอร์
- การแปลด้วยเครื่อง (การแปลโดยใช้คอมพิวเตอร์) – ผลงานตีพิมพ์ของจอห์น ฮัทชินส์ (รวมถึงไฟล์ PDFของหนังสือหลายเล่มเกี่ยวกับการแปลด้วยเครื่อง)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ Google Neural Machine Translation
Google Neural Machine Translation ( GNMT ) เป็น ระบบ การแปลด้วยเครื่องจักรแบบโครงข่ายประสาท เทียม (NMT) ที่ Google พัฒนาและเปิดตัวในเดือนพฤศจิกายน 2016 ซึ่งเลิกใช้งานแล้ว
ประวัติศาสตร์
โครงการ Google Brain ก่อตั้งขึ้นในปี 2011 ใน "ห้องปฏิบัติการวิจัย Google X ที่เป็นความลับ" [ 12 ] โดย Jeff Dean นักวิจัยของ Google, Greg Corrado นักวิจัยของ Google และ Andrew Ng ศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ จากมหาวิทยาลัยสแตนฟ อร์ด [ 13 ] [ 14 ] [ 15...
การประเมิน
กล่าวกันว่าระบบ GNMT แสดงถึงการปรับปรุงจาก Google Translate เดิม เนื่องจากสามารถจัดการกับการแปลแบบ "zero-shot translation" ได้ นั่นคือสามารถแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งได้โดยตรง ตัวอย่างเช่น อาจฝึกฝนเฉพาะการแปลจากญี่ปุ่นเป็นอังกฤษและเกาหลีเป็นอังกฤษ...
ภาษาที่รองรับโดย GNMT
ณ เดือนธันวาคม 2021 Google Translate รองรับ GNMT ในทุกภาษา โดยภาษาละตินเป็นภาษาล่าสุดที่เพิ่มเข้ามา