อ่าน 11 นาที
แบบจำลองภาษา
แบบ จำลองภาษา เป็น แบบ จำลองการ คำนวณที่ทำนายลำดับใน ภาษาธรรมชาติ [ 1 ] [ 2 ] แบบ จำลองภาษามีประโยชน์สำหรับงานต่างๆ มากมาย รวมถึง การรู้จำเสียงพูด [ 3 ] การ แปล ด้วยเครื่อง [ 4 ]...
แบบจำลองภาษา
แบบจำลองภาษาเป็นแบบ จำลองการ คำนวณที่ทำนายลำดับในภาษาธรรมชาติ [ 1 ] [ 2 ] แบบจำลองภาษามีประโยชน์สำหรับงานต่างๆ มากมาย รวมถึงการรู้จำเสียงพูด [ 3 ] การ แปลด้วยเครื่อง[ 4 ]การสร้างภาษาธรรมชาติ (การสร้างข้อความที่เหมือนมนุษย์มากขึ้น) การรู้จำอักขระด้วยแสงการเพิ่มประสิทธิภาพเส้นทาง[ 5 ]การรู้จำลายมือ [ 6 ] การ เหนี่ยวนำไวยากรณ์[ 7 ]การดึงข้อมูล[ 8 ] [ 9 ]และการตอบสนองต่อภัยพิบัติ[ 10 ]
แบบจำลองภาษาขนาดใหญ่ (LLMs) ซึ่งเป็นรูปแบบที่ก้าวหน้าที่สุดในปัจจุบัน ณ ปี 2026 นั้น ส่วนใหญ่ใช้โมเดล Transformerที่ได้รับการฝึกฝนจากชุดข้อมูล ขนาดใหญ่ (โดยมักใช้ข้อความที่รวบรวม จาก อินเทอร์เน็ตสาธารณะ) แบบจำลองเหล่านี้ได้เข้ามาแทนที่ แบบจำลองที่ใช้ โครงข่ายประสาทเทียมแบบวนซ้ำ ซึ่งก่อนหน้านี้เคยเข้ามาแทนที่ แบบจำลองทางสถิติล้วนๆเช่นแบบจำลองภาษาn -gram ของ คำ
ประวัติศาสตร์
โนอัม ชอมสกีได้ทำการวิจัยบุกเบิกเกี่ยวกับแบบจำลองภาษาในช่วงทศวรรษ 1950 โดยพัฒนาทฤษฎี ไวยากรณ์ เชิงรูปธรรม[ 11 ]
ในปี 1980 มีการสำรวจวิธีการทางสถิติและพบว่ามีประโยชน์มากกว่าไวยากรณ์ที่เป็นทางการแบบใช้กฎเกณฑ์สำหรับหลายๆ วัตถุประสงค์ การแสดงผลแบบไม่ต่อเนื่อง เช่นแบบจำลองภาษา แบบ n -gram ของ คำซึ่งใช้ความน่าจะเป็นสำหรับชุดคำที่ไม่ต่อเนื่อง ทำให้เกิดความก้าวหน้าอย่างมาก
ในช่วงทศวรรษ 2000 การแสดงคำแบบต่อเนื่อง เช่นการฝังคำเริ่มเข้ามาแทนที่การแสดงคำแบบไม่ต่อเนื่อง[ 12 ]โดยทั่วไป การแสดงคำจะเป็นเวกเตอร์ค่าจริงที่เข้ารหัสความหมายของคำ โดยที่คำที่อยู่ใกล้กันในพื้นที่เวกเตอร์จะมีความหมายคล้ายกัน และความสัมพันธ์ทั่วไประหว่างคำ เช่น พหูพจน์หรือเพศ จะได้รับการรักษาไว้
แบบจำลองทางสถิติบริสุทธิ์
ในปี พ.ศ. 2523 ได้มีการเสนอแบบจำลองภาษาเชิงสถิติที่สำคัญเป็นครั้งแรก และในช่วงทศวรรษนั้นIBMได้ทำการทดลองแบบ ' สไตล์ แชนนอน ' ซึ่งระบุแหล่งที่มาที่เป็นไปได้สำหรับการปรับปรุงแบบจำลองภาษาโดยการสังเกตและวิเคราะห์ประสิทธิภาพของบุคคลในการทำนายหรือแก้ไขข้อความ[ 13 ]
แบบจำลองที่อิงตามn -gram ของคำ
แบบจำลอง ภาษาn -gram ของคำเป็นแบบจำลองทางสถิติของภาษาซึ่งคำนวณความน่าจะเป็นของคำถัดไปในลำดับจากหน้าต่างคำก่อนหน้าที่มีขนาดคงที่ หากพิจารณาคำก่อนหน้าหนึ่งคำ จะเป็นแบบจำลองไบแกรม หากพิจารณาสองคำ จะเป็นแบบจำลองไตรแกรม หากพิจารณาn − 1 คำ จะเป็น แบบจำลอง n -gram [ 14 ]
มีการนำโทเค็นพิเศษมาใช้เพื่อระบุจุดเริ่มต้นและจุดสิ้นสุดของประโยคและเพื่อป้องกันไม่ให้คำที่ไม่เคยเห็นมาก่อนได้รับความน่าจะเป็นเป็นศูนย์ ความน่าจะเป็นของคำที่เคยเห็นแต่ละคำจึงถูกลดลงเล็กน้อยเพื่อให้มีพื้นที่สำหรับคำที่ไม่เคยเห็นมาก่อนในคลังข้อมูล ที่กำหนด เพื่อให้บรรลุเป้าหมายนี้ จึงมีการใช้วิธี การปรับเรียบหลายวิธีตั้งแต่การปรับเรียบแบบ "เพิ่มหนึ่ง" อย่างง่าย (การกำหนดจำนวน 1 ให้กับn -gram ที่ไม่เคยเห็นมาก่อน เพื่อเป็นข้อมูลเบื้องต้นที่ไม่ให้ข้อมูล ) ไปจนถึงเทคนิคที่ซับซ้อนกว่า เช่นการลดทอนแบบ Good–Turingหรือ แบบจำลอง การ ถอยหลัง
โมเดล n- gram ของคำส่วนใหญ่ถูกแทนที่ด้วย โมเดลเครือ ข่ายประสาทแบบวนซ้ำซึ่งต่อมาถูกแทนที่ด้วย โมเดล Transformer ซึ่งมักเรียกว่าโมเดลภาษาขนาดใหญ่ [ 15 ]
เลขชี้กำลัง
แบบจำลองภาษา ที่มีเอนโทรปีสูงสุดจะเข้ารหัสความสัมพันธ์ระหว่างคำและ ประวัติ n -gram โดยใช้ฟังก์ชันคุณลักษณะสมการคือ
โดยที่คือฟังก์ชันการแบ่งส่วนคือเวกเตอร์พารามิเตอร์ และคือฟังก์ชันคุณลักษณะ ในกรณีที่ง่ายที่สุด ฟังก์ชันคุณลักษณะเป็นเพียงตัวบ่งชี้การมีอยู่ของn -gram บางอย่าง การใช้ค่าความน่าจะเป็นล่วงหน้า (prior ) หรือการปรับค่า (regularization ) ในรูปแบบใดรูปแบบหนึ่ง จะเป็นประโยชน์
แบบจำลองลอการิทึมเชิงเส้น (log-bilinear model) เป็นอีกตัวอย่างหนึ่งของแบบจำลองภาษาแบบเลขชี้กำลัง
แบบจำลองสคิปแกรม

แบบจำลองภาษา Skip-gram เป็นความพยายามที่จะเอาชนะปัญหาความเบาบางของข้อมูลที่แบบจำลองก่อนหน้า (เช่น แบบจำลองภาษา n -gram ของคำ) เผชิญ คำที่แสดงในเวกเตอร์ฝังตัวไม่จำเป็นต้องต่อเนื่องกันอีกต่อไป แต่สามารถเว้นช่องว่างที่ถูกข้ามไปได้ (จึงเป็นที่มาของชื่อ "skip-gram") [ 16 ]
ตามหลักการแล้วk -skip- n -gram คือลำดับย่อยที่มีความยาวnโดยที่ส่วนประกอบต่างๆ อยู่ห่างกัน ไม่เกิน k
ตัวอย่างเช่น ในข้อความที่ป้อน:
- ฝนในสเปนส่วนใหญ่ตกบนที่ราบ
เซตของ 1-skip-2-grams ประกอบด้วย bigrams (2-grams) ทั้งหมด และนอกจากนี้ยังมีลำดับย่อยอีกด้วย
- ฝนตกในสเปนโดยส่วนใหญ่จะตกบนที่ราบ
ในแบบจำลอง skip-gram ความสัมพันธ์ทางความหมายระหว่างคำต่างๆ จะถูกแทนด้วยการรวมเชิงเส้นซึ่งเป็นการจับรูปแบบหนึ่งของการประกอบกันตัวอย่างเช่น ในแบบจำลองบางแบบ ถ้าvคือฟังก์ชันที่แปลงคำwไปเป็น เวกเตอร์ nมิติที่แทนคำนั้นแล้ว
โดยที่ ≈ จะถูกทำให้แม่นยำยิ่งขึ้นโดยกำหนดว่าด้านขวามือจะต้องเป็นเพื่อนบ้านที่ใกล้ที่สุดของค่าด้านซ้ายมือ[ 17 ] [ 18 ]
แบบจำลองประสาท
โครงข่ายประสาทเทียมแบบวนซ้ำ
การแสดงผลแบบต่อเนื่องหรือการฝังคำจะถูกสร้างขึ้นในแบบจำลองภาษาที่ใช้โครงข่ายประสาทแบบวนซ้ำ (เรียกอีกอย่างว่า แบบจำลองภาษาพื้นที่ต่อเนื่อง ) [ 19 ]การฝังคำในพื้นที่ต่อเนื่องดังกล่าวช่วยบรรเทาปัญหาของมิติที่สูงเกินไปซึ่งเป็นผลมาจากจำนวนลำดับคำที่เป็นไปได้ที่เพิ่มขึ้นแบบทวีคูณตามขนาดของคำศัพท์ ส่งผลให้เกิดปัญหาข้อมูลกระจัดกระจาย โครงข่ายประสาทหลีกเลี่ยงปัญหานี้โดยการแสดงคำเป็นการรวมกันของน้ำหนักที่ไม่เป็นเชิงเส้นในโครงข่ายประสาท[ 20 ]
แบบจำลองภาษาขนาดใหญ่
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
แบบจำลองภาษาขนาดใหญ่ (LLM) คือเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนด้วยข้อความจำนวนมากสำหรับงานประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล และวิเคราะห์ข้อความในบริบทต่างๆ ได้มากมาย และเป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลังแชทบอทสมัยใหม่[ 21 ]ข้อมูลการฝึกอบรมที่มีอคติหรือไม่ถูกต้องอาจทำให้ผลลัพธ์ของ LLM มีความน่าเชื่อถือน้อยลง[ 22 ]
โดยทั่วไป LLM จะใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ เป็นหลัก [ 23 ]ทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด (GPT) เป็น LLM ประเภทหนึ่งที่ได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไป[ 24 ]จากนั้น GPT มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อให้ปฏิบัติตามคำสั่งและทำหน้าที่เป็นผู้ช่วย[ 25 ]
การประเมิน มาตรฐานสำหรับ LLM พยายามวัดการให้เหตุผลของแบบจำลองความถูกต้องของข้อเท็จจริงการจัดเรียงและความปลอดภัย[ 26 ]
แม้ว่าบางครั้งจะตรงกับประสิทธิภาพของมนุษย์ แต่ก็ยังไม่ชัดเจนว่าเป็นแบบจำลองทางปัญญา ที่น่าเชื่อถือ หรือไม่ อย่างน้อยสำหรับเครือข่ายประสาทแบบวนซ้ำ ได้มีการแสดงให้เห็นแล้วว่าบางครั้งเครือข่ายเหล่านี้เรียนรู้รูปแบบที่มนุษย์ไม่เรียนรู้ แต่ล้มเหลวในการเรียนรู้รูปแบบที่มนุษย์เรียนรู้เป็นประจำ[ 27 ]
การประเมินและเกณฑ์มาตรฐาน
การประเมินคุณภาพของแบบจำลองภาษาส่วนใหญ่ทำโดยการเปรียบเทียบกับเกณฑ์มาตรฐาน ตัวอย่างที่สร้างโดยมนุษย์ ซึ่งสร้างขึ้นจากงานที่มุ่งเน้นภาษาโดยทั่วไป การทดสอบคุณภาพอื่นๆ ที่ยังไม่เป็นที่ยอมรับมากนัก จะตรวจสอบลักษณะที่แท้จริงของแบบจำลองภาษาหรือเปรียบเทียบแบบจำลองดังกล่าวสองแบบ เนื่องจากแบบจำลองภาษามักมีจุดประสงค์เพื่อให้เป็นแบบไดนามิกและเรียนรู้จากข้อมูลที่เห็น แบบจำลองที่เสนอบางแบบจึงตรวจสอบอัตราการเรียนรู้ เช่น ผ่านการตรวจสอบเส้นโค้งการเรียนรู้[ 28 ]
มีการพัฒนาชุดข้อมูลต่างๆ เพื่อใช้ในการประเมินระบบประมวลผลภาษา[ 29 ]ซึ่งรวมถึง:
- การเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่ (MMLU) [ 30 ]
- คลังข้อมูลการยอมรับทางภาษาศาสตร์[ 31 ]
- เกณฑ์มาตรฐาน GLUE [ 32 ]
- คลังข้อมูลการถอดความของ Microsoft Research [ 33 ]
- การอนุมานภาษาธรรมชาติหลายประเภท[ 34 ]
- คำถามเกี่ยวกับการอนุมานภาษาธรรมชาติ
- คู่คำถาม Quora [ 35 ]
- การรับรู้ถึงการอนุมานเชิงข้อความ[ 36 ]
- เกณฑ์มาตรฐานความคล้ายคลึงทางความหมายของข้อความ
- การทดสอบการตอบคำถาม SQuAD [ 37 ]
- Stanford Sentiment Treebank [ 38 ]
- วินโนกราด เอ็นแอลไอ
- BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs [ 39 ]
ดูเพิ่มเติม
อ่านเพิ่มเติม
- Jay M. Ponte; W. Bruce Croft (1998). "แนวทางการสร้างแบบจำลองภาษาสำหรับการค้นหาข้อมูล". การวิจัยและการพัฒนาในการค้นหาข้อมูล . หน้า 275–281 . CiteSeerX 10.1.1.117.4237 . doi : 10.1145/290941.291008 .
- Fei Song; W. Bruce Croft (1999). "แบบจำลองภาษาทั่วไปสำหรับการค้นหาข้อมูล". การวิจัยและการพัฒนาในการค้นหาข้อมูล . หน้า 279–280 . CiteSeerX 10.1.1.21.6467 . doi : 10.1145/319950.320022 .
- Chen, Stanley F.; Joshua Goodman (1998). การศึกษาเชิงประจักษ์เกี่ยวกับเทคนิคการปรับให้เรียบสำหรับการสร้างแบบจำลองภาษา (รายงานทางเทคนิค). มหาวิทยาลัยฮาร์วาร์ด. CiteSeerX 10.1.1.131.5458 .
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ แบบจำลองภาษา
แบบ จำลองภาษา เป็น แบบ จำลองการ คำนวณที่ทำนายลำดับใน ภาษาธรรมชาติ [ 1 ] [ 2 ] แบบ จำลองภาษามีประโยชน์สำหรับงานต่างๆ มากมาย รวมถึง การรู้จำเสียงพูด [ 3 ] การ แปล ด้วยเครื่อง [ 4 ]...
ประวัติศาสตร์
โนอัม ชอมสกี ได้ทำการวิจัยบุกเบิกเกี่ยวกับแบบจำลองภาษาในช่วงทศวรรษ 1950 โดยพัฒนาทฤษฎี ไวยากรณ์ เชิง รูปธรรม [ 11 ]
แบบจำลองทางสถิติบริสุทธิ์
ในปี พ.ศ. 2523 ได้มีการเสนอแบบจำลองภาษาเชิงสถิติที่สำคัญเป็นครั้งแรก และในช่วงทศวรรษนั้น IBM ได้ทำการทดลองแบบ ' สไตล์ แชนนอน ' ซึ่งระบุแหล่งที่มาที่เป็นไปได้สำหรับการปรับปรุงแบบจำลองภาษาโดยการสังเกตและวิเคราะห์ประสิทธิภาพของบุคคลในการทำนายหรือแก้ไขข้อความ [...
แบบจำลองที่อิงตาม n -gram ของคำ
แบบจำลอง ภาษา n -gram ของ คำเป็น แบบจำลองทางสถิติ ของภาษาซึ่งคำนวณความน่าจะเป็นของคำถัดไปในลำดับจากหน้าต่างคำก่อนหน้าที่มีขนาดคงที่ หากพิจารณาคำก่อนหน้าหนึ่งคำ จะเป็นแบบจำลองไบแกรม หากพิจารณาสองคำ จะเป็นแบบจำลองไตรแกรม หากพิจารณา n − 1 คำ จะเป็น แบบจำลอง n...