แบบจำลองภาษา

Q: ประวัติศาสตร์

โนอัม ชอมสกี ได้ทำการวิจัยบุกเบิกเกี่ยวกับแบบจำลองภาษาในช่วงทศวรรษ 1950 โดยพัฒนาทฤษฎี ไวยากรณ์ เชิง รูปธรรม [ 11 ]

แบบจำลองภาษาเป็นแบบ จำลองการ คำนวณที่ทำนายลำดับในภาษาธรรมชาติ [ ^{1 ] [}^{2 ] แบบ}จำลองภาษามีประโยชน์สำหรับงานต่างๆ มากมาย รวมถึงการรู้จำเสียงพูด [ ^{3 ] การ} แปลด้วยเครื่อง^{[ 4 ]}การสร้างภาษาธรรมชาติ (การสร้างข้อความที่เหมือนมนุษย์มากขึ้น) การรู้จำอักขระด้วยแสงการเพิ่มประสิทธิภาพเส้นทาง^{[ 5 ]}การรู้จำลายมือ [ ^{6 ] การ} เหนี่ยวนำไวยากรณ์^{[ 7 ]}การดึงข้อมูล^{[ 8 ]}^{[ 9 ]}และการตอบสนองต่อภัยพิบัติ^{[ 10 ]}

แบบจำลองภาษาขนาดใหญ่ (LLMs) ซึ่งเป็นรูปแบบที่ก้าวหน้าที่สุดในปัจจุบัน ณ ปี 2026 นั้น ส่วนใหญ่ใช้โมเดล Transformerที่ได้รับการฝึกฝนจากชุดข้อมูล ขนาดใหญ่ (โดยมักใช้ข้อความที่รวบรวม จาก อินเทอร์เน็ตสาธารณะ) แบบจำลองเหล่านี้ได้เข้ามาแทนที่ แบบจำลองที่ใช้ โครงข่ายประสาทเทียมแบบวนซ้ำ ซึ่งก่อนหน้านี้เคยเข้ามาแทนที่ แบบจำลองทางสถิติล้วนๆเช่นแบบจำลองภาษา n -gram ของ คำ

ประวัติศาสตร์

โนอัม ชอมสกีได้ทำการวิจัยบุกเบิกเกี่ยวกับแบบจำลองภาษาในช่วงทศวรรษ 1950 โดยพัฒนาทฤษฎี ไวยากรณ์ เชิงรูปธรรม^{[ 11 ]}

ในปี 1980 มีการสำรวจวิธีการทางสถิติและพบว่ามีประโยชน์มากกว่าไวยากรณ์ที่เป็นทางการแบบใช้กฎเกณฑ์สำหรับหลายๆ วัตถุประสงค์ การแสดงผลแบบไม่ต่อเนื่อง เช่นแบบจำลองภาษา แบบ n -gram ของ คำซึ่งใช้ความน่าจะเป็นสำหรับชุดคำที่ไม่ต่อเนื่อง ทำให้เกิดความก้าวหน้าอย่างมาก

ในช่วงทศวรรษ 2000 การแสดงคำแบบต่อเนื่อง เช่นการฝังคำเริ่มเข้ามาแทนที่การแสดงคำแบบไม่ต่อเนื่อง^{[ 12 ]}โดยทั่วไป การแสดงคำจะเป็นเวกเตอร์ค่าจริงที่เข้ารหัสความหมายของคำ โดยที่คำที่อยู่ใกล้กันในพื้นที่เวกเตอร์จะมีความหมายคล้ายกัน และความสัมพันธ์ทั่วไประหว่างคำ เช่น พหูพจน์หรือเพศ จะได้รับการรักษาไว้

แบบจำลองทางสถิติบริสุทธิ์

ในปี พ.ศ. 2523 ได้มีการเสนอแบบจำลองภาษาเชิงสถิติที่สำคัญเป็นครั้งแรก และในช่วงทศวรรษนั้นIBMได้ทำการทดลองแบบ ' สไตล์ แชนนอน ' ซึ่งระบุแหล่งที่มาที่เป็นไปได้สำหรับการปรับปรุงแบบจำลองภาษาโดยการสังเกตและวิเคราะห์ประสิทธิภาพของบุคคลในการทำนายหรือแก้ไขข้อความ^{[ 13 ]}

แบบจำลองที่อิงตามn -gram ของคำ

แบบจำลอง ภาษาn -gram ของคำเป็นแบบจำลองทางสถิติของภาษาซึ่งคำนวณความน่าจะเป็นของคำถัดไปในลำดับจากหน้าต่างคำก่อนหน้าที่มีขนาดคงที่ หากพิจารณาคำก่อนหน้าหนึ่งคำ จะเป็นแบบจำลองไบแกรม หากพิจารณาสองคำ จะเป็นแบบจำลองไตรแกรม หากพิจารณาn − 1 คำ จะเป็น แบบจำลอง n -gram ^{[ 14 ]}

มีการนำโทเค็นพิเศษมาใช้เพื่อระบุจุดเริ่มต้นและจุดสิ้นสุดของประโยคและเพื่อป้องกันไม่ให้คำที่ไม่เคยเห็นมาก่อนได้รับความน่าจะเป็นเป็นศูนย์ ความน่าจะเป็นของคำที่เคยเห็นแต่ละคำจึงถูกลดลงเล็กน้อยเพื่อให้มีพื้นที่สำหรับคำที่ไม่เคยเห็นมาก่อนในคลังข้อมูล ที่กำหนด เพื่อให้บรรลุเป้าหมายนี้ จึงมีการใช้วิธี การปรับเรียบหลายวิธีตั้งแต่การปรับเรียบแบบ "เพิ่มหนึ่ง" อย่างง่าย (การกำหนดจำนวน 1 ให้กับn -gram ที่ไม่เคยเห็นมาก่อน เพื่อเป็นข้อมูลเบื้องต้นที่ไม่ให้ข้อมูล ) ไปจนถึงเทคนิคที่ซับซ้อนกว่า เช่นการลดทอนแบบ Good–Turingหรือ แบบจำลอง การ ถอยหลัง $\langle s\rangle$ $\langle /s\rangle$

โมเดล n- gram ของคำส่วนใหญ่ถูกแทนที่ด้วย โมเดลเครือ ข่ายประสาทแบบวนซ้ำซึ่งต่อมาถูกแทนที่ด้วย โมเดล Transformer ^ซึ่งมักเรียกว่าโมเดลภาษาขนาดใหญ่ [ ^{15 ]}

เลขชี้กำลัง

แบบจำลองภาษา ที่มีเอนโทรปีสูงสุดจะเข้ารหัสความสัมพันธ์ระหว่างคำและ ประวัติ n -gram โดยใช้ฟังก์ชันคุณลักษณะสมการคือ

$P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))$

โดยที่คือฟังก์ชันการแบ่งส่วนคือเวกเตอร์พารามิเตอร์ และคือฟังก์ชันคุณลักษณะ ในกรณีที่ง่ายที่สุด ฟังก์ชันคุณลักษณะเป็นเพียงตัวบ่งชี้การมีอยู่ของn -gram บางอย่าง การใช้ค่าความน่าจะเป็นล่วงหน้า (prior ) หรือการปรับค่า (regularization ) ในรูปแบบใดรูปแบบหนึ่ง จะเป็นประโยชน์ $Z(w_{1},\ldots ,w_{m-1})$ $a$ $f(w_{1},\ldots ,w_{m})$ $a$

แบบจำลองลอการิทึมเชิงเส้น (log-bilinear model) เป็นอีกตัวอย่างหนึ่งของแบบจำลองภาษาแบบเลขชี้กำลัง

แบบจำลองสคิปแกรม

1-skip-2-grams สำหรับข้อความ "ฝนในสเปนส่วนใหญ่ตกบนที่ราบ"

แบบจำลองภาษา Skip-gram เป็นความพยายามที่จะเอาชนะปัญหาความเบาบางของข้อมูลที่แบบจำลองก่อนหน้า (เช่น แบบจำลองภาษา n -gram ของคำ) เผชิญ คำที่แสดงในเวกเตอร์ฝังตัวไม่จำเป็นต้องต่อเนื่องกันอีกต่อไป แต่สามารถเว้นช่องว่างที่ถูกข้ามไปได้ (จึงเป็นที่มาของชื่อ "skip-gram") ^{[ 16 ]}

ตามหลักการแล้ว $k$ -skip- $n$ -gram คือลำดับย่อยที่มีความยาว $n$ โดยที่ส่วนประกอบต่างๆ อยู่ห่างกัน ไม่เกิน $k$

ตัวอย่างเช่น ในข้อความที่ป้อน:

ฝนในสเปนส่วนใหญ่ตกบนที่ราบ

เซตของ 1-skip-2-grams ประกอบด้วย bigrams (2-grams) ทั้งหมด และนอกจากนี้ยังมีลำดับย่อยอีกด้วย

ฝนตกในสเปนโดยส่วนใหญ่จะตกบนที่ราบ

ในแบบจำลอง skip-gram ความสัมพันธ์ทางความหมายระหว่างคำต่างๆ จะถูกแทนด้วยการรวมเชิงเส้นซึ่งเป็นการจับรูปแบบหนึ่งของการประกอบกันตัวอย่างเช่น ในแบบจำลองบางแบบ ถ้า $v$ คือฟังก์ชันที่แปลงคำ $w$ ไปเป็น เวกเตอร์ $n$ มิติที่แทนคำนั้นแล้ว

$v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {หญิง} )\ประมาณ v(\mathrm {queen} )$

โดยที่ ≈ จะถูกทำให้แม่นยำยิ่งขึ้นโดยกำหนดว่าด้านขวามือจะต้องเป็นเพื่อนบ้านที่ใกล้ที่สุดของค่าด้านซ้ายมือ^{[ 17 ]}^{[ 18 ]}

แบบจำลองประสาท

โครงข่ายประสาทเทียมแบบวนซ้ำ

การแสดงผลแบบต่อเนื่องหรือการฝังคำจะถูกสร้างขึ้นในแบบจำลองภาษาที่ใช้โครงข่ายประสาทแบบวนซ้ำ (เรียกอีกอย่างว่า แบบจำลองภาษาพื้นที่ต่อเนื่อง ) ^{[ 19 ]}การฝังคำในพื้นที่ต่อเนื่องดังกล่าวช่วยบรรเทาปัญหาของมิติที่สูงเกินไปซึ่งเป็นผลมาจากจำนวนลำดับคำที่เป็นไปได้ที่เพิ่มขึ้นแบบทวีคูณตามขนาดของคำศัพท์ ส่งผลให้เกิดปัญหาข้อมูลกระจัดกระจาย โครงข่ายประสาทหลีกเลี่ยงปัญหานี้โดยการแสดงคำเป็นการรวมกันของน้ำหนักที่ไม่เป็นเชิงเส้นในโครงข่ายประสาท^{[ 20 ]}

แบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ (LLM) คือเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนด้วยข้อความจำนวนมากสำหรับงานประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล และวิเคราะห์ข้อความในบริบทต่างๆ ได้มากมาย และเป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลังแชทบอทสมัยใหม่^{[ 21 ]}ข้อมูลการฝึกอบรมที่มีอคติหรือไม่ถูกต้องอาจทำให้ผลลัพธ์ของ LLM มีความน่าเชื่อถือน้อยลง^{[ 22 ]}

โดยทั่วไป LLM จะใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ เป็นหลัก ^{[ 23 ]}ทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด (GPT) เป็น LLM ประเภทหนึ่งที่ได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไป^{[ 24 ]}จากนั้น GPT มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อให้ปฏิบัติตามคำสั่งและทำหน้าที่เป็นผู้ช่วย^{[ 25 ]}

การประเมิน มาตรฐานสำหรับ LLM พยายามวัดการให้เหตุผลของแบบจำลองความถูกต้องของข้อเท็จจริงการจัดเรียงและความปลอดภัย^{[ 26 ]}

แม้ว่าบางครั้งจะตรงกับประสิทธิภาพของมนุษย์ แต่ก็ยังไม่ชัดเจนว่าเป็นแบบจำลองทางปัญญา ที่น่าเชื่อถือ หรือไม่ อย่างน้อยสำหรับเครือข่ายประสาทแบบวนซ้ำ ได้มีการแสดงให้เห็นแล้วว่าบางครั้งเครือข่ายเหล่านี้เรียนรู้รูปแบบที่มนุษย์ไม่เรียนรู้ แต่ล้มเหลวในการเรียนรู้รูปแบบที่มนุษย์เรียนรู้เป็นประจำ^{[ 27 ]}

การประเมินและเกณฑ์มาตรฐาน

การประเมินคุณภาพของแบบจำลองภาษาส่วนใหญ่ทำโดยการเปรียบเทียบกับเกณฑ์มาตรฐาน ตัวอย่างที่สร้างโดยมนุษย์ ซึ่งสร้างขึ้นจากงานที่มุ่งเน้นภาษาโดยทั่วไป การทดสอบคุณภาพอื่นๆ ที่ยังไม่เป็นที่ยอมรับมากนัก จะตรวจสอบลักษณะที่แท้จริงของแบบจำลองภาษาหรือเปรียบเทียบแบบจำลองดังกล่าวสองแบบ เนื่องจากแบบจำลองภาษามักมีจุดประสงค์เพื่อให้เป็นแบบไดนามิกและเรียนรู้จากข้อมูลที่เห็น แบบจำลองที่เสนอบางแบบจึงตรวจสอบอัตราการเรียนรู้ เช่น ผ่านการตรวจสอบเส้นโค้งการเรียนรู้^{[ 28 ]}

มีการพัฒนาชุดข้อมูลต่างๆ เพื่อใช้ในการประเมินระบบประมวลผลภาษา^{[ 29 ]}ซึ่งรวมถึง:

การเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่ (MMLU) ^{[ 30 ]}
คลังข้อมูลการยอมรับทางภาษาศาสตร์^{[ 31 ]}
เกณฑ์มาตรฐาน GLUE ^{[ 32 ]}
คลังข้อมูลการถอดความของ Microsoft Research ^{[ 33 ]}
การอนุมานภาษาธรรมชาติหลายประเภท^{[ 34 ]}
คำถามเกี่ยวกับการอนุมานภาษาธรรมชาติ
คู่คำถาม Quora ^{[ 35 ]}
การรับรู้ถึงการอนุมานเชิงข้อความ^{[ 36 ]}
เกณฑ์มาตรฐานความคล้ายคลึงทางความหมายของข้อความ
การทดสอบการตอบคำถาม SQuAD ^{[ 37 ]}
Stanford Sentiment Treebank ^{[ 38 ]}
วินโนกราด เอ็นแอลไอ
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs ^{[ 39 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Jay M. Ponte; W. Bruce Croft (1998). "แนวทางการสร้างแบบจำลองภาษาสำหรับการค้นหาข้อมูล". การวิจัยและการพัฒนาในการค้นหาข้อมูล . หน้า 275–281 . CiteSeerX 10.1.1.117.4237 . doi : 10.1145/290941.291008 .
Fei Song; W. Bruce Croft (1999). "แบบจำลองภาษาทั่วไปสำหรับการค้นหาข้อมูล". การวิจัยและการพัฒนาในการค้นหาข้อมูล . หน้า 279–280 . CiteSeerX 10.1.1.21.6467 . doi : 10.1145/319950.320022 .
Chen, Stanley F.; Joshua Goodman (1998). การศึกษาเชิงประจักษ์เกี่ยวกับเทคนิคการปรับให้เรียบสำหรับการสร้างแบบจำลองภาษา (รายงานทางเทคนิค). มหาวิทยาลัยฮาร์วาร์ด. CiteSeerX 10.1.1.131.5458 .

1 ] [

2 ] แบบ

3 ] การ

[ 4 ]

[ 5 ]

6 ] การ

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

ซึ่ง

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]