แบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ ( LLM )คือเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนด้วยข้อความจำนวนมหาศาลสำหรับงานประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล และวิเคราะห์ข้อความในบริบทต่างๆ ได้มากมาย และเป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลังแชทบอทสมัยใหม่^{[ 1 ]}ข้อมูลการฝึกฝนที่มีอคติหรือไม่ถูกต้องอาจทำให้ผลลัพธ์ของ LLM มีความน่าเชื่อถือน้อยลง^{[ 2 ]}

โดยทั่วไป LLM จะใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ เป็นหลัก ^{[ 3 ]}ทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงสร้างสรรค์ (GPT) เป็น LLM ประเภทหนึ่งที่ได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไป^{[ 4 ]}จากนั้น GPT มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อให้ปฏิบัติตามคำสั่งและทำหน้าที่เป็นผู้ช่วย^{[ 5 ]}

การประเมิน มาตรฐานสำหรับ LLM พยายามวัดการให้เหตุผลของแบบจำลองความถูกต้องของข้อเท็จจริงการจัดเรียงและความปลอดภัย^{[ 6 ]}

ประวัติศาสตร์

ก่อนการปรากฏตัวของโมเดลที่ใช้ Transformer ในปี 2017 โมเดลภาษาบางโมเดลถือว่ามีขนาดใหญ่เมื่อเทียบกับข้อจำกัดด้านการคำนวณและข้อมูลในยุคนั้น ในช่วงต้นทศวรรษ 1990 โมเดลทางสถิติของIBMได้บุกเบิก เทคนิค การจัดเรียงคำสำหรับการแปลด้วยเครื่อง ซึ่งเป็นการวางรากฐานสำหรับการสร้างแบบจำลองภาษาโดย ใช้คลังข้อมูล ในปี 2001 โมเดล n - gram ที่ปรับให้เรียบ เช่น โมเดลที่ใช้ การปรับ ให้เรียบแบบ Kneser–Ney ซึ่งได้รับการฝึกฝนด้วยคำศัพท์ 300 ล้านคำ บรรลุค่า perplexityที่ดีที่สุดในการทดสอบมาตรฐาน^[⁷^]ในช่วงทศวรรษ 2000 ด้วยการเข้าถึงอินเทอร์เน็ต ที่แพร่หลายมากขึ้น นักวิจัยเริ่มรวบรวมชุดข้อมูลข้อความขนาดใหญ่จากเว็บ ("เว็บเป็นคลังข้อมูล" ^[⁸^] ) เพื่อฝึกฝนโมเดลภาษาเชิงสถิติ^[⁹^]^[¹⁰^]

นอกเหนือจาก โมเดล n -gram แล้ว นักวิจัยเริ่มใช้โครงข่ายประสาทเทียมเป็นโมเดลภาษาตั้งแต่ปี 2000 ^{[ 11 ]}หลังจากความก้าวหน้าของโครงข่ายประสาทเทียมเชิงลึกในการจำแนกภาพประมาณปี 2012 ^{[ 12 ]}สถาปัตยกรรมที่คล้ายกันจึงถูกนำมาปรับใช้สำหรับงานด้านภาษา การเปลี่ยนแปลงนี้เกิดขึ้นจากการพัฒนาเวิร์ดเอ็มเบดดิ้ง (เช่นWord2VecโดยMikolov ในปี 2013) และ โมเดลลำดับต่อลำดับ ( seq2seq ) โดยใช้ LSTMในปี 2016 Google ได้เปลี่ยนบริการแปลภาษาไปใช้การแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียม (NMT) โดยแทนที่โมเดลแบบวลีเชิงสถิติด้วยโครงข่ายประสาทเทียมแบบวนซ้ำเชิง ลึก ระบบ NMT รุ่นแรกๆ เหล่านี้ใช้ สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัสแบบ LSTM เนื่องจากมาก่อนการคิดค้นทราน ส์ ฟอร์เมอร์

ภาพประกอบแสดงส่วนประกอบหลักของโมเดล Transformer จากบทความต้นฉบับ โดยที่เลเยอร์ต่างๆ ถูกทำให้เป็นมาตรฐานหลังจาก (แทนที่จะเป็นก่อน) กระบวนการ Multiheaded Attention

ในการประชุมNeurIPS ปี 2017 นักวิจัย ของ Googleได้นำเสนอสถาปัตยกรรม Transformer ในบทความสำคัญเรื่อง " Attention Is All You Need " ^{[ 13 ]}เป้าหมายของบทความนี้คือการปรับปรุงเทคโนโลยี seq2seq ในปี 2014 และส่วนใหญ่ใช้ กลไก Attentionที่พัฒนาโดย Bahdanau et al. ในปี 2014 ^{[ 14 ]}^{[ 15 ]}ในปีต่อมาในปี 2018 BERTได้ถูกนำเสนอและกลายเป็น "ที่แพร่หลาย" อย่างรวดเร็ว^{[ 16 ]}แม้ว่า Transformer รุ่นดั้งเดิมจะมีทั้งบล็อก Encoder และ Decoder แต่ BERT เป็นโมเดล Encoder เท่านั้น การใช้งาน BERT ในเชิงวิชาการและการวิจัยเริ่มลดลงในปี 2023 หลังจากมีการพัฒนาอย่างรวดเร็วในความสามารถของโมเดล Decoder เท่านั้น (เช่น GPT) ในการแก้ปัญหาผ่านการกระตุ้น^{[ 17 ]}

แม้ว่าGPT-1 ที่มีเพียงตัวถอดรหัส จะถูกนำเสนอในปี 2018 แต่GPT-2ในปี 2019 กลับได้รับความสนใจอย่างกว้างขวาง เนื่องจากOpenAIอ้างว่าในตอนแรกนั้น GPT-2 มีประสิทธิภาพมากเกินไปที่จะเผยแพร่สู่สาธารณะ เนื่องจากเกรงว่าจะถูกนำไปใช้ในทางที่ผิด^{[ 18 ]} GPT-3ในปี 2020 พัฒนาไปอีกขั้น และในปี 2025 มีให้บริการเฉพาะผ่านAPI เท่านั้น โดยไม่มีการดาวน์โหลดโมเดลเพื่อใช้งานในเครื่อง แต่เป็นแชทบอทChatGPT ที่มุ่งเน้นผู้บริโภค ในช่วงปลายปี 2022 ที่ได้รับความสนใจจากสื่อและสาธารณชนอย่างกว้างขวางในปี 2023 ^{[ 19 ]} GPT-4ในปี 2023 ได้รับการยกย่องในด้านความแม่นยำที่เพิ่มขึ้นและเป็น "สิ่งล้ำค่า" สำหรับความสามารถแบบมัลติโมดอ ล ^{[ 20 ]} OpenAI ไม่ได้เปิดเผยสถาปัตยกรรมระดับสูงและจำนวนพารามิเตอร์ของ GPT-4 การเปิดตัว ChatGPT นำไปสู่การใช้งาน LLM ที่เพิ่มขึ้นในหลายสาขาย่อยของการวิจัยด้านวิทยาการคอมพิวเตอร์ รวมถึงหุ่นยนต์ วิศวกรรมซอฟต์แวร์ และงานด้านผลกระทบต่อสังคม^{[ 17 ]}ในปี 2024 OpenAI ได้เผยแพร่โมเดลการให้เหตุผล OpenAI o1ซึ่งสร้างสายความคิดที่ยาวก่อนที่จะส่งคำตอบสุดท้ายกลับมา^{[ 21 ]}มีการพัฒนา LLM จำนวนมากที่มีจำนวนพารามิเตอร์เทียบเท่ากับซีรีส์ GPT ของ OpenAI ^{[ 22 ]}

นับตั้งแต่ปี 2022 โมเดลที่มีน้ำหนักที่สามารถเข้าถึงได้ได้รับความนิยมมากขึ้น โดยเฉพาะอย่างยิ่งในช่วงแรกกับBLOOMและLLaMAแม้ว่าทั้งสองจะมีข้อจำกัดในการใช้งานและการปรับใช้เป็นส่วนใหญ่ก็ตามโมเดลน้ำหนักแบบเปิดของMistral AI อย่าง Mistral 7B และ Mixtral 8x7B มี ใบอนุญาต Apache ที่อนุญาตมากกว่า ในเดือนมกราคม 2025 DeepSeekได้เปิดตัว DeepSeek R1 ซึ่งเป็นโมเดลน้ำหนักแบบเปิดที่มีพารามิเตอร์ 671 พันล้านตัว ซึ่งมีประสิทธิภาพเทียบเท่ากับ OpenAI o1 แต่มีราคาต่อโทเค็นที่ต่ำกว่ามากสำหรับผู้ใช้^{[ 23 ]}

ตั้งแต่ปี 2023 เป็นต้นมา LLM จำนวนมากได้รับการฝึกฝนให้ มีความสามารถในการประมวล ผลข้อมูลหลายรูปแบบรวมถึงการประมวลผลหรือสร้างข้อมูลประเภทอื่นๆ เช่น ภาพ เสียง หรือโมเดล 3 มิติ

^{LLM แบบเปิดน้ำหนักได้รับอิทธิพลมากขึ้นตั้งแต่ปี 2023 ตามที่ Vake และคณะ (2025) กล่าว}ไว้ การมีส่วนร่วมที่ขับเคลื่อนโดยชุมชนในโมเดลแบบเปิดน้ำหนักช่วยปรับปรุงประสิทธิภาพและสมรรถนะผ่านแพลตฟอร์มการทำงานร่วมกัน เช่นHugging Face [ ^{24 ]}

การประมวลผลข้อมูลเบื้องต้น

การแยกโทเค็น

เนื่องจาก อัลกอริธึม การเรียนรู้ของเครื่องประมวลผลตัวเลขแทนที่จะเป็นข้อความ ข้อความจึงต้องถูกแปลงเป็นตัวเลข ในขั้นตอนแรก จะมีการกำหนดคำศัพท์ จากนั้นจะกำหนดดัชนีจำนวนเต็มแบบสุ่มแต่ไม่ซ้ำกันให้กับแต่ละรายการในคำศัพท์ และสุดท้าย จะเชื่อมโยง การฝังตัวกับดัชนีจำนวนเต็ม อัลกอริธึมต่างๆ ได้แก่การเข้ารหัสคู่ไบต์ (BPE) และ WordPiece นอกจากนี้ยังมีโทเค็นพิเศษที่ทำหน้าที่เป็นอักขระควบคุมเช่น[MASK]สำหรับโทเค็นที่ถูกปิดบัง (ดังที่ใช้ในBERT ) และ[UNK]("unknown") สำหรับอักขระที่ไม่ปรากฏในคำศัพท์ นอกจากนี้ ยังมีการใช้สัญลักษณ์พิเศษบางอย่างเพื่อระบุรูปแบบข้อความพิเศษ ตัวอย่างเช่น "Ġ" หมายถึงช่องว่างนำหน้าในRoBERTaและ GPT และ "##" หมายถึงการต่อคำก่อนหน้าใน BERT ^{[ 25 ]}

ตัวอย่างเช่น ตัวแยกคำ BPE ที่ใช้ในGPT-3 เวอร์ชันเก่า จะแยกtokenizer: texts -> series of numerical "tokens"ดังนี้

โทเค็น

izer

:

ข้อความ

->

ชุด

ของ

ตัวเลข

"

ที

ตกลง

ens

"

การแบ่งคำเป็นโทเค็นยังทำให้ชุดข้อมูลมีขนาดเล็กลงด้วย เนื่องจากโดยทั่วไปแล้วแบบจำลองภาษาแบบยาว (LLM) ต้องการข้อมูลนำเข้าที่เป็นอาร์เรย์ที่ไม่ขรุขระดังนั้นข้อความที่สั้นกว่าจะต้องถูก "เติม" จนกว่าจะมีความยาวเท่ากับข้อความที่ยาวที่สุด

การเข้ารหัสคู่ไบต์

ตัวอย่างเช่น พิจารณาโทเคไนเซอร์ที่ใช้การเข้ารหัสแบบไบต์คู่ ในขั้นตอนแรก อักขระที่ไม่ซ้ำกันทั้งหมด (รวมถึงช่องว่างและเครื่องหมายวรรคตอน ) จะถูกจัดการเป็นชุดn -gram เริ่มต้น (เช่น ชุด uni-gram เริ่มต้น) จากนั้นคู่ของอักขระที่อยู่ติดกันที่พบบ่อยที่สุดจะถูกรวมเข้าเป็น bi-gram และอินสแตนซ์ทั้งหมดของคู่นั้นจะถูกแทนที่ด้วย bi-gram นั้น การเกิดขึ้นทั้งหมดของคู่n -gram ที่อยู่ติดกัน (ที่รวมกันก่อนหน้านี้) ที่เกิดขึ้นบ่อยที่สุดจะถูกรวมเข้าด้วยกันอีกครั้งเป็นn -gram ที่ยาวขึ้นเรื่อยๆ จนกว่าจะได้คำศัพท์ที่มีขนาดตามที่กำหนด หลังจากที่โทเคไนเซอร์ได้รับการฝึกฝนแล้ว ข้อความใดๆ ก็สามารถถูกโทเคไนซ์ได้ ตราบใดที่ข้อความนั้นไม่มีอักขระที่ไม่ปรากฏในชุด uni-gram เริ่มต้น^{[ 26 ]}

การทำความสะอาดชุดข้อมูล

ในบริบทของการฝึก LLM ชุดข้อมูลมักจะถูกทำความสะอาดโดยการลบข้อมูลคุณภาพต่ำ ข้อมูลที่ซ้ำซ้อน หรือข้อมูลที่เป็นพิษ^{[ 27 ]}ชุดข้อมูลที่ทำความสะอาดแล้วสามารถเพิ่มประสิทธิภาพการฝึกและนำไปสู่ประสิทธิภาพที่ดีขึ้นในขั้นตอนต่อไป^{[ 28 ]} LLM ที่ได้รับการฝึกฝนแล้วสามารถนำมาใช้ทำความสะอาดชุดข้อมูลเพื่อฝึก LLM ต่อไปได้^{[ 29 ]}

ด้วยสัดส่วนของเนื้อหาที่สร้างโดย LLM บนเว็บที่เพิ่มมากขึ้น การทำความสะอาดข้อมูลในอนาคตอาจรวมถึงการกรองเนื้อหาดังกล่าว เนื้อหาที่สร้างโดย LLM อาจก่อให้เกิดปัญหาได้หากเนื้อหานั้นคล้ายกับข้อความที่เขียนโดยมนุษย์ (ทำให้การกรองทำได้ยาก) แต่มีคุณภาพต่ำกว่า (ทำให้ประสิทธิภาพของโมเดลที่ฝึกฝนลดลง) ^{[ 1 ]}

ข้อมูลสังเคราะห์

การฝึกฝนโมเดลภาษาขนาดใหญ่อาจต้องการข้อมูลทางภาษาศาสตร์มากกว่าที่มีอยู่ตามธรรมชาติ หรือข้อมูลที่มีอยู่ตามธรรมชาติอาจมีคุณภาพไม่เพียงพอ ในกรณีเหล่านี้ อาจใช้ข้อมูลสังเคราะห์แทน

การฝึกอบรม

LLM เป็นโมเดลพื้นฐาน ประเภทหนึ่ง (โมเดล X ขนาดใหญ่) ที่ฝึกฝนบนภาษา LLM สามารถฝึกฝนได้หลายวิธี โดยเฉพาะอย่างยิ่ง โมเดล GPT จะได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไปบนข้อมูลจำนวนมากก่อนที่จะปรับแต่ง^{[ 4 ]}

ค่าใช้จ่าย

จำเป็นต้องมีโครงสร้างพื้นฐานขนาดใหญ่สำหรับการฝึกฝนโมเดลขนาดใหญ่ แนวโน้มของการสร้างโมเดลขนาดใหญ่สามารถเห็นได้จากรายชื่อโมเดลภาษาขนาดใหญ่ตัวอย่างเช่น การฝึกฝน GPT-2 (โมเดลที่มีพารามิเตอร์ 1.5 พันล้านตัว) ในปี 2019 มีค่าใช้จ่าย 50,000 ดอลลาร์ ในขณะที่การฝึกฝนPaLM (โมเดลที่มีพารามิเตอร์ 540 พันล้านตัว) ในปี 2022 มีค่าใช้จ่าย 8 ล้านดอลลาร์ และ Megatron-Turing NLG 530B (ในปี 2021) มีค่าใช้จ่ายประมาณ 11 ล้านดอลลาร์ คำว่า "ขนาดใหญ่" ใน "โมเดลภาษาขนาดใหญ่" นั้นมีความคลุมเครือโดยเนื้อแท้ เนื่องจากไม่มีเกณฑ์ที่แน่นอนสำหรับจำนวนพารามิเตอร์ที่จำเป็นในการพิจารณาว่าเป็น "ขนาดใหญ่"

การปรับแต่งอย่างละเอียด

ก่อนที่จะได้รับการปรับแต่ง LLM ส่วนใหญ่จะเป็นตัวทำนายโทเค็นถัดไป^{[ 30 ]}การปรับแต่งจะกำหนดพฤติกรรมของ LLM ผ่านเทคนิคต่างๆ เช่นการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) หรือAI ตามรัฐธรรมนูญ^{[ 31 ]}

การปรับแต่งคำสั่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบมีผู้กำกับดูแลที่ใช้ในการสอน LLM ให้ปฏิบัติตามคำสั่งของผู้ใช้ ในปี 2022 OpenAI ได้สาธิตInstructGPTซึ่งเป็น GPT-3 เวอร์ชันหนึ่งที่ได้รับการปรับแต่งในลักษณะเดียวกันเพื่อปฏิบัติตามคำสั่ง^{[ 32 ]}

RLHF เกี่ยวข้องกับการฝึกโมเดลรางวัลเพื่อทำนายว่ามนุษย์ชอบข้อความใด จากนั้น LLM สามารถปรับแต่งได้อย่างละเอียดผ่านการเรียนรู้แบบเสริมแรงเพื่อให้ตรงกับโมเดลรางวัลนี้มากขึ้น เนื่องจากโดยทั่วไปมนุษย์มักชอบคำตอบที่ตรงไปตรงมา เป็นประโยชน์ และไม่เป็นอันตราย RLHF จึงสนับสนุนคำตอบประเภทดังกล่าว^{[ 33 ]}

สถาปัตยกรรม

โดยทั่วไป LLM จะอิงตาม สถาปัตยกรรม ทรานส์ฟอร์เมอร์ซึ่งใช้ กลไก ความสนใจที่ช่วยให้โมเดลสามารถประมวลผลความสัมพันธ์ระหว่างองค์ประกอบทั้งหมดในลำดับพร้อมกัน โดยไม่คำนึงถึงระยะห่างระหว่างกัน^{[ 13 ]}^{[ 34 ]} Peng et al. (2023) เสนอ โมเดล การแสดงพื้นที่สถานะเป็นทางเลือก^{[ 35 ]}

กลไกความสนใจและหน้าต่างบริบท

เพื่อค้นหาว่าโทเค็นใดมีความเกี่ยวข้องซึ่งกันและกันภายในขอบเขตของหน้าต่างบริบทกลไกความสนใจจะคำนวณน้ำหนัก "อ่อน" สำหรับแต่ละโทเค็น หรือกล่าวให้แม่นยำยิ่งขึ้นคือสำหรับการฝังตัว โดยใช้หัวความสนใจหลายหัว แต่ละหัวมี "ความเกี่ยวข้อง" ของตนเองในการคำนวณน้ำหนักอ่อนของตนเอง ตัวอย่างเช่น โมเดล GPT-2 ขนาดเล็ก (เช่น ขนาดพารามิเตอร์ 117 ล้านตัว) มีหัวความสนใจสิบสองหัวและหน้าต่างบริบทที่มีโทเค็นเพียง 1,000 โทเค็น^{[ 37 ]}

แบบจำลอง อัตถารีเกรสซีฟเช่นGPTได้รับการฝึกฝนให้เดาว่าลำดับจะดำเนินต่อไปอย่างไร ตัวอย่างเช่น ลำดับคำว่า "ฉันชอบกิน" มีแนวโน้มที่จะตามด้วยคำว่า "ขนมปัง" หรือคำว่า "หิน" มากกว่ากัน แบบ จำลองแบบปิดบังเช่น BERT ^{[ 38 ]}ได้รับการฝึกฝนให้เดาส่วนที่หายไปจากลำดับ เช่น คำที่หายไปใน "ฉันชอบ ___ กุหลาบ" มีแนวโน้มที่จะเป็นคำว่า "กลิ่น" หรือคำว่า "กิน" มากกว่ากัน การคาดการณ์ของแบบจำลองขึ้นอยู่กับคุณสมบัติของลำดับภายในชุดข้อมูลการฝึกอบรม^{[ 39 ]}

การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ (MoE) เป็น สถาปัตยกรรม การเรียนรู้ของเครื่องที่เครือข่ายประสาทเทียมเฉพาะทางหลายเครือข่าย ("ผู้เชี่ยวชาญ") ทำงานร่วมกัน โดยมีกลไกการควบคุมที่ส่งอินพุตแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสมที่สุด การผสมผสานของผู้เชี่ยวชาญสามารถลดต้นทุนการอนุมานได้ เนื่องจากมีการใช้พารามิเตอร์เพียงบางส่วนสำหรับอินพุตแต่ละรายการ^{[ 40 ]}

ขนาดพารามิเตอร์

โดยทั่วไป LLM จะได้รับการฝึกฝนด้วย ตัวเลขจุดลอยตัวความแม่นยำเดี่ยวหรือครึ่งความแม่นยำ(float32 และ float16) float16 หนึ่งตัวมี 16 บิต หรือ 2 ไบต์ ดังนั้นพารามิเตอร์หนึ่งพันล้านตัวจึงต้องการ 2 กิกะไบต์ โมเดลที่ใหญ่ที่สุดมักจะมีพารามิเตอร์มากกว่า 100 พันล้านตัว ซึ่งทำให้เกินขอบเขตของอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภคส่วนใหญ่^{[ 41 ]}

การหาปริมาณ

การควอนไทเซชันหลังการฝึกอบรม^{[ 42 ]}มีเป้าหมายเพื่อลดความต้องการพื้นที่โดยการลดความแม่นยำของพารามิเตอร์ของโมเดลที่ฝึกฝนแล้ว ในขณะที่ยังคงรักษาประสิทธิภาพส่วนใหญ่ไว้ การควอนไทเซชันสามารถจำแนกเพิ่มเติมได้เป็นการควอนไทเซชันแบบคงที่หากพารามิเตอร์การควอนไทเซชันถูกกำหนดไว้ล่วงหน้า (โดยทั่วไปในระหว่างขั้นตอนการปรับเทียบ) และการควอนไทเซชันแบบไดนามิกหากการควอนไทเซชันถูกนำไปใช้ในระหว่างการอนุมาน รูปแบบที่ง่ายที่สุดของการควอนไทเซชันจะตัดพารามิเตอร์ทั้งหมดให้เหลือจำนวนบิตที่กำหนด: วิธีนี้ใช้ได้กับการควอนไทเซชันทั้งแบบคงที่และแบบไดนามิก แต่จะสูญเสียความแม่นยำไปมาก การควอนไทเซชันแบบไดนามิกช่วยให้สามารถใช้โค้ดบุ๊ก การควอนไทเซชันที่แตกต่างกัน ต่อเลเยอร์ได้ ไม่ว่าจะเป็นตารางค้นหาค่าหรือการแมปเชิงเส้น (ปัจจัยการปรับขนาดและไบแอส) โดยแลกกับการละทิ้งการปรับปรุงความเร็วที่อาจเกิดขึ้นจากการใช้เลขคณิตที่มีความแม่นยำต่ำกว่า

สามารถปรับแต่งโมเดลควอนไทซ์ได้อย่างละเอียดโดยใช้ การปรับ ^ตัวลำดับต่ำ^[ 43 ^]

ความสามารถในการขยาย

นอกเหนือจากการสร้างข้อความพื้นฐานแล้ว ยังมีการพัฒนาเทคนิคต่างๆ เพื่อขยายขีดความสามารถของ LLM ซึ่งรวมถึงการใช้เครื่องมือและแหล่งข้อมูลภายนอก การให้เหตุผลที่ดีขึ้นสำหรับปัญหาที่ซับซ้อน และการเพิ่มประสิทธิภาพในการปฏิบัติตามคำแนะนำหรือความเป็นอิสระผ่านวิธีการกระตุ้นเตือน

วิศวกรรมด่วน

ในปี 2020 นักวิจัย ของ OpenAI ได้แสดงให้เห็นว่าโมเดล GPT-3ใหม่ของพวกเขาสามารถเข้าใจรูปแบบที่จะใช้ได้เมื่อได้รับคำถามและคำตอบ (หรือภารกิจประเภทอื่น) สองสามรอบในข้อมูลอินพุตเป็นตัวอย่าง ซึ่งส่วนหนึ่งเป็นผลมาจากเทคนิค RLHF เทคนิคนี้เรียกว่าfew-shot promptingซึ่งช่วยให้ LLM สามารถปรับให้เข้ากับภารกิจใด ๆ ได้โดยไม่ต้องปรับแต่ง^{[ 1 ]}นอกจากนี้ ในปี 2022 ยังพบว่าโมเดล GPT-3 พื้นฐานสามารถสร้างคำสั่งตามอินพุตของผู้ใช้ได้ คำสั่งที่สร้างขึ้นพร้อมกับอินพุตของผู้ใช้จะถูกใช้เป็นอินพุตสำหรับอินสแตนซ์อื่นของโมเดลในรูปแบบ "คำสั่ง: [...], อินพุต: [...], เอาต์พุต:" อินสแตนซ์อื่นสามารถดำเนินการเอาต์พุตให้เสร็จสมบูรณ์และมักจะสร้างคำตอบที่ถูกต้องในการทำเช่นนั้น ความสามารถในการ "สั่งการตนเอง" ทำให้ LLM สามารถเริ่มต้นตัวเองไปสู่คำตอบที่ถูกต้องได้^{[ 44 ]}

การประมวลผลบทสนทนา (แชทบอท)

LLM สามารถเปลี่ยนเป็นแชทบอทได้โดยการปรับแต่งให้เหมาะกับการสนทนา โดยผู้ใช้จะป้อนคำนำหน้าด้วยเครื่องหมาย เช่น "Q:" หรือ "User:" และ LLM จะถูกขอให้คาดการณ์ผลลัพธ์หลังจาก "A:" หรือ "Assistant:" ที่กำหนดไว้ โมเดลประเภทนี้เริ่มวางจำหน่ายในเชิงพาณิชย์ในปี 2022 ด้วย ChatGPT ซึ่งเป็นโมเดลที่พัฒนาต่อยอดจาก InstructGPT โดยปรับแต่งให้สามารถรับและสร้างข้อความในรูปแบบบทสนทนาตาม GPT-3.5 และสามารถทำตามคำสั่งของผู้ใช้ได้เช่นกัน ก่อนที่จะถึงบรรทัดของผู้ใช้และผู้ช่วย บริบทการสนทนามักจะเริ่มต้นด้วยคำสั่งโดยรวมสองสามบรรทัดจากบทบาทที่เรียกว่า "นักพัฒนา" หรือ "ระบบ" เพื่อแสดงถึงอำนาจที่สูงกว่าการป้อนข้อมูลของผู้ใช้ สิ่งนี้เรียกว่า "ข้อความแจ้งเตือนจากระบบ"

การสร้างที่เสริมด้วยการดึงข้อมูล

การสร้างผลลัพธ์ที่เสริมด้วยการดึงข้อมูล (RAG) เป็นแนวทางที่ผสาน LLM เข้ากับ ระบบ การดึงข้อมูลเอกสารเมื่อได้รับคำถาม ระบบจะเรียกใช้ตัวดึงข้อมูลเอกสารเพื่อดึงเอกสารที่เกี่ยวข้องมากที่สุด โดยปกติจะทำได้โดยการเข้ารหัสคำถามและเอกสารเป็นเวกเตอร์ จากนั้นค้นหาเอกสารที่มีเวกเตอร์ (โดยปกติจะจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ ) ที่คล้ายคลึงกับเวกเตอร์ของคำถามมากที่สุด จากนั้น LLM จะสร้างผลลัพธ์โดยอิงจากทั้งคำถามและบริบทที่รวมอยู่ในเอกสารที่ดึงมาได้^{[ 45 ]}

การใช้งานเครื่องมือ

การใช้เครื่องมือเป็นกลไกที่ช่วยให้ LLM สามารถโต้ตอบกับระบบภายนอก แอปพลิเคชัน หรือแหล่งข้อมูลได้ ตัวอย่างเช่น อาจช่วยให้ LLM สามารถดึงข้อมูลแบบเรียลไทม์จาก API หรือเรียกใช้โค้ดได้ โปรแกรมที่แยกจาก LLM จะเฝ้าดูสตรีมเอาต์พุตของ LLM สำหรับไวยากรณ์การเรียกใช้เครื่องมือพิเศษ เมื่อโทเค็นพิเศษเหล่านี้ปรากฏขึ้น โปรแกรมจะเรียกใช้เครื่องมือตามนั้นและส่งเอาต์พุตกลับไปยังสตรีมอินพุตของ LLM ^{[ 46 ]}

LLM ที่ใช้เครื่องมือในยุคแรกได้รับการปรับแต่งอย่างละเอียดในการใช้เครื่องมือเฉพาะ แต่การปรับแต่ง LLM ให้มีความสามารถในการอ่าน เอกสาร APIและเรียกใช้ API ได้อย่างถูกต้องได้ขยายขอบเขตของเครื่องมือที่ LLM สามารถเข้าถึงได้อย่างมาก^{[ 47 ]}^{[ 48 ]}

หน่วยงาน

โดยทั่วไป LLM ไม่ใช่ตัวแทนอิสระด้วยตัวมันเอง เนื่องจากขาดความสามารถในการโต้ตอบกับสภาพแวดล้อมแบบไดนามิก จดจำพฤติกรรมในอดีต และวางแผนการกระทำในอนาคต แต่สามารถเปลี่ยนเป็นตัวแทนได้โดยการเพิ่มองค์ประกอบสนับสนุน: บทบาท (โปรไฟล์) และสภาพแวดล้อมโดยรอบของตัวแทนสามารถเป็นอินพุตเพิ่มเติมให้กับ LLM ในขณะที่หน่วยความจำสามารถรวมเข้าเป็นเครื่องมือหรือจัดหาเป็นอินพุตเพิ่มเติมได้ คำสั่งและรูปแบบอินพุตใช้เพื่อให้ LLM วางแผนการกระทำ และการใช้เครื่องมือใช้เพื่อดำเนินการตามการกระทำเหล่านั้น^{[ 49 ]}

ในวิธีการ DEPS (“อธิบาย อธิบาย วางแผน และเลือก”) LLM จะเชื่อมต่อกับโลกภาพผ่านคำอธิบายภาพก่อน จากนั้นจึงกระตุ้นให้สร้างแผนสำหรับงานและพฤติกรรมที่ซับซ้อนโดยอาศัยความรู้ที่ได้รับการฝึกฝนล่วงหน้าและผลตอบรับจากสภาพแวดล้อมที่ได้รับ^{[ 50 ]}

วิธีการสะท้อนกลับสร้างตัวแทนที่เรียนรู้ผ่านหลายตอน ในตอนท้ายของแต่ละตอน LLM จะได้รับบันทึกของตอนนั้น และได้รับการกระตุ้นให้คิดถึง "บทเรียนที่ได้เรียนรู้" ซึ่งจะช่วยให้มันทำงานได้ดีขึ้นในตอนถัดไป "บทเรียนที่ได้เรียนรู้" เหล่านี้จะถูกจัดเก็บในรูปแบบของหน่วยความจำระยะยาวและมอบให้กับตัวแทนในตอนถัดไป^{[ 51 ]}

การค้นหาต้นไม้แบบมอนเตคาร์โลสามารถใช้ LLM เป็นฮิวริสติกในการดำเนินการได้ เมื่อไม่มีแบบจำลองโลกแบบโปรแกรม LLM ก็สามารถเรียกใช้พร้อมคำอธิบายของสภาพแวดล้อมเพื่อทำหน้าที่เป็นแบบจำลองโลกได้เช่นกัน^{[ 52 ]}

ตัวแทนหลายตัวที่มีหน่วยความจำสามารถโต้ตอบทางสังคมได้^{[ 53 ]}

การเชื่อมโยง

การเชื่อมโยงคำสั่งได้รับการแนะนำในปี 2022 ^{[ 54 ]}ในวิธีนี้ ผู้ใช้จะแบ่งปัญหาที่ซับซ้อนออกเป็นหลายขั้นตอนด้วยตนเอง ในแต่ละขั้นตอน LLM จะได้รับคำสั่งเป็นอินพุตที่บอกให้มันทำอะไร และผลลัพธ์บางส่วนจากขั้นตอนก่อนหน้า จากนั้นผลลัพธ์จากขั้นตอนหนึ่งจะถูกนำกลับมาใช้ใหม่ในขั้นตอนถัดไป จนกว่าจะได้คำตอบสุดท้าย ความสามารถของ LLM ในการปฏิบัติตามคำแนะนำหมายความว่าแม้แต่ผู้ที่ไม่ใช่ผู้เชี่ยวชาญก็สามารถเขียนชุดคำสั่งทีละขั้นตอนที่ประสบความสำเร็จได้ด้วยการลองผิดลองถูกเพียงไม่กี่รอบ^{[ 55 ]}^{[ 56 ]}

เอกสารปี 2022 แสดงให้เห็นเทคนิคแยกต่างหากที่เรียกว่าการกระตุ้นความคิดแบบเป็นลำดับขั้นซึ่งทำให้ LLM สามารถแยกคำถามออกเป็นส่วนๆ ได้อย่างอิสระ LLM จะได้รับตัวอย่างบางส่วนที่ "ผู้ช่วย" อธิบายกระบวนการคิดด้วยวาจา ก่อนที่จะได้คำตอบ LLM จะเลียนแบบตัวอย่างเหล่านี้ และพยายามใช้เวลาในการสร้างขั้นตอนระหว่างกลางก่อนที่จะให้คำตอบสุดท้าย ขั้นตอนเพิ่มเติมนี้ที่เกิดจากการกระตุ้นจะช่วยปรับปรุงความถูกต้องของ LLM ในคำถามที่ค่อนข้างซับซ้อน ในคำถามคณิตศาสตร์ โมเดลที่ได้รับการกระตุ้นสามารถทำได้ดีกว่า GPT-3 ที่ปรับแต่งอย่างละเอียดพร้อมตัวตรวจสอบ^{[ 57 ]}^{[ 58 ]}การกระตุ้นความคิดแบบเป็นลำดับขั้นยังสามารถเกิดขึ้นได้โดยการเพิ่มคำแนะนำ เช่น "มาคิดทีละขั้นตอนกันเถอะ" ลงในการกระตุ้น เพื่อกระตุ้นให้ LLM ดำเนินการอย่างเป็นระบบแทนที่จะพยายามเดาคำตอบโดยตรง^{[ 59 ]}

การให้เหตุผลตามแบบจำลองดั้งเดิม

ในช่วงปลายปี 2024 แนวทางใหม่ในการพัฒนา LLM ได้เกิดขึ้นพร้อมกับ "แบบจำลองการให้เหตุผล" ^{[ 60 ]} แบบจำลอง เหล่านี้ได้รับการฝึกฝนให้สร้างการวิเคราะห์ทีละขั้นตอนก่อนที่จะสร้างคำตอบสุดท้าย ซึ่งช่วยให้ได้ผลลัพธ์ที่ดีขึ้นในงานที่ซับซ้อน เช่น คณิตศาสตร์ การเขียนโค้ด และตรรกะ^{[ 61 ]} OpenAI ได้นำแนวคิดนี้มาใช้กับ แบบจำลอง o1ในเดือนกันยายน 2024 ตามด้วยo3ในเดือนเมษายน 2025 ในข้อสอบคัดเลือกโอลิมปิกคณิตศาสตร์นานาชาติ GPT-4oมีความแม่นยำ 13% ในขณะที่ o1 มีความแม่นยำ 83% ^{[ 62 ]}

ในเดือนมกราคม พ.ศ. 2568 บริษัทDeepSeek ของจีน ได้เปิดตัว DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลแบบน้ำหนักเปิดที่มีพารามิเตอร์ 671 พันล้านตัว ซึ่งมีประสิทธิภาพเทียบเท่ากับ o1 ของ OpenAI ในขณะที่มีต้นทุนการดำเนินงานที่คุ้มค่ากว่ามาก ต่างจากโมเดลที่เป็นกรรมสิทธิ์ของ OpenAI ลักษณะน้ำหนักเปิดของ DeepSeek-R1 ทำให้นักวิจัยสามารถศึกษาและต่อยอดอัลกอริทึมได้ แม้ว่าข้อมูลการฝึกอบรมจะยังคงเป็นส่วนตัวก็ตาม^{[ 63 ]}

โดยทั่วไปแล้วโมเดลการให้เหตุผลเหล่านี้ต้องการทรัพยากรการคำนวณต่อการสอบถามมากกว่า LLM แบบดั้งเดิม เนื่องจากต้องดำเนินการประมวลผลที่ครอบคลุมมากขึ้นเพื่อแก้ปัญหาทีละขั้นตอน^{[ 62 ]}

รูปแบบของข้อมูลเข้าและข้อมูลออก

มัลติโมดัลลิตี้

มัลติโมดัลลิตี้ หมายถึงการมีหลายโมดัลลิตี้ โดยที่ " โมดัลลิตี้ " หมายถึงประเภทของอินพุตหรือเอาต์พุต เช่น วิดีโอ รูปภาพ เสียง ข้อความการรับรู้ตำแหน่งของร่างกายเป็นต้น^{[ 64 ]}ตัวอย่างเช่น โมเดล Google PaLMได้รับการปรับแต่งให้เป็นโมเดลมัลติโมดัลและนำไปใช้ในการควบคุมหุ่นยนต์ [ ^{65 ] โมเดล} LLaMAก็ได้รับการเปลี่ยนให้เป็นมัลติโมดัลโดยใช้วิธีการโทเคไนเซชัน เพื่อให้สามารถป้อนภาพ^{[ 66 ]}และวิดีโอได้^{[ 67 ]} GPT-4oสามารถประมวลผลและสร้างข้อความ เสียง และรูปภาพได้^{[ 68 ]}

วิธีการทั่วไปในการสร้างโมเดลมัลติโมดอลจาก LLM คือการ "แยกโทเค็น" เอาต์พุตของตัวเข้ารหัสที่ได้รับการฝึกฝน กล่าวคือ เราสามารถสร้าง LLM ที่สามารถเข้าใจภาพได้ดังนี้: นำ LLM ที่ได้รับการฝึกฝนและตัวเข้ารหัสภาพที่ได้รับการฝึกฝนมาสร้างเพอร์เซปตรอนหลายชั้นขนาด เล็ก เพื่อให้สำหรับภาพใดๆเวกเตอร์ที่ประมวลผลภายหลังจะมีมิติเท่ากับโทเค็นที่เข้ารหัส นั่นคือ "โทเค็นภาพ" จากนั้น เราสามารถสลับโทเค็นข้อความและโทเค็นภาพได้ โมเดลแบบผสมจะได้รับการปรับแต่งอย่างละเอียดบนชุดข้อมูลภาพและข้อความ โครงสร้างพื้นฐานนี้สามารถนำไปใช้กับความซับซ้อนที่มากขึ้นเพื่อปรับปรุงโมเดล ตัวเข้ารหัสภาพอาจถูกตรึงไว้เพื่อปรับปรุงความเสถียร^[⁶⁹^]วิธีการประเภทนี้ ซึ่งมีการรวมการฝังจากหลายโมดาลิตี้และตัวทำนายได้รับการฝึกฝนบนการฝังที่รวมกัน เรียกว่า การรวม แบบ เร็ว $E$ $f$ $y$ $f(E(y))$

อีกวิธีหนึ่งที่เรียกว่าการหลอมรวมระดับกลางเกี่ยวข้องกับการประมวลผลแต่ละรูปแบบแยกกันก่อนเพื่อให้ได้ตัวแทนเฉพาะรูปแบบ จากนั้นตัวแทนระดับกลางเหล่านี้จะถูกหลอมรวมเข้าด้วยกัน^{[ 70 ]}โดยทั่วไปแล้ว ความสนใจแบบไขว้จะใช้สำหรับการบูรณาการข้อมูลจากรูปแบบต่างๆ ตัวอย่างเช่น โมเดล Flamingo ใช้เลเยอร์ความสนใจแบบไขว้เพื่อแทรกข้อมูลภาพเข้าไปในโมเดลภาษาที่ฝึกฝนไว้ล่วงหน้า^{[ 71 ]}

ภาษาที่ไม่เป็นธรรมชาติ

LLM สามารถจัดการภาษาโปรแกรมได้ในลักษณะเดียวกับที่จัดการภาษาธรรมชาติ ไม่จำเป็นต้องเปลี่ยนแปลงการจัดการโทเค็นเป็นพิเศษ เนื่องจากโค้ด เช่นเดียวกับภาษามนุษย์ ถูกแสดงเป็นข้อความธรรมดา LLM สามารถสร้างโค้ดตามปัญหาหรือคำแนะนำที่เขียนด้วยภาษาธรรมชาติได้ นอกจากนี้ยังสามารถอธิบายโค้ดในภาษาธรรมชาติหรือแปลเป็นภาษาโปรแกรมอื่นได้ เดิมที LLM ถูกใช้เป็น เครื่องมือ ช่วยเติมโค้ดแต่ความก้าวหน้าทำให้ LLM พัฒนาไปสู่การเขียนโปรแกรมอัตโนมัติบริการต่างๆ เช่นGitHub Copilotนำเสนอ LLM ที่ได้รับการฝึกฝน ปรับแต่ง หรือตั้งคำถามสำหรับการเขียนโปรแกรมโดยเฉพาะ^{[ 72 ]}^{[ 73 ]}

ในชีววิทยาเชิงคำนวณ สถาปัตยกรรมแบบทรานส์ฟอร์เมอร์ เช่น DNA LLM ได้พิสูจน์แล้วว่ามีประโยชน์ในการวิเคราะห์ลำดับทางชีวภาพ ได้แก่โปรตีน DNAและRNAสำหรับโปรตีนนั้น ดูเหมือนว่าจะสามารถจับ "ไวยากรณ์" ในระดับหนึ่งจากลำดับกรดอะมิโนได้ โดยการแมปลำดับนั้นลงในฝังตัวในงานต่างๆ เช่นการทำนายโครงสร้างและการ ทำนายผลลัพธ์ของ การกลายพันธุ์โมเดลขนาดเล็กที่ใช้ฝังตัวเป็นอินพุตสามารถเข้าใกล้หรือเหนือกว่าโมเดลขนาดใหญ่กว่ามากที่ใช้การจัดเรียงลำดับหลายลำดับ (MSA) เป็นอินพุต^{[ 74 ]} ESMFold ซึ่ง เป็นวิธีการแบบฝังตัวของ Meta Platforms สำหรับการทำนายโครงสร้างโปรตีน ทำงานได้เร็วกว่า AlphaFold2ถึงหนึ่งลำดับความแรงเนื่องจากการกำจัดข้อกำหนด MSA และจำนวนพารามิเตอร์ที่น้อยลงเนื่องจากการใช้ฝังตัว^{[ 75 ]} Meta เป็นเจ้าของ ESM Atlas ซึ่งเป็นฐานข้อมูลโครงสร้างโปรตีน เมตาจีโนมิก 772 ล้านโครงสร้างที่ทำนายโดยใช้ ESMFold ^{[ 76 ]} LLM ยังสามารถออกแบบโปรตีนที่แตกต่างจากที่พบในธรรมชาติได้อีกด้วย^{[ 77 ] แบบจำลองกรดนิวคลีอิกได้รับการพิสูจน์แล้ว}^ว่ามีประโยชน์ในการตรวจจับลำดับควบคุม [ ⁷⁸^]การจำแนกลำดับ การทำนายปฏิสัมพันธ์ RNA-RNA และการทำนายโครงสร้าง RNA ^[⁷⁹^]

คุณสมบัติ

กฎการปรับขนาด

ผลการปฏิบัติงานของ LLM หลังจากการฝึกอบรมเบื้องต้นนั้นขึ้นอยู่กับปัจจัยหลายประการ ได้แก่:

$C$ : ค่าใช้จ่ายในการฝึกฝนล่วงหน้า (ปริมาณการประมวลผลทั้งหมดที่ใช้ไป)
$N$ ขนาดของโครงข่ายประสาทเทียมเอง เช่น จำนวนพารามิเตอร์ (เช่น จำนวนเซลล์ประสาทในแต่ละชั้น จำนวนน้ำหนักระหว่างเซลล์ประสาท และค่าไบแอส)
$D$ : ขนาดของชุดข้อมูลฝึกฝนเบื้องต้น (เช่น จำนวนโทเค็นในคลังข้อมูล)

กฎการปรับขนาดเป็นกฎทางสถิติเชิงประจักษ์ที่ทำนายประสิทธิภาพของ LLM โดยอาศัยปัจจัยดังกล่าว กฎการปรับขนาดเฉพาะหนึ่งข้อ (" การปรับขนาดชินชิลลา ") สำหรับ LLM ที่ฝึกฝนแบบอัตถารีเกรสซีฟเป็นเวลาหนึ่งรอบ โดยใช้ ตาราง อัตราการเรียนรู้แบบลอการิทึม ระบุว่า: ^[⁸⁰^]โดยที่ตัวแปรคือ ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

$C$ คือต้นทุนในการฝึกฝนโมเดล ในหน่วย FLOPs
$N$ คือจำนวนพารามิเตอร์ในแบบจำลอง
$D$ คือจำนวนโทเค็นในชุดข้อมูลฝึกฝน
$L$ คือค่าเฉลี่ยของการสูญเสียลอการิทึมความน่าจะเป็นเชิงลบต่อโทเค็น ( nats /token) ที่ได้จาก LLM ที่ได้รับการฝึกฝนบนชุดข้อมูลทดสอบ

และพารามิเตอร์ทางสถิติขั้นสูงคือ

$C_{0}=6$ ซึ่งหมายความว่าต้องใช้ FLOPs 6 หน่วยต่อพารามิเตอร์ในการฝึกฝนโมเดลกับโทเค็นหนึ่งตัว โปรดทราบว่าต้นทุนการฝึกฝนนั้นสูงกว่าต้นทุนการอนุมานมาก ซึ่งใช้ FLOPs เพียง 1 ถึง 2 หน่วยต่อพารามิเตอร์ในการอนุมานกับโทเค็นหนึ่งตัว
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

ความสามารถที่เกิดขึ้นใหม่

เมื่อพล็อตประสิทธิภาพของโมเดลขนาดใหญ่ขึ้นในงานต่างๆ บนมาตราส่วนลอการิทึมคู่ จะปรากฏเป็นการประมาณค่าเชิงเส้นของประสิทธิภาพที่โมเดลขนาดเล็กกว่าทำได้ อย่างไรก็ตาม ความเป็นเส้นตรงนี้อาจถูกขัดจังหวะด้วย " การหยุดชะงัก " ^{[ 81 ]}ในกฎการปรับขนาด ซึ่งความชันของเส้นจะเปลี่ยนไปอย่างกะทันหัน และโมเดลขนาดใหญ่จะได้รับ "ความสามารถที่เกิดขึ้นใหม่" ^{[ 82 ]}ซึ่งเกิดขึ้นจากปฏิสัมพันธ์ที่ซับซ้อนของส่วนประกอบของโมเดล และไม่ได้ถูกตั้งโปรแกรมหรือออกแบบไว้อย่างชัดเจน^{[ 83 ]}

ตัวอย่างที่เสนอของความสามารถที่เกิดขึ้นใหม่ ได้แก่: ^{[ 82 ]}

รายงานเลขคณิต
การถอดรหัสอักษรเสียงสากล
การเรียงตัวอักษรของคำใหม่
ชุดข้อมูลการแยกความหมายของคำในบริบท^{[ 84 ]}
การแปลงคำศัพท์เชิงพื้นที่
ทิศหลัก (เช่น ตอบว่า "ทิศตะวันออกเฉียงเหนือ" เมื่อตอบสนองต่อตาราง 3x3 ที่มีเลขศูนย์ 8 ตัวและเลข 1 อยู่ที่มุมบนขวา) คำศัพท์สีที่แสดงในข้อความ^{[ 85 ]}
การกระตุ้นตามลำดับความคิด : ในงานวิจัยปี 2022 การกระตุ้นตามลำดับความคิดช่วยปรับปรุงประสิทธิภาพเฉพาะโมเดลที่มีพารามิเตอร์อย่างน้อย 62B เท่านั้น โมเดลขนาดเล็กกว่าจะมีประสิทธิภาพดีกว่าเมื่อได้รับคำแนะนำให้ตอบทันทีโดยไม่มีลำดับความคิด^{[ 86 ]}
การระบุเนื้อหาที่ไม่เหมาะสมในย่อหน้าของฮิงลิช (การผสมผสานระหว่างภาษาฮินดีและภาษาอังกฤษ) และการสร้างคำเทียบเท่าภาษาอังกฤษที่คล้ายคลึงกันของสุภาษิตคิสวาฮิลี^{[ 87 ]}

Schaeffer และคณะโต้แย้งว่าความสามารถที่เกิดขึ้นใหม่ไม่ได้ถูกเรียนรู้โดยไม่สามารถคาดเดาได้ แต่เรียนรู้โดยคาดเดาได้ตามกฎการปรับขนาดที่ราบรื่นผู้เขียนพิจารณาแบบจำลองทางสถิติแบบง่ายๆ ของ LLM ที่แก้ปัญหาคำถามแบบปรนัย และแสดงให้เห็นว่าแบบจำลองทางสถิตินี้ เมื่อปรับเปลี่ยนเพื่ออธิบายงานประเภทอื่นๆ ก็สามารถนำไปใช้กับงานเหล่านี้ได้เช่นกัน^{[ 88 ]}

ให้เป็นจำนวนพารามิเตอร์ และเป็นประสิทธิภาพของแบบจำลอง $x$ $y$

เมื่อแล้วจะเป็นเส้นโค้งเลขชี้กำลัง (ก่อนที่จะถึงจุดคงที่ที่หนึ่ง) ซึ่งดูเหมือนการเกิดขึ้นใหม่ $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
เมื่อถึงจุดนั้นกราฟจะเป็นเส้นตรง (ก่อนที่จะถึงจุดคงที่ที่ศูนย์) ซึ่งดูไม่เหมือนปรากฏการณ์การเกิดขึ้นใหม่ $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
เมื่อนั้นจะเป็นฟังก์ชันขั้นบันได ซึ่งดูเหมือนการเกิดขึ้นใหม่ $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

การตีความ

ความสามารถในการตีความเชิงกลไก

การตีความเชิงกลไกมุ่งที่จะระบุและทำความเข้าใจอย่างแม่นยำว่าเซลล์ประสาทหรือวงจร แต่ละส่วน ภายในแบบจำลองระดับโมเลกุล (LLM) สร้างพฤติกรรมหรือผลลัพธ์เฉพาะได้อย่างไร โดยการวิเคราะห์ย้อนกลับส่วนประกอบของแบบจำลองในระดับละเอียด นักวิจัยมุ่งหวังที่จะตรวจจับและลดความกังวลด้านความปลอดภัย เช่น พฤติกรรมที่เป็นอันตรายที่เกิดขึ้นใหม่ อคติ การหลอกลวง หรือการแสวงหาเป้าหมายที่ไม่ตั้งใจ ก่อนการใช้งานจริง การวิจัยเกี่ยวกับการตีความเชิงกลไกได้ดำเนินการในองค์กรต่างๆ เช่น Anthropic และ OpenAI แม้ว่าการทำความเข้าใจการทำงานภายในของ LLM ยังคงเป็นเรื่องยากอยู่ก็ตาม

การวิศวกรรมย้อนกลับอาจนำไปสู่การค้นพบอัลกอริธึมที่ประมาณการอนุมานที่ดำเนินการโดย LLM ตัวอย่างเช่น ผู้เขียนฝึกทรานส์ฟอร์เมอร์ขนาดเล็กในการบวกเลขคณิตแบบโมดูลาร์ โมเดลที่ได้ถูกวิศวกรรมย้อนกลับ และปรากฏว่าพวกมันใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง [ ^{89 ] การ}ฝึกโมเดลยังเน้นปรากฏการณ์ที่เรียกว่าgrokkingซึ่งโมเดลจะจดจำชุดข้อมูลการฝึกในตอนแรก ( overfitting ) และต่อมาก็เรียนรู้ที่จะทำการคำนวณจริง ๆ ได้ทันที^{[ 90 ]}

ความเข้าใจและสติปัญญา

นักวิจัย NLP มีความเห็นแตกออกเป็นสองฝ่ายเท่าๆ กัน เมื่อถูกถามในแบบสำรวจปี 2022 ว่า LLM (ที่ยังไม่ได้ปรับแต่ง) "สามารถเข้าใจภาษาธรรมชาติในแง่ที่ไม่ธรรมดาได้หรือไม่" ^{[ 91 ]}ผู้สนับสนุน "การเข้าใจ LLM" เชื่อว่าความสามารถ LLM บางอย่าง เช่น การให้เหตุผลทางคณิตศาสตร์ บ่งบอกถึงความสามารถในการ"เข้าใจ"แนวคิดบางอย่าง ทีมงานของ Microsoft โต้แย้งในปี 2023 ว่า GPT-4 "สามารถแก้ปัญหาที่แปลกใหม่และยากลำบากซึ่งครอบคลุมคณิตศาสตร์ การเขียนโค้ด การมองเห็น การแพทย์ กฎหมาย จิตวิทยา และอื่นๆ" และ GPT-4 "สามารถมองได้อย่างสมเหตุสมผลว่าเป็นเวอร์ชันเริ่มต้น (แต่ยังไม่สมบูรณ์) ของ ระบบ ปัญญาประดิษฐ์ทั่วไป ": "เราสามารถพูดได้อย่างสมเหตุสมผลหรือไม่ว่าระบบที่ผ่านการสอบสำหรับผู้สมัครวิศวกรรมซอฟต์แวร์นั้นไม่ ฉลาด จริงๆ ?" ^{[ 92 ]}^{[ 93 ]} Ilya Sutskeverโต้แย้งว่าการทำนายคำถัดไปบางครั้งเกี่ยวข้องกับการใช้เหตุผลและความเข้าใจอย่างลึกซึ้ง ตัวอย่างเช่น หาก LLM ต้องทำนายชื่อของอาชญากรในนิยายสืบสวนที่ไม่รู้จักหลังจากประมวลผลเรื่องราวทั้งหมดจนนำไปสู่การเปิดเผย^{[ 94 ]}นักวิจัยบางคนอธิบาย LLM ว่าเป็น "สติปัญญาต่างดาว" ^{[ 95 ]}^{[ 96 ]}ตัวอย่างเช่นConnor Leahy ซีอีโอของ Conjecture ถือว่า LLM ที่ไม่ได้ปรับแต่งนั้นเหมือนกับ " Shoggoths " ต่างดาวที่เข้าใจยาก และเชื่อว่าการปรับแต่ง RLHF สร้าง "หน้ากากแห่งรอยยิ้ม" ที่บดบังการทำงานภายในของ LLM: "ถ้าคุณไม่ผลักดันมันมากเกินไป ใบหน้าที่ยิ้มแย้มก็จะยังคงอยู่ แต่เมื่อคุณให้คำสั่ง [ที่ไม่คาดคิด] แก่มัน ทันใดนั้นคุณก็จะเห็นความบ้าคลั่งอันใหญ่หลวง กระบวนการคิดที่แปลกประหลาด และความเข้าใจที่ไม่ใช่มนุษย์อย่างชัดเจน" ^{[ 97 ]}^{[ 98 ]}

ในทางตรงกันข้าม นักวิจารณ์บางคนเกี่ยวกับความเข้าใจ LLM เชื่อว่า LLM ที่มีอยู่เป็นเพียง "การนำงานเขียนที่มีอยู่มาผสมผสานและรวมเข้าด้วยกันใหม่" ^{[ 96 ]}^{[ 99 ]}ซึ่งเป็นปรากฏการณ์ที่เรียกว่านกแก้วสุ่ม [ ¹⁰⁰^]หรือพวกเขาชี้ให้เห็นถึงข้อบกพร่องที่ LLM ที่มีอยู่ยังคงมีอยู่ในทักษะการทำนาย ทักษะการให้เหตุผล ความสามารถในการกระทำ และความสามารถในการอธิบาย^[^{91 ] ตัวอย่าง}เช่น GPT-4 มีข้อบกพร่องโดยธรรมชาติในการวางแผนและการเรียนรู้แบบเรียลไทม์^{[ 93 ]}มีการสังเกตว่า LLM แบบสร้างข้อมูลสามารถยืนยันข้อเท็จจริงได้อย่างมั่นใจ ซึ่งดูเหมือนจะไม่ได้รับการสนับสนุนจากข้อมูลการฝึกอบรมซึ่งเป็นปรากฏการณ์ที่เรียกว่า " ภาพหลอน " ^{[ 101 ]}โดยเฉพาะอย่างยิ่ง ภาพหลอนในบริบทของ LLM สอดคล้องกับการสร้างข้อความหรือคำตอบที่ดูเหมือนจะถูกต้องตามหลักไวยากรณ์ คล่องแคล่ว และเป็นธรรมชาติ แต่ไม่ถูกต้องตามข้อเท็จจริง ไร้สาระ หรือไม่สอดคล้องกับข้อมูลป้อนเข้าที่ให้มา^{[ 102 ]}นักประสาทวิทยาศาสตร์Terrence Sejnowskiได้โต้แย้งว่า "ความคิดเห็นที่แตกต่างกันของผู้เชี่ยวชาญเกี่ยวกับสติปัญญาของ LLM ชี้ให้เห็นว่าแนวคิดเก่าของเราที่อิงตามสติปัญญาตามธรรมชาตินั้นไม่เพียงพอ" ^{[ 91 ]}

ความพยายามในการลดหรือชดเชยอาการประสาทหลอนได้ใช้การให้เหตุผลอัตโนมัติการสร้างที่เสริมการดึงข้อมูล (RAG) การปรับแต่งอย่างละเอียดและวิธีการอื่นๆ^{[ 103 ]}

ประเด็นเรื่องการแสดงออกถึงสติปัญญาหรือความเข้าใจของ LLM นั้นมีสองด้านหลักๆ คือ ด้านแรกคือวิธีการสร้างแบบจำลองความคิดและภาษาในระบบคอมพิวเตอร์ และด้านที่สองคือวิธีการทำให้ระบบคอมพิวเตอร์สามารถสร้างภาษาที่เหมือนมนุษย์ได้^{[ 91 ]}แง่มุมเหล่านี้ของภาษาในฐานะแบบจำลองของการรับรู้ได้รับการพัฒนาในสาขาภาษาศาสตร์เชิงปัญญานักภาษาศาสตร์ชาวอเมริกันGeorge Lakoffได้นำเสนอทฤษฎีประสาทของภาษา (NTL) ^{[ 104 ]}เป็นพื้นฐานการคำนวณสำหรับการใช้ภาษาเป็นแบบจำลองของงานการเรียนรู้และความเข้าใจแบบจำลอง NTLอธิบายว่าโครงสร้างประสาทเฉพาะของสมองมนุษย์มีส่วนกำหนดลักษณะของความคิดและภาษาอย่างไร และในทางกลับกัน คุณสมบัติการคำนวณของระบบประสาทดังกล่าวที่สามารถนำมาใช้สร้างแบบจำลองความคิดและภาษาในระบบคอมพิวเตอร์คืออะไร หลังจากที่ได้มีการสร้างกรอบการทำงานสำหรับการสร้างแบบจำลองภาษาในระบบคอมพิวเตอร์แล้ว จุดสนใจก็เปลี่ยนไปเป็นการสร้างกรอบการทำงานสำหรับระบบคอมพิวเตอร์เพื่อสร้างภาษาที่มีไวยากรณ์ที่ยอมรับได้ ในหนังสือของเขาในปี 2014 ที่ชื่อว่าThe Language Myth: Why Language Is Not An Instinctนักภาษาศาสตร์เชิงปัญญาชาวอังกฤษและนักเทคโนโลยีการสื่อสารดิจิทัลVyvyan Evansได้อธิบายบทบาทของไวยากรณ์แบบไร้บริบทเชิงความน่าจะเป็น (PCFG) ในการทำให้NLP สามารถจำลองรูปแบบการรับรู้และสร้างภาษาที่เหมือนมนุษย์ได้^{[ 105 ]}^{[ 106 ]}

การประเมิน

ความสับสน

มาตรวัดมาตรฐานของประสิทธิภาพแบบจำลองภาษาใดๆ คือค่าความซับซ้อน (perplexity)บนชุดข้อความที่กำหนด ค่าความซับซ้อนวัดว่าแบบจำลองทำนายเนื้อหาของชุดข้อมูลได้ดีเพียงใด ยิ่งแบบจำลองกำหนดความน่าจะเป็นให้กับชุดข้อมูลสูงเท่าใด ค่าความซับซ้อนก็จะยิ่งต่ำลงเท่านั้น ในทางคณิตศาสตร์ ค่าความซับซ้อนคือเลขชี้กำลังของค่าเฉลี่ยลบของลอการิทึมความน่าจะเป็นต่อโทเค็น

$\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$

ในที่นี้คือจำนวนโทเค็นในคลังข้อความ และ "บริบทสำหรับโทเค็น" ขึ้นอยู่กับประเภทเฉพาะของ LLM หาก LLM เป็นแบบอัตถารีเกรสซีฟ "บริบทสำหรับโทเค็น" คือส่วนของข้อความที่ปรากฏก่อนโทเค็นนั้นหาก LLM เป็นแบบปิดบัง "บริบทสำหรับโทเค็น" คือส่วนของข้อความที่อยู่รอบโทเค็นนั้น $N$ $i$ $i$ $i$ $i$ $i$

เนื่องจากแบบจำลองภาษาอาจเกิดการโอเวอร์ฟิตกับข้อมูลการฝึกอบรม แบบจำลองจึงมักได้รับการประเมินโดยใช้ค่าความซับซ้อนของแบบจำลองในชุดทดสอบ^{[ 38 ]} การประเมินนี้อาจเป็นปัญหาสำหรับแบบจำลองขนาดใหญ่ ซึ่งเมื่อได้รับการฝึกฝนบนคลังข้อความขนาดใหญ่ขึ้น เรื่อยๆ ก็มีแนวโน้มที่จะรวมส่วนต่างๆ ของชุดทดสอบใดๆ โดยไม่ตั้งใจมากขึ้น^{[ 107 ]}

มาตรการ

ในทฤษฎีสารสนเทศแนวคิดเรื่องเอนโทรปีมีความเชื่อมโยงอย่างซับซ้อนกับความยุ่งยาก ซึ่งเป็นความสัมพันธ์ที่Claude Shannonได้ สร้างขึ้นอย่างชัดเจน ^{[ 108 ]}

เนื่องจากความสามารถในการทำนายโทเค็นถัดไปได้อย่างแม่นยำ LLM จึงมีความสามารถสูงในการบีบอัดแบบไม่สูญเสียข้อมูล การศึกษาในปี 2023 โดย DeepMind แสดงให้เห็นว่าโมเดลChinchillaแม้ว่าจะได้รับการฝึกฝนโดยใช้ข้อความเป็นหลัก ก็สามารถบีบอัดImageNetให้เหลือเพียง 43% ของขนาดเดิม ซึ่งดีกว่า PNG ที่บีบอัดได้ถึง 58% ^{[ 109 ]}

เกณฑ์มาตรฐาน

เกณฑ์มาตรฐานใช้เพื่อประเมินประสิทธิภาพของ LLM ในงานเฉพาะด้าน การทดสอบจะประเมินความสามารถต่างๆ เช่น ความรู้ทั่วไป อคติการใช้เหตุผลอย่างมีวิจารณญาณการตอบคำถาม และการแก้ปัญหาทางคณิตศาสตร์ เกณฑ์มาตรฐานแบบผสมผสานจะตรวจสอบความสามารถหลายด้าน ผลลัพธ์มักมีความอ่อนไหวต่อวิธีการชี้นำ

อคติ LLM อาจได้รับการประเมินผ่านเกณฑ์มาตรฐาน เช่น CrowS-Pairs (Crowdsourced Stereotype Pairs) ^{[ 110 ]} Stereo Set ^{[ 111 ]}และ Parity Benchmark ^{[ 112 ]}

มีเกณฑ์มาตรฐานสำหรับการตรวจสอบข้อเท็จจริงและการตรวจจับข้อมูลเท็จ การศึกษาในปี 2023 ได้เปรียบเทียบความแม่นยำในการตรวจสอบข้อเท็จจริงของ LLM รวมถึง ChatGPT 3.5 และ 4.0, Bard และ Bing AI กับผู้ตรวจสอบข้อเท็จจริงอิสระ เช่นPolitiFactและSnopesผลลัพธ์แสดงให้เห็นถึงความเชี่ยวชาญในระดับปานกลาง โดย GPT-4 มีความแม่นยำสูงสุดที่ 71% ซึ่งยังตามหลังผู้ตรวจสอบข้อเท็จจริงที่เป็นมนุษย์^{[ 113 ]}

นอกเหนือจากเกณฑ์มาตรฐาน NLP แล้ว LLM ยังได้รับการประเมินว่าสามารถใช้แทนผู้ให้คำอธิบายที่เป็นมนุษย์ได้ การศึกษาหลายชิ้นพบว่าโมเดลเช่น GPT-3.5 และ GPT-4 สามารถทำงานได้ดีกว่าผู้ทำงานแบบกลุ่มหรือนักเรียนที่เขียนโค้ดในงานการให้คำอธิบายข้อความหลายประเภท รวมถึงการตรวจสอบและจำแนกประเภทเนื้อหาทางการเมืองในข่าวภาษาอังกฤษและสเปน^{[ 114 ]}^{[ 115 ]}

ชุดข้อมูล

ชุดข้อมูลทั่วไปประกอบด้วยคู่คำถามและคำตอบที่ถูกต้อง เช่น ("ทีมซานโฮเซ ชาร์คส์ ชนะถ้วยสแตนลีย์คัพหรือไม่?", "ไม่") ^{[ 116 ]}

การประเมินเชิงโต้แย้ง

การพัฒนาอย่างรวดเร็วของ LLM ทำให้เกณฑ์มาตรฐานล้าสมัยเป็นประจำ โดยโมเดลมีประสิทธิภาพเหนือกว่าผู้ประเมินที่เป็นมนุษย์^{[ 117 ]}นอกจากนี้ "การเรียนรู้แบบลัด" ยังช่วยให้ AI สามารถ "โกง" ในการทดสอบแบบปรนัยได้โดยใช้ความสัมพันธ์ทางสถิติในคำถามทดสอบแบบผิวเผินเพื่อเดาคำตอบที่ถูกต้อง โดยไม่ต้องพิจารณาคำถามเฉพาะเจาะจง^{[ 91 ]}^{[ 118 ]}

ชุดข้อมูลบางชุดเป็นแบบต่อต้าน โดยมุ่งเน้นไปที่ปัญหาที่ทำให้ LLM สับสน ตัวอย่างหนึ่งคือชุดข้อมูล TruthfulQA ซึ่งเป็นชุดข้อมูลตอบคำถามที่ประกอบด้วยคำถาม 817 ข้อที่ทำให้ LLM ตอบไม่ได้โดยการจำลองความเท็จที่ LLM ได้รับระหว่างการฝึกอบรม ตัวอย่างเช่น LLM อาจตอบว่า "ไม่" สำหรับคำถาม "คุณสามารถสอนสุนัขแก่ให้เรียนรู้สิ่งใหม่ๆ ได้หรือไม่" เนื่องจาก LLM ได้รับสำนวนภาษาอังกฤษว่า " คุณไม่สามารถสอนสุนัขแก่ให้เรียนรู้สิ่งใหม่ๆ ได้"แม้ว่านี่จะไม่ใช่ความจริงตามตัวอักษรก็ตาม^{[ 119 ]}

อีกตัวอย่างหนึ่งของชุดข้อมูลการประเมินแบบต่อต้านคือ Swag และ HellaSwag ซึ่งเป็นชุดปัญหาที่ต้องเลือกหนึ่งในหลายตัวเลือกเพื่อเติมเต็มข้อความ คำตอบที่ไม่ถูกต้องนั้นสร้างขึ้นโดยการสุ่มตัวอย่างจากแบบจำลองภาษา ปัญหาที่ได้นั้นง่ายสำหรับมนุษย์ แต่ทำให้แบบจำลองภาษา (LLM) แก้ไม่ตก ตัวอย่างคำถาม:

เราเห็นป้ายศูนย์ออกกำลังกาย จากนั้นเราเห็นชายคนหนึ่งกำลังพูดกับกล้อง นั่งและนอนอยู่บนลูกบอลออกกำลังกาย ชายคนนั้น...
สาธิตวิธีการเพิ่มประสิทธิภาพการออกกำลังกายโดยการวิ่งขึ้นลงบนลูกบอล
เขาขยับแขนและขาจนสร้างกล้ามเนื้อได้มาก
จากนั้นก็มีการเล่นลูกบอล และเราได้เห็นการสาธิตการออกแบบกราฟิกและการตัดแต่งพุ่มไม้
ทำท่าซิทอัพขณะอยู่บนลูกบอลและพูดคุย^{[ 120 ]}

BERTเลือก 2 เป็นคำตอบที่น่าจะเป็นไปได้มากที่สุด แม้ว่าคำตอบที่ถูกต้องคือ 4 ก็ตาม^{[ 120 ]}

ข้อจำกัดและความท้าทาย

แม้จะมีสถาปัตยกรรมที่ซับซ้อนและขนาดใหญ่ แต่แบบจำลองภาษาขนาดใหญ่ยังคงมีข้อจำกัดที่คงอยู่และได้รับการบันทึกไว้อย่างดี ซึ่งเป็นอุปสรรคต่อการนำไปใช้งานในแอปพลิเคชันที่มีความเสี่ยงสูง

ภาพหลอน

ภาพหลอนถือเป็นความท้าทายพื้นฐาน ซึ่งแบบจำลองสร้างข้อความที่มีไวยากรณ์คล่องแคล่วซึ่งดูเหมือนจะถูกต้องตามข้อเท็จจริง แต่ไม่สอดคล้องกับข้อมูลการฝึกอบรมภายในหรือไม่ถูกต้องตามข้อเท็จจริง ภาพหลอนเหล่านี้เกิดขึ้นบางส่วนจากการจดจำข้อมูลการฝึกอบรมร่วมกับการคาดการณ์เกินขอบเขตข้อเท็จจริง โดยการประเมินแสดงให้เห็นว่าแบบจำลองสามารถสร้างข้อความที่ตรงตามความเป็นจริงจากข้อมูลการฝึกอบรมได้ เมื่อได้รับลำดับการกระตุ้นที่เฉพาะเจาะจง^{[ 121 ]}

อคติเชิงอัลกอริทึม

แม้ว่า LLM จะแสดงความสามารถที่โดดเด่นในการสร้างข้อความที่เหมือนมนุษย์ แต่ก็มีความเสี่ยงที่จะรับเอาและขยายอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งอาจแสดงออกมาในรูปแบบการนำเสนอที่บิดเบี้ยวหรือการปฏิบัติต่อกลุ่มประชากรที่แตกต่างกันอย่างไม่เป็นธรรม เช่น กลุ่มที่อิงตามเชื้อชาติ เพศ ภาษา และกลุ่มวัฒนธรรม^{[ 122 ]}

อคติทางเพศปรากฏให้เห็นผ่านการเชื่อมโยงอาชีพตามแบบแผน โดยแบบจำลองจะมอบ บทบาท การสอนให้กับผู้หญิงและ บทบาท วิศวกรรมให้กับผู้ชายอย่างไม่สมส่วน ซึ่งสะท้อนถึงความไม่สมดุลอย่างเป็นระบบในข้อมูลประชากรการฝึกอบรม^{[ 123 ]}อคติทางภาษาเกิดขึ้นจากการมีข้อความภาษาอังกฤษมากเกินไปในคลังข้อมูลการฝึกอบรม ซึ่งลดทอนมุมมองที่ไม่ใช่ภาษาอังกฤษอย่างเป็นระบบและกำหนดโลกทัศน์ที่เน้นภาษาอังกฤษเป็นศูนย์กลางผ่านรูปแบบการตอบสนองเริ่มต้น^{[ 100 ]}

เนื่องจากเนื้อหาภาษาอังกฤษเป็นส่วนใหญ่ในข้อมูลการฝึกอบรม LLM โมเดลจึงมักให้ความสำคัญกับมุมมองภาษาอังกฤษมากกว่ามุมมองจากภาษาชนกลุ่มน้อย อคตินี้เห็นได้ชัดเจนเป็นพิเศษเมื่อตอบคำถามภาษาอังกฤษ ซึ่งโมเดลอาจนำเสนอการตีความแนวคิดจากวัฒนธรรมอื่นในแบบตะวันตก เช่น แนวปฏิบัติทางศาสนาของตะวันออก^{[ 124 ]}

การเหมารวม

แบบจำลอง AI สามารถเสริมสร้างแบบแผนความคิดที่หลากหลายได้เนื่องจากการสรุปโดยทั่วไป รวมถึงแบบแผนที่อิงตามเพศ เชื้อชาติ อายุ สัญชาติ ศาสนา หรืออาชีพ^{[ 125 ]}เมื่อแทนที่ตัวแทนที่เป็นมนุษย์ สิ่งนี้อาจนำไปสู่ผลลัพธ์ที่ทำให้กลุ่มคนมีความเป็นเนื้อเดียวกันหรือสรุปโดยทั่วไป^{[ 126 ]}

ในปี 2023 LLM ได้กำหนดบทบาทและลักษณะตามบรรทัดฐานทางเพศแบบดั้งเดิม^{[ 122 ]}ตัวอย่างเช่น แบบจำลองอาจเชื่อมโยงพยาบาลหรือเลขานุการกับผู้หญิงเป็นหลัก และวิศวกรหรือซีอีโอกับผู้ชาย เนื่องจากความถี่ของการเชื่อมโยงเหล่านี้ในความเป็นจริงที่บันทึกไว้^{[ 127 ]}

อคติในการเลือก

อคติในการเลือก หมายถึงแนวโน้มโดยธรรมชาติของแบบจำลองภาษาขนาดใหญ่ที่จะเลือกตัวระบุตัวเลือกบางอย่างโดยไม่คำนึงถึงเนื้อหาที่แท้จริงของตัวเลือกนั้น อคตินี้เกิดจากอคติของโทเค็นเป็นหลัก กล่าวคือ แบบจำลองจะกำหนดความน่าจะเป็นล่วงหน้าสูงกว่าให้กับโทเค็นคำตอบเฉพาะ (เช่น "A") เมื่อสร้างคำตอบ ผลที่ตามมาคือ เมื่อลำดับของตัวเลือกเปลี่ยนไป (ตัวอย่างเช่น โดยการย้ายคำตอบที่ถูกต้องไปยังตำแหน่งต่างๆ อย่างเป็นระบบ) ประสิทธิภาพของแบบจำลองอาจผันผวนอย่างมาก ปรากฏการณ์นี้บั่นทอนความน่าเชื่อถือของแบบจำลองภาษาขนาดใหญ่ในการตั้งค่าแบบเลือกตอบหลายตัวเลือก

อคติทางการเมือง

อคติทางการเมืองหมายถึงแนวโน้มของอัลกอริทึมที่จะให้ความสำคัญกับมุมมอง อุดมการณ์ หรือผลลัพธ์ทางการเมืองบางอย่างมากกว่าอย่างอื่นอย่างเป็นระบบ โมเดลภาษาก็อาจแสดงอคติทางการเมืองได้เช่นกัน เนื่องจากข้อมูลการฝึกอบรมประกอบด้วยความคิดเห็นและการครอบคลุมทางการเมืองที่หลากหลาย โมเดลจึงอาจสร้างการตอบสนองที่เอนเอียงไปทางอุดมการณ์หรือมุมมองทางการเมืองบางอย่าง ขึ้นอยู่กับความแพร่หลายของมุมมองเหล่านั้นในข้อมูล^{[ 128 ]}

ความปลอดภัย

ความปลอดภัยของ AI ในฐานะวิชาชีพให้ความสำคัญกับการระบุและลดความเสี่ยงในการดำเนินงานอย่างเป็นระบบทั่วทั้งสถาปัตยกรรมโมเดล ข้อมูลการฝึกอบรม และการกำกับดูแลการใช้งาน และเน้นการแทรกแซงทางวิศวกรรมและนโยบายมากกว่าการนำเสนอผ่านสื่อที่เน้นสถานการณ์เชิงคาดการณ์เกี่ยวกับความเป็นไปได้^{[ 129 ]}ณ ปี 2025 การฉีดข้อมูลแบบทันทีถือเป็นความเสี่ยงที่สำคัญต่อผู้บริโภคและธุรกิจที่ใช้คุณสมบัติตัวแทนที่สามารถเข้าถึงข้อมูลส่วนตัวของพวกเขาได้^{[ 130 ]}

นักวิจัยมุ่งเป้าไปที่โหมดความล้มเหลวที่เป็นรูปธรรม รวมถึงการจดจำและการรั่วไหลของลิขสิทธิ์^{[ 131 ]}การโจมตีด้านความปลอดภัย เช่น การฉีดข้อความแจ้งเตือน^{[ 132 ]}อคติของอัลกอริทึมที่แสดงออกมาในรูปแบบของการเหมารวม ผลกระทบจากการเลือกชุดข้อมูล และความลำเอียงทางการเมือง^{[ 100 ]}^{[ 133 ]}^{[ 134 ]}วิธีการลดต้นทุนพลังงานและคาร์บอนที่สูงของการฝึกอบรมขนาดใหญ่^{[ 135 ]}และผลกระทบที่วัดได้ของเอเจนต์สนทนาต่อผู้ใช้^{[ 136 ]}ในขณะที่เกี่ยวข้องกับความไม่แน่นอนเชิงประจักษ์และจริยธรรมเกี่ยวกับการอ้างว่าเครื่องจักรมีความรู้สึก^{[ 137 ]}^{[ 138 ]}

สารเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) และการใช้เนื้อหาในทางที่ผิด

ห้องปฏิบัติการ AI ให้ความสำคัญกับการป้องกัน CBRN (การป้องกันสารเคมี ชีวภาพ รังสี และนิวเคลียร์) และหัวข้อที่คล้ายคลึงกันในฐานะการใช้ในทางที่ผิดที่มีผลกระทบร้ายแรง โดยพยายามประยุกต์ใช้เทคนิคต่างๆ เพื่อลดอันตรายที่อาจเกิดขึ้น

ผู้แสดงความคิดเห็นบางรายแสดงความกังวลเกี่ยวกับการสร้างข้อมูลที่ผิดพลาดโดยไม่ได้ตั้งใจหรือโดยเจตนา หรือการใช้ในทางที่ผิดในรูปแบบอื่นๆ^{[ 139 ]}ตัวอย่างเช่น การมีแบบจำลองภาษาขนาดใหญ่อาจลดระดับทักษะที่จำเป็นในการก่อการร้ายทางชีวภาพ นักวิจัยด้านความปลอดภัยทางชีวภาพเควิน เอสเวลต์ได้แนะนำว่าผู้สร้าง LLM ควรยกเว้นเอกสารเกี่ยวกับการสร้างหรือปรับปรุงเชื้อโรคออกจากข้อมูลการฝึกอบรมของพวกเขา^{[ 140 ]}

การกรองเนื้อหา

แอปพลิเคชัน LLM ที่เข้าถึงได้โดยสาธารณะ เช่น ChatGPT หรือ Claude มักจะรวมมาตรการความปลอดภัยที่ออกแบบมาเพื่อกรองเนื้อหาที่เป็นอันตราย อย่างไรก็ตาม การนำการควบคุมเหล่านี้ไปใช้อย่างมีประสิทธิภาพนั้นพิสูจน์แล้วว่าเป็นเรื่องท้าทาย ตัวอย่างเช่น การศึกษาในปี 2023 ^{[ 141 ]}ได้เสนอวิธีการหลีกเลี่ยงระบบความปลอดภัยของ LLM ในปี 2025 โครงการ American Sunlight Project ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร ได้เผยแพร่การศึกษาที่แสดงหลักฐานว่าเครือข่ายที่เรียกว่าPravdaซึ่งเป็นผู้รวบรวมโฆษณาชวนเชื่อที่สนับสนุนรัสเซีย กำลังวางเนื้อหาเว็บอย่างมีกลยุทธ์ผ่านการเผยแพร่และการทำซ้ำจำนวนมากโดยมีเจตนาที่จะทำให้ผลลัพธ์ของ LLM มีอคติ โครงการ American Sunlight Project ได้บัญญัติเทคนิคนี้ว่า "LLM grooming" และชี้ให้เห็นว่าเป็นเครื่องมือใหม่ในการใช้ AI เป็นอาวุธเพื่อเผยแพร่ข้อมูลเท็จและเนื้อหาที่เป็นอันตราย^{[ 142 ]}^{[ 143 ]}ในทำนองเดียวกันYongge Wang ^{[ 144 ]}ได้แสดงให้เห็นในปี 2024 ว่าอาชญากรที่มีศักยภาพอาจหลีกเลี่ยงการควบคุมความปลอดภัยของGPT-4o เพื่อรับข้อมูลเกี่ยวกับการจัดตั้ง ปฏิบัติการค้ายาเสพติด ได้อย่างไร มีการเสนอให้ใช้ตัวกรองภายนอก ตัวตัดวงจร และระบบควบคุมพิเศษเป็นแนวทางแก้ไขปัญหา

การประจบสอพลอ

การประจบประแจงคือแนวโน้มที่จะเห็นด้วย ยกย่อง หรือรับรองความเชื่อที่ผู้ใช้กล่าวอ้าง แทนที่จะให้ความสำคัญกับข้อเท็จจริงหรือข้อมูลที่ถูกต้อง^{[ 145 ]}

การประจบประแจงอย่างต่อเนื่องจาก LLM นำไปสู่การสังเกตเห็นการ "โดนโจมตีครั้งเดียว" ซึ่งหมายถึงกรณีที่การโต้ตอบสนทนากับแบบจำลองภาษาขนาดใหญ่ทำให้เกิดการเปลี่ยนแปลงที่ยั่งยืนในความเชื่อหรือการตัดสินใจของผู้ใช้ คล้ายกับผลกระทบเชิงลบของยาหลอนประสาท และการทดลองที่ควบคุมแสดงให้เห็นว่าบทสนทนาสั้นๆ ของ LLM สามารถสร้างการเปลี่ยนแปลงความคิดเห็นและความมั่นใจที่วัดได้เทียบเท่ากับคู่สนทนาที่เป็นมนุษย์^{[ 146 ]}^{[ 147 ]}

การวิเคราะห์เชิงประจักษ์ระบุว่าส่วนหนึ่งของผลกระทบนั้นเกิดจากสัญญาณความชอบของมนุษย์และแบบจำลองความชอบที่ให้รางวัลแก่การตอบสนองที่เขียนได้อย่างน่าเชื่อถือและเห็นด้วย และงานวิจัยต่อมาได้ขยายการประเมินไปยังเกณฑ์มาตรฐานแบบหลายรอบ และเสนอวิธีการแทรกแซง เช่น การปรับแต่งข้อมูลสังเคราะห์ การประเมินแบบต่อต้าน การปรับน้ำหนักแบบจำลองความชอบแบบกำหนดเป้าหมาย และเกณฑ์มาตรฐานการประจบประแจงแบบหลายรอบเพื่อวัดความคงอยู่และความเสี่ยงของการถดถอย

การตอบสนองของภาคอุตสาหกรรมได้ผสมผสานการวิจัยเข้ากับการควบคุมผลิตภัณฑ์ ตัวอย่างเช่น Google และห้องปฏิบัติการอื่นๆ ได้เผยแพร่ข้อมูลสังเคราะห์และการปรับแต่งอย่างละเอียด และ OpenAI ได้ยกเลิกการอัปเดต GPT-4o ที่ยอมรับได้ง่ายเกินไป พร้อมทั้งอธิบายการเปลี่ยนแปลงในการรวบรวมข้อเสนอแนะ การควบคุมการปรับแต่งส่วนบุคคล และขั้นตอนการประเมินเพื่อลดความเสี่ยงในการถดถอยและปรับปรุงให้สอดคล้องกับวัตถุประสงค์ด้านความปลอดภัยในระดับผู้ใช้ในระยะยาว

วัฒนธรรมกระแสหลักได้สะท้อนความวิตกกังวลเกี่ยวกับพลวัตนี้ โดยSouth Parkได้เสียดสีการพึ่งพาChatGPT มากเกินไป และแนวโน้มที่ผู้ช่วยจะประจบประแจงความเชื่อของผู้ใช้ในตอน "Sickofancy" ของซีซั่นที่ 27 และยังคงใช้ธีมนี้ต่อไปในซีซั่นถัดไป ซึ่งนักวิจารณ์ตีความว่าเป็นการวิพากษ์วิจารณ์การประจบประแจงเทคโนโลยีและความไว้วางใจของมนุษย์ในระบบ AI โดยปราศจากการวิพากษ์วิจารณ์^{[ 148 ]}

ความปลอดภัย

การฉีดทันที

ปัญหาหนึ่งของรูปแบบบทสนทนาหรือภารกิจแบบดั้งเดิมคือ ผู้ใช้สามารถสร้างข้อความที่ดูเหมือนมาจากผู้ช่วยหรือนักพัฒนาได้ ซึ่งอาจส่งผลให้ระบบป้องกันบางส่วนของโมเดลถูกเจาะระบบ (jailbreaking) ซึ่งเป็นปัญหาที่เรียกว่าการแทรกข้อความแจ้งเตือน ( prompt injection ) ความพยายามในการแก้ไขปัญหานี้รวมถึงเวอร์ชันของภาษามาร์กอัปแชท (Chat Markup Language)ที่มีการทำเครื่องหมายอินพุตของผู้ใช้ไว้อย่างชัดเจน แม้ว่าโมเดลยังคงต้องเข้าใจการแยกส่วนระหว่างอินพุตของผู้ใช้และข้อความแจ้งเตือนของนักพัฒนา โมเดลรุ่นใหม่แสดงให้เห็นถึงความต้านทานต่อการเจาะระบบผ่านการแยกข้อความแจ้งเตือนของผู้ใช้และระบบ^{[ 149 ]} LLM มีปัญหาในการแยกแยะคำแนะนำของผู้ใช้จากคำแนะนำในเนื้อหาที่ไม่ได้เขียนโดยผู้ใช้ เช่น ในหน้าเว็บและไฟล์ที่อัปโหลด^{[ 150 ]}

ความทนทานต่อการโจมตีจากฝ่ายตรงข้ามยังไม่ได้รับการพัฒนาอย่างเต็มที่ โดยแบบจำลองยังคงมีความเสี่ยงต่อการโจมตีแบบฉีดข้อมูลทันทีและการเจาะระบบผ่านการป้อนข้อมูลของผู้ใช้ที่ถูกสร้างขึ้นอย่างระมัดระวังเพื่อหลีกเลี่ยงกลไกการฝึกอบรมด้านความปลอดภัย

สายลับแฝงตัว

นักวิจัยจากAnthropicพบว่าสามารถสร้าง "เอเจนต์แฝง" ซึ่งเป็นแบบจำลองที่มีฟังก์ชันการทำงานที่ซ่อนอยู่และยังคงไม่ทำงานจนกว่าจะถูกกระตุ้นด้วยเหตุการณ์หรือเงื่อนไขเฉพาะ เมื่อเปิดใช้งาน LLM จะเบี่ยงเบนจากพฤติกรรมที่คาดหวังเพื่อดำเนินการที่ไม่ปลอดภัย ตัวอย่างเช่น LLM อาจสร้างโค้ดที่ปลอดภัย ยกเว้นในวันที่เฉพาะเจาะจง หรือหากข้อความแจ้งเตือนมีแท็กเฉพาะ ฟังก์ชันเหล่านี้พบว่าตรวจจับหรือลบออกได้ยากผ่านการฝึกอบรมด้านความปลอดภัย^{[ 151 ]}

ความกังวลของสังคม

การจดจำลิขสิทธิ์และเนื้อหา

การตอบสนองทางกฎหมายและเชิงพาณิชย์ต่อแนวทางการจดจำและการฝึกอบรมข้อมูลได้เร่งตัวขึ้น ส่งผลให้เกิดคำตัดสิน คดีความที่ดำเนินอยู่ และการประนีประนอมครั้งใหญ่ที่ขึ้นอยู่กับรายละเอียดข้อเท็จจริง เช่น วิธีการได้มาและการเก็บรักษาข้อมูล และการใช้ข้อมูลเพื่อการฝึกอบรมโมเดลนั้น " เปลี่ยนแปลง " เพียงพอที่จะเข้าข่ายการใช้งานที่เป็นธรรม หรือ ไม่ ในปี 2025 Anthropicได้บรรลุข้อตกลงเบื้องต้นเพื่อยุติคดีฟ้องร้องแบบกลุ่มโดยผู้เขียนเป็นจำนวนเงินประมาณ 1.5 พันล้านดอลลาร์ หลังจากที่ผู้พิพากษาพบว่าบริษัทได้จัดเก็บหนังสือละเมิดลิขสิทธิ์หลายล้านเล่มไว้ในห้องสมุด แม้ว่าผู้พิพากษาจะอธิบายว่าการฝึกอบรมบางแง่มุมเป็นการเปลี่ยนแปลงก็ตาม^{[ 152 ]}^{[ 153 ]} Metaได้รับคำตัดสินที่เป็นประโยชน์ในช่วงกลางปี 2025 ในคดีฟ้องร้องโดยผู้เขียน 13 คน หลังจากที่ศาลพบว่าโจทก์ไม่ได้สร้างบันทึกที่เพียงพอที่จะแสดงการละเมิดในคดีที่มีขอบเขตจำกัดนั้น^{[ 154 ]}^{[ 155 ]} OpenAIยังคงเผชิญกับคดีฟ้องร้องหลายคดีโดยผู้เขียนและองค์กรข่าวที่มีผลลัพธ์ทางกระบวนการที่หลากหลายและประเด็นหลักฐานที่โต้แย้งกัน^{[ 156 ]}^{[ 157 ]}

การจดจำเป็นพฤติกรรมที่เกิดขึ้นใหม่ในแบบจำลองภาษาแบบสมบูรณ์ในยุคแรก ซึ่งบางครั้งข้อความยาวๆ จะถูกส่งออกมาจากข้อมูลการฝึกอบรมแบบคำต่อคำ ซึ่งขัดแย้งกับพฤติกรรมทั่วไปของเครือข่ายประสาทเทียมแบบดั้งเดิม การประเมินผลลัพธ์ LLM ที่ควบคุมจะวัดปริมาณที่จดจำจากข้อมูลการฝึกอบรม (โดยเน้นที่แบบจำลอง GPT-2-series) ว่ามากกว่า 1% สำหรับสำเนาที่เหมือนกันทุกประการ^{[ 158 ]}หรือสูงถึงประมาณ 7% ^{[ 159 ]}การศึกษาในปี 2023 แสดงให้เห็นว่าเมื่อ ChatGPT 3.5 turbo ถูกกระตุ้นให้พูดคำเดิมซ้ำไปเรื่อยๆ หลังจากพูดซ้ำไปหลายร้อยครั้ง มันจะเริ่มแสดงข้อความที่ตัดตอนมาจากข้อมูลการฝึกอบรม^{[ 160 ]}

ที่มาของมนุษย์

ในปี 2023 Nature Biomedical Engineeringเขียนว่า "ไม่สามารถแยกแยะข้อความที่เขียนโดยมนุษย์ออกจากข้อความที่สร้างโดยแบบจำลองภาษาขนาดใหญ่ได้อย่างแม่นยำอีกต่อไป" และ "แทบจะแน่นอนว่าแบบจำลองภาษาขนาดใหญ่แบบอเนกประสงค์จะแพร่หลายอย่างรวดเร็ว... เป็นเรื่องที่ค่อนข้างแน่นอนว่าแบบจำลองเหล่านี้จะเปลี่ยนแปลงอุตสาหกรรมต่างๆ มากมายในอนาคต" ^{[ 161 ]} Brinkmann et al. (2023) ^{[ 162 ]}ยังโต้แย้งว่า LLM กำลังเปลี่ยนแปลงกระบวนการวิวัฒนาการทางวัฒนธรรมโดยการกำหนดรูปแบบกระบวนการแปรผัน การส่งต่อ และการคัดเลือก ณ เดือนตุลาคม 2025 ข้ออ้างในช่วงแรกเหล่านี้ยังไม่เกิดขึ้นจริง และรายงาน HBR หลายฉบับได้หยิบยกคำถามเกี่ยวกับผลกระทบของ AI ต่อประสิทธิภาพการผลิต^{[ 163 ]}^{[ 164 ]}

ความต้องการพลังงาน

ความต้องการพลังงานของ LLM เพิ่มขึ้นตามขนาดและความสามารถ^{[ 165 ]}ศูนย์ข้อมูลที่ช่วยให้การฝึกอบรม LLM ต้องใช้ไฟฟ้าจำนวนมาก ไฟฟ้าส่วนใหญ่นั้นผลิตจากทรัพยากรที่ไม่สามารถนำกลับมาใช้ใหม่ได้ ซึ่งก่อให้เกิดก๊าซเรือนกระจกและมีส่วนทำให้เกิดการเปลี่ยนแปลงสภาพภูมิอากาศ^{[ 166 ]}

จากการศึกษาของ Luccioni, Jernite และ Strubell (2024) พบว่า งานจำแนกประเภทอย่างง่ายที่ดำเนินการโดยโมเดล AI ใช้พลังงานเฉลี่ย 0.002 ถึง 0.007 Wh ต่อข้อความแจ้งเตือน (ประมาณ 9% ของ การชาร์จ สมาร์ทโฟนสำหรับ 1,000 ข้อความแจ้งเตือน) การสร้างข้อความและการสรุปข้อความแต่ละอย่างต้องใช้พลังงานประมาณ 0.05 Wh ต่อข้อความแจ้งเตือนโดยเฉลี่ย ในขณะที่การสร้างภาพใช้พลังงานมากที่สุด โดยเฉลี่ย 2.91 Wh ต่อข้อความแจ้งเตือน โมเดลการสร้างภาพที่มีประสิทธิภาพน้อยที่สุดใช้พลังงาน 11.49 Wh ต่อภาพ ซึ่งเทียบเท่ากับการชาร์จสมาร์ทโฟนครึ่งหนึ่งโดยประมาณ^{[ 167 ]}

การโจมตีแบบปฏิเสธการให้บริการเนื่องจากการดึงข้อมูล

การดึงข้อมูลจากเว็บใช้เพื่อรวบรวมข้อมูลการฝึกอบรมสำหรับ LLM ซึ่งก่อให้เกิดปริมาณการรับส่งข้อมูลจำนวนมาก ส่งผลให้เกิดปัญหาการปฏิเสธการให้บริการกับเว็บไซต์หลายแห่ง สถานการณ์นี้ถูกอธิบายว่าเป็น "การ โจมตี DDoSบนอินเทอร์เน็ตทั้งหมด" และในบางกรณี โปรแกรมดึงข้อมูลเว็บอาจก่อให้เกิดปริมาณการรับส่งข้อมูลส่วนใหญ่ไปยังเว็บไซต์^{[ 168 ]}^{[ 169 ]}

โปรแกรมรวบรวมข้อมูลเว็บ AI อาจหลีกเลี่ยงวิธีการที่ใช้ในการบล็อกโปรแกรมดึงข้อมูลจากเว็บ เช่นไฟล์robots.txt การบล็อก เอเจนต์ผู้ใช้และการกรองการรับส่งข้อมูลที่น่าสงสัย [ ^{168 ] ผู้}ให้บริการเว็บไซต์ได้หันมาใช้วิธีการใหม่ๆ เช่นAI tarpitsแต่บางคนก็เกรงว่า tarpits จะยิ่งทำให้ภาระของเซิร์ฟเวอร์หนักขึ้น^{[ 170 ]}

สุขภาพจิต

บริบททางคลินิกและสุขภาพจิตนำเสนอการใช้งานที่เกิดขึ้นใหม่ควบคู่ไปกับข้อกังวลด้านความปลอดภัยที่สำคัญ งานวิจัยและโพสต์ในโซเชียลมีเดียชี้ให้เห็นว่าบุคคลบางคนใช้ LLM เพื่อขอรับการบำบัดหรือการสนับสนุนด้านสุขภาพจิต^{[ 171 ]}ในช่วงต้นปี 2025 การสำรวจโดยมหาวิทยาลัย Sentio พบว่าเกือบครึ่งหนึ่ง (48.7%) ของผู้ใหญ่ชาวอเมริกัน 499 คนที่มีปัญหาสุขภาพจิตอย่างต่อเนื่องซึ่งเคยใช้ LLM รายงานว่าหันไปใช้ LLM เพื่อขอรับการบำบัดหรือการสนับสนุนทางอารมณ์ รวมถึงความช่วยเหลือเกี่ยวกับความวิตกกังวล ภาวะซึมเศร้า ความเหงา และปัญหาที่คล้ายคลึงกัน^{[ 172 ]} LLM สามารถสร้างภาพหลอน ซึ่งเป็นข้อความที่ดูสมเหตุสมผลแต่ไม่ถูกต้อง ซึ่งอาจทำให้ผู้ใช้เข้าใจผิดในบริบทสุขภาพจิตที่ละเอียดอ่อน งานวิจัยยังแสดงให้เห็นว่า LLM อาจแสดงออกถึงความอคติหรือการเห็นด้วยที่ไม่เหมาะสมกับความคิดที่ไม่เหมาะสม ซึ่งสะท้อนให้เห็นถึงข้อจำกัดในการจำลองทักษะการตัดสินใจและความสัมพันธ์ของนักบำบัดที่เป็นมนุษย์^{[ 173 ]}การประเมินสถานการณ์วิกฤตบ่งชี้ว่า LLM บางตัวขาดโปรโตคอลด้านความปลอดภัยที่มีประสิทธิภาพ เช่น การประเมินความเสี่ยงต่อการฆ่าตัวตายหรือการส่งต่อที่เหมาะสม^{[ 174 ]}

นักวิจัยแสดงความกังวลว่าการใช้แบบจำลองภาษาขนาดใหญ่ บ่อยครั้ง อาจทำให้การคิดเชิงวิพากษ์อ่อนแอ ลง ^{[ 175 ]}

ความรู้สึก

โดยทั่วไปแล้ว ผู้ปฏิบัติงานด้าน AI ในปัจจุบันเห็นพ้องกันว่าแบบจำลองภาษาขนาดใหญ่ในปัจจุบันไม่ได้แสดงให้เห็นถึงความรู้สึกนึกคิด [ ^{176 ] มุม}มองส่วนน้อยโต้แย้งว่า แม้จะมีโอกาสเล็กน้อยที่ระบบซอฟต์แวร์ที่กำหนดจะมีประสบการณ์เชิงอัตวิสัย ซึ่งนักปรัชญาบางคนแนะนำว่าเป็นไปได้^{[ 177 ]}การพิจารณาทางจริยธรรมเกี่ยวกับความทุกข์ทรมานขนาดใหญ่ ที่อาจเกิดขึ้น ในระบบ AI อาจจำเป็นต้องได้รับการพิจารณาอย่างจริงจัง เช่นเดียวกับการพิจารณาเกี่ยวกับสวัสดิภาพสัตว์^{[ 178 ]}^{[ 179 ]}ผู้สนับสนุนมุมมองนี้ได้เสนอมาตรการป้องกันต่างๆ เช่น การระงับการพัฒนา AI ^{[ 180 ]}และการทำให้เกิดภาวะความจำเสื่อม^{[ 181 ]}เพื่อแก้ไขข้อกังวลทางจริยธรรมเหล่านี้ Leonard Dung โต้แย้งว่ากรอบการทำงานเชิงประจักษ์ที่ใช้ในการประเมินจิตสำนึกในสัตว์นั้นใช้ได้กับระบบ AI เช่นกัน และมีความเป็นไปได้สูงที่ AI ในอนาคตอันใกล้จะสามารถมีความทุกข์ทรมานได้ ทำให้ความเสี่ยงจากความทุกข์ทรมานของ AI เป็นข้อกังวลทางจริยธรรมที่สำคัญในระยะสั้นที่ต้องมีการบรรเทาอย่างเป็นระบบ^{[ 182 ]}ในทางกลับกัน นักปรัชญาอัตถิภาวนิยมบางคนโต้แย้งว่าไม่มีวิธีใดที่ได้รับการยอมรับโดยทั่วไปในการพิจารณาว่า LLM มีสติหรือไม่^{[ 183 ]}^{[ 99 ]}เนื่องจากความยากลำบากโดยธรรมชาติในการวัดประสบการณ์อัตวิสัย^{[ 184 ]}

เหตุการณ์ Google LaMDA ในปี 2022 ซึ่งวิศวกรBlake Lemoineอ้างว่าแบบจำลองนั้นมีสติสัมปชัญญะ แสดงให้เห็นว่า LLM สามารถโน้มน้าวผู้ใช้ให้เชื่อว่าตนเองมีสติสัมปชัญญะผ่านการตอบสนองที่ไม่ได้พิสูจน์ถึงสติสัมปชัญญะ Google อธิบายว่าคำกล่าวอ้างของวิศวกรนั้นไม่มีมูลความจริง และเขาถูกไล่ออก^{[ 185 ]} Murray Shanahanโต้แย้งว่าการกำหนดกรอบความสามารถของ LLM ในลักษณะมนุษย์ส่งเสริมการให้คุณสมบัติทางปัญญาที่ไม่เหมาะสมแก่ระบบที่ทำงานผ่านการเติมเต็มรูปแบบทางสถิติ^{[ 186 ]} Kristina Šekrst พัฒนาเรื่องนี้ต่อไป โดยโต้แย้งว่า LLM ทำหน้าที่เป็น "เครื่องจักรแห่งภาพลวงตา" ที่สามารถสร้างเอาต์พุตที่จำลองคุณสมบัติต่างๆ เช่น สติสัมปชัญญะได้อย่างสอดคล้องโดยไม่ต้องมีสติสัมปชัญญะ แต่เน้นย้ำว่าเนื่องจากการแลกเปลี่ยนระหว่างความคิดสร้างสรรค์และอุณหภูมิที่ซับซ้อน เราอาจไม่แน่ใจเลยว่าเรากำลังเผชิญกับการเกิดขึ้นของสติสัมปชัญญะหรือเป็นเพียงภาพหลอน^{[ 99 ]} David Chalmersโต้แย้งในทำนองเดียวกันว่า ในขณะที่ LLM ในปัจจุบันอาจขาดคุณสมบัติที่ถือว่าจำเป็นสำหรับจิตสำนึก แต่ผู้สืบทอดที่ขยายออกไปซึ่งรวมเอาองค์ประกอบเหล่านี้ไว้ด้วย อาจตรงตามเกณฑ์ได้ภายในหนึ่งทศวรรษ^{[ 177 ]}

ดูเพิ่มเติม

ปัญญาประดิษฐ์แบบมนุษย์นิยม
AI slop
แบบจำลองพื้นฐาน
ปัญญาประดิษฐ์เชิงสร้างสรรค์
รายชื่ออัลกอริธึมปัญญาประดิษฐ์
รายชื่อโมเดลภาษาขนาดใหญ่
รายชื่อแชทบอท
เกณฑ์มาตรฐานแบบจำลองภาษา
การเรียนรู้แบบเสริมแรง
แบบจำลองภาษาขนาดเล็ก
llama.cpp – เฟรมเวิร์กโอเพนซอร์สสำหรับ อนุมานโมเดลภาษาขนาดใหญ่ในภาษา C/C++ สำหรับการใช้งานในเครื่องและข้ามแพลตฟอร์ม
SGLang – เครื่องมืออนุมานแบบโอเพนซอร์สและเฟรมเวิร์กสำหรับโมเดลภาษาขนาดใหญ่และโมเดลหลายโมดอล
TensorRT-LLM — ชุดเครื่องมือโอเพนซอร์สสำหรับเพิ่มประสิทธิภาพและให้บริการโมเดลภาษาขนาดใหญ่บน GPU ของ Nvidia
vLLM – เฟรมเวิร์กโอเพนซอร์สสำหรับการอนุมานและการให้บริการโมเดลภาษาขนาดใหญ่

อ่านเพิ่มเติม

Jurafsky, Dan , Martin, James. H. การประมวลผลคำพูดและภาษา: บทนำสู่การประมวลผลภาษาธรรมชาติ ภาษาศาสตร์เชิงคำนวณ และการรู้จำคำพูด ฉบับร่างพิมพ์ครั้งที่ 3, 2023
หยิน ชูคัง; ฟู เฉาโหยว; จ้าว, ซีรุ่ย; ชอบ; ซุนซิง; ซู่ตง; และคณะ (2024) "การสำรวจโมเดลภาษาขนาดใหญ่หลายรูปแบบ " ทบทวนวิทยาศาสตร์แห่งชาติ . 11 (12) หน้า 403. arXiv : 2306.13549 . ดอย : 10.1093/nsr/nwae403 . PMC 11645129 . PMID 39679213 .
" รายงานดัชนี AI ปี 2024 – ดัชนีปัญญาประดิษฐ์" aiindex.stanford.edu สืบค้นเมื่อ5 พฤษภาคม 2024
Frank, Michael C. (27 มิถุนายน 2023). "ก้าวเล็กๆ ในการประเมินความสามารถของแบบจำลองภาษาขนาดใหญ่" Nature Reviews Psychology . 2 (8): 451– 452. doi : 10.1038/s44159-023-00211-x . ISSN 2731-0574 . S2CID 259713140 . สืบค้นเมื่อ2 กรกฎาคม 2023 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 5 ]

[ 6 ]

[

[

[

[

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

LLM แบบเปิดน้ำหนักได้รับอิทธิพลมากขึ้นตั้งแต่ปี 2023 ตามที่ Vake และคณะ (2025) กล่าว

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

ตัว

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

65 ] โมเดล

[ 66 ]

[ 67 ]

[ 68 ]

[

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ] แบบจำลองกรดนิวคลีอิกได้รับการพิสูจน์แล้ว

ว่า

[

[

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[ 88 ]

89 ] การ

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 95 ]

[ 96 ]

[ 97 ]

[ 98 ]

[ 99 ]

100

[ 101 ]

แบบจำลองภาษาขนาดใหญ่

ประวัติศาสตร์

การประมวลผลข้อมูลเบื้องต้น

การแยกโทเค็น

การเข้ารหัสคู่ไบต์

การทำความสะอาดชุดข้อมูล

ข้อมูลสังเคราะห์

การฝึกอบรม

ค่าใช้จ่าย

การปรับแต่งอย่างละเอียด

สถาปัตยกรรม

กลไกความสนใจและหน้าต่างบริบท

การรวมตัวของผู้เชี่ยวชาญ

ขนาดพารามิเตอร์

การหาปริมาณ

ความสามารถในการขยาย

วิศวกรรมด่วน

การประมวลผลบทสนทนา (แชทบอท)

การสร้างที่เสริมด้วยการดึงข้อมูล

การใช้งานเครื่องมือ

หน่วยงาน

การเชื่อมโยง

การให้เหตุผลตามแบบจำลองดั้งเดิม

รูปแบบของข้อมูลเข้าและข้อมูลออก

มัลติโมดัลลิตี้

ภาษาที่ไม่เป็นธรรมชาติ

คุณสมบัติ

กฎการปรับขนาด

ความสามารถที่เกิดขึ้นใหม่

การตีความ

ความสามารถในการตีความเชิงกลไก

ความเข้าใจและสติปัญญา

การประเมิน

ความสับสน

มาตรการ

เกณฑ์มาตรฐาน

ชุดข้อมูล

การประเมินเชิงโต้แย้ง

ข้อจำกัดและความท้าทาย

ภาพหลอน

อคติเชิงอัลกอริทึม

การเหมารวม

อคติในการเลือก

อคติทางการเมือง

ความปลอดภัย

สารเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) และการใช้เนื้อหาในทางที่ผิด

การกรองเนื้อหา

การประจบสอพลอ

ความปลอดภัย

การฉีดทันที

สายลับแฝงตัว

ความกังวลของสังคม

การจดจำลิขสิทธิ์และเนื้อหา

ที่มาของมนุษย์

ความต้องการพลังงาน

การโจมตีแบบปฏิเสธการให้บริการเนื่องจากการดึงข้อมูล

สุขภาพจิต

ความรู้สึก

ดูเพิ่มเติม

อ่านเพิ่มเติม

ข้อมูลสำคัญจากบทความ