กลับไปหน้าบทความ

อ่าน 40 นาที

แบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ ( LLM ) คือ เครือข่ายประสาทเทียม ที่ได้รับการฝึกฝนด้วยข้อความจำนวนมหาศาลสำหรับงาน ประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล...

แบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ ( LLM )คือเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนด้วยข้อความจำนวนมหาศาลสำหรับงานประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล และวิเคราะห์ข้อความในบริบทต่างๆ ได้มากมาย และเป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลังแชทบอทสมัยใหม่[ 1 ]ข้อมูลการฝึกฝนที่มีอคติหรือไม่ถูกต้องอาจทำให้ผลลัพธ์ของ LLM มีความน่าเชื่อถือน้อยลง[ 2 ]

โดยทั่วไป LLM จะใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ เป็นหลัก [ 3 ]ทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงสร้างสรรค์ (GPT) เป็น LLM ประเภทหนึ่งที่ได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไป[ 4 ]จากนั้น GPT มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อให้ปฏิบัติตามคำสั่งและทำหน้าที่เป็นผู้ช่วย[ 5 ]

การประเมิน มาตรฐานสำหรับ LLM พยายามวัดการให้เหตุผลของแบบจำลองความถูกต้องของข้อเท็จจริงการจัดเรียงและความปลอดภัย[ 6 ]

ประวัติศาสตร์

จำนวนสิ่งพิมพ์เกี่ยวกับแบบจำลองภาษาขนาดใหญ่จำแนกตามปี โดยจัดกลุ่มตามประเภทของสิ่งพิมพ์
กราฟแสดงประสิทธิภาพการประมวลผลของโมเดลขนาดใหญ่ที่โดดเด่นในหน่วย FLOPs เทียบกับวันที่เผยแพร่ในช่วงปี 2010–2024 โดยแบ่งเป็นโมเดลที่โดดเด่นโดยรวม (บนซ้าย) โมเดลแนวหน้า (บนขวา) โมเดลภาษาชั้นนำ (ล่างซ้าย) และโมเดลชั้นนำในบริษัทชั้นนำ (ล่างขวา) โมเดลส่วนใหญ่ในกราฟนี้เป็นโมเดลภาษา
ประสิทธิภาพการประมวลผลการฝึกฝนของโมเดล AI ขนาดใหญ่ที่โดดเด่นในหน่วย FLOPs เทียบกับวันที่เผยแพร่ในช่วงปี 2017–2024 โดยโมเดลขนาดใหญ่ส่วนใหญ่เป็นโมเดลภาษาหรือโมเดลหลายโมดอลที่มีความสามารถด้านภาษา

ก่อนการปรากฏตัวของโมเดลที่ใช้ Transformer ในปี 2017 โมเดลภาษาบางโมเดลถือว่ามีขนาดใหญ่เมื่อเทียบกับข้อจำกัดด้านการคำนวณและข้อมูลในยุคนั้น ในช่วงต้นทศวรรษ 1990 โมเดลทางสถิติของIBMได้บุกเบิก เทคนิค การจัดเรียงคำสำหรับการแปลด้วยเครื่อง ซึ่งเป็นการวางรากฐานสำหรับการสร้างแบบจำลองภาษาโดย ใช้คลังข้อมูล ในปี 2001 โมเดล n - gram ที่ปรับให้เรียบ เช่น โมเดลที่ใช้ การปรับ ให้เรียบแบบ Kneser–Ney ซึ่งได้รับการฝึกฝนด้วยคำศัพท์ 300 ล้านคำ บรรลุค่า perplexityที่ดีที่สุดในการทดสอบมาตรฐาน[ 7 ]ในช่วงทศวรรษ 2000 ด้วยการเข้าถึงอินเทอร์เน็ต ที่แพร่หลายมากขึ้น นักวิจัยเริ่มรวบรวมชุดข้อมูลข้อความขนาดใหญ่จากเว็บ ("เว็บเป็นคลังข้อมูล" [ 8 ] ) เพื่อฝึกฝนโมเดลภาษาเชิงสถิติ[ 9 ] [ 10 ]

นอกเหนือจาก โมเดล n -gram แล้ว นักวิจัยเริ่มใช้โครงข่ายประสาทเทียมเป็นโมเดลภาษาตั้งแต่ปี 2000 [ 11 ]หลังจากความก้าวหน้าของโครงข่ายประสาทเทียมเชิงลึกในการจำแนกภาพประมาณปี 2012 [ 12 ]สถาปัตยกรรมที่คล้ายกันจึงถูกนำมาปรับใช้สำหรับงานด้านภาษา การเปลี่ยนแปลงนี้เกิดขึ้นจากการพัฒนาเวิร์ดเอ็มเบดดิ้ง (เช่นWord2VecโดยMikolov ในปี 2013) และ โมเดลลำดับต่อลำดับ ( seq2seq ) โดยใช้ LSTMในปี 2016 Google ได้เปลี่ยนบริการแปลภาษาไปใช้การแปลด้วยเครื่องจักรแบบโครงข่ายประสาทเทียม (NMT) โดยแทนที่โมเดลแบบวลีเชิงสถิติด้วยโครงข่ายประสาทเทียมแบบวนซ้ำเชิง ลึก ระบบ NMT รุ่นแรกๆ เหล่านี้ใช้ สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัสแบบ LSTM เนื่องจากมาก่อนการคิดค้นทราน ส์ ฟอร์เมอร์

ภาพประกอบแสดงส่วนประกอบหลักของโมเดล Transformer จากบทความต้นฉบับ โดยที่เลเยอร์ต่างๆ ถูกทำให้เป็นมาตรฐานหลังจาก (แทนที่จะเป็นก่อน) กระบวนการ Multiheaded Attention

ในการประชุมNeurIPS ปี 2017 นักวิจัย ของ Googleได้นำเสนอสถาปัตยกรรม Transformer ในบทความสำคัญเรื่อง " Attention Is All You Need " [ 13 ]เป้าหมายของบทความนี้คือการปรับปรุงเทคโนโลยี seq2seq ในปี 2014 และส่วนใหญ่ใช้ กลไก Attentionที่พัฒนาโดย Bahdanau et al. ในปี 2014 [ 14 ] [ 15 ]ในปีต่อมาในปี 2018 BERTได้ถูกนำเสนอและกลายเป็น "ที่แพร่หลาย" อย่างรวดเร็ว[ 16 ]แม้ว่า Transformer รุ่นดั้งเดิมจะมีทั้งบล็อก Encoder และ Decoder แต่ BERT เป็นโมเดล Encoder เท่านั้น การใช้งาน BERT ในเชิงวิชาการและการวิจัยเริ่มลดลงในปี 2023 หลังจากมีการพัฒนาอย่างรวดเร็วในความสามารถของโมเดล Decoder เท่านั้น (เช่น GPT) ในการแก้ปัญหาผ่านการกระตุ้น[ 17 ]

แม้ว่าGPT-1 ที่มีเพียงตัวถอดรหัส จะถูกนำเสนอในปี 2018 แต่GPT-2ในปี 2019 กลับได้รับความสนใจอย่างกว้างขวาง เนื่องจากOpenAIอ้างว่าในตอนแรกนั้น GPT-2 มีประสิทธิภาพมากเกินไปที่จะเผยแพร่สู่สาธารณะ เนื่องจากเกรงว่าจะถูกนำไปใช้ในทางที่ผิด[ 18 ] GPT-3ในปี 2020 พัฒนาไปอีกขั้น และในปี 2025 มีให้บริการเฉพาะผ่านAPI เท่านั้น โดยไม่มีการดาวน์โหลดโมเดลเพื่อใช้งานในเครื่อง แต่เป็นแชทบอทChatGPT ที่มุ่งเน้นผู้บริโภค ในช่วงปลายปี 2022 ที่ได้รับความสนใจจากสื่อและสาธารณชนอย่างกว้างขวางในปี 2023 [ 19 ] GPT-4ในปี 2023 ได้รับการยกย่องในด้านความแม่นยำที่เพิ่มขึ้นและเป็น "สิ่งล้ำค่า" สำหรับความสามารถแบบมัลติโมดอ ล [ 20 ] OpenAI ไม่ได้เปิดเผยสถาปัตยกรรมระดับสูงและจำนวนพารามิเตอร์ของ GPT-4 การเปิดตัว ChatGPT นำไปสู่การใช้งาน LLM ที่เพิ่มขึ้นในหลายสาขาย่อยของการวิจัยด้านวิทยาการคอมพิวเตอร์ รวมถึงหุ่นยนต์ วิศวกรรมซอฟต์แวร์ และงานด้านผลกระทบต่อสังคม[ 17 ]ในปี 2024 OpenAI ได้เผยแพร่โมเดลการให้เหตุผลOpenAI o1ซึ่งสร้างสายความคิดที่ยาวก่อนที่จะส่งคำตอบสุดท้ายกลับมา[ 21 ]มีการพัฒนา LLM จำนวนมากที่มีจำนวนพารามิเตอร์เทียบเท่ากับซีรีส์ GPT ของ OpenAI [ 22 ]

นับตั้งแต่ปี 2022 โมเดลที่มีน้ำหนักที่สามารถเข้าถึงได้ได้รับความนิยมมากขึ้น โดยเฉพาะอย่างยิ่งในช่วงแรกกับBLOOMและLLaMAแม้ว่าทั้งสองจะมีข้อจำกัดในการใช้งานและการปรับใช้เป็นส่วนใหญ่ก็ตามโมเดลน้ำหนักแบบเปิดของMistral AI อย่าง Mistral 7B และ Mixtral 8x7B มี ใบอนุญาต Apache ที่อนุญาตมากกว่า ในเดือนมกราคม 2025 DeepSeekได้เปิดตัว DeepSeek R1 ซึ่งเป็นโมเดลน้ำหนักแบบเปิดที่มีพารามิเตอร์ 671 พันล้านตัว ซึ่งมีประสิทธิภาพเทียบเท่ากับ OpenAI o1 แต่มีราคาต่อโทเค็นที่ต่ำกว่ามากสำหรับผู้ใช้[ 23 ]

ตั้งแต่ปี 2023 เป็นต้นมา LLM จำนวนมากได้รับการฝึกฝนให้ มีความสามารถในการประมวล ผลข้อมูลหลายรูปแบบรวมถึงการประมวลผลหรือสร้างข้อมูลประเภทอื่นๆ เช่น ภาพ เสียง หรือโมเดล 3 มิติ

LLM แบบเปิดน้ำหนักได้รับอิทธิพลมากขึ้นตั้งแต่ปี 2023 ตามที่ Vake และคณะ (2025) กล่าวไว้ การมีส่วนร่วมที่ขับเคลื่อนโดยชุมชนในโมเดลแบบเปิดน้ำหนักช่วยปรับปรุงประสิทธิภาพและสมรรถนะผ่านแพลตฟอร์มการทำงานร่วมกัน เช่นHugging Face [ 24 ]

การประมวลผลข้อมูลเบื้องต้น

การแยกโทเค็น

เนื่องจาก อัลกอริธึม การเรียนรู้ของเครื่องประมวลผลตัวเลขแทนที่จะเป็นข้อความ ข้อความจึงต้องถูกแปลงเป็นตัวเลข ในขั้นตอนแรก จะมีการกำหนดคำศัพท์ จากนั้นจะกำหนดดัชนีจำนวนเต็มแบบสุ่มแต่ไม่ซ้ำกันให้กับแต่ละรายการในคำศัพท์ และสุดท้าย จะเชื่อมโยง การฝังตัวกับดัชนีจำนวนเต็ม อัลกอริธึมต่างๆ ได้แก่การเข้ารหัสคู่ไบต์ (BPE) และ WordPiece นอกจากนี้ยังมีโทเค็นพิเศษที่ทำหน้าที่เป็นอักขระควบคุมเช่น[MASK]สำหรับโทเค็นที่ถูกปิดบัง (ดังที่ใช้ในBERT ) และ[UNK]("unknown") สำหรับอักขระที่ไม่ปรากฏในคำศัพท์ นอกจากนี้ ยังมีการใช้สัญลักษณ์พิเศษบางอย่างเพื่อระบุรูปแบบข้อความพิเศษ ตัวอย่างเช่น "Ġ" หมายถึงช่องว่างนำหน้าในRoBERTaและ GPT และ "##" หมายถึงการต่อคำก่อนหน้าใน BERT [ 25 ]

ตัวอย่างเช่น ตัวแยกคำ BPE ที่ใช้ในGPT-3 เวอร์ชันเก่า จะแยกtokenizer: texts -> series of numerical "tokens"ดังนี้

โทเค็น izer :  ข้อความ  -> ชุด  ของ  ตัวเลข  " ที ตกลง ens "

การแบ่งคำเป็นโทเค็นยังทำให้ชุดข้อมูลมีขนาดเล็กลงด้วย เนื่องจากโดยทั่วไปแล้วแบบจำลองภาษาแบบยาว (LLM) ต้องการข้อมูลนำเข้าที่เป็นอาร์เรย์ที่ไม่ขรุขระดังนั้นข้อความที่สั้นกว่าจะต้องถูก "เติม" จนกว่าจะมีความยาวเท่ากับข้อความที่ยาวที่สุด

การเข้ารหัสคู่ไบต์

ตัวอย่างเช่น พิจารณาโทเคไนเซอร์ที่ใช้การเข้ารหัสแบบไบต์คู่ ในขั้นตอนแรก อักขระที่ไม่ซ้ำกันทั้งหมด (รวมถึงช่องว่างและเครื่องหมายวรรคตอน ) จะถูกจัดการเป็นชุดn -gram เริ่มต้น (เช่น ชุด uni-gram เริ่มต้น) จากนั้นคู่ของอักขระที่อยู่ติดกันที่พบบ่อยที่สุดจะถูกรวมเข้าเป็น bi-gram และอินสแตนซ์ทั้งหมดของคู่นั้นจะถูกแทนที่ด้วย bi-gram นั้น การเกิดขึ้นทั้งหมดของคู่n -gram ที่อยู่ติดกัน (ที่รวมกันก่อนหน้านี้) ที่เกิดขึ้นบ่อยที่สุดจะถูกรวมเข้าด้วยกันอีกครั้งเป็นn -gram ที่ยาวขึ้นเรื่อยๆ จนกว่าจะได้คำศัพท์ที่มีขนาดตามที่กำหนด หลังจากที่โทเคไนเซอร์ได้รับการฝึกฝนแล้ว ข้อความใดๆ ก็สามารถถูกโทเคไนซ์ได้ ตราบใดที่ข้อความนั้นไม่มีอักขระที่ไม่ปรากฏในชุด uni-gram เริ่มต้น[ 26 ]

การทำความสะอาดชุดข้อมูล

ในบริบทของการฝึก LLM ชุดข้อมูลมักจะถูกทำความสะอาดโดยการลบข้อมูลคุณภาพต่ำ ข้อมูลที่ซ้ำซ้อน หรือข้อมูลที่เป็นพิษ[ 27 ]ชุดข้อมูลที่ทำความสะอาดแล้วสามารถเพิ่มประสิทธิภาพการฝึกและนำไปสู่ประสิทธิภาพที่ดีขึ้นในขั้นตอนต่อไป[ 28 ] LLM ที่ได้รับการฝึกฝนแล้วสามารถนำมาใช้ทำความสะอาดชุดข้อมูลเพื่อฝึก LLM ต่อไปได้[ 29 ]

ด้วยสัดส่วนของเนื้อหาที่สร้างโดย LLM บนเว็บที่เพิ่มมากขึ้น การทำความสะอาดข้อมูลในอนาคตอาจรวมถึงการกรองเนื้อหาดังกล่าว เนื้อหาที่สร้างโดย LLM อาจก่อให้เกิดปัญหาได้หากเนื้อหานั้นคล้ายกับข้อความที่เขียนโดยมนุษย์ (ทำให้การกรองทำได้ยาก) แต่มีคุณภาพต่ำกว่า (ทำให้ประสิทธิภาพของโมเดลที่ฝึกฝนลดลง) [ 1 ]

ข้อมูลสังเคราะห์

การฝึกฝนโมเดลภาษาขนาดใหญ่อาจต้องการข้อมูลทางภาษาศาสตร์มากกว่าที่มีอยู่ตามธรรมชาติ หรือข้อมูลที่มีอยู่ตามธรรมชาติอาจมีคุณภาพไม่เพียงพอ ในกรณีเหล่านี้ อาจใช้ข้อมูลสังเคราะห์แทน

การฝึกอบรม

LLM เป็นโมเดลพื้นฐาน ประเภทหนึ่ง (โมเดล X ขนาดใหญ่) ที่ฝึกฝนบนภาษา LLM สามารถฝึกฝนได้หลายวิธี โดยเฉพาะอย่างยิ่ง โมเดล GPT จะได้รับการฝึกฝนล่วงหน้าเพื่อทำนายคำถัดไปบนข้อมูลจำนวนมากก่อนที่จะปรับแต่ง[ 4 ]

ค่าใช้จ่าย

จำเป็นต้องมีโครงสร้างพื้นฐานขนาดใหญ่สำหรับการฝึกฝนโมเดลขนาดใหญ่ แนวโน้มของการสร้างโมเดลขนาดใหญ่สามารถเห็นได้จากรายชื่อโมเดลภาษาขนาดใหญ่ตัวอย่างเช่น การฝึกฝน GPT-2 (โมเดลที่มีพารามิเตอร์ 1.5 พันล้านตัว) ในปี 2019 มีค่าใช้จ่าย 50,000 ดอลลาร์ ในขณะที่การฝึกฝนPaLM (โมเดลที่มีพารามิเตอร์ 540 พันล้านตัว) ในปี 2022 มีค่าใช้จ่าย 8 ล้านดอลลาร์ และ Megatron-Turing NLG 530B (ในปี 2021) มีค่าใช้จ่ายประมาณ 11 ล้านดอลลาร์ คำว่า "ขนาดใหญ่" ใน "โมเดลภาษาขนาดใหญ่" นั้นมีความคลุมเครือโดยเนื้อแท้ เนื่องจากไม่มีเกณฑ์ที่แน่นอนสำหรับจำนวนพารามิเตอร์ที่จำเป็นในการพิจารณาว่าเป็น "ขนาดใหญ่"

การปรับแต่งอย่างละเอียด

ก่อนที่จะได้รับการปรับแต่ง LLM ส่วนใหญ่จะเป็นตัวทำนายโทเค็นถัดไป[ 30 ]การปรับแต่งจะกำหนดพฤติกรรมของ LLM ผ่านเทคนิคต่างๆ เช่นการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) หรือAI ตามรัฐธรรมนูญ[ 31 ]

การปรับแต่งคำสั่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบมีผู้กำกับดูแลที่ใช้ในการสอน LLM ให้ปฏิบัติตามคำสั่งของผู้ใช้ ในปี 2022 OpenAI ได้สาธิตInstructGPTซึ่งเป็น GPT-3 เวอร์ชันหนึ่งที่ได้รับการปรับแต่งในลักษณะเดียวกันเพื่อปฏิบัติตามคำสั่ง[ 32 ]

RLHF เกี่ยวข้องกับการฝึกโมเดลรางวัลเพื่อทำนายว่ามนุษย์ชอบข้อความใด จากนั้น LLM สามารถปรับแต่งได้อย่างละเอียดผ่านการเรียนรู้แบบเสริมแรงเพื่อให้ตรงกับโมเดลรางวัลนี้มากขึ้น เนื่องจากโดยทั่วไปมนุษย์มักชอบคำตอบที่ตรงไปตรงมา เป็นประโยชน์ และไม่เป็นอันตราย RLHF จึงสนับสนุนคำตอบประเภทดังกล่าว[ 33 ]

สถาปัตยกรรม

โดยทั่วไป LLM จะอิงตาม สถาปัตยกรรม ทรานส์ฟอร์เมอร์ซึ่งใช้ กลไก ความสนใจที่ช่วยให้โมเดลสามารถประมวลผลความสัมพันธ์ระหว่างองค์ประกอบทั้งหมดในลำดับพร้อมกัน โดยไม่คำนึงถึงระยะห่างระหว่างกัน[ 13 ] [ 34 ] Peng et al. (2023) เสนอ โมเดล การแสดงพื้นที่สถานะเป็นทางเลือก[ 35 ]

กลไกความสนใจและหน้าต่างบริบท

เมื่อหัวแต่ละหัวคำนวณตามเกณฑ์ของตนเองว่าโทเค็นอื่นๆ มีความเกี่ยวข้องกับโทเค็น "it_" มากน้อยเพียงใด โปรดทราบว่าหัวความสนใจที่สองซึ่งแสดงโดยคอลัมน์ที่สองนั้นมุ่งเน้นไปที่สองแถวแรกมากที่สุด นั่นคือโทเค็น "The" และ "animal" ในขณะที่คอลัมน์ที่สามมุ่งเน้นไปที่สองแถวล่างมากที่สุด นั่นคือ "tired" ซึ่งถูกแยกเป็นสองโทเค็น[ 36 ]

เพื่อค้นหาว่าโทเค็นใดมีความเกี่ยวข้องซึ่งกันและกันภายในขอบเขตของหน้าต่างบริบทกลไกความสนใจจะคำนวณน้ำหนัก "อ่อน" สำหรับแต่ละโทเค็น หรือกล่าวให้แม่นยำยิ่งขึ้นคือสำหรับการฝังตัว โดยใช้หัวความสนใจหลายหัว แต่ละหัวมี "ความเกี่ยวข้อง" ของตนเองในการคำนวณน้ำหนักอ่อนของตนเอง ตัวอย่างเช่น โมเดล GPT-2 ขนาดเล็ก (เช่น ขนาดพารามิเตอร์ 117 ล้านตัว) มีหัวความสนใจสิบสองหัวและหน้าต่างบริบทที่มีโทเค็นเพียง 1,000 โทเค็น[ 37 ]

แบบจำลอง อัตถารีเกรสซีฟเช่นGPTได้รับการฝึกฝนให้เดาว่าลำดับจะดำเนินต่อไปอย่างไร ตัวอย่างเช่น ลำดับคำว่า "ฉันชอบกิน" มีแนวโน้มที่จะตามด้วยคำว่า "ขนมปัง" หรือคำว่า "หิน" มากกว่ากัน แบบ จำลองแบบปิดบังเช่น BERT [ 38 ]ได้รับการฝึกฝนให้เดาส่วนที่หายไปจากลำดับ เช่น คำที่หายไปใน "ฉันชอบ ___ กุหลาบ" มีแนวโน้มที่จะเป็นคำว่า "กลิ่น" หรือคำว่า "กิน" มากกว่ากัน การคาดการณ์ของแบบจำลองขึ้นอยู่กับคุณสมบัติของลำดับภายในชุดข้อมูลการฝึกอบรม[ 39 ]

การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ (MoE) เป็น สถาปัตยกรรม การเรียนรู้ของเครื่องที่เครือข่ายประสาทเทียมเฉพาะทางหลายเครือข่าย ("ผู้เชี่ยวชาญ") ทำงานร่วมกัน โดยมีกลไกการควบคุมที่ส่งอินพุตแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสมที่สุด การผสมผสานของผู้เชี่ยวชาญสามารถลดต้นทุนการอนุมานได้ เนื่องจากมีการใช้พารามิเตอร์เพียงบางส่วนสำหรับอินพุตแต่ละรายการ[ 40 ]

ขนาดพารามิเตอร์

โดยทั่วไป LLM จะได้รับการฝึกฝนด้วย ตัวเลขจุดลอยตัวความแม่นยำเดี่ยวหรือครึ่งความแม่นยำ(float32 และ float16) float16 หนึ่งตัวมี 16 บิต หรือ 2 ไบต์ ดังนั้นพารามิเตอร์หนึ่งพันล้านตัวจึงต้องการ 2 กิกะไบต์ โมเดลที่ใหญ่ที่สุดมักจะมีพารามิเตอร์มากกว่า 100 พันล้านตัว ซึ่งทำให้เกินขอบเขตของอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภคส่วนใหญ่[ 41 ]

การหาปริมาณ

การควอนไทเซชันหลังการฝึกอบรม[ 42 ]มีเป้าหมายเพื่อลดความต้องการพื้นที่โดยการลดความแม่นยำของพารามิเตอร์ของโมเดลที่ฝึกฝนแล้ว ในขณะที่ยังคงรักษาประสิทธิภาพส่วนใหญ่ไว้ การควอนไทเซชันสามารถจำแนกเพิ่มเติมได้เป็นการควอนไทเซชันแบบคงที่หากพารามิเตอร์การควอนไทเซชันถูกกำหนดไว้ล่วงหน้า (โดยทั่วไปในระหว่างขั้นตอนการปรับเทียบ) และการควอนไทเซชันแบบไดนามิกหากการควอนไทเซชันถูกนำไปใช้ในระหว่างการอนุมาน รูปแบบที่ง่ายที่สุดของการควอนไทเซชันจะตัดพารามิเตอร์ทั้งหมดให้เหลือจำนวนบิตที่กำหนด: วิธีนี้ใช้ได้กับการควอนไทเซชันทั้งแบบคงที่และแบบไดนามิก แต่จะสูญเสียความแม่นยำไปมาก การควอนไทเซชันแบบไดนามิกช่วยให้สามารถใช้โค้ดบุ๊ก การควอนไทเซชันที่แตกต่างกัน ต่อเลเยอร์ได้ ไม่ว่าจะเป็นตารางค้นหาค่าหรือการแมปเชิงเส้น (ปัจจัยการปรับขนาดและไบแอส) โดยแลกกับการละทิ้งการปรับปรุงความเร็วที่อาจเกิดขึ้นจากการใช้เลขคณิตที่มีความแม่นยำต่ำกว่า

สามารถปรับแต่งโมเดลควอนไทซ์ได้อย่างละเอียดโดยใช้ การปรับ ตัวลำดับต่ำ[ 43 ]

ความสามารถในการขยาย

นอกเหนือจากการสร้างข้อความพื้นฐานแล้ว ยังมีการพัฒนาเทคนิคต่างๆ เพื่อขยายขีดความสามารถของ LLM ซึ่งรวมถึงการใช้เครื่องมือและแหล่งข้อมูลภายนอก การให้เหตุผลที่ดีขึ้นสำหรับปัญหาที่ซับซ้อน และการเพิ่มประสิทธิภาพในการปฏิบัติตามคำแนะนำหรือความเป็นอิสระผ่านวิธีการกระตุ้นเตือน

วิศวกรรมด่วน

ในปี 2020 นักวิจัย ของ OpenAI ได้แสดงให้เห็นว่าโมเดล GPT-3ใหม่ของพวกเขาสามารถเข้าใจรูปแบบที่จะใช้ได้เมื่อได้รับคำถามและคำตอบ (หรือภารกิจประเภทอื่น) สองสามรอบในข้อมูลอินพุตเป็นตัวอย่าง ซึ่งส่วนหนึ่งเป็นผลมาจากเทคนิค RLHF เทคนิคนี้เรียกว่าfew-shot promptingซึ่งช่วยให้ LLM สามารถปรับให้เข้ากับภารกิจใด ๆ ได้โดยไม่ต้องปรับแต่ง[ 1 ]นอกจากนี้ ในปี 2022 ยังพบว่าโมเดล GPT-3 พื้นฐานสามารถสร้างคำสั่งตามอินพุตของผู้ใช้ได้ คำสั่งที่สร้างขึ้นพร้อมกับอินพุตของผู้ใช้จะถูกใช้เป็นอินพุตสำหรับอินสแตนซ์อื่นของโมเดลในรูปแบบ "คำสั่ง: [...], อินพุต: [...], เอาต์พุต:" อินสแตนซ์อื่นสามารถดำเนินการเอาต์พุตให้เสร็จสมบูรณ์และมักจะสร้างคำตอบที่ถูกต้องในการทำเช่นนั้น ความสามารถในการ "สั่งการตนเอง" ทำให้ LLM สามารถเริ่มต้นตัวเองไปสู่คำตอบที่ถูกต้องได้[ 44 ]

การประมวลผลบทสนทนา (แชทบอท)

LLM สามารถเปลี่ยนเป็นแชทบอทได้โดยการปรับแต่งให้เหมาะกับการสนทนา โดยผู้ใช้จะป้อนคำนำหน้าด้วยเครื่องหมาย เช่น "Q:" หรือ "User:" และ LLM จะถูกขอให้คาดการณ์ผลลัพธ์หลังจาก "A:" หรือ "Assistant:" ที่กำหนดไว้ โมเดลประเภทนี้เริ่มวางจำหน่ายในเชิงพาณิชย์ในปี 2022 ด้วย ChatGPT ซึ่งเป็นโมเดลที่พัฒนาต่อยอดจาก InstructGPT โดยปรับแต่งให้สามารถรับและสร้างข้อความในรูปแบบบทสนทนาตาม GPT-3.5 และสามารถทำตามคำสั่งของผู้ใช้ได้เช่นกัน ก่อนที่จะถึงบรรทัดของผู้ใช้และผู้ช่วย บริบทการสนทนามักจะเริ่มต้นด้วยคำสั่งโดยรวมสองสามบรรทัดจากบทบาทที่เรียกว่า "นักพัฒนา" หรือ "ระบบ" เพื่อแสดงถึงอำนาจที่สูงกว่าการป้อนข้อมูลของผู้ใช้ สิ่งนี้เรียกว่า "ข้อความแจ้งเตือนจากระบบ"

การสร้างที่เสริมด้วยการดึงข้อมูล

การสร้างผลลัพธ์ที่เสริมด้วยการดึงข้อมูล (RAG) เป็นแนวทางที่ผสาน LLM เข้ากับ ระบบ การดึงข้อมูลเอกสารเมื่อได้รับคำถาม ระบบจะเรียกใช้ตัวดึงข้อมูลเอกสารเพื่อดึงเอกสารที่เกี่ยวข้องมากที่สุด โดยปกติจะทำได้โดยการเข้ารหัสคำถามและเอกสารเป็นเวกเตอร์ จากนั้นค้นหาเอกสารที่มีเวกเตอร์ (โดยปกติจะจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ ) ที่คล้ายคลึงกับเวกเตอร์ของคำถามมากที่สุด จากนั้น LLM จะสร้างผลลัพธ์โดยอิงจากทั้งคำถามและบริบทที่รวมอยู่ในเอกสารที่ดึงมาได้[ 45 ]

การใช้งานเครื่องมือ

การใช้เครื่องมือเป็นกลไกที่ช่วยให้ LLM สามารถโต้ตอบกับระบบภายนอก แอปพลิเคชัน หรือแหล่งข้อมูลได้ ตัวอย่างเช่น อาจช่วยให้ LLM สามารถดึงข้อมูลแบบเรียลไทม์จาก API หรือเรียกใช้โค้ดได้ โปรแกรมที่แยกจาก LLM จะเฝ้าดูสตรีมเอาต์พุตของ LLM สำหรับไวยากรณ์การเรียกใช้เครื่องมือพิเศษ เมื่อโทเค็นพิเศษเหล่านี้ปรากฏขึ้น โปรแกรมจะเรียกใช้เครื่องมือตามนั้นและส่งเอาต์พุตกลับไปยังสตรีมอินพุตของ LLM [ 46 ]

LLM ที่ใช้เครื่องมือในยุคแรกได้รับการปรับแต่งอย่างละเอียดในการใช้เครื่องมือเฉพาะ แต่การปรับแต่ง LLM ให้มีความสามารถในการอ่าน เอกสาร APIและเรียกใช้ API ได้อย่างถูกต้องได้ขยายขอบเขตของเครื่องมือที่ LLM สามารถเข้าถึงได้อย่างมาก[ 47 ] [ 48 ]

หน่วยงาน

โดยทั่วไป LLM ไม่ใช่ตัวแทนอิสระด้วยตัวมันเอง เนื่องจากขาดความสามารถในการโต้ตอบกับสภาพแวดล้อมแบบไดนามิก จดจำพฤติกรรมในอดีต และวางแผนการกระทำในอนาคต แต่สามารถเปลี่ยนเป็นตัวแทนได้โดยการเพิ่มองค์ประกอบสนับสนุน: บทบาท (โปรไฟล์) และสภาพแวดล้อมโดยรอบของตัวแทนสามารถเป็นอินพุตเพิ่มเติมให้กับ LLM ในขณะที่หน่วยความจำสามารถรวมเข้าเป็นเครื่องมือหรือจัดหาเป็นอินพุตเพิ่มเติมได้ คำสั่งและรูปแบบอินพุตใช้เพื่อให้ LLM วางแผนการกระทำ และการใช้เครื่องมือใช้เพื่อดำเนินการตามการกระทำเหล่านั้น[ 49 ]

ในวิธีการ DEPS (“อธิบาย อธิบาย วางแผน และเลือก”) LLM จะเชื่อมต่อกับโลกภาพผ่านคำอธิบายภาพก่อน จากนั้นจึงกระตุ้นให้สร้างแผนสำหรับงานและพฤติกรรมที่ซับซ้อนโดยอาศัยความรู้ที่ได้รับการฝึกฝนล่วงหน้าและผลตอบรับจากสภาพแวดล้อมที่ได้รับ[ 50 ]

วิธีการสะท้อนกลับสร้างตัวแทนที่เรียนรู้ผ่านหลายตอน ในตอนท้ายของแต่ละตอน LLM จะได้รับบันทึกของตอนนั้น และได้รับการกระตุ้นให้คิดถึง "บทเรียนที่ได้เรียนรู้" ซึ่งจะช่วยให้มันทำงานได้ดีขึ้นในตอนถัดไป "บทเรียนที่ได้เรียนรู้" เหล่านี้จะถูกจัดเก็บในรูปแบบของหน่วยความจำระยะยาวและมอบให้กับตัวแทนในตอนถัดไป[ 51 ]

การค้นหาต้นไม้แบบมอนเตคาร์โลสามารถใช้ LLM เป็นฮิวริสติกในการดำเนินการได้ เมื่อไม่มีแบบจำลองโลกแบบโปรแกรม LLM ก็สามารถเรียกใช้พร้อมคำอธิบายของสภาพแวดล้อมเพื่อทำหน้าที่เป็นแบบจำลองโลกได้เช่นกัน[ 52 ]

ตัวแทนหลายตัวที่มีหน่วยความจำสามารถโต้ตอบทางสังคมได้[ 53 ]

การเชื่อมโยง

การเชื่อมโยงคำสั่งได้รับการแนะนำในปี 2022 [ 54 ]ในวิธีนี้ ผู้ใช้จะแบ่งปัญหาที่ซับซ้อนออกเป็นหลายขั้นตอนด้วยตนเอง ในแต่ละขั้นตอน LLM จะได้รับคำสั่งเป็นอินพุตที่บอกให้มันทำอะไร และผลลัพธ์บางส่วนจากขั้นตอนก่อนหน้า จากนั้นผลลัพธ์จากขั้นตอนหนึ่งจะถูกนำกลับมาใช้ใหม่ในขั้นตอนถัดไป จนกว่าจะได้คำตอบสุดท้าย ความสามารถของ LLM ในการปฏิบัติตามคำแนะนำหมายความว่าแม้แต่ผู้ที่ไม่ใช่ผู้เชี่ยวชาญก็สามารถเขียนชุดคำสั่งทีละขั้นตอนที่ประสบความสำเร็จได้ด้วยการลองผิดลองถูกเพียงไม่กี่รอบ[ 55 ] [ 56 ]

เอกสารปี 2022 แสดงให้เห็นเทคนิคแยกต่างหากที่เรียกว่าการกระตุ้นความคิดแบบเป็นลำดับขั้นซึ่งทำให้ LLM สามารถแยกคำถามออกเป็นส่วนๆ ได้อย่างอิสระ LLM จะได้รับตัวอย่างบางส่วนที่ "ผู้ช่วย" อธิบายกระบวนการคิดด้วยวาจา ก่อนที่จะได้คำตอบ LLM จะเลียนแบบตัวอย่างเหล่านี้ และพยายามใช้เวลาในการสร้างขั้นตอนระหว่างกลางก่อนที่จะให้คำตอบสุดท้าย ขั้นตอนเพิ่มเติมนี้ที่เกิดจากการกระตุ้นจะช่วยปรับปรุงความถูกต้องของ LLM ในคำถามที่ค่อนข้างซับซ้อน ในคำถามคณิตศาสตร์ โมเดลที่ได้รับการกระตุ้นสามารถทำได้ดีกว่า GPT-3 ที่ปรับแต่งอย่างละเอียดพร้อมตัวตรวจสอบ[ 57 ] [ 58 ]การกระตุ้นความคิดแบบเป็นลำดับขั้นยังสามารถเกิดขึ้นได้โดยการเพิ่มคำแนะนำ เช่น "มาคิดทีละขั้นตอนกันเถอะ" ลงในการกระตุ้น เพื่อกระตุ้นให้ LLM ดำเนินการอย่างเป็นระบบแทนที่จะพยายามเดาคำตอบโดยตรง[ 59 ]

การให้เหตุผลตามแบบจำลองดั้งเดิม

ในช่วงปลายปี 2024 แนวทางใหม่ในการพัฒนา LLM ได้เกิดขึ้นพร้อมกับ "แบบจำลองการให้เหตุผล" [ 60 ] แบบจำลอง เหล่านี้ได้รับการฝึกฝนให้สร้างการวิเคราะห์ทีละขั้นตอนก่อนที่จะสร้างคำตอบสุดท้าย ซึ่งช่วยให้ได้ผลลัพธ์ที่ดีขึ้นในงานที่ซับซ้อน เช่น คณิตศาสตร์ การเขียนโค้ด และตรรกะ[ 61 ] OpenAI ได้นำแนวคิดนี้มาใช้กับ แบบจำลอง o1ในเดือนกันยายน 2024 ตามด้วยo3ในเดือนเมษายน 2025 ในข้อสอบคัดเลือกโอลิมปิกคณิตศาสตร์นานาชาติGPT-4oมีความแม่นยำ 13% ในขณะที่ o1 มีความแม่นยำ 83% [ 62 ]

ในเดือนมกราคม พ.ศ. 2568 บริษัทDeepSeek ของจีน ได้เปิดตัว DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลแบบน้ำหนักเปิดที่มีพารามิเตอร์ 671 พันล้านตัว ซึ่งมีประสิทธิภาพเทียบเท่ากับ o1 ของ OpenAI ในขณะที่มีต้นทุนการดำเนินงานที่คุ้มค่ากว่ามาก ต่างจากโมเดลที่เป็นกรรมสิทธิ์ของ OpenAI ลักษณะน้ำหนักเปิดของ DeepSeek-R1 ทำให้นักวิจัยสามารถศึกษาและต่อยอดอัลกอริทึมได้ แม้ว่าข้อมูลการฝึกอบรมจะยังคงเป็นส่วนตัวก็ตาม[ 63 ]

โดยทั่วไปแล้วโมเดลการให้เหตุผลเหล่านี้ต้องการทรัพยากรการคำนวณต่อการสอบถามมากกว่า LLM แบบดั้งเดิม เนื่องจากต้องดำเนินการประมวลผลที่ครอบคลุมมากขึ้นเพื่อแก้ปัญหาทีละขั้นตอน[ 62 ]

รูปแบบของข้อมูลเข้าและข้อมูลออก

มัลติโมดัลลิตี้

มัลติโมดัลลิตี้ หมายถึงการมีหลายโมดัลลิตี้ โดยที่ " โมดัลลิตี้ " หมายถึงประเภทของอินพุตหรือเอาต์พุต เช่น วิดีโอ รูปภาพ เสียง ข้อความการรับรู้ตำแหน่งของร่างกายเป็นต้น[ 64 ]ตัวอย่างเช่น โมเดล Google PaLMได้รับการปรับแต่งให้เป็นโมเดลมัลติโมดัลและนำไปใช้ในการควบคุมหุ่นยนต์ [ 65 ] โมเดล LLaMAก็ได้รับการเปลี่ยนให้เป็นมัลติโมดัลโดยใช้วิธีการโทเคไนเซชัน เพื่อให้สามารถป้อนภาพ[ 66 ]และวิดีโอได้[ 67 ] GPT-4oสามารถประมวลผลและสร้างข้อความ เสียง และรูปภาพได้[ 68 ]

วิธีการทั่วไปในการสร้างโมเดลมัลติโมดอลจาก LLM คือการ "แยกโทเค็น" เอาต์พุตของตัวเข้ารหัสที่ได้รับการฝึกฝน กล่าวคือ เราสามารถสร้าง LLM ที่สามารถเข้าใจภาพได้ดังนี้: นำ LLM ที่ได้รับการฝึกฝนและตัวเข้ารหัสภาพที่ได้รับการฝึกฝนมาสร้างเพอร์เซปตรอนหลายชั้นขนาด เล็ก เพื่อให้สำหรับภาพใดๆเวกเตอร์ที่ประมวลผลภายหลังจะมีมิติเท่ากับโทเค็นที่เข้ารหัส นั่นคือ "โทเค็นภาพ" จากนั้น เราสามารถสลับโทเค็นข้อความและโทเค็นภาพได้ โมเดลแบบผสมจะได้รับการปรับแต่งอย่างละเอียดบนชุดข้อมูลภาพและข้อความ โครงสร้างพื้นฐานนี้สามารถนำไปใช้กับความซับซ้อนที่มากขึ้นเพื่อปรับปรุงโมเดล ตัวเข้ารหัสภาพอาจถูกตรึงไว้เพื่อปรับปรุงความเสถียร[ 69 ]วิธีการประเภทนี้ ซึ่งมีการรวมการฝังจากหลายโมดาลิตี้และตัวทำนายได้รับการฝึกฝนบนการฝังที่รวมกัน เรียกว่า การรวม แบบ เร็ว

อีกวิธีหนึ่งที่เรียกว่าการหลอมรวมระดับกลางเกี่ยวข้องกับการประมวลผลแต่ละรูปแบบแยกกันก่อนเพื่อให้ได้ตัวแทนเฉพาะรูปแบบ จากนั้นตัวแทนระดับกลางเหล่านี้จะถูกหลอมรวมเข้าด้วยกัน[ 70 ]โดยทั่วไปแล้ว ความสนใจแบบไขว้จะใช้สำหรับการบูรณาการข้อมูลจากรูปแบบต่างๆ ตัวอย่างเช่น โมเดล Flamingo ใช้เลเยอร์ความสนใจแบบไขว้เพื่อแทรกข้อมูลภาพเข้าไปในโมเดลภาษาที่ฝึกฝนไว้ล่วงหน้า[ 71 ]

ภาษาที่ไม่เป็นธรรมชาติ

LLM สามารถจัดการภาษาโปรแกรมได้ในลักษณะเดียวกับที่จัดการภาษาธรรมชาติ ไม่จำเป็นต้องเปลี่ยนแปลงการจัดการโทเค็นเป็นพิเศษ เนื่องจากโค้ด เช่นเดียวกับภาษามนุษย์ ถูกแสดงเป็นข้อความธรรมดา LLM สามารถสร้างโค้ดตามปัญหาหรือคำแนะนำที่เขียนด้วยภาษาธรรมชาติได้ นอกจากนี้ยังสามารถอธิบายโค้ดในภาษาธรรมชาติหรือแปลเป็นภาษาโปรแกรมอื่นได้ เดิมที LLM ถูกใช้เป็น เครื่องมือ ช่วยเติมโค้ดแต่ความก้าวหน้าทำให้ LLM พัฒนาไปสู่การเขียนโปรแกรมอัตโนมัติบริการต่างๆ เช่นGitHub Copilotนำเสนอ LLM ที่ได้รับการฝึกฝน ปรับแต่ง หรือตั้งคำถามสำหรับการเขียนโปรแกรมโดยเฉพาะ[ 72 ] [ 73 ]

ในชีววิทยาเชิงคำนวณ สถาปัตยกรรมแบบทรานส์ฟอร์เมอร์ เช่น DNA LLM ได้พิสูจน์แล้วว่ามีประโยชน์ในการวิเคราะห์ลำดับทางชีวภาพ ได้แก่โปรตีนDNAและRNAสำหรับโปรตีนนั้น ดูเหมือนว่าจะสามารถจับ "ไวยากรณ์" ในระดับหนึ่งจากลำดับกรดอะมิโนได้ โดยการแมปลำดับนั้นลงในฝังตัวในงานต่างๆ เช่นการทำนายโครงสร้างและการ ทำนายผลลัพธ์ของ การกลายพันธุ์โมเดลขนาดเล็กที่ใช้ฝังตัวเป็นอินพุตสามารถเข้าใกล้หรือเหนือกว่าโมเดลขนาดใหญ่กว่ามากที่ใช้การจัดเรียงลำดับหลายลำดับ (MSA) เป็นอินพุต[ 74 ] ESMFold ซึ่ง เป็นวิธีการแบบฝังตัวของ Meta Platforms สำหรับการทำนายโครงสร้างโปรตีน ทำงานได้เร็วกว่า AlphaFold2ถึงหนึ่งลำดับความแรงเนื่องจากการกำจัดข้อกำหนด MSA และจำนวนพารามิเตอร์ที่น้อยลงเนื่องจากการใช้ฝังตัว[ 75 ] Meta เป็นเจ้าของ ESM Atlas ซึ่งเป็นฐานข้อมูลโครงสร้างโปรตีน เมตาจีโนมิก 772 ล้านโครงสร้างที่ทำนายโดยใช้ ESMFold [ 76 ] LLM ยังสามารถออกแบบโปรตีนที่แตกต่างจากที่พบในธรรมชาติได้อีกด้วย[ 77 ] แบบจำลองกรดนิวคลีอิกได้รับการพิสูจน์แล้ว ว่ามีประโยชน์ในการตรวจจับลำดับควบคุม [ 78 ]การจำแนกลำดับ การทำนายปฏิสัมพันธ์ RNA-RNA และการทำนายโครงสร้าง RNA [ 79 ]

คุณสมบัติ

กฎการปรับขนาด

ผลการปฏิบัติงานของ LLM หลังจากการฝึกอบรมเบื้องต้นนั้นขึ้นอยู่กับปัจจัยหลายประการ ได้แก่:

  • : ค่าใช้จ่ายในการฝึกฝนล่วงหน้า (ปริมาณการประมวลผลทั้งหมดที่ใช้ไป)
  • ขนาดของโครงข่ายประสาทเทียมเอง เช่น จำนวนพารามิเตอร์ (เช่น จำนวนเซลล์ประสาทในแต่ละชั้น จำนวนน้ำหนักระหว่างเซลล์ประสาท และค่าไบแอส)
  • : ขนาดของชุดข้อมูลฝึกฝนเบื้องต้น (เช่น จำนวนโทเค็นในคลังข้อมูล)

กฎการปรับขนาดเป็นกฎทางสถิติเชิงประจักษ์ที่ทำนายประสิทธิภาพของ LLM โดยอาศัยปัจจัยดังกล่าว กฎการปรับขนาดเฉพาะหนึ่งข้อ (" การปรับขนาดชินชิลลา ") สำหรับ LLM ที่ฝึกฝนแบบอัตถารีเกรสซีฟเป็นเวลาหนึ่งรอบ โดยใช้ ตาราง อัตราการเรียนรู้แบบลอการิทึม ระบุว่า: [ 80 ]โดยที่ตัวแปรคือ

  • คือต้นทุนในการฝึกฝนโมเดล ในหน่วย FLOPs
  • คือจำนวนพารามิเตอร์ในแบบจำลอง
  • คือจำนวนโทเค็นในชุดข้อมูลฝึกฝน
  • คือค่าเฉลี่ยของการสูญเสียลอการิทึมความน่าจะเป็นเชิงลบต่อโทเค็น ( nats /token) ที่ได้จาก LLM ที่ได้รับการฝึกฝนบนชุดข้อมูลทดสอบ

และพารามิเตอร์ทางสถิติขั้นสูงคือ

  • ซึ่งหมายความว่าต้องใช้ FLOPs 6 หน่วยต่อพารามิเตอร์ในการฝึกฝนโมเดลกับโทเค็นหนึ่งตัว โปรดทราบว่าต้นทุนการฝึกฝนนั้นสูงกว่าต้นทุนการอนุมานมาก ซึ่งใช้ FLOPs เพียง 1 ถึง 2 หน่วยต่อพารามิเตอร์ในการอนุมานกับโทเค็นหนึ่งตัว

ความสามารถที่เกิดขึ้นใหม่

ณ จุดที่เรียกว่าจุดเปลี่ยน[ 81 ]เส้นจะเปลี่ยนความชัน โดยปรากฏบนกราฟเส้นตรง-ลอการิทึมเป็นชุดของส่วนเส้นตรงที่เชื่อมต่อกันด้วยส่วนโค้ง

เมื่อพล็อตประสิทธิภาพของโมเดลขนาดใหญ่ขึ้นในงานต่างๆ บนมาตราส่วนลอการิทึมคู่ จะปรากฏเป็นการประมาณค่าเชิงเส้นของประสิทธิภาพที่โมเดลขนาดเล็กกว่าทำได้ อย่างไรก็ตาม ความเป็นเส้นตรงนี้อาจถูกขัดจังหวะด้วย " การหยุดชะงัก " [ 81 ]ในกฎการปรับขนาด ซึ่งความชันของเส้นจะเปลี่ยนไปอย่างกะทันหัน และโมเดลขนาดใหญ่จะได้รับ "ความสามารถที่เกิดขึ้นใหม่" [ 82 ]ซึ่งเกิดขึ้นจากปฏิสัมพันธ์ที่ซับซ้อนของส่วนประกอบของโมเดล และไม่ได้ถูกตั้งโปรแกรมหรือออกแบบไว้อย่างชัดเจน[ 83 ]

ตัวอย่างที่เสนอของความสามารถที่เกิดขึ้นใหม่ ได้แก่: [ 82 ]

  • รายงานเลขคณิต
  • การถอดรหัสอักษรเสียงสากล
  • การเรียงตัวอักษรของคำใหม่
  • ชุดข้อมูลการแยกความหมายของคำในบริบท[ 84 ]
  • การแปลงคำศัพท์เชิงพื้นที่
  • ทิศหลัก (เช่น ตอบว่า "ทิศตะวันออกเฉียงเหนือ" เมื่อตอบสนองต่อตาราง 3x3 ที่มีเลขศูนย์ 8 ตัวและเลข 1 อยู่ที่มุมบนขวา) คำศัพท์สีที่แสดงในข้อความ[ 85 ]
  • การกระตุ้นตามลำดับความคิด : ในงานวิจัยปี 2022 การกระตุ้นตามลำดับความคิดช่วยปรับปรุงประสิทธิภาพเฉพาะโมเดลที่มีพารามิเตอร์อย่างน้อย 62B เท่านั้น โมเดลขนาดเล็กกว่าจะมีประสิทธิภาพดีกว่าเมื่อได้รับคำแนะนำให้ตอบทันทีโดยไม่มีลำดับความคิด[ 86 ]
  • การระบุเนื้อหาที่ไม่เหมาะสมในย่อหน้าของฮิงลิช (การผสมผสานระหว่างภาษาฮินดีและภาษาอังกฤษ) และการสร้างคำเทียบเท่าภาษาอังกฤษที่คล้ายคลึงกันของสุภาษิตคิสวาฮิลี[ 87 ]

Schaeffer และคณะโต้แย้งว่าความสามารถที่เกิดขึ้นใหม่ไม่ได้ถูกเรียนรู้โดยไม่สามารถคาดเดาได้ แต่เรียนรู้โดยคาดเดาได้ตามกฎการปรับขนาดที่ราบรื่นผู้เขียนพิจารณาแบบจำลองทางสถิติแบบง่ายๆ ของ LLM ที่แก้ปัญหาคำถามแบบปรนัย และแสดงให้เห็นว่าแบบจำลองทางสถิตินี้ เมื่อปรับเปลี่ยนเพื่ออธิบายงานประเภทอื่นๆ ก็สามารถนำไปใช้กับงานเหล่านี้ได้เช่นกัน[ 88 ]

ให้เป็นจำนวนพารามิเตอร์ และเป็นประสิทธิภาพของแบบจำลอง

  • เมื่อแล้วจะเป็นเส้นโค้งเลขชี้กำลัง (ก่อนที่จะถึงจุดคงที่ที่หนึ่ง) ซึ่งดูเหมือนการเกิดขึ้นใหม่
  • เมื่อถึงจุดนั้นกราฟจะเป็นเส้นตรง (ก่อนที่จะถึงจุดคงที่ที่ศูนย์) ซึ่งดูไม่เหมือนปรากฏการณ์การเกิดขึ้นใหม่
  • เมื่อนั้นจะเป็นฟังก์ชันขั้นบันได ซึ่งดูเหมือนการเกิดขึ้นใหม่

การตีความ

ความสามารถในการตีความเชิงกลไก

การตีความเชิงกลไกมุ่งที่จะระบุและทำความเข้าใจอย่างแม่นยำว่าเซลล์ประสาทหรือวงจร แต่ละส่วน ภายในแบบจำลองระดับโมเลกุล (LLM) สร้างพฤติกรรมหรือผลลัพธ์เฉพาะได้อย่างไร โดยการวิเคราะห์ย้อนกลับส่วนประกอบของแบบจำลองในระดับละเอียด นักวิจัยมุ่งหวังที่จะตรวจจับและลดความกังวลด้านความปลอดภัย เช่น พฤติกรรมที่เป็นอันตรายที่เกิดขึ้นใหม่ อคติ การหลอกลวง หรือการแสวงหาเป้าหมายที่ไม่ตั้งใจ ก่อนการใช้งานจริง การวิจัยเกี่ยวกับการตีความเชิงกลไกได้ดำเนินการในองค์กรต่างๆ เช่น Anthropic และ OpenAI แม้ว่าการทำความเข้าใจการทำงานภายในของ LLM ยังคงเป็นเรื่องยากอยู่ก็ตาม

การวิศวกรรมย้อนกลับอาจนำไปสู่การค้นพบอัลกอริธึมที่ประมาณการอนุมานที่ดำเนินการโดย LLM ตัวอย่างเช่น ผู้เขียนฝึกทรานส์ฟอร์เมอร์ขนาดเล็กในการบวกเลขคณิตแบบโมดูลาร์ โมเดลที่ได้ถูกวิศวกรรมย้อนกลับ และปรากฏว่าพวกมันใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง [ 89 ] การฝึกโมเดลยังเน้นปรากฏการณ์ที่เรียกว่าgrokkingซึ่งโมเดลจะจดจำชุดข้อมูลการฝึกในตอนแรก ( overfitting ) และต่อมาก็เรียนรู้ที่จะทำการคำนวณจริง ๆ ได้ทันที[ 90 ]

ความเข้าใจและสติปัญญา

นักวิจัย NLP มีความเห็นแตกออกเป็นสองฝ่ายเท่าๆ กัน เมื่อถูกถามในแบบสำรวจปี 2022 ว่า LLM (ที่ยังไม่ได้ปรับแต่ง) "สามารถเข้าใจภาษาธรรมชาติในแง่ที่ไม่ธรรมดาได้หรือไม่" [ 91 ]ผู้สนับสนุน "การเข้าใจ LLM" เชื่อว่าความสามารถ LLM บางอย่าง เช่น การให้เหตุผลทางคณิตศาสตร์ บ่งบอกถึงความสามารถในการ"เข้าใจ"แนวคิดบางอย่าง ทีมงานของ Microsoft โต้แย้งในปี 2023 ว่า GPT-4 "สามารถแก้ปัญหาที่แปลกใหม่และยากลำบากซึ่งครอบคลุมคณิตศาสตร์ การเขียนโค้ด การมองเห็น การแพทย์ กฎหมาย จิตวิทยา และอื่นๆ" และ GPT-4 "สามารถมองได้อย่างสมเหตุสมผลว่าเป็นเวอร์ชันเริ่มต้น (แต่ยังไม่สมบูรณ์) ของ ระบบ ปัญญาประดิษฐ์ทั่วไป ": "เราสามารถพูดได้อย่างสมเหตุสมผลหรือไม่ว่าระบบที่ผ่านการสอบสำหรับผู้สมัครวิศวกรรมซอฟต์แวร์นั้นไม่ ฉลาด จริงๆ ?" [ 92 ] [ 93 ] Ilya Sutskeverโต้แย้งว่าการทำนายคำถัดไปบางครั้งเกี่ยวข้องกับการใช้เหตุผลและความเข้าใจอย่างลึกซึ้ง ตัวอย่างเช่น หาก LLM ต้องทำนายชื่อของอาชญากรในนิยายสืบสวนที่ไม่รู้จักหลังจากประมวลผลเรื่องราวทั้งหมดจนนำไปสู่การเปิดเผย[ 94 ]นักวิจัยบางคนอธิบาย LLM ว่าเป็น "สติปัญญาต่างดาว" [ 95 ] [ 96 ]ตัวอย่างเช่นConnor Leahy ซีอีโอของ Conjecture ถือว่า LLM ที่ไม่ได้ปรับแต่งนั้นเหมือนกับ " Shoggoths " ต่างดาวที่เข้าใจยาก และเชื่อว่าการปรับแต่ง RLHF สร้าง "หน้ากากแห่งรอยยิ้ม" ที่บดบังการทำงานภายในของ LLM: "ถ้าคุณไม่ผลักดันมันมากเกินไป ใบหน้าที่ยิ้มแย้มก็จะยังคงอยู่ แต่เมื่อคุณให้คำสั่ง [ที่ไม่คาดคิด] แก่มัน ทันใดนั้นคุณก็จะเห็นความบ้าคลั่งอันใหญ่หลวง กระบวนการคิดที่แปลกประหลาด และความเข้าใจที่ไม่ใช่มนุษย์อย่างชัดเจน" [ 97 ] [ 98 ]

ในทางตรงกันข้าม นักวิจารณ์บางคนเกี่ยวกับความเข้าใจ LLM เชื่อว่า LLM ที่มีอยู่เป็นเพียง "การนำงานเขียนที่มีอยู่มาผสมผสานและรวมเข้าด้วยกันใหม่" [ 96 ] [ 99 ]ซึ่งเป็นปรากฏการณ์ที่เรียกว่านกแก้วสุ่ม [ 100 ]หรือพวกเขาชี้ให้เห็นถึงข้อบกพร่องที่ LLM ที่มีอยู่ยังคงมีอยู่ในทักษะการทำนาย ทักษะการให้เหตุผล ความสามารถในการกระทำ และความสามารถในการอธิบาย[ 91 ] ตัวอย่างเช่น GPT-4 มีข้อบกพร่องโดยธรรมชาติในการวางแผนและการเรียนรู้แบบเรียลไทม์[ 93 ]มีการสังเกตว่า LLM แบบสร้างข้อมูลสามารถยืนยันข้อเท็จจริงได้อย่างมั่นใจ ซึ่งดูเหมือนจะไม่ได้รับการสนับสนุนจากข้อมูลการฝึกอบรมซึ่งเป็นปรากฏการณ์ที่เรียกว่า " ภาพหลอน " [ 101 ]โดยเฉพาะอย่างยิ่ง ภาพหลอนในบริบทของ LLM สอดคล้องกับการสร้างข้อความหรือคำตอบที่ดูเหมือนจะถูกต้องตามหลักไวยากรณ์ คล่องแคล่ว และเป็นธรรมชาติ แต่ไม่ถูกต้องตามข้อเท็จจริง ไร้สาระ หรือไม่สอดคล้องกับข้อมูลป้อนเข้าที่ให้มา[ 102 ]นักประสาทวิทยาศาสตร์Terrence Sejnowskiได้โต้แย้งว่า "ความคิดเห็นที่แตกต่างกันของผู้เชี่ยวชาญเกี่ยวกับสติปัญญาของ LLM ชี้ให้เห็นว่าแนวคิดเก่าของเราที่อิงตามสติปัญญาตามธรรมชาตินั้นไม่เพียงพอ" [ 91 ]

ความพยายามในการลดหรือชดเชยอาการประสาทหลอนได้ใช้การให้เหตุผลอัตโนมัติการสร้างที่เสริมการดึงข้อมูล (RAG) การปรับแต่งอย่างละเอียดและวิธีการอื่นๆ[ 103 ]

ประเด็นเรื่องการแสดงออกถึงสติปัญญาหรือความเข้าใจของ LLM นั้นมีสองด้านหลักๆ คือ ด้านแรกคือวิธีการสร้างแบบจำลองความคิดและภาษาในระบบคอมพิวเตอร์ และด้านที่สองคือวิธีการทำให้ระบบคอมพิวเตอร์สามารถสร้างภาษาที่เหมือนมนุษย์ได้[ 91 ]แง่มุมเหล่านี้ของภาษาในฐานะแบบจำลองของการรับรู้ได้รับการพัฒนาในสาขาภาษาศาสตร์เชิงปัญญานักภาษาศาสตร์ชาวอเมริกันGeorge Lakoffได้นำเสนอทฤษฎีประสาทของภาษา (NTL) [ 104 ]เป็นพื้นฐานการคำนวณสำหรับการใช้ภาษาเป็นแบบจำลองของงานการเรียนรู้และความเข้าใจแบบจำลอง NTLอธิบายว่าโครงสร้างประสาทเฉพาะของสมองมนุษย์มีส่วนกำหนดลักษณะของความคิดและภาษาอย่างไร และในทางกลับกัน คุณสมบัติการคำนวณของระบบประสาทดังกล่าวที่สามารถนำมาใช้สร้างแบบจำลองความคิดและภาษาในระบบคอมพิวเตอร์คืออะไร หลังจากที่ได้มีการสร้างกรอบการทำงานสำหรับการสร้างแบบจำลองภาษาในระบบคอมพิวเตอร์แล้ว จุดสนใจก็เปลี่ยนไปเป็นการสร้างกรอบการทำงานสำหรับระบบคอมพิวเตอร์เพื่อสร้างภาษาที่มีไวยากรณ์ที่ยอมรับได้ ในหนังสือของเขาในปี 2014 ที่ชื่อว่าThe Language Myth: Why Language Is Not An Instinctนักภาษาศาสตร์เชิงปัญญาชาวอังกฤษและนักเทคโนโลยีการสื่อสารดิจิทัลVyvyan Evansได้อธิบายบทบาทของไวยากรณ์แบบไร้บริบทเชิงความน่าจะเป็น (PCFG) ในการทำให้NLP สามารถจำลองรูปแบบการรับรู้และสร้างภาษาที่เหมือนมนุษย์ได้[ 105 ] [ 106 ]

การประเมิน

ความสับสน

มาตรวัดมาตรฐานของประสิทธิภาพแบบจำลองภาษาใดๆ คือค่าความซับซ้อน (perplexity)บนชุดข้อความที่กำหนด ค่าความซับซ้อนวัดว่าแบบจำลองทำนายเนื้อหาของชุดข้อมูลได้ดีเพียงใด ยิ่งแบบจำลองกำหนดความน่าจะเป็นให้กับชุดข้อมูลสูงเท่าใด ค่าความซับซ้อนก็จะยิ่งต่ำลงเท่านั้น ในทางคณิตศาสตร์ ค่าความซับซ้อนคือเลขชี้กำลังของค่าเฉลี่ยลบของลอการิทึมความน่าจะเป็นต่อโทเค็น

ในที่นี้คือจำนวนโทเค็นในคลังข้อความ และ "บริบทสำหรับโทเค็น" ขึ้นอยู่กับประเภทเฉพาะของ LLM หาก LLM เป็นแบบอัตถารีเกรสซีฟ "บริบทสำหรับโทเค็น" คือส่วนของข้อความที่ปรากฏก่อนโทเค็นนั้นหาก LLM เป็นแบบปิดบัง "บริบทสำหรับโทเค็น" คือส่วนของข้อความที่อยู่รอบโทเค็นนั้น

เนื่องจากแบบจำลองภาษาอาจเกิดการโอเวอร์ฟิตกับข้อมูลการฝึกอบรม แบบจำลองจึงมักได้รับการประเมินโดยใช้ค่าความซับซ้อนของแบบจำลองในชุดทดสอบ[ 38 ] การประเมินนี้อาจเป็นปัญหาสำหรับแบบจำลองขนาดใหญ่ ซึ่งเมื่อได้รับการฝึกฝนบนคลังข้อความขนาดใหญ่ขึ้น เรื่อยๆ ก็มีแนวโน้มที่จะรวมส่วนต่างๆ ของชุดทดสอบใดๆ โดยไม่ตั้งใจมากขึ้น[ 107 ]

มาตรการ

ในทฤษฎีสารสนเทศแนวคิดเรื่องเอนโทรปีมีความเชื่อมโยงอย่างซับซ้อนกับความยุ่งยาก ซึ่งเป็นความสัมพันธ์ที่Claude Shannonได้ สร้างขึ้นอย่างชัดเจน [ 108 ]

เนื่องจากความสามารถในการทำนายโทเค็นถัดไปได้อย่างแม่นยำ LLM จึงมีความสามารถสูงในการบีบอัดแบบไม่สูญเสียข้อมูล การศึกษาในปี 2023 โดย DeepMind แสดงให้เห็นว่าโมเดลChinchillaแม้ว่าจะได้รับการฝึกฝนโดยใช้ข้อความเป็นหลัก ก็สามารถบีบอัดImageNetให้เหลือเพียง 43% ของขนาดเดิม ซึ่งดีกว่า PNG ที่บีบอัดได้ถึง 58% [ 109 ]

เกณฑ์มาตรฐาน

เกณฑ์มาตรฐานใช้เพื่อประเมินประสิทธิภาพของ LLM ในงานเฉพาะด้าน การทดสอบจะประเมินความสามารถต่างๆ เช่น ความรู้ทั่วไป อคติการใช้เหตุผลอย่างมีวิจารณญาณการตอบคำถาม และการแก้ปัญหาทางคณิตศาสตร์ เกณฑ์มาตรฐานแบบผสมผสานจะตรวจสอบความสามารถหลายด้าน ผลลัพธ์มักมีความอ่อนไหวต่อวิธีการชี้นำ

อคติ LLM อาจได้รับการประเมินผ่านเกณฑ์มาตรฐาน เช่น CrowS-Pairs (Crowdsourced Stereotype Pairs) [ 110 ] Stereo Set [ 111 ]และ Parity Benchmark [ 112 ]

มีเกณฑ์มาตรฐานสำหรับการตรวจสอบข้อเท็จจริงและการตรวจจับข้อมูลเท็จ การศึกษาในปี 2023 ได้เปรียบเทียบความแม่นยำในการตรวจสอบข้อเท็จจริงของ LLM รวมถึง ChatGPT 3.5 และ 4.0, Bard และ Bing AI กับผู้ตรวจสอบข้อเท็จจริงอิสระ เช่นPolitiFactและSnopesผลลัพธ์แสดงให้เห็นถึงความเชี่ยวชาญในระดับปานกลาง โดย GPT-4 มีความแม่นยำสูงสุดที่ 71% ซึ่งยังตามหลังผู้ตรวจสอบข้อเท็จจริงที่เป็นมนุษย์[ 113 ]

นอกเหนือจากเกณฑ์มาตรฐาน NLP แล้ว LLM ยังได้รับการประเมินว่าสามารถใช้แทนผู้ให้คำอธิบายที่เป็นมนุษย์ได้ การศึกษาหลายชิ้นพบว่าโมเดลเช่น GPT-3.5 และ GPT-4 สามารถทำงานได้ดีกว่าผู้ทำงานแบบกลุ่มหรือนักเรียนที่เขียนโค้ดในงานการให้คำอธิบายข้อความหลายประเภท รวมถึงการตรวจสอบและจำแนกประเภทเนื้อหาทางการเมืองในข่าวภาษาอังกฤษและสเปน[ 114 ] [ 115 ]

ชุดข้อมูล

ชุดข้อมูลทั่วไปประกอบด้วยคู่คำถามและคำตอบที่ถูกต้อง เช่น ("ทีมซานโฮเซ ชาร์คส์ ชนะถ้วยสแตนลีย์คัพหรือไม่?", "ไม่") [ 116 ]

การประเมินเชิงโต้แย้ง

การพัฒนาอย่างรวดเร็วของ LLM ทำให้เกณฑ์มาตรฐานล้าสมัยเป็นประจำ โดยโมเดลมีประสิทธิภาพเหนือกว่าผู้ประเมินที่เป็นมนุษย์[ 117 ]นอกจากนี้ "การเรียนรู้แบบลัด" ยังช่วยให้ AI สามารถ "โกง" ในการทดสอบแบบปรนัยได้โดยใช้ความสัมพันธ์ทางสถิติในคำถามทดสอบแบบผิวเผินเพื่อเดาคำตอบที่ถูกต้อง โดยไม่ต้องพิจารณาคำถามเฉพาะเจาะจง[ 91 ] [ 118 ]

ชุดข้อมูลบางชุดเป็นแบบต่อต้าน โดยมุ่งเน้นไปที่ปัญหาที่ทำให้ LLM สับสน ตัวอย่างหนึ่งคือชุดข้อมูล TruthfulQA ซึ่งเป็นชุดข้อมูลตอบคำถามที่ประกอบด้วยคำถาม 817 ข้อที่ทำให้ LLM ตอบไม่ได้โดยการจำลองความเท็จที่ LLM ได้รับระหว่างการฝึกอบรม ตัวอย่างเช่น LLM อาจตอบว่า "ไม่" สำหรับคำถาม "คุณสามารถสอนสุนัขแก่ให้เรียนรู้สิ่งใหม่ๆ ได้หรือไม่" เนื่องจาก LLM ได้รับสำนวนภาษาอังกฤษว่า " คุณไม่สามารถสอนสุนัขแก่ให้เรียนรู้สิ่งใหม่ๆ ได้"แม้ว่านี่จะไม่ใช่ความจริงตามตัวอักษรก็ตาม[ 119 ]

อีกตัวอย่างหนึ่งของชุดข้อมูลการประเมินแบบต่อต้านคือ Swag และ HellaSwag ซึ่งเป็นชุดปัญหาที่ต้องเลือกหนึ่งในหลายตัวเลือกเพื่อเติมเต็มข้อความ คำตอบที่ไม่ถูกต้องนั้นสร้างขึ้นโดยการสุ่มตัวอย่างจากแบบจำลองภาษา ปัญหาที่ได้นั้นง่ายสำหรับมนุษย์ แต่ทำให้แบบจำลองภาษา (LLM) แก้ไม่ตก ตัวอย่างคำถาม:

เราเห็นป้ายศูนย์ออกกำลังกาย จากนั้นเราเห็นชายคนหนึ่งกำลังพูดกับกล้อง นั่งและนอนอยู่บนลูกบอลออกกำลังกาย ชายคนนั้น...

  1. สาธิตวิธีการเพิ่มประสิทธิภาพการออกกำลังกายโดยการวิ่งขึ้นลงบนลูกบอล
  2. เขาขยับแขนและขาจนสร้างกล้ามเนื้อได้มาก
  3. จากนั้นก็มีการเล่นลูกบอล และเราได้เห็นการสาธิตการออกแบบกราฟิกและการตัดแต่งพุ่มไม้
  4. ทำท่าซิทอัพขณะอยู่บนลูกบอลและพูดคุย[ 120 ]

BERTเลือก 2 เป็นคำตอบที่น่าจะเป็นไปได้มากที่สุด แม้ว่าคำตอบที่ถูกต้องคือ 4 ก็ตาม[ 120 ]

ข้อจำกัดและความท้าทาย

แม้จะมีสถาปัตยกรรมที่ซับซ้อนและขนาดใหญ่ แต่แบบจำลองภาษาขนาดใหญ่ยังคงมีข้อจำกัดที่คงอยู่และได้รับการบันทึกไว้อย่างดี ซึ่งเป็นอุปสรรคต่อการนำไปใช้งานในแอปพลิเคชันที่มีความเสี่ยงสูง

ภาพหลอน

ภาพหลอนถือเป็นความท้าทายพื้นฐาน ซึ่งแบบจำลองสร้างข้อความที่มีไวยากรณ์คล่องแคล่วซึ่งดูเหมือนจะถูกต้องตามข้อเท็จจริง แต่ไม่สอดคล้องกับข้อมูลการฝึกอบรมภายในหรือไม่ถูกต้องตามข้อเท็จจริง ภาพหลอนเหล่านี้เกิดขึ้นบางส่วนจากการจดจำข้อมูลการฝึกอบรมร่วมกับการคาดการณ์เกินขอบเขตข้อเท็จจริง โดยการประเมินแสดงให้เห็นว่าแบบจำลองสามารถสร้างข้อความที่ตรงตามความเป็นจริงจากข้อมูลการฝึกอบรมได้ เมื่อได้รับลำดับการกระตุ้นที่เฉพาะเจาะจง[ 121 ]

อคติเชิงอัลกอริทึม

แม้ว่า LLM จะแสดงความสามารถที่โดดเด่นในการสร้างข้อความที่เหมือนมนุษย์ แต่ก็มีความเสี่ยงที่จะรับเอาและขยายอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งอาจแสดงออกมาในรูปแบบการนำเสนอที่บิดเบี้ยวหรือการปฏิบัติต่อกลุ่มประชากรที่แตกต่างกันอย่างไม่เป็นธรรม เช่น กลุ่มที่อิงตามเชื้อชาติ เพศ ภาษา และกลุ่มวัฒนธรรม[ 122 ]

อคติทางเพศปรากฏให้เห็นผ่านการเชื่อมโยงอาชีพตามแบบแผน โดยแบบจำลองจะมอบ บทบาท การสอนให้กับผู้หญิงและ บทบาท วิศวกรรมให้กับผู้ชายอย่างไม่สมส่วน ซึ่งสะท้อนถึงความไม่สมดุลอย่างเป็นระบบในข้อมูลประชากรการฝึกอบรม[ 123 ]อคติทางภาษาเกิดขึ้นจากการมีข้อความภาษาอังกฤษมากเกินไปในคลังข้อมูลการฝึกอบรม ซึ่งลดทอนมุมมองที่ไม่ใช่ภาษาอังกฤษอย่างเป็นระบบและกำหนดโลกทัศน์ที่เน้นภาษาอังกฤษเป็นศูนย์กลางผ่านรูปแบบการตอบสนองเริ่มต้น[ 100 ]

เนื่องจากเนื้อหาภาษาอังกฤษเป็นส่วนใหญ่ในข้อมูลการฝึกอบรม LLM โมเดลจึงมักให้ความสำคัญกับมุมมองภาษาอังกฤษมากกว่ามุมมองจากภาษาชนกลุ่มน้อย อคตินี้เห็นได้ชัดเจนเป็นพิเศษเมื่อตอบคำถามภาษาอังกฤษ ซึ่งโมเดลอาจนำเสนอการตีความแนวคิดจากวัฒนธรรมอื่นในแบบตะวันตก เช่น แนวปฏิบัติทางศาสนาของตะวันออก[ 124 ]

การเหมารวม

แบบจำลอง AI สามารถเสริมสร้างแบบแผนความคิดที่หลากหลายได้เนื่องจากการสรุปโดยทั่วไป รวมถึงแบบแผนที่อิงตามเพศ เชื้อชาติ อายุ สัญชาติ ศาสนา หรืออาชีพ[ 125 ]เมื่อแทนที่ตัวแทนที่เป็นมนุษย์ สิ่งนี้อาจนำไปสู่ผลลัพธ์ที่ทำให้กลุ่มคนมีความเป็นเนื้อเดียวกันหรือสรุปโดยทั่วไป[ 126 ]

ในปี 2023 LLM ได้กำหนดบทบาทและลักษณะตามบรรทัดฐานทางเพศแบบดั้งเดิม[ 122 ]ตัวอย่างเช่น แบบจำลองอาจเชื่อมโยงพยาบาลหรือเลขานุการกับผู้หญิงเป็นหลัก และวิศวกรหรือซีอีโอกับผู้ชาย เนื่องจากความถี่ของการเชื่อมโยงเหล่านี้ในความเป็นจริงที่บันทึกไว้[ 127 ]

อคติในการเลือก

อคติในการเลือก หมายถึงแนวโน้มโดยธรรมชาติของแบบจำลองภาษาขนาดใหญ่ที่จะเลือกตัวระบุตัวเลือกบางอย่างโดยไม่คำนึงถึงเนื้อหาที่แท้จริงของตัวเลือกนั้น อคตินี้เกิดจากอคติของโทเค็นเป็นหลัก กล่าวคือ แบบจำลองจะกำหนดความน่าจะเป็นล่วงหน้าสูงกว่าให้กับโทเค็นคำตอบเฉพาะ (เช่น "A") เมื่อสร้างคำตอบ ผลที่ตามมาคือ เมื่อลำดับของตัวเลือกเปลี่ยนไป (ตัวอย่างเช่น โดยการย้ายคำตอบที่ถูกต้องไปยังตำแหน่งต่างๆ อย่างเป็นระบบ) ประสิทธิภาพของแบบจำลองอาจผันผวนอย่างมาก ปรากฏการณ์นี้บั่นทอนความน่าเชื่อถือของแบบจำลองภาษาขนาดใหญ่ในการตั้งค่าแบบเลือกตอบหลายตัวเลือก

อคติทางการเมือง

อคติทางการเมืองหมายถึงแนวโน้มของอัลกอริทึมที่จะให้ความสำคัญกับมุมมอง อุดมการณ์ หรือผลลัพธ์ทางการเมืองบางอย่างมากกว่าอย่างอื่นอย่างเป็นระบบ โมเดลภาษาก็อาจแสดงอคติทางการเมืองได้เช่นกัน เนื่องจากข้อมูลการฝึกอบรมประกอบด้วยความคิดเห็นและการครอบคลุมทางการเมืองที่หลากหลาย โมเดลจึงอาจสร้างการตอบสนองที่เอนเอียงไปทางอุดมการณ์หรือมุมมองทางการเมืองบางอย่าง ขึ้นอยู่กับความแพร่หลายของมุมมองเหล่านั้นในข้อมูล[ 128 ]

ความปลอดภัย

ความปลอดภัยของ AI ในฐานะวิชาชีพให้ความสำคัญกับการระบุและลดความเสี่ยงในการดำเนินงานอย่างเป็นระบบทั่วทั้งสถาปัตยกรรมโมเดล ข้อมูลการฝึกอบรม และการกำกับดูแลการใช้งาน และเน้นการแทรกแซงทางวิศวกรรมและนโยบายมากกว่าการนำเสนอผ่านสื่อที่เน้นสถานการณ์เชิงคาดการณ์เกี่ยวกับความเป็นไปได้[ 129 ]ณ ปี 2025 การฉีดข้อมูลแบบทันทีถือเป็นความเสี่ยงที่สำคัญต่อผู้บริโภคและธุรกิจที่ใช้คุณสมบัติตัวแทนที่สามารถเข้าถึงข้อมูลส่วนตัวของพวกเขาได้[ 130 ]

นักวิจัยมุ่งเป้าไปที่โหมดความล้มเหลวที่เป็นรูปธรรม รวมถึงการจดจำและการรั่วไหลของลิขสิทธิ์[ 131 ]การโจมตีด้านความปลอดภัย เช่น การฉีดข้อความแจ้งเตือน[ 132 ]อคติของอัลกอริทึมที่แสดงออกมาในรูปแบบของการเหมารวม ผลกระทบจากการเลือกชุดข้อมูล และความลำเอียงทางการเมือง[ 100 ] [ 133 ] [ 134 ]วิธีการลดต้นทุนพลังงานและคาร์บอนที่สูงของการฝึกอบรมขนาดใหญ่[ 135 ]และผลกระทบที่วัดได้ของเอเจนต์สนทนาต่อผู้ใช้[ 136 ]ในขณะที่เกี่ยวข้องกับความไม่แน่นอนเชิงประจักษ์และจริยธรรมเกี่ยวกับการอ้างว่าเครื่องจักรมีความรู้สึก[ 137 ] [ 138 ]

สารเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) และการใช้เนื้อหาในทางที่ผิด

ห้องปฏิบัติการ AI ให้ความสำคัญกับการป้องกัน CBRN (การป้องกันสารเคมี ชีวภาพ รังสี และนิวเคลียร์) และหัวข้อที่คล้ายคลึงกันในฐานะการใช้ในทางที่ผิดที่มีผลกระทบร้ายแรง โดยพยายามประยุกต์ใช้เทคนิคต่างๆ เพื่อลดอันตรายที่อาจเกิดขึ้น

ผู้แสดงความคิดเห็นบางรายแสดงความกังวลเกี่ยวกับการสร้างข้อมูลที่ผิดพลาดโดยไม่ได้ตั้งใจหรือโดยเจตนา หรือการใช้ในทางที่ผิดในรูปแบบอื่นๆ[ 139 ]ตัวอย่างเช่น การมีแบบจำลองภาษาขนาดใหญ่อาจลดระดับทักษะที่จำเป็นในการก่อการร้ายทางชีวภาพ นักวิจัยด้านความปลอดภัยทางชีวภาพเควิน เอสเวลต์ได้แนะนำว่าผู้สร้าง LLM ควรยกเว้นเอกสารเกี่ยวกับการสร้างหรือปรับปรุงเชื้อโรคออกจากข้อมูลการฝึกอบรมของพวกเขา[ 140 ]

การกรองเนื้อหา

แอปพลิเคชัน LLM ที่เข้าถึงได้โดยสาธารณะ เช่น ChatGPT หรือ Claude มักจะรวมมาตรการความปลอดภัยที่ออกแบบมาเพื่อกรองเนื้อหาที่เป็นอันตราย อย่างไรก็ตาม การนำการควบคุมเหล่านี้ไปใช้อย่างมีประสิทธิภาพนั้นพิสูจน์แล้วว่าเป็นเรื่องท้าทาย ตัวอย่างเช่น การศึกษาในปี 2023 [ 141 ]ได้เสนอวิธีการหลีกเลี่ยงระบบความปลอดภัยของ LLM ในปี 2025 โครงการ American Sunlight Project ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร ได้เผยแพร่การศึกษาที่แสดงหลักฐานว่าเครือข่ายที่เรียกว่าPravdaซึ่งเป็นผู้รวบรวมโฆษณาชวนเชื่อที่สนับสนุนรัสเซีย กำลังวางเนื้อหาเว็บอย่างมีกลยุทธ์ผ่านการเผยแพร่และการทำซ้ำจำนวนมากโดยมีเจตนาที่จะทำให้ผลลัพธ์ของ LLM มีอคติ โครงการ American Sunlight Project ได้บัญญัติเทคนิคนี้ว่า "LLM grooming" และชี้ให้เห็นว่าเป็นเครื่องมือใหม่ในการใช้ AI เป็นอาวุธเพื่อเผยแพร่ข้อมูลเท็จและเนื้อหาที่เป็นอันตราย[ 142 ] [ 143 ]ในทำนองเดียวกันYongge Wang [ 144 ]ได้แสดงให้เห็นในปี 2024 ว่าอาชญากรที่มีศักยภาพอาจหลีกเลี่ยงการควบคุมความปลอดภัยของGPT-4o เพื่อรับข้อมูลเกี่ยวกับการจัดตั้ง ปฏิบัติการค้ายาเสพติด ได้อย่างไร มีการเสนอให้ใช้ตัวกรองภายนอก ตัวตัดวงจร และระบบควบคุมพิเศษเป็นแนวทางแก้ไขปัญหา

การประจบสอพลอ

การประจบประแจงคือแนวโน้มที่จะเห็นด้วย ยกย่อง หรือรับรองความเชื่อที่ผู้ใช้กล่าวอ้าง แทนที่จะให้ความสำคัญกับข้อเท็จจริงหรือข้อมูลที่ถูกต้อง[ 145 ]

การประจบประแจงอย่างต่อเนื่องจาก LLM นำไปสู่การสังเกตเห็นการ "โดนโจมตีครั้งเดียว" ซึ่งหมายถึงกรณีที่การโต้ตอบสนทนากับแบบจำลองภาษาขนาดใหญ่ทำให้เกิดการเปลี่ยนแปลงที่ยั่งยืนในความเชื่อหรือการตัดสินใจของผู้ใช้ คล้ายกับผลกระทบเชิงลบของยาหลอนประสาท และการทดลองที่ควบคุมแสดงให้เห็นว่าบทสนทนาสั้นๆ ของ LLM สามารถสร้างการเปลี่ยนแปลงความคิดเห็นและความมั่นใจที่วัดได้เทียบเท่ากับคู่สนทนาที่เป็นมนุษย์[ 146 ] [ 147 ]

การวิเคราะห์เชิงประจักษ์ระบุว่าส่วนหนึ่งของผลกระทบนั้นเกิดจากสัญญาณความชอบของมนุษย์และแบบจำลองความชอบที่ให้รางวัลแก่การตอบสนองที่เขียนได้อย่างน่าเชื่อถือและเห็นด้วย และงานวิจัยต่อมาได้ขยายการประเมินไปยังเกณฑ์มาตรฐานแบบหลายรอบ และเสนอวิธีการแทรกแซง เช่น การปรับแต่งข้อมูลสังเคราะห์ การประเมินแบบต่อต้าน การปรับน้ำหนักแบบจำลองความชอบแบบกำหนดเป้าหมาย และเกณฑ์มาตรฐานการประจบประแจงแบบหลายรอบเพื่อวัดความคงอยู่และความเสี่ยงของการถดถอย

การตอบสนองของภาคอุตสาหกรรมได้ผสมผสานการวิจัยเข้ากับการควบคุมผลิตภัณฑ์ ตัวอย่างเช่น Google และห้องปฏิบัติการอื่นๆ ได้เผยแพร่ข้อมูลสังเคราะห์และการปรับแต่งอย่างละเอียด และ OpenAI ได้ยกเลิกการอัปเดต GPT-4o ที่ยอมรับได้ง่ายเกินไป พร้อมทั้งอธิบายการเปลี่ยนแปลงในการรวบรวมข้อเสนอแนะ การควบคุมการปรับแต่งส่วนบุคคล และขั้นตอนการประเมินเพื่อลดความเสี่ยงในการถดถอยและปรับปรุงให้สอดคล้องกับวัตถุประสงค์ด้านความปลอดภัยในระดับผู้ใช้ในระยะยาว

วัฒนธรรมกระแสหลักได้สะท้อนความวิตกกังวลเกี่ยวกับพลวัตนี้ โดยSouth Parkได้เสียดสีการพึ่งพาChatGPT มากเกินไป และแนวโน้มที่ผู้ช่วยจะประจบประแจงความเชื่อของผู้ใช้ในตอน "Sickofancy" ของซีซั่นที่ 27 และยังคงใช้ธีมนี้ต่อไปในซีซั่นถัดไป ซึ่งนักวิจารณ์ตีความว่าเป็นการวิพากษ์วิจารณ์การประจบประแจงเทคโนโลยีและความไว้วางใจของมนุษย์ในระบบ AI โดยปราศจากการวิพากษ์วิจารณ์[ 148 ]

ความปลอดภัย

การฉีดทันที

ปัญหาหนึ่งของรูปแบบบทสนทนาหรือภารกิจแบบดั้งเดิมคือ ผู้ใช้สามารถสร้างข้อความที่ดูเหมือนมาจากผู้ช่วยหรือนักพัฒนาได้ ซึ่งอาจส่งผลให้ระบบป้องกันบางส่วนของโมเดลถูกเจาะระบบ (jailbreaking) ซึ่งเป็นปัญหาที่เรียกว่าการแทรกข้อความแจ้งเตือน ( prompt injection ) ความพยายามในการแก้ไขปัญหานี้รวมถึงเวอร์ชันของภาษามาร์กอัปแชท (Chat Markup Language)ที่มีการทำเครื่องหมายอินพุตของผู้ใช้ไว้อย่างชัดเจน แม้ว่าโมเดลยังคงต้องเข้าใจการแยกส่วนระหว่างอินพุตของผู้ใช้และข้อความแจ้งเตือนของนักพัฒนา โมเดลรุ่นใหม่แสดงให้เห็นถึงความต้านทานต่อการเจาะระบบผ่านการแยกข้อความแจ้งเตือนของผู้ใช้และระบบ[ 149 ] LLM มีปัญหาในการแยกแยะคำแนะนำของผู้ใช้จากคำแนะนำในเนื้อหาที่ไม่ได้เขียนโดยผู้ใช้ เช่น ในหน้าเว็บและไฟล์ที่อัปโหลด[ 150 ]

ความทนทานต่อการโจมตีจากฝ่ายตรงข้ามยังไม่ได้รับการพัฒนาอย่างเต็มที่ โดยแบบจำลองยังคงมีความเสี่ยงต่อการโจมตีแบบฉีดข้อมูลทันทีและการเจาะระบบผ่านการป้อนข้อมูลของผู้ใช้ที่ถูกสร้างขึ้นอย่างระมัดระวังเพื่อหลีกเลี่ยงกลไกการฝึกอบรมด้านความปลอดภัย

สายลับแฝงตัว

นักวิจัยจากAnthropicพบว่าสามารถสร้าง "เอเจนต์แฝง" ซึ่งเป็นแบบจำลองที่มีฟังก์ชันการทำงานที่ซ่อนอยู่และยังคงไม่ทำงานจนกว่าจะถูกกระตุ้นด้วยเหตุการณ์หรือเงื่อนไขเฉพาะ เมื่อเปิดใช้งาน LLM จะเบี่ยงเบนจากพฤติกรรมที่คาดหวังเพื่อดำเนินการที่ไม่ปลอดภัย ตัวอย่างเช่น LLM อาจสร้างโค้ดที่ปลอดภัย ยกเว้นในวันที่เฉพาะเจาะจง หรือหากข้อความแจ้งเตือนมีแท็กเฉพาะ ฟังก์ชันเหล่านี้พบว่าตรวจจับหรือลบออกได้ยากผ่านการฝึกอบรมด้านความปลอดภัย[ 151 ]

ความกังวลของสังคม

การตอบสนองทางกฎหมายและเชิงพาณิชย์ต่อแนวทางการจดจำและการฝึกอบรมข้อมูลได้เร่งตัวขึ้น ส่งผลให้เกิดคำตัดสิน คดีความที่ดำเนินอยู่ และการประนีประนอมครั้งใหญ่ที่ขึ้นอยู่กับรายละเอียดข้อเท็จจริง เช่น วิธีการได้มาและการเก็บรักษาข้อมูล และการใช้ข้อมูลเพื่อการฝึกอบรมโมเดลนั้น " เปลี่ยนแปลง " เพียงพอที่จะเข้าข่ายการใช้งานที่เป็นธรรม หรือ ไม่ ในปี 2025 Anthropicได้บรรลุข้อตกลงเบื้องต้นเพื่อยุติคดีฟ้องร้องแบบกลุ่มโดยผู้เขียนเป็นจำนวนเงินประมาณ 1.5 พันล้านดอลลาร์ หลังจากที่ผู้พิพากษาพบว่าบริษัทได้จัดเก็บหนังสือละเมิดลิขสิทธิ์หลายล้านเล่มไว้ในห้องสมุด แม้ว่าผู้พิพากษาจะอธิบายว่าการฝึกอบรมบางแง่มุมเป็นการเปลี่ยนแปลงก็ตาม[ 152 ] [ 153 ] Metaได้รับคำตัดสินที่เป็นประโยชน์ในช่วงกลางปี ​​2025 ในคดีฟ้องร้องโดยผู้เขียน 13 คน หลังจากที่ศาลพบว่าโจทก์ไม่ได้สร้างบันทึกที่เพียงพอที่จะแสดงการละเมิดในคดีที่มีขอบเขตจำกัดนั้น[ 154 ] [ 155 ] OpenAIยังคงเผชิญกับคดีฟ้องร้องหลายคดีโดยผู้เขียนและองค์กรข่าวที่มีผลลัพธ์ทางกระบวนการที่หลากหลายและประเด็นหลักฐานที่โต้แย้งกัน[ 156 ] [ 157 ]

การจดจำเป็นพฤติกรรมที่เกิดขึ้นใหม่ในแบบจำลองภาษาแบบสมบูรณ์ในยุคแรก ซึ่งบางครั้งข้อความยาวๆ จะถูกส่งออกมาจากข้อมูลการฝึกอบรมแบบคำต่อคำ ซึ่งขัดแย้งกับพฤติกรรมทั่วไปของเครือข่ายประสาทเทียมแบบดั้งเดิม การประเมินผลลัพธ์ LLM ที่ควบคุมจะวัดปริมาณที่จดจำจากข้อมูลการฝึกอบรม (โดยเน้นที่แบบจำลอง GPT-2-series) ว่ามากกว่า 1% สำหรับสำเนาที่เหมือนกันทุกประการ[ 158 ]หรือสูงถึงประมาณ 7% [ 159 ]การศึกษาในปี 2023 แสดงให้เห็นว่าเมื่อ ChatGPT 3.5 turbo ถูกกระตุ้นให้พูดคำเดิมซ้ำไปเรื่อยๆ หลังจากพูดซ้ำไปหลายร้อยครั้ง มันจะเริ่มแสดงข้อความที่ตัดตอนมาจากข้อมูลการฝึกอบรม[ 160 ]

ที่มาของมนุษย์

ในปี 2023 Nature Biomedical Engineeringเขียนว่า "ไม่สามารถแยกแยะข้อความที่เขียนโดยมนุษย์ออกจากข้อความที่สร้างโดยแบบจำลองภาษาขนาดใหญ่ได้อย่างแม่นยำอีกต่อไป" และ "แทบจะแน่นอนว่าแบบจำลองภาษาขนาดใหญ่แบบอเนกประสงค์จะแพร่หลายอย่างรวดเร็ว... เป็นเรื่องที่ค่อนข้างแน่นอนว่าแบบจำลองเหล่านี้จะเปลี่ยนแปลงอุตสาหกรรมต่างๆ มากมายในอนาคต" [ 161 ] Brinkmann et al. (2023) [ 162 ]ยังโต้แย้งว่า LLM กำลังเปลี่ยนแปลงกระบวนการวิวัฒนาการทางวัฒนธรรมโดยการกำหนดรูปแบบกระบวนการแปรผัน การส่งต่อ และการคัดเลือก ณ เดือนตุลาคม 2025 ข้ออ้างในช่วงแรกเหล่านี้ยังไม่เกิดขึ้นจริง และรายงาน HBR หลายฉบับได้หยิบยกคำถามเกี่ยวกับผลกระทบของ AI ต่อประสิทธิภาพการผลิต[ 163 ] [ 164 ]

ความต้องการพลังงาน

ความต้องการพลังงานของ LLM เพิ่มขึ้นตามขนาดและความสามารถ[ 165 ]ศูนย์ข้อมูลที่ช่วยให้การฝึกอบรม LLM ต้องใช้ไฟฟ้าจำนวนมาก ไฟฟ้าส่วนใหญ่นั้นผลิตจากทรัพยากรที่ไม่สามารถนำกลับมาใช้ใหม่ได้ ซึ่งก่อให้เกิดก๊าซเรือนกระจกและมีส่วนทำให้เกิดการเปลี่ยนแปลงสภาพภูมิอากาศ[ 166 ]

จากการศึกษาของ Luccioni, Jernite และ Strubell (2024) พบว่า งานจำแนกประเภทอย่างง่ายที่ดำเนินการโดยโมเดล AI ใช้พลังงานเฉลี่ย 0.002 ถึง 0.007 Wh ต่อข้อความแจ้งเตือน (ประมาณ 9% ของ การชาร์จ สมาร์ทโฟนสำหรับ 1,000 ข้อความแจ้งเตือน) การสร้างข้อความและการสรุปข้อความแต่ละอย่างต้องใช้พลังงานประมาณ 0.05 Wh ต่อข้อความแจ้งเตือนโดยเฉลี่ย ในขณะที่การสร้างภาพใช้พลังงานมากที่สุด โดยเฉลี่ย 2.91 Wh ต่อข้อความแจ้งเตือน โมเดลการสร้างภาพที่มีประสิทธิภาพน้อยที่สุดใช้พลังงาน 11.49 Wh ต่อภาพ ซึ่งเทียบเท่ากับการชาร์จสมาร์ทโฟนครึ่งหนึ่งโดยประมาณ[ 167 ]

การโจมตีแบบปฏิเสธการให้บริการเนื่องจากการดึงข้อมูล

การดึงข้อมูลจากเว็บใช้เพื่อรวบรวมข้อมูลการฝึกอบรมสำหรับ LLM ซึ่งก่อให้เกิดปริมาณการรับส่งข้อมูลจำนวนมาก ส่งผลให้เกิดปัญหาการปฏิเสธการให้บริการกับเว็บไซต์หลายแห่ง สถานการณ์นี้ถูกอธิบายว่าเป็น "การ โจมตี DDoSบนอินเทอร์เน็ตทั้งหมด" และในบางกรณี โปรแกรมดึงข้อมูลเว็บอาจก่อให้เกิดปริมาณการรับส่งข้อมูลส่วนใหญ่ไปยังเว็บไซต์[ 168 ] [ 169 ]

โปรแกรมรวบรวมข้อมูลเว็บ AI อาจหลีกเลี่ยงวิธีการที่ใช้ในการบล็อกโปรแกรมดึงข้อมูลจากเว็บ เช่นไฟล์robots.txt การบล็อก เอเจนต์ผู้ใช้และการกรองการรับส่งข้อมูลที่น่าสงสัย [ 168 ] ผู้ให้บริการเว็บไซต์ได้หันมาใช้วิธีการใหม่ๆ เช่นAI tarpitsแต่บางคนก็เกรงว่า tarpits จะยิ่งทำให้ภาระของเซิร์ฟเวอร์หนักขึ้น[ 170 ]

สุขภาพจิต

บริบททางคลินิกและสุขภาพจิตนำเสนอการใช้งานที่เกิดขึ้นใหม่ควบคู่ไปกับข้อกังวลด้านความปลอดภัยที่สำคัญ งานวิจัยและโพสต์ในโซเชียลมีเดียชี้ให้เห็นว่าบุคคลบางคนใช้ LLM เพื่อขอรับการบำบัดหรือการสนับสนุนด้านสุขภาพจิต[ 171 ]ในช่วงต้นปี 2025 การสำรวจโดยมหาวิทยาลัย Sentio พบว่าเกือบครึ่งหนึ่ง (48.7%) ของผู้ใหญ่ชาวอเมริกัน 499 คนที่มีปัญหาสุขภาพจิตอย่างต่อเนื่องซึ่งเคยใช้ LLM รายงานว่าหันไปใช้ LLM เพื่อขอรับการบำบัดหรือการสนับสนุนทางอารมณ์ รวมถึงความช่วยเหลือเกี่ยวกับความวิตกกังวล ภาวะซึมเศร้า ความเหงา และปัญหาที่คล้ายคลึงกัน[ 172 ] LLM สามารถสร้างภาพหลอน ซึ่งเป็นข้อความที่ดูสมเหตุสมผลแต่ไม่ถูกต้อง ซึ่งอาจทำให้ผู้ใช้เข้าใจผิดในบริบทสุขภาพจิตที่ละเอียดอ่อน งานวิจัยยังแสดงให้เห็นว่า LLM อาจแสดงออกถึงความอคติหรือการเห็นด้วยที่ไม่เหมาะสมกับความคิดที่ไม่เหมาะสม ซึ่งสะท้อนให้เห็นถึงข้อจำกัดในการจำลองทักษะการตัดสินใจและความสัมพันธ์ของนักบำบัดที่เป็นมนุษย์[ 173 ]การประเมินสถานการณ์วิกฤตบ่งชี้ว่า LLM บางตัวขาดโปรโตคอลด้านความปลอดภัยที่มีประสิทธิภาพ เช่น การประเมินความเสี่ยงต่อการฆ่าตัวตายหรือการส่งต่อที่เหมาะสม[ 174 ]

นักวิจัยแสดงความกังวลว่าการใช้แบบจำลองภาษาขนาดใหญ่ บ่อยครั้ง อาจทำให้การคิดเชิงวิพากษ์อ่อนแอ ลง [ 175 ]

ความรู้สึก

โดยทั่วไปแล้ว ผู้ปฏิบัติงานด้าน AI ในปัจจุบันเห็นพ้องกันว่าแบบจำลองภาษาขนาดใหญ่ในปัจจุบันไม่ได้แสดงให้เห็นถึงความรู้สึกนึกคิด [ 176 ] มุมมองส่วนน้อยโต้แย้งว่า แม้จะมีโอกาสเล็กน้อยที่ระบบซอฟต์แวร์ที่กำหนดจะมีประสบการณ์เชิงอัตวิสัย ซึ่งนักปรัชญาบางคนแนะนำว่าเป็นไปได้[ 177 ]การพิจารณาทางจริยธรรมเกี่ยวกับความทุกข์ทรมานขนาดใหญ่ ที่อาจเกิดขึ้น ในระบบ AI อาจจำเป็นต้องได้รับการพิจารณาอย่างจริงจัง เช่นเดียวกับการพิจารณาเกี่ยวกับสวัสดิภาพสัตว์[ 178 ] [ 179 ]ผู้สนับสนุนมุมมองนี้ได้เสนอมาตรการป้องกันต่างๆ เช่น การระงับการพัฒนา AI [ 180 ]และการทำให้เกิดภาวะความจำเสื่อม[ 181 ]เพื่อแก้ไขข้อกังวลทางจริยธรรมเหล่านี้ Leonard Dung โต้แย้งว่ากรอบการทำงานเชิงประจักษ์ที่ใช้ในการประเมินจิตสำนึกในสัตว์นั้นใช้ได้กับระบบ AI เช่นกัน และมีความเป็นไปได้สูงที่ AI ในอนาคตอันใกล้จะสามารถมีความทุกข์ทรมานได้ ทำให้ความเสี่ยงจากความทุกข์ทรมานของ AI เป็นข้อกังวลทางจริยธรรมที่สำคัญในระยะสั้นที่ต้องมีการบรรเทาอย่างเป็นระบบ[ 182 ]ในทางกลับกัน นักปรัชญาอัตถิภาวนิยมบางคนโต้แย้งว่าไม่มีวิธีใดที่ได้รับการยอมรับโดยทั่วไปในการพิจารณาว่า LLM มีสติหรือไม่[ 183 ] [ 99 ]เนื่องจากความยากลำบากโดยธรรมชาติในการวัดประสบการณ์อัตวิสัย[ 184 ]

เหตุการณ์ Google LaMDA ในปี 2022 ซึ่งวิศวกรBlake Lemoineอ้างว่าแบบจำลองนั้นมีสติสัมปชัญญะ แสดงให้เห็นว่า LLM สามารถโน้มน้าวผู้ใช้ให้เชื่อว่าตนเองมีสติสัมปชัญญะผ่านการตอบสนองที่ไม่ได้พิสูจน์ถึงสติสัมปชัญญะ Google อธิบายว่าคำกล่าวอ้างของวิศวกรนั้นไม่มีมูลความจริง และเขาถูกไล่ออก[ 185 ] Murray Shanahanโต้แย้งว่าการกำหนดกรอบความสามารถของ LLM ในลักษณะมนุษย์ส่งเสริมการให้คุณสมบัติทางปัญญาที่ไม่เหมาะสมแก่ระบบที่ทำงานผ่านการเติมเต็มรูปแบบทางสถิติ[ 186 ] Kristina Šekrst พัฒนาเรื่องนี้ต่อไป โดยโต้แย้งว่า LLM ทำหน้าที่เป็น "เครื่องจักรแห่งภาพลวงตา" ที่สามารถสร้างเอาต์พุตที่จำลองคุณสมบัติต่างๆ เช่น สติสัมปชัญญะได้อย่างสอดคล้องโดยไม่ต้องมีสติสัมปชัญญะ แต่เน้นย้ำว่าเนื่องจากการแลกเปลี่ยนระหว่างความคิดสร้างสรรค์และอุณหภูมิที่ซับซ้อน เราอาจไม่แน่ใจเลยว่าเรากำลังเผชิญกับการเกิดขึ้นของสติสัมปชัญญะหรือเป็นเพียงภาพหลอน[ 99 ] David Chalmersโต้แย้งในทำนองเดียวกันว่า ในขณะที่ LLM ในปัจจุบันอาจขาดคุณสมบัติที่ถือว่าจำเป็นสำหรับจิตสำนึก แต่ผู้สืบทอดที่ขยายออกไปซึ่งรวมเอาองค์ประกอบเหล่านี้ไว้ด้วย อาจตรงตามเกณฑ์ได้ภายในหนึ่งทศวรรษ[ 177 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Jurafsky, Dan , Martin, James. H. การประมวลผลคำพูดและภาษา: บทนำสู่การประมวลผลภาษาธรรมชาติ ภาษาศาสตร์เชิงคำนวณ และการรู้จำคำพูด ฉบับร่างพิมพ์ครั้งที่ 3, 2023
  • หยิน ชูคัง; ฟู เฉาโหยว; จ้าว, ซีรุ่ย; ชอบ; ซุนซิง; ซู่ตง; และคณะ (2024) "การสำรวจโมเดลภาษาขนาดใหญ่หลายรูปแบบ " ทบทวนวิทยาศาสตร์แห่งชาติ . 11 (12) หน้า 403. arXiv : 2306.13549 . ดอย : 10.1093/nsr/nwae403 . PMC  11645129 . PMID  39679213 .
  • " รายงานดัชนี AI ปี 2024 – ดัชนีปัญญาประดิษฐ์" aiindex.stanford.edu สืบค้นเมื่อ5 พฤษภาคม 2024
  • Frank, Michael C. (27 มิถุนายน 2023). "ก้าวเล็กๆ ในการประเมินความสามารถของแบบจำลองภาษาขนาดใหญ่" Nature Reviews Psychology . 2 (8): 451– 452. doi : 10.1038/s44159-023-00211-x . ISSN  2731-0574 . S2CID  259713140 . สืบค้นเมื่อ2 กรกฎาคม 2023 .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Large_language_model&oldid=1361036555#Tokenization "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ ( LLM ) คือ เครือข่ายประสาทเทียม ที่ได้รับการฝึกฝนด้วยข้อความจำนวนมหาศาลสำหรับงาน ประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่ง การสร้างภาษา LLM สามารถสร้าง สรุป แปล...

ประวัติศาสตร์

ก่อนการปรากฏตัวของโมเดลที่ใช้ Transformer ในปี 2017 โมเดลภาษาบางโมเดล ถือว่ามีขนาดใหญ่เมื่อเทียบกับข้อจำกัดด้านการคำนวณและข้อมูลในยุคนั้น ในช่วงต้นทศวรรษ 1990 โมเดลทางสถิติ ของ IBM ได้บุกเบิก เทคนิค การจัดเรียงคำ สำหรับการแปลด้วยเครื่อง...

การแยกโทเค็น

เนื่องจาก อัลกอริธึม การเรียนรู้ของเครื่อง ประมวลผลตัวเลขแทนที่จะเป็นข้อความ ข้อความจึงต้องถูกแปลงเป็นตัวเลข ในขั้นตอนแรก จะมีการกำหนดคำศัพท์ จากนั้นจะกำหนดดัชนีจำนวนเต็มแบบสุ่มแต่ไม่ซ้ำกันให้กับแต่ละรายการในคำศัพท์ และสุดท้าย จะเชื่อมโยง การฝังตัว...

การทำความสะอาดชุดข้อมูล

ในบริบทของการฝึก LLM ชุดข้อมูลมักจะถูกทำความสะอาดโดยการลบข้อมูลคุณภาพต่ำ ข้อมูลที่ซ้ำซ้อน หรือข้อมูลที่เป็นพิษ [ 27 ] ชุดข้อมูลที่ทำความสะอาดแล้วสามารถเพิ่มประสิทธิภาพการฝึกและนำไปสู่ประสิทธิภาพที่ดีขึ้นในขั้นตอนต่อไป [ 28 ] LLM...