แบบจำลองการให้เหตุผล

แบบจำลองการให้เหตุผลหรือที่รู้จักกันในชื่อแบบจำลองภาษาการให้เหตุผล ( RLM ) หรือแบบจำลองการให้เหตุผลขนาดใหญ่ ( LRM ) เป็น แบบจำลองภาษาขนาดใหญ่ (LLM) ประเภทหนึ่งที่ได้รับการฝึกฝนมาโดยเฉพาะเพื่อแก้ปัญหาที่ซับซ้อนซึ่งต้องใช้การให้เหตุผล เชิงตรรกะหลายขั้นตอน ^{[ 1 ]} แบบจำลองเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในงานด้านตรรกะ คณิตศาสตร์ และการเขียนโปรแกรม เมื่อเทียบกับ LLM มาตรฐาน แบบจำลองเหล่านี้ มีความสามารถในการทบทวนและแก้ไขขั้นตอนการให้เหตุผลก่อนหน้านี้ และใช้การคำนวณเพิ่มเติมในระหว่างการอนุมานเป็นวิธีการปรับขนาดประสิทธิภาพซึ่งเป็นการเสริมวิธีการปรับขนาดแบบดั้งเดิมที่อิงตามขนาดข้อมูลการฝึกอบรม พารามิเตอร์ของแบบจำลอง และการคำนวณการฝึกอบรม^{[ 2 ]}

ภาพรวม

แตกต่างจากโมเดลภาษาแบบดั้งเดิมที่สร้างการตอบสนองทันที โมเดลการให้เหตุผลจะจัดสรรเวลาในการคำนวณหรือคิดเพิ่มเติมก่อนที่จะสร้างคำตอบเพื่อแก้ปัญหาหลายขั้นตอนOpenAIได้นำคำศัพท์นี้มาใช้ในเดือนกันยายน 2024 เมื่อเปิดตัวซีรี่ส์ o1โดยอธิบายว่าโมเดลเหล่านี้ได้รับการออกแบบมาเพื่อ "ใช้เวลาคิดมากขึ้น" ก่อนที่จะตอบสนอง บริษัทได้วางกรอบ o1 ว่าเป็นการเริ่มต้นใหม่ในการตั้งชื่อโมเดลที่มุ่งเป้าไปที่งานที่ซับซ้อนในด้านวิทยาศาสตร์ การเขียนโค้ด และคณิตศาสตร์ และได้เปรียบเทียบประสิทธิภาพของ o1 กับGPT-4oในเกณฑ์มาตรฐานต่างๆ เช่นAIMEและCodeforces รายงานอิสระในสัปดาห์เดียวกันได้สรุปการเปิดตัวและเน้นย้ำถึงคำกล่าวอ้างของ OpenAI ที่ว่า o1 ทำให้การให้เหตุผล แบบลำดับความคิดเป็นไปโดยอัตโนมัติเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นอย่างมากในการสอบที่ยาก^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}

ในการทำงาน โมเดลการให้เหตุผลจะสร้างห่วงโซ่ภายในของขั้นตอนกลาง จากนั้นเลือกและปรับปรุงคำตอบสุดท้ายOpenAIรายงานว่าความแม่นยำของ o1 ดีขึ้นเมื่อโมเดลได้รับการเรียนรู้แบบเสริมแรง มากขึ้น ในระหว่างการฝึกอบรมและการคำนวณในเวลาทดสอบมากขึ้นในการอนุมาน บริษัทเลือกที่จะซ่อนห่วงโซ่ดิบและส่งคืนบทสรุปที่เขียนโดยโมเดลแทน โดยระบุว่า "ตัดสินใจที่จะไม่แสดง" ความคิดพื้นฐานเพื่อให้นักวิจัยสามารถตรวจสอบได้โดยไม่ต้องเปิดเผยเนื้อหาที่ไม่สอดคล้องกันแก่ผู้ใช้ปลายทาง การใช้งานเชิงพาณิชย์จะบันทึก "โทเค็นการให้เหตุผล" แยกต่างหากที่วัดความคิดที่ซ่อนอยู่และการควบคุม "ความพยายามในการให้เหตุผล" ที่ปรับแต่งปริมาณการคำนวณที่โมเดลใช้ คุณสมบัติเหล่านี้ทำให้โมเดลทำงานช้ากว่าระบบแชททั่วไปในขณะที่ช่วยให้มีประสิทธิภาพที่แข็งแกร่งขึ้นในปัญหาที่ยาก^{[ 4 ]}^{[ 6 ]}

ประวัติศาสตร์

แนวทางการวิจัยเกี่ยวกับแบบจำลองการให้เหตุผลได้ผสมผสานความก้าวหน้าในการกำกับดูแลการกระตุ้นและการอนุมานแบบค้นหาเข้าด้วย กัน

งานจัดเรียงเบื้องต้นเกี่ยวกับการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์แสดงให้เห็นว่าโมเดลสามารถปรับแต่งให้ปฏิบัติตามคำสั่งด้วย "ผลตอบรับของมนุษย์" และรางวัลตามความชอบได้^{[ 7 ]}^{[ 8 ]}ในปี 2022 นักวิทยาศาสตร์ ของ Google Research Jason Wei และ Denny Zhou แสดงให้เห็นว่า การกระตุ้น ความคิดแบบต่อเนื่อง "ช่วยปรับปรุงความสามารถ" ของโมเดลขนาดใหญ่ในงานการให้เหตุผลที่ซับซ้อนได้อย่างมีนัยสำคัญ^{[ 9 ]}

${\text{อินพุต}}\rightarrow \underbrace {{\text{ขั้นตอนที่ 1}\rightarrow {\text{ขั้นตอนที่ 2}\rightarrow \cdots \rightarrow {\text{ขั้นตอนที่ n}} _{\text{ลำดับการให้เหตุผล}}\rightarrow {\text{คำตอบ}}$

ผลลัพธ์ที่เกี่ยวข้องแสดงให้เห็นว่าคำสั่งง่ายๆ เช่น "ลองคิดทีละขั้นตอน" สามารถกระตุ้นให้เกิดการให้เหตุผลแบบ zero-shot ได้^{[ 10 ]}งานวิจัยต่อมาได้นำเสนอการถอดรหัสความสอดคล้องในตัวเอง ซึ่ง "ช่วยเพิ่มประสิทธิภาพ" ของลำดับความคิดโดยการสุ่มตัวอย่างเส้นทางการแก้ปัญหาที่หลากหลายและเลือกฉันทามติ และวิธีการที่เสริมด้วยเครื่องมือ เช่นReActซึ่งเป็นการผสมคำระหว่าง Reason และ Act ที่กระตุ้นให้โมเดล "สร้างทั้งร่องรอยการให้เหตุผล" และการกระทำ^{[ 11 ]}^{[ 12 ]}จากนั้นงานวิจัยได้ขยายลำดับความคิดไปสู่การค้นหาแผนผู้สมัครหลายแผน กรอบงาน Tree-of-Thoughtsจาก นักวิทยาศาสตร์คอมพิวเตอร์ ของ Princetonอย่าง Shunyu Yao เสนอว่าโมเดล "ทำการตัดสินใจอย่างรอบคอบ" โดยการสำรวจและย้อนกลับไปตามต้นไม้ของความคิดระดับกลาง^{[ 13 ]}

ความก้าวหน้าที่รายงานของ OpenAIมุ่งเน้นไปที่การกำกับดูแลกระบวนการให้เหตุผลมากกว่าผลลัพธ์เพียงอย่างเดียว โดย "Let's Verify Step by Step" ของ Lightman และคณะ รายงานว่าการให้รางวัลในแต่ละขั้นตอนที่ถูกต้อง "มีประสิทธิภาพเหนือกว่าการกำกับดูแลผลลัพธ์อย่างมีนัยสำคัญ" ในปัญหาคณิตศาสตร์ที่ท้าทาย และปรับปรุงความสามารถในการตีความโดยการปรับลำดับความคิดให้สอดคล้องกับการตัดสินของมนุษย์^{[ 14 ]}^{[ 15 ]} การประกาศ o1ของ OpenAI เชื่อมโยงสิ่งเหล่านี้เข้าด้วยกันด้วยอัลกอริธึม การเรียนรู้แบบเสริมแรงขนาดใหญ่ที่ฝึกโมเดลให้ปรับปรุงลำดับความคิดของตนเอง และรายงานว่าความแม่นยำเพิ่มขึ้นเมื่อมีการคำนวณการฝึกอบรมมากขึ้นและใช้เวลาคิดในการอนุมานมากขึ้น^{[ 4 ]}

โดยรวมแล้ว การพัฒนาเหล่านี้กำหนดแก่นหลักของแบบจำลองการให้เหตุผล พวกมันใช้สัญญาณการกำกับดูแลที่ประเมินคุณภาพของขั้นตอนกลาง พวกมันใช้ประโยชน์จากการสำรวจในเวลาอนุมาน เช่น ความเห็นพ้องหรือการค้นหาต้นไม้และพวกมันเปิดเผยการควบคุมว่าจะจัดสรรการคำนวณการคิดภายในมากน้อยเพียงใด ตระกูล o1 ของ OpenAI ทำให้วิธีการนี้ใช้งานได้ในวงกว้างในเดือนกันยายน 2024 และทำให้คำว่า "แบบจำลองการให้เหตุผล" เป็นที่นิยมสำหรับ LLM ที่คิดอย่างรอบคอบก่อนที่จะตอบ^{[ 3 ]}^{[ 6 ]}

การพัฒนารูปแบบการให้เหตุผลแสดงให้เห็นถึง"บทเรียนอันขมขื่น" ของRichard S. Sutton ที่ว่าการขยายขนาดการคำนวณมักจะมีประสิทธิภาพเหนือกว่าวิธีการที่อิงตามข้อมูลเชิงลึกที่ออกแบบโดยมนุษย์ ^{[ 16 ]}หลักการนี้ได้รับการพิสูจน์โดยนักวิจัยที่ Generative AI Research Lab (GAIR) ซึ่งในตอนแรกพยายามจำลองความสามารถของ o1 โดยใช้วิธีการที่ซับซ้อน รวมถึงการค้นหาต้นไม้และการเรียนรู้แบบเสริมแรงในช่วงปลายปี 2024 ผลการค้นพบของพวกเขาซึ่งตีพิมพ์ในชุด "o1 Replication Journey" เปิดเผยว่าการกลั่นความรู้ซึ่งเป็นเทคนิคที่ค่อนข้างตรงไปตรงมาที่ฝึกโมเดลขนาดเล็กให้เลียนแบบผลลัพธ์ของ o1 ทำให้ได้ประสิทธิภาพที่แข็งแกร่งอย่างไม่คาดคิด ผลลัพธ์นี้แสดงให้เห็นว่าวิธีการขยายขนาดโดยตรงบางครั้งอาจมีประสิทธิภาพเหนือกว่าโซลูชันทางวิศวกรรมที่ซับซ้อนกว่า^{[ 17 ]}^{[ 18 ]}

ข้อเสีย

แบบจำลองการให้เหตุผลต้องการทรัพยากรการคำนวณมากกว่าแบบจำลองที่ไม่ใช้การให้เหตุผลอย่างมีนัยสำคัญในระหว่างการอนุมาน การวิจัยเกี่ยวกับเกณฑ์มาตรฐานการสอบคณิตศาสตร์ American Invitational Mathematics Examination (AIME) พบว่าแบบจำลองการให้เหตุผลมีค่าใช้จ่ายในการดำเนินการสูงกว่าแบบจำลองที่ไม่ใช้การให้เหตุผลถึง 10 ถึง 74 เท่า^{[ 19 ]}เวลาในการอนุมานที่ยาวนานขึ้นนั้นเกิดจากผลลัพธ์การให้เหตุผลแบบละเอียดทีละขั้นตอนที่แบบจำลองเหล่านี้สร้างขึ้น ซึ่งโดยทั่วไปแล้วจะยาวกว่าคำตอบจากแบบจำลองภาษาขนาดใหญ่ มาตรฐาน ที่ให้คำตอบโดยตรงโดยไม่แสดงกระบวนการให้เหตุผล

นักวิจัยคนหนึ่งในช่วงต้นปี 2025 โต้แย้งว่าโมเดลเหล่านี้อาจเผชิญกับความกังวลเพิ่มเติมเกี่ยวกับการปฏิเสธการให้บริการด้วย "การโจมตีที่คิดมากเกินไป" ^{[ 20 ]}

การเผยแพร่

2024

ในเดือนกันยายน พ.ศ. 2567 OpenAIได้เผยแพร่o1-previewซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่มีความสามารถในการให้เหตุผลที่ได้รับการปรับปรุง^{[ 21 ]}เวอร์ชันเต็มo1ได้รับการเผยแพร่ในเดือนธันวาคม พ.ศ. 2567 OpenAI ได้แบ่งปันผลลัพธ์เบื้องต้นของโมเดลรุ่นต่อมาo3ในเดือนธันวาคม พ.ศ. 2567 ^{[ 22 ]}^{[ 23 ]}^{[ 24 ]}โดยโมเดล o3 เวอร์ชันเต็มจะพร้อมใช้งานในปี พ.ศ. 2568 ^{[ 25 ]}

Alibabaเปิดตัว โมเดลภาษาขนาดใหญ่ Qwen เวอร์ชันการให้เหตุผล ในเดือนพฤศจิกายน 2024 ^{[ 26 ]}ในเดือนธันวาคม 2024 บริษัทได้เปิดตัว QvQ-72B-Preview ซึ่งเป็นโมเดลการให้เหตุผลเชิงภาพแบบทดลอง^{[ 27 ]}

ในเดือนธันวาคม 2024 Googleได้เปิดตัวDeep ResearchในGeminiซึ่งเป็นฟีเจอร์ที่ออกแบบมาเพื่อดำเนินการวิจัยหลายขั้นตอน^{[ 28 ]}^{[ 29 ]}

เมื่อวันที่ 16 ธันวาคม พ.ศ. 2567 นักวิจัยได้แสดงให้เห็นว่าด้วยการปรับขนาดการคำนวณเวลาทดสอบ โมเดล Llama 3B ที่ค่อนข้างเล็กสามารถทำงานได้ดีกว่าโมเดล Llama 70B ที่มีขนาดใหญ่กว่ามากในงานการให้เหตุผลที่ท้าทาย การทดลองนี้ชี้ให้เห็นว่ากลยุทธ์การอนุมานที่ได้รับการปรับปรุงสามารถปลดล็อกความสามารถในการให้เหตุผลได้แม้ในโมเดลขนาดเล็ก^{[ 30 ]}^{[ 31 ]}

2025

ในเดือนมกราคม พ.ศ. 2568 DeepSeekได้ปล่อยR1ซึ่งเป็นโมเดลการให้เหตุผลที่ได้ผลลัพธ์เทียบเท่ากับ o1 ของ OpenAI ด้วยต้นทุนการคำนวณที่ต่ำกว่าอย่างมาก การเปิดตัวครั้งนี้แสดงให้เห็นถึงประสิทธิภาพของGroup Relative Policy Optimization (GRPO) ซึ่งเป็นเทคนิคการเรียนรู้แบบเสริมแรงที่ใช้ในการฝึกโมเดล^{[ 32 ]}^{[ 33 ]}

เมื่อวันที่ 25 มกราคม พ.ศ. 2568 DeepSeek ได้ปรับปรุง R1 ด้วยความสามารถในการค้นหาเว็บ ทำให้โมเดลสามารถดึงข้อมูลจากอินเทอร์เน็ตในขณะที่ดำเนินการงานการให้เหตุผลได้^{[ 34 ]}

การวิจัยในช่วงเวลานี้ได้ยืนยันประสิทธิภาพของการกลั่นความรู้เพื่อสร้างแบบจำลองการให้เหตุผลเพิ่มเติม แบบจำลอง s1-32B บรรลุประสิทธิภาพที่แข็งแกร่งผ่านวิธีการบังคับงบประมาณและการปรับขนาด ซึ่งเป็นการตอกย้ำผลการค้นพบว่าวิธีการฝึกอบรมที่เรียบง่ายกว่าสามารถมีประสิทธิภาพสูงสำหรับความสามารถในการให้เหตุผล^{[ 35 ]}^{[ 18 ]}

เมื่อวันที่ 2 กุมภาพันธ์ พ.ศ. 2568 OpenAI ได้เปิดตัวDeep Researchซึ่งเป็นฟีเจอร์ที่ขับเคลื่อนด้วย โมเดล o3 ของพวกเขา ที่ช่วยให้ผู้ใช้สามารถดำเนินการวิจัยอย่างครอบคลุมได้^{[ 36 ]}ระบบจะสร้างรายงานโดยละเอียดโดยการรวบรวมและสังเคราะห์ข้อมูลจากแหล่งข้อมูลบนเว็บหลายแหล่งโดยอัตโนมัติ^{[ 36 ]}

OpenAI เรียกGPT-4.5ว่า "โมเดลที่ไม่ใช่แบบลำดับความคิดสุดท้าย" ^{[ 37 ]}และนำโมเดลเราเตอร์ที่เลือกโมเดลตามความยากของงาน มาใช้กับ GPT-5 ^{[ 38 ]}

2026

ในเดือนมกราคม พ.ศ. 2569 Moonshot AI ได้ปล่อย Kimi K2.5 ซึ่งเป็นโมเดล MoE แบบ โอเพนซอร์สที่มีพารามิเตอร์ 1 ล้านล้านตัวและมีพารามิเตอร์ที่ใช้งานอยู่ 32 พันล้านตัว โดยใช้ระบบ “ Agent Swarm” ที่แบ่งงานออกเป็นเอเจนต์ย่อยเพื่อการให้เหตุผลและการดำเนินการแบบไดนามิก ทำให้สามารถแก้ปัญหาแบบหลายขั้นตอนที่ปรับขนาดได้มากกว่าห่วงโซ่การให้เหตุผลแบบลำดับเดียว^{[ 39 ]}

การฝึกอบรม

โมเดลการให้เหตุผลใช้การฝึกฝนล่วงหน้าขนาดใหญ่ที่คุ้นเคยซึ่งใช้สำหรับโมเดลภาษาแนวหน้า จากนั้นจึงแยกออกในขั้นตอนหลังการฝึกฝนและการเพิ่มประสิทธิภาพOpenAIรายงานว่าo1 ได้รับการฝึกฝนด้วยอัลกอริธึม การเรียนรู้แบบเสริมแรงขนาดใหญ่ที่สอนให้โมเดลใช้และปรับปรุงลำดับความคิดก่อนที่จะตอบคำถาม บริษัทเน้นย้ำถึงสองกลไกที่เชื่อมโยงกัน ได้แก่ การเรียนรู้แบบเสริมแรงมากขึ้นในระหว่างการฝึกฝนและเวลาที่ใช้ในการคิดในการอนุมานมากขึ้น และบันทึกถึงผลลัพธ์ที่ดีขึ้นเรื่อยๆ เมื่อแต่ละกลไกเพิ่มขึ้น OpenAI ยังระบุด้วยว่าได้ตัดสินใจที่จะไม่แสดงลำดับความคิดดิบๆ ให้กับผู้ใช้ปลายทาง แต่จะส่งสรุปที่เขียนโดยโมเดลกลับมาแทน ซึ่งเป็นทางเลือกของผลิตภัณฑ์ที่เชื่อมโยงกับการตรวจสอบความปลอดภัยและข้อกังวลด้านการแข่งขัน^{[ 4 ]}

ส่วนประกอบสำคัญคือการกำกับดูแลกระบวนการซึ่งให้รางวัลแก่ขั้นตอนระหว่างกลางมากกว่าคำตอบสุดท้ายเพียงอย่างเดียว การศึกษาของ OpenAI ได้นำเสนอแบบจำลองการให้รางวัลกระบวนการที่ฝึกฝนบนป้ายกำกับระดับขั้นตอน และพบว่าการกำกับดูแลกระบวนการมีประสิทธิภาพเหนือกว่าการกำกับดูแลเฉพาะผลลัพธ์อย่างมีนัยสำคัญในปัญหาทางคณิตศาสตร์ที่ท้าทาย โครงการนี้ยังได้เผยแพร่ชุดข้อมูลการตอบรับระดับขั้นตอน PRM800K และโต้แย้งว่าการให้รางวัลระดับกระบวนการช่วยปรับปรุงความสามารถในการตีความ เนื่องจากมนุษย์สามารถตรวจสอบแต่ละขั้นตอนได้ ผลลัพธ์เหล่านี้ได้ให้สูตรปฏิบัติสำหรับการกำกับดูแลลำดับความคิด ซึ่งต่อมาได้ขยายขนาดไปสู่การฝึกอบรมการผลิต^{[ 15 ]}

การฝึกอบรมนี้แตกต่างในหลายๆ ด้านจากโมเดลแนวหน้าแบบดั้งเดิมที่ไม่มุ่งเป้าไปที่การให้เหตุผล ระบบมาตรฐานได้รับการฝึกฝนล่วงหน้าบนคลังข้อมูลขนาดใหญ่บนอินเทอร์เน็ตโดยมีวัตถุประสงค์ในการทำนายโทเค็นถัดไป จากนั้นจึงปรับให้สอดคล้องกันผ่านการปรับแต่งคำสั่งและการเพิ่มประสิทธิภาพความชอบ สูตร InstructGPT แบบดั้งเดิม จะใช้การปรับแต่งอย่างละเอียดภายใต้การกำกับดูแลบนการสาธิตของมนุษย์ก่อน จากนั้นจึงฝึกโมเดลรางวัลจากความชอบแบบจับคู่ และสุดท้ายจึงเพิ่มประสิทธิภาพนโยบายด้วยการเรียนรู้แบบเสริมแรง โดยทั่วไปคือPPOที่มี การ ลงโทษKL ^{[ 8 ]}^{[ 40 ]} รูป แบบต่างๆ เช่นการเพิ่มประสิทธิภาพความชอบโดยตรงจะลบขั้นตอน RL ที่ชัดเจนออกและเพิ่มประสิทธิภาพโมเดลโดยตรงบนข้อมูลความชอบ แต่เป้าหมายการกำกับดูแลยังคงเป็นผลลัพธ์สุดท้ายที่ตัดสินโดยผู้ประเมินมากกว่าคุณภาพของขั้นตอนภายใน [ ^{41 ] รายงาน}ทางเทคนิคสำหรับGPT-4สรุปไปป์ไลน์แบบดั้งเดิมนี้เป็นการฝึกฝนล่วงหน้าโทเค็นถัดไปตามด้วยการฝึกอบรมภายหลัง แบบ RLHFเพื่อกำหนดพฤติกรรม^{[ 42 ]}

ในทางตรงกันข้าม โมเดลการให้เหตุผลได้รับการปรับให้เหมาะสมเพื่อสร้าง วิจารณ์ และแก้ไขห่วงโซ่หลายขั้นตอนในระหว่างการฝึกอบรม OpenAI ระบุว่าการเรียนรู้แบบเสริมแรงถูกนำไปใช้กับห่วงโซ่เอง ซึ่งสอนให้โมเดลรู้จักข้อผิดพลาด แบ่งปัญหาออกเป็นขั้นตอนที่ง่ายขึ้น และเปลี่ยนกลยุทธ์เมื่อวิธีการปัจจุบันล้มเหลว OpenAI ยังบันทึกไว้ด้วยว่ามีการซ่อนห่วงโซ่ในระหว่างการอนุมานและส่งคืนคำตอบที่สรุปแนวคิดที่เป็นประโยชน์จากร่องรอยภายใน ทางเลือกในการออกแบบเหล่านี้สะท้อนถึงวัตถุประสงค์การฝึกอบรมของโมเดลและการตรวจสอบที่ตั้งใจไว้^{[ 4 ]}

Zelikman และคณะได้แนะนำ STaR (Self-Taught Reasoner) ซึ่งสำรวจการบูตสแตรปเหตุผลโดยการสร้างและกรองโซ่ซ้ำๆ จากนั้นปรับแต่งอย่างละเอียดบนร่องรอยเหล่านั้น และพวกเขารายงานว่าได้ผลลัพธ์ที่ดีกว่าการปรับแต่งอย่างละเอียดโดยพิจารณาเฉพาะผลลัพธ์เท่านั้น รูปแบบหนึ่งของวิธีนี้ได้จัดเตรียมกลไกเพิ่มเติมสำหรับการสร้างสัญญาณการฝึกอบรมที่พูดถึงการให้เหตุผลระดับกลาง ไม่ใช่เพียงคำตอบสุดท้ายเท่านั้น^{[ 43 ]}

DeepSeekรายงานว่า ระบบ R1และ R1-Zero ที่ได้รับการฝึกฝนด้วย RL บริสุทธิ์สามารถกระตุ้นให้เกิดห่วงโซ่ยาว การตรวจสอบตนเอง และการสะท้อนกลับ โดยโต้แย้งว่ารางวัลระดับห่วงโซ่ที่ชัดเจนสามารถกระตุ้นพฤติกรรมการให้เหตุผลทั่วไปได้ ผลลัพธ์เหล่านี้บ่งชี้ว่าการฝึกฝนภายหลังที่เน้นคุณภาพของห่วงโซ่ได้กลายเป็นระบอบที่แตกต่างออกไปจากการจัดเรียงผลลัพธ์เพียงอย่างเดียว^{[ 44 ]}

การปรับแต่งอย่างละเอียดภายใต้การกำกับดูแล

แบบจำลองภาษาขนาดใหญ่ ( LLM) สามารถปรับแต่งได้อย่างละเอียดบนชุดข้อมูลของงานการให้เหตุผลที่จับคู่กับร่องรอยการแก้ปัญหาทีละขั้นตอน แบบจำลองที่ปรับแต่งแล้วจะเรียนรู้ที่จะสร้างห่วงโซ่การให้เหตุผลของตัวเองสำหรับปัญหาใหม่^{[ 45 ]}^{[ 46 ]}

เนื่องจากการรวบรวมร่องรอยที่เขียนโดยมนุษย์มีค่าใช้จ่ายสูง นักวิจัยจึงใช้การปรับแต่งการสุ่มตัวอย่างแบบปฏิเสธ (RFT) เพื่อสร้างชุดข้อมูลโดยอัตโนมัติ วิธีนี้สร้างร่องรอยการให้เหตุผลหลายรายการสำหรับแต่ละคำถาม จากนั้นกรองร่องรอยที่มีคำตอบสุดท้ายที่ไม่ถูกต้องออกโดยใช้ตัวตรวจสอบ^{[ 47 ]}

การเรียนรู้แบบเสริมแรง

แบบจำลองภาษาที่ผ่านการฝึกฝนเบื้องต้นแล้วสามารถฝึกฝนเพิ่มเติมได้ด้วยการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ใน RL แบบจำลองภาษาเชิงกำเนิดทำหน้าที่เป็นนโยบาย ซึ่งแสดงด้วย ภายในรูปแบบนี้ ตัวกระตุ้นงานเรียกว่าสถานะสิ่งแวดล้อมและการตอบสนองของแบบจำลองเรียกว่าการกระทำ ความน่าจะเป็นที่แบบจำลองจะตอบ สนอง เมื่อได้รับจะเขียนแทนด้วย $\pi$ $x$ $y$ $y$ $x$ $\pi (y|x)$

เพื่อพัฒนาแบบจำลองภาษาการให้เหตุผลโดยใช้ RL ให้ดียิ่งขึ้น ขั้นตอนต่อไปคือการสร้างแบบจำลองรางวัลเพื่อเป็นแนวทางในกระบวนการ โดยทั่วไปแล้ว รางวัลจะบ่งชี้ว่าคำตอบนั้นดีเพียงใดสำหรับคำถาม ในงานการให้เหตุผล รางวัลจะสูงหากคำตอบนั้นแก้ปัญหาได้ และจะต่ำหากคำตอบนั้นแก้ปัญหาไม่ได้ $r(x,y)$

จากพื้นฐานนี้ การตอบสนองอาจถูกแบ่งออกเป็นหลายขั้นตอนซึ่งแสดงด้วยสัญลักษณ์ โดยแต่ละขั้นตอนแสดงถึงขั้นตอนที่แตกต่างกันในกระบวนการตอบสนอง $y$ $y_{1},y_{2},\dots ,y_{n}$ $y_{n}$

ระบบล่าสุดส่วนใหญ่ใช้วิธีการไล่ระดับนโยบาย เช่นProximal Policy Optimization (PPO) ด้วยเหตุผลนี้ เนื่องจาก PPO จำกัดการอัปเดตนโยบายแต่ละครั้งด้วยวัตถุประสงค์ที่ถูกตัด ทำให้การฝึกอบรมมีเสถียรภาพสำหรับนโยบายขนาดใหญ่มาก^{[ 48 ]}

แบบจำลองรางวัลผลลัพธ์

แบบจำลองรางวัลผลลัพธ์ หรือ RM ที่มีการกำกับดูแลผลลัพธ์ (ORM) ^{[ 45 ]}จะให้รางวัลสำหรับขั้นตอนโดยอิงจากคำตอบสุดท้าย: แบบจำลองดังกล่าว มักเรียกว่า "ตัวตรวจสอบ" $r(x,y_{1},\dots ,y_{i})$ $r(x,y_{1},\dots ,y_{i})=r(x,y_{n})$

สำหรับงานที่มีคำตอบที่ตรวจสอบได้ง่าย เช่นโจทย์ปัญหาคณิตศาสตร์รางวัลผลลัพธ์สามารถเป็นแบบไบนารีได้ คือ 1 ถ้าคำตอบสุดท้ายถูกต้อง และ 0 ถ้าไม่ถูกต้อง^{[ 45 ]}หากการตรวจสอบอัตโนมัติทำได้ยาก มนุษย์สามารถติดป้ายกำกับคำตอบว่าถูกต้องหรือไม่ถูกต้อง และป้ายกำกับเหล่านั้นสามารถนำมาใช้ปรับแต่งโมเดลพื้นฐานที่ทำนายป้ายกำกับของมนุษย์ได้^{[ 46 ]}สำหรับงานเช่นการเขียนเชิงสร้างสรรค์ ซึ่งคุณภาพไม่ได้เป็นเพียงแค่จริงหรือเท็จ เราสามารถฝึกโมเดลรางวัลโดยใช้ ข้อมูล การจัดลำดับความชอบ ของมนุษย์ เช่นเดียวกับการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ [ ^{19 ] โมเดล}พื้นฐานยังสามารถปรับแต่งเพื่อทำนายจากร่องรอยความคิดบางส่วนว่าคำตอบสุดท้ายจะถูกต้องหรือไม่ และการทำนายนี้สามารถใช้เป็นรางวัลแบบไบนารีได้^[⁴⁵^] $x,y_{1},\dots ,y_{m}$

ORM มักจะได้รับการฝึกฝนด้วยการถดถอยโลจิสติกกล่าวคือโดยการลดการสูญเสียเอนโทรปีไขว้ ให้น้อยที่สุด ^{[ 49 ]}

เมื่อกำหนด PRM แล้ว ORM สามารถสร้างได้โดยการคูณรางวัลกระบวนการทั้งหมดระหว่างการติดตามการให้เหตุผล^{[ 19 ]}โดยการหาค่าต่ำสุด^{[ 49 ]}หรือโดยวิธีการอื่นๆ ในการรวมรางวัลกระบวนการ DeepSeek ใช้ ORM แบบง่ายเพื่อฝึกโมเดลR1 ^{[ 33 ]}

แบบจำลองรางวัลกระบวนการ

แบบจำลองรางวัลกระบวนการ หรือ RM ที่กำกับดูแลกระบวนการ (PRM) ^{[ 45 ]}จะให้รางวัลสำหรับขั้นตอนโดยพิจารณาจากขั้นตอนที่ผ่านมาเท่านั้น: . $r(x,y_{1},\dots ,y_{i})$ $(x,y_{1},\dots ,y_{i})$

เมื่อพิจารณาจากร่องรอยการคิดบางส่วนมนุษย์สามารถตัดสินได้ว่าขั้นตอนที่ผ่านมานั้นถูกต้องหรือไม่ โดยไม่ต้องดูคำตอบสุดท้าย ซึ่งจะให้รางวัลแบบไบนารี เนื่องจากป้ายกำกับของมนุษย์มีค่าใช้จ่ายสูง จึงสามารถปรับแต่งโมเดลพื้นฐานเพื่อทำนายป้ายกำกับเหล่านั้นได้^[⁴⁵^]โดยปกติ PRM จะได้รับการฝึกฝนด้วยการถดถอยโลจิสติกส์บนป้ายกำกับของมนุษย์ กล่าวคือ โดยการลดการสูญเสียเอนโทรปีไขว้ระหว่างป้ายกำกับจริงและป้ายกำกับที่ทำนาย^[⁴⁹^] $x,y_{1},\dots ,y_{m}$

ตัวอย่างเช่น บทความ OpenAI ปี 2023 รวบรวมป้ายกำกับกระบวนการ 800,000 รายการสำหรับร่องรอยการคิด 75,000 รายการ ผู้ติดป้ายกำกับเห็นร่องรอยและทำเครื่องหมายแต่ละขั้นตอนเป็น "บวก" หากมันเคลื่อนไปสู่ทางออก "เป็นกลาง" หากมันไม่ผิดแต่ไม่ได้ช่วย และ "ลบ" หากมันเป็นความผิดพลาด หลังจากป้ายกำกับ "ลบ" ครั้งแรก ผู้ติดป้ายกำกับจะหยุดที่ร่องรอยนั้นและย้ายไปยังร่องรอยอื่น ผู้เขียนโต้แย้งว่าการติดป้ายกำกับจนถึงข้อผิดพลาดแรกก็เพียงพอที่จะฝึก PRM ที่มีประสิทธิภาพได้ แม้ว่าการติดป้ายกำกับขั้นตอนในภายหลังอาจให้สัญญาณที่สมบูรณ์ยิ่งขึ้นก็ตาม^{[ 19 ]}^{[ 50 ]}

เพื่อหลีกเลี่ยงป้ายกำกับของมนุษย์ นักวิจัยได้เสนอวิธีการสร้าง PRM โดยไม่ต้องใช้ป้ายกำกับของมนุษย์ในกระบวนการ โดยได้รับแรงบันดาลใจจากการค้นหาต้นไม้ Monte Carlo (MCTS) วิธีการ Math-Shepherd จะสุ่มตัวอย่างความต่อเนื่องหลายครั้งจนถึงจุดสิ้นสุด โดยเริ่มต้นที่แต่ละขั้นตอนการให้เหตุผลและกำหนดรางวัลในขั้นตอนนั้นให้เป็นอย่างใดอย่างหนึ่งในกรณีของ "การประมาณค่าแบบอ่อน" หรือ ในกรณีของ "การประมาณค่าแบบแข็ง" ซึ่งจะสร้างรางวัลกระบวนการจาก ORM ซึ่งมักจะสร้างได้ง่ายกว่าหรือถูกกว่า จากนั้น PRM สามารถฝึกฝนบนป้ายกำกับเหล่านี้ได้^[⁴⁹^]งานบางชิ้นได้ลองใช้วิธีการ MCTS แบบเต็มรูปแบบ^[⁵¹^] $y_{i}$ ${\frac {\#{\text{(คำตอบที่ถูกต้อง)}}}{\#{\text{(คำตอบทั้งหมด)}}}}$ ${\begin{cases}1&{\text{ถ้าคำตอบข้อใดข้อหนึ่งถูกต้อง}}\\0&{\text{มิฉะนั้น}}\end{cases}}$

เราสามารถใช้ ORM เพื่อสร้าง PRM โดยปริยายได้เช่นกัน คล้ายกับ^การเพิ่มประสิทธิภาพความชอบโดยตรง^[ 52 ^]

การสุ่มตัวอย่างแบบมีแนวทาง

ORM ที่ได้รับการฝึกฝนสามารถใช้เพื่อเลือกการตอบสนองที่ดีที่สุดได้ นโยบายจะสร้างการตอบสนองหลายรายการ และ ORM จะเลือกรายการที่ดีที่สุด ซึ่งเป็นการนำรูปแบบง่ายๆ ของการปรับขนาดการคำนวณในเวลาทดสอบ ("best-of-N") มาใช้ ^{[ 46 ]}^{[ 53 ]}

PRM ที่ได้รับการฝึกฝนสามารถชี้นำการให้เหตุผลโดยการค้นหาต้นไม้ แบบโลภ : นโยบายเสนอขั้นตอนถัดไปหลายขั้นตอน PRM เลือกหนึ่งขั้นตอน และกระบวนการจะทำซ้ำ ซึ่งสะท้อนถึงการใช้ ORM เพื่อเลือกคำตอบทั้งหมด^{[ 54 ]}การค้นหาแบบบีมมีประสิทธิภาพดีกว่าการค้นหาแบบโลภ

การค้นหาแบบมองไปข้างหน้าเป็นวิธีการค้นหาแบบต้นไม้อีกวิธีหนึ่ง นโยบายจะเสนอขั้นตอนถัดไปหลายขั้นตอน จากนั้นจึงทำการดำเนินการสั้นๆ สำหรับแต่ละขั้นตอน หากพบวิธีแก้ปัญหาในระหว่างการดำเนินการ การค้นหาจะหยุดลงก่อนกำหนด มิฉะนั้น PRM จะให้คะแนนการดำเนินการแต่ละครั้ง และจะเลือกขั้นตอนที่มีคะแนนสูงสุด^{[ 31 ]}

ความสอดคล้องในตัวเองสามารถรวมเข้ากับ ORM ได้ โมเดลสร้างคำตอบหลายคำตอบ และคำตอบเหล่านั้นจะถูกจัดกลุ่มเพื่อให้แต่ละกลุ่มมีคำตอบสุดท้ายเหมือนกัน ORM จะให้คะแนนคำตอบแต่ละข้อ คะแนนในแต่ละกลุ่มจะถูกรวมเข้าด้วยกัน และคำตอบจากกลุ่มที่มีคะแนนสูงสุดจะถูกส่งคืน^{[ 49 ]}

เกณฑ์มาตรฐาน

โดยทั่วไปแล้วโมเดลการให้เหตุผลจะได้คะแนนสูงกว่าโมเดลที่ไม่ใช้เหตุผลในการทดสอบหลายๆ ครั้ง โดยเฉพาะในงานที่ต้องใช้การให้เหตุผลหลายขั้นตอน^{[ 55 ]}^{[ 56 ]}^{[ 57 ]}^{[ 58 ]}

ตัวอย่างเช่น ในการสอบคณิตศาสตร์ American Invitational Mathematics Examination (AIME) ซึ่งเป็นการแข่งขันคณิตศาสตร์ที่ท้าทาย โมเดลที่ไม่ใช้เหตุผลมักจะแก้ปัญหาได้น้อยกว่า 30% ในทางตรงกันข้าม โมเดลที่ใช้เหตุผลในยุคแรกๆ หลายโมเดลมีอัตราความสำเร็จระหว่าง 50% ถึง 80% ^{[ 2 ]}^{[ 33 ]}^{[ 35 ]} o3-mini-high ซึ่งเปิดตัวในเดือนมกราคม 2025 มีความแม่นยำมากกว่า 80% ^{[ 59 ]}

เกณฑ์มาตรฐานบางรายการไม่รวมโมเดลการให้เหตุผลเนื่องจากเวลาตอบสนองที่ยาวนานกว่าและต้นทุนการอนุมานที่สูงกว่า รวมถึงเกณฑ์มาตรฐานสำหรับการตรวจจับเหตุการณ์ที่ซับซ้อนแบบออนไลน์ในระบบไซเบอร์-กายภาพการประเมินการคำนวณเวลาอนุมานทั่วไป งานวิศวกรรม Verilog และการประเมินความปลอดภัยของเครือข่าย^{[ 60 ]}^{[ 61 ]}^{[ 62 ]}^{[ 63 ]}

นางแบบ

บริษัท	แบบอย่าง	วันวางจำหน่าย
OpenAI ( ChatGPT )	จีพีที-5 (o3.1)	สิงหาคม 2568
	จีพีที-โอเอส	สิงหาคม 2568 ^{[ 64 ]}
	o3 และ o4-mini	เมษายน 2568
	o3-มินิ	มกราคม 2568
	o1	ธันวาคม 2024
	o1-พรีวิว	กันยายน 2024
กูเกิล เจมินี	3 แฟลช	ธันวาคม 2025
	3 โปร	พฤศจิกายน 2025
	2.5 การใช้งานคอมพิวเตอร์	ตุลาคม 2568
	2.5 แฟลช	เมษายน 2568
	2.5 โปร	มีนาคม 2568
	2.0 การคิดแบบฉับพลัน	ธันวาคม 2024
ดีพซีค	V3.2-Exp	กันยายน 2568
	เวอร์ชัน 3.1	สิงหาคม 2568
	อาร์1-0528	พฤษภาคม 2568
	วี3-0324	มีนาคม 2568
	R1 และ R1-Lite-Preview	มกราคม 2568
กลุ่มบริษัทอาลีบาบา	คิวดับเบิลยู-32บี	มีนาคม 2568
	QvQ-72B-พรีวิว	ธันวาคม 2024
	QwQ-32B-พรีวิว	พฤศจิกายน 2024
แอนโทรปิก	Claude Opus 4.5	พฤศจิกายน 2025
	คล็อด ไฮกุ 4.5	ตุลาคม 2568
	บทกวีโซเน็ตของโคลด (ตั้งแต่ 3.7)	กุมภาพันธ์ 2568
มิสทรัล AI	ขนาดกลาง/เล็ก	มิถุนายน 2568
xAI	กรอค 4	กรกฎาคม 2568
xAI	กรอค 3	กุมภาพันธ์ 2568
ใบหน้ากอด	OlympicCoder-7B & 32B	กุมภาพันธ์ 2568
ไนอาวุส	ลามะเนโมตรอน	มีนาคม 2568
เทนเซ็นต์	ฮุนหยวน T1	มีนาคม 2568
มูนช็อต AI	คิมิ เค2 คิด	พฤศจิกายน 2025
มูนช็อต AI	คิมิ เค2.5	มกราคม 2569

ดูเพิ่มเติม

ลิงก์ภายนอก

Fortes, Armando (2025-01-27). "atfortes/Awesome-LLM-Reasoning" . GitHub . สืบค้นเมื่อ2025-01-27 .
Huang, Jie; Chang, Kevin Chen-Chuan (2023-05-26). "สู่การให้เหตุผลในแบบจำลองภาษาขนาดใหญ่: บทสำรวจ". arXiv : 2212.10403 [ cs.CL ].
Besta, Maciej; Barth, Julia; Schreiber, Eric; Kubicek, Ales; Catarino, Afonso; Gerstenberger, Robert; Nyczyk, Piotr; Iff, Patrick; Li, Yueling (2025-01-23). "แบบจำลองภาษาการให้เหตุผล: แผนผัง". arXiv : 2501.11223 [ cs.AI ].

[ 1 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 32 ]

[ 34 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

41 ] รายงาน

[ 42 ]

[ 43 ]

[ 44 ]

[ 47 ]

[ 48 ]

[ 50 ]

[

การ

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]