กลับไปหน้าบทความ

อ่าน 14 นาที

แบบจำลองการให้เหตุผล

แบบ จำลองการให้เหตุผล หรือที่รู้จักกันในชื่อ แบบจำลองภาษาการให้เหตุผล ( RLM ) หรือ แบบจำลองการให้เหตุผลขนาดใหญ่ ( LRM ) เป็น แบบจำลองภาษาขนาดใหญ่ (LLM)...

แบบจำลองการให้เหตุผล

แบบจำลองการให้เหตุผลหรือที่รู้จักกันในชื่อแบบจำลองภาษาการให้เหตุผล ( RLM ) หรือแบบจำลองการให้เหตุผลขนาดใหญ่ ( LRM ) เป็น แบบจำลองภาษาขนาดใหญ่ (LLM) ประเภทหนึ่งที่ได้รับการฝึกฝนมาโดยเฉพาะเพื่อแก้ปัญหาที่ซับซ้อนซึ่งต้องใช้การให้เหตุผล เชิงตรรกะหลายขั้นตอน [ 1 ] แบบจำลองเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในงานด้านตรรกะ คณิตศาสตร์ และการเขียนโปรแกรม เมื่อเทียบกับ LLM มาตรฐาน แบบจำลองเหล่านี้ มีความสามารถในการทบทวนและแก้ไขขั้นตอนการให้เหตุผลก่อนหน้านี้ และใช้การคำนวณเพิ่มเติมในระหว่างการอนุมานเป็นวิธีการปรับขนาดประสิทธิภาพซึ่งเป็นการเสริมวิธีการปรับขนาดแบบดั้งเดิมที่อิงตามขนาดข้อมูลการฝึกอบรม พารามิเตอร์ของแบบจำลอง และการคำนวณการฝึกอบรม[ 2 ]

ภาพรวม

แตกต่างจากโมเดลภาษาแบบดั้งเดิมที่สร้างการตอบสนองทันที โมเดลการให้เหตุผลจะจัดสรรเวลาในการคำนวณหรือคิดเพิ่มเติมก่อนที่จะสร้างคำตอบเพื่อแก้ปัญหาหลายขั้นตอนOpenAIได้นำคำศัพท์นี้มาใช้ในเดือนกันยายน 2024 เมื่อเปิดตัวซีรี่ส์ o1โดยอธิบายว่าโมเดลเหล่านี้ได้รับการออกแบบมาเพื่อ "ใช้เวลาคิดมากขึ้น" ก่อนที่จะตอบสนอง บริษัทได้วางกรอบ o1 ว่าเป็นการเริ่มต้นใหม่ในการตั้งชื่อโมเดลที่มุ่งเป้าไปที่งานที่ซับซ้อนในด้านวิทยาศาสตร์ การเขียนโค้ด และคณิตศาสตร์ และได้เปรียบเทียบประสิทธิภาพของ o1 กับGPT-4oในเกณฑ์มาตรฐานต่างๆ เช่นAIMEและCodeforces รายงานอิสระในสัปดาห์เดียวกันได้สรุปการเปิดตัวและเน้นย้ำถึงคำกล่าวอ้างของ OpenAI ที่ว่า o1 ทำให้การให้เหตุผล แบบลำดับความคิดเป็นไปโดยอัตโนมัติเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นอย่างมากในการสอบที่ยาก[ 3 ] [ 4 ] [ 5 ]

ในการทำงาน โมเดลการให้เหตุผลจะสร้างห่วงโซ่ภายในของขั้นตอนกลาง จากนั้นเลือกและปรับปรุงคำตอบสุดท้ายOpenAIรายงานว่าความแม่นยำของ o1 ดีขึ้นเมื่อโมเดลได้รับการเรียนรู้แบบเสริมแรง มากขึ้น ในระหว่างการฝึกอบรมและการคำนวณในเวลาทดสอบมากขึ้นในการอนุมาน บริษัทเลือกที่จะซ่อนห่วงโซ่ดิบและส่งคืนบทสรุปที่เขียนโดยโมเดลแทน โดยระบุว่า "ตัดสินใจที่จะไม่แสดง" ความคิดพื้นฐานเพื่อให้นักวิจัยสามารถตรวจสอบได้โดยไม่ต้องเปิดเผยเนื้อหาที่ไม่สอดคล้องกันแก่ผู้ใช้ปลายทาง การใช้งานเชิงพาณิชย์จะบันทึก "โทเค็นการให้เหตุผล" แยกต่างหากที่วัดความคิดที่ซ่อนอยู่และการควบคุม "ความพยายามในการให้เหตุผล" ที่ปรับแต่งปริมาณการคำนวณที่โมเดลใช้ คุณสมบัติเหล่านี้ทำให้โมเดลทำงานช้ากว่าระบบแชททั่วไปในขณะที่ช่วยให้มีประสิทธิภาพที่แข็งแกร่งขึ้นในปัญหาที่ยาก[ 4 ] [ 6 ]

ประวัติศาสตร์

แนวทางการวิจัยเกี่ยวกับแบบจำลองการให้เหตุผลได้ผสมผสานความก้าวหน้าในการกำกับดูแลการกระตุ้นและการอนุมานแบบค้นหาเข้าด้วย กัน

งานจัดเรียงเบื้องต้นเกี่ยวกับการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์แสดงให้เห็นว่าโมเดลสามารถปรับแต่งให้ปฏิบัติตามคำสั่งด้วย "ผลตอบรับของมนุษย์" และรางวัลตามความชอบได้[ 7 ] [ 8 ]ในปี 2022 นักวิทยาศาสตร์ ของ Google Research Jason Wei และ Denny Zhou แสดงให้เห็นว่า การกระตุ้น ความคิดแบบต่อเนื่อง "ช่วยปรับปรุงความสามารถ" ของโมเดลขนาดใหญ่ในงานการให้เหตุผลที่ซับซ้อนได้อย่างมีนัยสำคัญ[ 9 ]

ผลลัพธ์ที่เกี่ยวข้องแสดงให้เห็นว่าคำสั่งง่ายๆ เช่น "ลองคิดทีละขั้นตอน" สามารถกระตุ้นให้เกิดการให้เหตุผลแบบ zero-shot ได้[ 10 ]งานวิจัยต่อมาได้นำเสนอการถอดรหัสความสอดคล้องในตัวเอง ซึ่ง "ช่วยเพิ่มประสิทธิภาพ" ของลำดับความคิดโดยการสุ่มตัวอย่างเส้นทางการแก้ปัญหาที่หลากหลายและเลือกฉันทามติ และวิธีการที่เสริมด้วยเครื่องมือ เช่นReActซึ่งเป็นการผสมคำระหว่าง Reason และ Act ที่กระตุ้นให้โมเดล "สร้างทั้งร่องรอยการให้เหตุผล" และการกระทำ[ 11 ] [ 12 ]จากนั้นงานวิจัยได้ขยายลำดับความคิดไปสู่การค้นหาแผนผู้สมัครหลายแผน กรอบงาน Tree-of-Thoughtsจาก นักวิทยาศาสตร์คอมพิวเตอร์ ของ Princetonอย่าง Shunyu Yao เสนอว่าโมเดล "ทำการตัดสินใจอย่างรอบคอบ" โดยการสำรวจและย้อนกลับไปตามต้นไม้ของความคิดระดับกลาง[ 13 ]

ความก้าวหน้าที่รายงานของ OpenAIมุ่งเน้นไปที่การกำกับดูแลกระบวนการให้เหตุผลมากกว่าผลลัพธ์เพียงอย่างเดียว โดย "Let's Verify Step by Step" ของ Lightman และคณะ รายงานว่าการให้รางวัลในแต่ละขั้นตอนที่ถูกต้อง "มีประสิทธิภาพเหนือกว่าการกำกับดูแลผลลัพธ์อย่างมีนัยสำคัญ" ในปัญหาคณิตศาสตร์ที่ท้าทาย และปรับปรุงความสามารถในการตีความโดยการปรับลำดับความคิดให้สอดคล้องกับการตัดสินของมนุษย์[ 14 ] [ 15 ] การประกาศ o1ของ OpenAI เชื่อมโยงสิ่งเหล่านี้เข้าด้วยกันด้วยอัลกอริธึม การเรียนรู้แบบเสริมแรงขนาดใหญ่ที่ฝึกโมเดลให้ปรับปรุงลำดับความคิดของตนเอง และรายงานว่าความแม่นยำเพิ่มขึ้นเมื่อมีการคำนวณการฝึกอบรมมากขึ้นและใช้เวลาคิดในการอนุมานมากขึ้น[ 4 ]

โดยรวมแล้ว การพัฒนาเหล่านี้กำหนดแก่นหลักของแบบจำลองการให้เหตุผล พวกมันใช้สัญญาณการกำกับดูแลที่ประเมินคุณภาพของขั้นตอนกลาง พวกมันใช้ประโยชน์จากการสำรวจในเวลาอนุมาน เช่น ความเห็นพ้องหรือการค้นหาต้นไม้และพวกมันเปิดเผยการควบคุมว่าจะจัดสรรการคำนวณการคิดภายในมากน้อยเพียงใด ตระกูล o1 ของ OpenAI ทำให้วิธีการนี้ใช้งานได้ในวงกว้างในเดือนกันยายน 2024 และทำให้คำว่า "แบบจำลองการให้เหตุผล" เป็นที่นิยมสำหรับ LLM ที่คิดอย่างรอบคอบก่อนที่จะตอบ[ 3 ] [ 6 ]

การพัฒนารูปแบบการให้เหตุผลแสดงให้เห็นถึง"บทเรียนอันขมขื่น" ของRichard S. Sutton ที่ว่าการขยายขนาดการคำนวณมักจะมีประสิทธิภาพเหนือกว่าวิธีการที่อิงตามข้อมูลเชิงลึกที่ออกแบบโดยมนุษย์ [ 16 ]หลักการนี้ได้รับการพิสูจน์โดยนักวิจัยที่ Generative AI Research Lab (GAIR) ซึ่งในตอนแรกพยายามจำลองความสามารถของ o1 โดยใช้วิธีการที่ซับซ้อน รวมถึงการค้นหาต้นไม้และการเรียนรู้แบบเสริมแรงในช่วงปลายปี 2024 ผลการค้นพบของพวกเขาซึ่งตีพิมพ์ในชุด "o1 Replication Journey" เปิดเผยว่าการกลั่นความรู้ซึ่งเป็นเทคนิคที่ค่อนข้างตรงไปตรงมาที่ฝึกโมเดลขนาดเล็กให้เลียนแบบผลลัพธ์ของ o1 ทำให้ได้ประสิทธิภาพที่แข็งแกร่งอย่างไม่คาดคิด ผลลัพธ์นี้แสดงให้เห็นว่าวิธีการขยายขนาดโดยตรงบางครั้งอาจมีประสิทธิภาพเหนือกว่าโซลูชันทางวิศวกรรมที่ซับซ้อนกว่า[ 17 ] [ 18 ]

ข้อเสีย

แบบจำลองการให้เหตุผลต้องการทรัพยากรการคำนวณมากกว่าแบบจำลองที่ไม่ใช้การให้เหตุผลอย่างมีนัยสำคัญในระหว่างการอนุมาน การวิจัยเกี่ยวกับเกณฑ์มาตรฐานการสอบคณิตศาสตร์ American Invitational Mathematics Examination (AIME) พบว่าแบบจำลองการให้เหตุผลมีค่าใช้จ่ายในการดำเนินการสูงกว่าแบบจำลองที่ไม่ใช้การให้เหตุผลถึง 10 ถึง 74 เท่า[ 19 ]เวลาในการอนุมานที่ยาวนานขึ้นนั้นเกิดจากผลลัพธ์การให้เหตุผลแบบละเอียดทีละขั้นตอนที่แบบจำลองเหล่านี้สร้างขึ้น ซึ่งโดยทั่วไปแล้วจะยาวกว่าคำตอบจากแบบจำลองภาษาขนาดใหญ่ มาตรฐาน ที่ให้คำตอบโดยตรงโดยไม่แสดงกระบวนการให้เหตุผล

นักวิจัยคนหนึ่งในช่วงต้นปี 2025 โต้แย้งว่าโมเดลเหล่านี้อาจเผชิญกับความกังวลเพิ่มเติมเกี่ยวกับการปฏิเสธการให้บริการด้วย "การโจมตีที่คิดมากเกินไป" [ 20 ]

การเผยแพร่

2024

ในเดือนกันยายน พ.ศ. 2567 OpenAIได้เผยแพร่o1-previewซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่มีความสามารถในการให้เหตุผลที่ได้รับการปรับปรุง[ 21 ]เวอร์ชันเต็มo1ได้รับการเผยแพร่ในเดือนธันวาคม พ.ศ. 2567 OpenAI ได้แบ่งปันผลลัพธ์เบื้องต้นของโมเดลรุ่นต่อมาo3ในเดือนธันวาคม พ.ศ. 2567 [ 22 ] [ 23 ] [ 24 ]โดยโมเดล o3 เวอร์ชันเต็มจะพร้อมใช้งานในปี พ.ศ. 2568 [ 25 ]

Alibabaเปิดตัว โมเดลภาษาขนาดใหญ่ Qwen เวอร์ชันการให้เหตุผล ในเดือนพฤศจิกายน 2024 [ 26 ]ในเดือนธันวาคม 2024 บริษัทได้เปิดตัว QvQ-72B-Preview ซึ่งเป็นโมเดลการให้เหตุผลเชิงภาพแบบทดลอง[ 27 ]

ในเดือนธันวาคม 2024 Googleได้เปิดตัวDeep ResearchในGeminiซึ่งเป็นฟีเจอร์ที่ออกแบบมาเพื่อดำเนินการวิจัยหลายขั้นตอน[ 28 ] [ 29 ]

เมื่อวันที่ 16 ธันวาคม พ.ศ. 2567 นักวิจัยได้แสดงให้เห็นว่าด้วยการปรับขนาดการคำนวณเวลาทดสอบ โมเดล Llama 3B ที่ค่อนข้างเล็กสามารถทำงานได้ดีกว่าโมเดล Llama 70B ที่มีขนาดใหญ่กว่ามากในงานการให้เหตุผลที่ท้าทาย การทดลองนี้ชี้ให้เห็นว่ากลยุทธ์การอนุมานที่ได้รับการปรับปรุงสามารถปลดล็อกความสามารถในการให้เหตุผลได้แม้ในโมเดลขนาดเล็ก[ 30 ] [ 31 ]

2025

ในเดือนมกราคม พ.ศ. 2568 DeepSeekได้ปล่อยR1ซึ่งเป็นโมเดลการให้เหตุผลที่ได้ผลลัพธ์เทียบเท่ากับ o1 ของ OpenAI ด้วยต้นทุนการคำนวณที่ต่ำกว่าอย่างมาก การเปิดตัวครั้งนี้แสดงให้เห็นถึงประสิทธิภาพของGroup Relative Policy Optimization (GRPO) ซึ่งเป็นเทคนิคการเรียนรู้แบบเสริมแรงที่ใช้ในการฝึกโมเดล[ 32 ] [ 33 ]

เมื่อวันที่ 25 มกราคม พ.ศ. 2568 DeepSeek ได้ปรับปรุง R1 ด้วยความสามารถในการค้นหาเว็บ ทำให้โมเดลสามารถดึงข้อมูลจากอินเทอร์เน็ตในขณะที่ดำเนินการงานการให้เหตุผลได้[ 34 ]

การวิจัยในช่วงเวลานี้ได้ยืนยันประสิทธิภาพของการกลั่นความรู้เพื่อสร้างแบบจำลองการให้เหตุผลเพิ่มเติม แบบจำลอง s1-32B บรรลุประสิทธิภาพที่แข็งแกร่งผ่านวิธีการบังคับงบประมาณและการปรับขนาด ซึ่งเป็นการตอกย้ำผลการค้นพบว่าวิธีการฝึกอบรมที่เรียบง่ายกว่าสามารถมีประสิทธิภาพสูงสำหรับความสามารถในการให้เหตุผล[ 35 ] [ 18 ]

เมื่อวันที่ 2 กุมภาพันธ์ พ.ศ. 2568 OpenAI ได้เปิดตัวDeep Researchซึ่งเป็นฟีเจอร์ที่ขับเคลื่อนด้วย โมเดล o3 ของพวกเขา ที่ช่วยให้ผู้ใช้สามารถดำเนินการวิจัยอย่างครอบคลุมได้[ 36 ]ระบบจะสร้างรายงานโดยละเอียดโดยการรวบรวมและสังเคราะห์ข้อมูลจากแหล่งข้อมูลบนเว็บหลายแหล่งโดยอัตโนมัติ[ 36 ]

OpenAI เรียกGPT-4.5ว่า "โมเดลที่ไม่ใช่แบบลำดับความคิดสุดท้าย" [ 37 ]และนำโมเดลเราเตอร์ที่เลือกโมเดลตามความยากของงาน มาใช้กับ GPT-5 [ 38 ]

2026

ในเดือนมกราคม พ.ศ. 2569 Moonshot AI ได้ปล่อย Kimi K2.5 ซึ่งเป็นโมเดล MoE แบบ โอเพนซอร์สที่มีพารามิเตอร์ 1 ล้านล้านตัวและมีพารามิเตอร์ที่ใช้งานอยู่ 32 พันล้านตัว โดยใช้ระบบ “ Agent Swarm” ที่แบ่งงานออกเป็นเอเจนต์ย่อยเพื่อการให้เหตุผลและการดำเนินการแบบไดนามิก ทำให้สามารถแก้ปัญหาแบบหลายขั้นตอนที่ปรับขนาดได้มากกว่าห่วงโซ่การให้เหตุผลแบบลำดับเดียว[ 39 ]

การฝึกอบรม

โมเดลการให้เหตุผลใช้การฝึกฝนล่วงหน้าขนาดใหญ่ที่คุ้นเคยซึ่งใช้สำหรับโมเดลภาษาแนวหน้า จากนั้นจึงแยกออกในขั้นตอนหลังการฝึกฝนและการเพิ่มประสิทธิภาพOpenAIรายงานว่าo1 ได้รับการฝึกฝนด้วยอัลกอริธึม การเรียนรู้แบบเสริมแรงขนาดใหญ่ที่สอนให้โมเดลใช้และปรับปรุงลำดับความคิดก่อนที่จะตอบคำถาม บริษัทเน้นย้ำถึงสองกลไกที่เชื่อมโยงกัน ได้แก่ การเรียนรู้แบบเสริมแรงมากขึ้นในระหว่างการฝึกฝนและเวลาที่ใช้ในการคิดในการอนุมานมากขึ้น และบันทึกถึงผลลัพธ์ที่ดีขึ้นเรื่อยๆ เมื่อแต่ละกลไกเพิ่มขึ้น OpenAI ยังระบุด้วยว่าได้ตัดสินใจที่จะไม่แสดงลำดับความคิดดิบๆ ให้กับผู้ใช้ปลายทาง แต่จะส่งสรุปที่เขียนโดยโมเดลกลับมาแทน ซึ่งเป็นทางเลือกของผลิตภัณฑ์ที่เชื่อมโยงกับการตรวจสอบความปลอดภัยและข้อกังวลด้านการแข่งขัน[ 4 ]

ส่วนประกอบสำคัญคือการกำกับดูแลกระบวนการซึ่งให้รางวัลแก่ขั้นตอนระหว่างกลางมากกว่าคำตอบสุดท้ายเพียงอย่างเดียว การศึกษาของ OpenAI ได้นำเสนอแบบจำลองการให้รางวัลกระบวนการที่ฝึกฝนบนป้ายกำกับระดับขั้นตอน และพบว่าการกำกับดูแลกระบวนการมีประสิทธิภาพเหนือกว่าการกำกับดูแลเฉพาะผลลัพธ์อย่างมีนัยสำคัญในปัญหาทางคณิตศาสตร์ที่ท้าทาย โครงการนี้ยังได้เผยแพร่ชุดข้อมูลการตอบรับระดับขั้นตอน PRM800K และโต้แย้งว่าการให้รางวัลระดับกระบวนการช่วยปรับปรุงความสามารถในการตีความ เนื่องจากมนุษย์สามารถตรวจสอบแต่ละขั้นตอนได้ ผลลัพธ์เหล่านี้ได้ให้สูตรปฏิบัติสำหรับการกำกับดูแลลำดับความคิด ซึ่งต่อมาได้ขยายขนาดไปสู่การฝึกอบรมการผลิต[ 15 ]

การฝึกอบรมนี้แตกต่างในหลายๆ ด้านจากโมเดลแนวหน้าแบบดั้งเดิมที่ไม่มุ่งเป้าไปที่การให้เหตุผล ระบบมาตรฐานได้รับการฝึกฝนล่วงหน้าบนคลังข้อมูลขนาดใหญ่บนอินเทอร์เน็ตโดยมีวัตถุประสงค์ในการทำนายโทเค็นถัดไป จากนั้นจึงปรับให้สอดคล้องกันผ่านการปรับแต่งคำสั่งและการเพิ่มประสิทธิภาพความชอบ สูตร InstructGPT แบบดั้งเดิม จะใช้การปรับแต่งอย่างละเอียดภายใต้การกำกับดูแลบนการสาธิตของมนุษย์ก่อน จากนั้นจึงฝึกโมเดลรางวัลจากความชอบแบบจับคู่ และสุดท้ายจึงเพิ่มประสิทธิภาพนโยบายด้วยการเรียนรู้แบบเสริมแรง โดยทั่วไปคือPPOที่มี การ ลงโทษKL [ 8 ] [ 40 ] รูป แบบต่างๆ เช่นการเพิ่มประสิทธิภาพความชอบโดยตรงจะลบขั้นตอน RL ที่ชัดเจนออกและเพิ่มประสิทธิภาพโมเดลโดยตรงบนข้อมูลความชอบ แต่เป้าหมายการกำกับดูแลยังคงเป็นผลลัพธ์สุดท้ายที่ตัดสินโดยผู้ประเมินมากกว่าคุณภาพของขั้นตอนภายใน [ 41 ] รายงานทางเทคนิคสำหรับGPT-4สรุปไปป์ไลน์แบบดั้งเดิมนี้เป็นการฝึกฝนล่วงหน้าโทเค็นถัดไปตามด้วยการฝึกอบรมภายหลัง แบบ RLHFเพื่อกำหนดพฤติกรรม[ 42 ]

ในทางตรงกันข้าม โมเดลการให้เหตุผลได้รับการปรับให้เหมาะสมเพื่อสร้าง วิจารณ์ และแก้ไขห่วงโซ่หลายขั้นตอนในระหว่างการฝึกอบรม OpenAI ระบุว่าการเรียนรู้แบบเสริมแรงถูกนำไปใช้กับห่วงโซ่เอง ซึ่งสอนให้โมเดลรู้จักข้อผิดพลาด แบ่งปัญหาออกเป็นขั้นตอนที่ง่ายขึ้น และเปลี่ยนกลยุทธ์เมื่อวิธีการปัจจุบันล้มเหลว OpenAI ยังบันทึกไว้ด้วยว่ามีการซ่อนห่วงโซ่ในระหว่างการอนุมานและส่งคืนคำตอบที่สรุปแนวคิดที่เป็นประโยชน์จากร่องรอยภายใน ทางเลือกในการออกแบบเหล่านี้สะท้อนถึงวัตถุประสงค์การฝึกอบรมของโมเดลและการตรวจสอบที่ตั้งใจไว้[ 4 ]

Zelikman และคณะได้แนะนำ STaR (Self-Taught Reasoner) ซึ่งสำรวจการบูตสแตรปเหตุผลโดยการสร้างและกรองโซ่ซ้ำๆ จากนั้นปรับแต่งอย่างละเอียดบนร่องรอยเหล่านั้น และพวกเขารายงานว่าได้ผลลัพธ์ที่ดีกว่าการปรับแต่งอย่างละเอียดโดยพิจารณาเฉพาะผลลัพธ์เท่านั้น รูปแบบหนึ่งของวิธีนี้ได้จัดเตรียมกลไกเพิ่มเติมสำหรับการสร้างสัญญาณการฝึกอบรมที่พูดถึงการให้เหตุผลระดับกลาง ไม่ใช่เพียงคำตอบสุดท้ายเท่านั้น[ 43 ]

DeepSeekรายงานว่า ระบบ R1และ R1-Zero ที่ได้รับการฝึกฝนด้วย RL บริสุทธิ์สามารถกระตุ้นให้เกิดห่วงโซ่ยาว การตรวจสอบตนเอง และการสะท้อนกลับ โดยโต้แย้งว่ารางวัลระดับห่วงโซ่ที่ชัดเจนสามารถกระตุ้นพฤติกรรมการให้เหตุผลทั่วไปได้ ผลลัพธ์เหล่านี้บ่งชี้ว่าการฝึกฝนภายหลังที่เน้นคุณภาพของห่วงโซ่ได้กลายเป็นระบอบที่แตกต่างออกไปจากการจัดเรียงผลลัพธ์เพียงอย่างเดียว[ 44 ]

การปรับแต่งอย่างละเอียดภายใต้การกำกับดูแล

แบบจำลองภาษาขนาดใหญ่ ( LLM) สามารถปรับแต่งได้อย่างละเอียดบนชุดข้อมูลของงานการให้เหตุผลที่จับคู่กับร่องรอยการแก้ปัญหาทีละขั้นตอน แบบจำลองที่ปรับแต่งแล้วจะเรียนรู้ที่จะสร้างห่วงโซ่การให้เหตุผลของตัวเองสำหรับปัญหาใหม่[ 45 ] [ 46 ]

เนื่องจากการรวบรวมร่องรอยที่เขียนโดยมนุษย์มีค่าใช้จ่ายสูง นักวิจัยจึงใช้การปรับแต่งการสุ่มตัวอย่างแบบปฏิเสธ (RFT) เพื่อสร้างชุดข้อมูลโดยอัตโนมัติ วิธีนี้สร้างร่องรอยการให้เหตุผลหลายรายการสำหรับแต่ละคำถาม จากนั้นกรองร่องรอยที่มีคำตอบสุดท้ายที่ไม่ถูกต้องออกโดยใช้ตัวตรวจสอบ[ 47 ]

การเรียนรู้แบบเสริมแรง

แบบจำลองภาษาที่ผ่านการฝึกฝนเบื้องต้นแล้วสามารถฝึกฝนเพิ่มเติมได้ด้วยการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ใน RL แบบจำลองภาษาเชิงกำเนิดทำหน้าที่เป็นนโยบาย ซึ่งแสดงด้วย ภายในรูปแบบนี้ ตัวกระตุ้นงานเรียกว่าสถานะสิ่งแวดล้อมและการตอบสนองของแบบจำลองเรียกว่าการกระทำ ความน่าจะเป็นที่แบบจำลองจะตอบ สนอง เมื่อได้รับจะเขียนแทนด้วย

เพื่อพัฒนาแบบจำลองภาษาการให้เหตุผลโดยใช้ RL ให้ดียิ่งขึ้น ขั้นตอนต่อไปคือการสร้างแบบจำลองรางวัลเพื่อเป็นแนวทางในกระบวนการ โดยทั่วไปแล้ว รางวัลจะบ่งชี้ว่าคำตอบนั้นดีเพียงใดสำหรับคำถาม ในงานการให้เหตุผล รางวัลจะสูงหากคำตอบนั้นแก้ปัญหาได้ และจะต่ำหากคำตอบนั้นแก้ปัญหาไม่ได้

จากพื้นฐานนี้ การตอบสนองอาจถูกแบ่งออกเป็นหลายขั้นตอนซึ่งแสดงด้วยสัญลักษณ์ โดยแต่ละขั้นตอนแสดงถึงขั้นตอนที่แตกต่างกันในกระบวนการตอบสนอง

ระบบล่าสุดส่วนใหญ่ใช้วิธีการไล่ระดับนโยบาย เช่นProximal Policy Optimization (PPO) ด้วยเหตุผลนี้ เนื่องจาก PPO จำกัดการอัปเดตนโยบายแต่ละครั้งด้วยวัตถุประสงค์ที่ถูกตัด ทำให้การฝึกอบรมมีเสถียรภาพสำหรับนโยบายขนาดใหญ่มาก[ 48 ]

แบบจำลองรางวัลผลลัพธ์

แบบจำลองรางวัลผลลัพธ์ หรือ RM ที่มีการกำกับดูแลผลลัพธ์ (ORM) [ 45 ]จะให้รางวัลสำหรับขั้นตอนโดยอิงจากคำตอบสุดท้าย: แบบจำลองดังกล่าว มักเรียกว่า "ตัวตรวจสอบ"

สำหรับงานที่มีคำตอบที่ตรวจสอบได้ง่าย เช่นโจทย์ปัญหาคณิตศาสตร์รางวัลผลลัพธ์สามารถเป็นแบบไบนารีได้ คือ 1 ถ้าคำตอบสุดท้ายถูกต้อง และ 0 ถ้าไม่ถูกต้อง[ 45 ]หากการตรวจสอบอัตโนมัติทำได้ยาก มนุษย์สามารถติดป้ายกำกับคำตอบว่าถูกต้องหรือไม่ถูกต้อง และป้ายกำกับเหล่านั้นสามารถนำมาใช้ปรับแต่งโมเดลพื้นฐานที่ทำนายป้ายกำกับของมนุษย์ได้[ 46 ]สำหรับงานเช่นการเขียนเชิงสร้างสรรค์ ซึ่งคุณภาพไม่ได้เป็นเพียงแค่จริงหรือเท็จ เราสามารถฝึกโมเดลรางวัลโดยใช้ ข้อมูล การจัดลำดับความชอบ ของมนุษย์ เช่นเดียวกับการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ [ 19 ] โมเดลพื้นฐานยังสามารถปรับแต่งเพื่อทำนายจากร่องรอยความคิดบางส่วนว่าคำตอบสุดท้ายจะถูกต้องหรือไม่ และการทำนายนี้สามารถใช้เป็นรางวัลแบบไบนารีได้[ 45 ]

ORM มักจะได้รับการฝึกฝนด้วยการถดถอยโลจิสติกกล่าวคือโดยการลดการสูญเสียเอนโทรปีไขว้ ให้น้อยที่สุด [ 49 ]

เมื่อกำหนด PRM แล้ว ORM สามารถสร้างได้โดยการคูณรางวัลกระบวนการทั้งหมดระหว่างการติดตามการให้เหตุผล[ 19 ]โดยการหาค่าต่ำสุด[ 49 ]หรือโดยวิธีการอื่นๆ ในการรวมรางวัลกระบวนการ DeepSeek ใช้ ORM แบบง่ายเพื่อฝึกโมเดลR1 [ 33 ]

แบบจำลองรางวัลกระบวนการ

แบบจำลองรางวัลกระบวนการ หรือ RM ที่กำกับดูแลกระบวนการ (PRM) [ 45 ]จะให้รางวัลสำหรับขั้นตอนโดยพิจารณาจากขั้นตอนที่ผ่านมาเท่านั้น: .

เมื่อพิจารณาจากร่องรอยการคิดบางส่วนมนุษย์สามารถตัดสินได้ว่าขั้นตอนที่ผ่านมานั้นถูกต้องหรือไม่ โดยไม่ต้องดูคำตอบสุดท้าย ซึ่งจะให้รางวัลแบบไบนารี เนื่องจากป้ายกำกับของมนุษย์มีค่าใช้จ่ายสูง จึงสามารถปรับแต่งโมเดลพื้นฐานเพื่อทำนายป้ายกำกับเหล่านั้นได้[ 45 ]โดยปกติ PRM จะได้รับการฝึกฝนด้วยการถดถอยโลจิสติกส์บนป้ายกำกับของมนุษย์ กล่าวคือ โดยการลดการสูญเสียเอนโทรปีไขว้ระหว่างป้ายกำกับจริงและป้ายกำกับที่ทำนาย[ 49 ]

ตัวอย่างเช่น บทความ OpenAI ปี 2023 รวบรวมป้ายกำกับกระบวนการ 800,000 รายการสำหรับร่องรอยการคิด 75,000 รายการ ผู้ติดป้ายกำกับเห็นร่องรอยและทำเครื่องหมายแต่ละขั้นตอนเป็น "บวก" หากมันเคลื่อนไปสู่ทางออก "เป็นกลาง" หากมันไม่ผิดแต่ไม่ได้ช่วย และ "ลบ" หากมันเป็นความผิดพลาด หลังจากป้ายกำกับ "ลบ" ครั้งแรก ผู้ติดป้ายกำกับจะหยุดที่ร่องรอยนั้นและย้ายไปยังร่องรอยอื่น ผู้เขียนโต้แย้งว่าการติดป้ายกำกับจนถึงข้อผิดพลาดแรกก็เพียงพอที่จะฝึก PRM ที่มีประสิทธิภาพได้ แม้ว่าการติดป้ายกำกับขั้นตอนในภายหลังอาจให้สัญญาณที่สมบูรณ์ยิ่งขึ้นก็ตาม[ 19 ] [ 50 ]

เพื่อหลีกเลี่ยงป้ายกำกับของมนุษย์ นักวิจัยได้เสนอวิธีการสร้าง PRM โดยไม่ต้องใช้ป้ายกำกับของมนุษย์ในกระบวนการ โดยได้รับแรงบันดาลใจจากการค้นหาต้นไม้ Monte Carlo (MCTS) วิธีการ Math-Shepherd จะสุ่มตัวอย่างความต่อเนื่องหลายครั้งจนถึงจุดสิ้นสุด โดยเริ่มต้นที่แต่ละขั้นตอนการให้เหตุผลและกำหนดรางวัลในขั้นตอนนั้นให้เป็นอย่างใดอย่างหนึ่งในกรณีของ "การประมาณค่าแบบอ่อน" หรือ ในกรณีของ "การประมาณค่าแบบแข็ง" ซึ่งจะสร้างรางวัลกระบวนการจาก ORM ซึ่งมักจะสร้างได้ง่ายกว่าหรือถูกกว่า จากนั้น PRM สามารถฝึกฝนบนป้ายกำกับเหล่านี้ได้[ 49 ]งานบางชิ้นได้ลองใช้วิธีการ MCTS แบบเต็มรูปแบบ[ 51 ]

เราสามารถใช้ ORM เพื่อสร้าง PRM โดยปริยายได้เช่นกัน คล้ายกับการเพิ่มประสิทธิภาพความชอบโดยตรง[ 52 ]

การสุ่มตัวอย่างแบบมีแนวทาง

ORM ที่ได้รับการฝึกฝนสามารถใช้เพื่อเลือกการตอบสนองที่ดีที่สุดได้ นโยบายจะสร้างการตอบสนองหลายรายการ และ ORM จะเลือกรายการที่ดีที่สุด ซึ่งเป็นการนำรูปแบบง่ายๆ ของการปรับขนาดการคำนวณในเวลาทดสอบ ("best-of-N") มาใช้ [ 46 ] [ 53 ]

PRM ที่ได้รับการฝึกฝนสามารถชี้นำการให้เหตุผลโดยการค้นหาต้นไม้ แบบโลภ : นโยบายเสนอขั้นตอนถัดไปหลายขั้นตอน PRM เลือกหนึ่งขั้นตอน และกระบวนการจะทำซ้ำ ซึ่งสะท้อนถึงการใช้ ORM เพื่อเลือกคำตอบทั้งหมด[ 54 ]การค้นหาแบบบีมมีประสิทธิภาพดีกว่าการค้นหาแบบโลภ

การค้นหาแบบมองไปข้างหน้าเป็นวิธีการค้นหาแบบต้นไม้อีกวิธีหนึ่ง นโยบายจะเสนอขั้นตอนถัดไปหลายขั้นตอน จากนั้นจึงทำการดำเนินการสั้นๆ สำหรับแต่ละขั้นตอน หากพบวิธีแก้ปัญหาในระหว่างการดำเนินการ การค้นหาจะหยุดลงก่อนกำหนด มิฉะนั้น PRM จะให้คะแนนการดำเนินการแต่ละครั้ง และจะเลือกขั้นตอนที่มีคะแนนสูงสุด[ 31 ]

ความสอดคล้องในตัวเองสามารถรวมเข้ากับ ORM ได้ โมเดลสร้างคำตอบหลายคำตอบ และคำตอบเหล่านั้นจะถูกจัดกลุ่มเพื่อให้แต่ละกลุ่มมีคำตอบสุดท้ายเหมือนกัน ORM จะให้คะแนนคำตอบแต่ละข้อ คะแนนในแต่ละกลุ่มจะถูกรวมเข้าด้วยกัน และคำตอบจากกลุ่มที่มีคะแนนสูงสุดจะถูกส่งคืน[ 49 ]

เกณฑ์มาตรฐาน

โดยทั่วไปแล้วโมเดลการให้เหตุผลจะได้คะแนนสูงกว่าโมเดลที่ไม่ใช้เหตุผลในการทดสอบหลายๆ ครั้ง โดยเฉพาะในงานที่ต้องใช้การให้เหตุผลหลายขั้นตอน[ 55 ] [ 56 ] [ 57 ] [ 58 ]

ตัวอย่างเช่น ในการสอบคณิตศาสตร์ American Invitational Mathematics Examination (AIME) ซึ่งเป็นการแข่งขันคณิตศาสตร์ที่ท้าทาย โมเดลที่ไม่ใช้เหตุผลมักจะแก้ปัญหาได้น้อยกว่า 30% ในทางตรงกันข้าม โมเดลที่ใช้เหตุผลในยุคแรกๆ หลายโมเดลมีอัตราความสำเร็จระหว่าง 50% ถึง 80% [ 2 ] [ 33 ] [ 35 ] o3-mini-high ซึ่งเปิดตัวในเดือนมกราคม 2025 มีความแม่นยำมากกว่า 80% [ 59 ]

เกณฑ์มาตรฐานบางรายการไม่รวมโมเดลการให้เหตุผลเนื่องจากเวลาตอบสนองที่ยาวนานกว่าและต้นทุนการอนุมานที่สูงกว่า รวมถึงเกณฑ์มาตรฐานสำหรับการตรวจจับเหตุการณ์ที่ซับซ้อนแบบออนไลน์ในระบบไซเบอร์-กายภาพการประเมินการคำนวณเวลาอนุมานทั่วไป งานวิศวกรรม Verilog และการประเมินความปลอดภัยของเครือข่าย[ 60 ] [ 61 ] [ 62 ] [ 63 ]

นางแบบ

บริษัทแบบอย่างวันวางจำหน่าย
OpenAI ( ChatGPT ) จีพีที-5 (o3.1) สิงหาคม 2568
จีพีที-โอเอสสิงหาคม 2568 [ 64 ]
o3 และ o4-miniเมษายน 2568
o3-มินิมกราคม 2568
o1ธันวาคม 2024
o1-พรีวิวกันยายน 2024
กูเกิล เจมินี3 แฟลชธันวาคม 2025
3 โปรพฤศจิกายน 2025
2.5 การใช้งานคอมพิวเตอร์ตุลาคม 2568
2.5 แฟลชเมษายน 2568
2.5 โปรมีนาคม 2568
2.0 การคิดแบบฉับพลันธันวาคม 2024
ดีพซีคV3.2-Exp กันยายน 2568
เวอร์ชัน 3.1 สิงหาคม 2568
อาร์1-0528 พฤษภาคม 2568
วี3-0324 มีนาคม 2568
R1 และ R1-Lite-Preview มกราคม 2568
กลุ่มบริษัทอาลีบาบาคิวดับเบิลยู-32บีมีนาคม 2568
QvQ-72B-พรีวิวธันวาคม 2024
QwQ-32B-พรีวิวพฤศจิกายน 2024
แอนโทรปิกClaude Opus 4.5พฤศจิกายน 2025
คล็อด ไฮกุ 4.5ตุลาคม 2568
บทกวีโซเน็ตของโคลด (ตั้งแต่ 3.7) กุมภาพันธ์ 2568
มิสทรัล AIขนาดกลาง/เล็ก มิถุนายน 2568
xAIกรอค 4กรกฎาคม 2568
กรอค 3กุมภาพันธ์ 2568
ใบหน้ากอดOlympicCoder-7B & 32B กุมภาพันธ์ 2568
ไนอาวุสลามะเนโมตรอนมีนาคม 2568
เทนเซ็นต์ฮุนหยวน T1 มีนาคม 2568
มูนช็อต AIคิมิ เค2 คิดพฤศจิกายน 2025
คิมิ เค2.5มกราคม 2569

ดูเพิ่มเติม

  • Fortes, Armando (2025-01-27). "atfortes/Awesome-LLM-Reasoning" . GitHub . สืบค้นเมื่อ2025-01-27 .
  • Huang, Jie; Chang, Kevin Chen-Chuan (2023-05-26). "สู่การให้เหตุผลในแบบจำลองภาษาขนาดใหญ่: บทสำรวจ". arXiv : 2212.10403 [ cs.CL ].
  • Besta, Maciej; Barth, Julia; Schreiber, Eric; Kubicek, Ales; Catarino, Afonso; Gerstenberger, Robert; Nyczyk, Piotr; Iff, Patrick; Li, Yueling (2025-01-23). ​​"แบบจำลองภาษาการให้เหตุผล: แผนผัง". arXiv : 2501.11223 [ cs.AI ].
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Reasoning_model&oldid=1359939240 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แบบจำลองการให้เหตุผล

แบบ จำลองการให้เหตุผล หรือที่รู้จักกันในชื่อ แบบจำลองภาษาการให้เหตุผล ( RLM ) หรือ แบบจำลองการให้เหตุผลขนาดใหญ่ ( LRM ) เป็น แบบจำลองภาษาขนาดใหญ่ (LLM)...

ภาพรวม

แตกต่างจากโมเดลภาษาแบบดั้งเดิมที่สร้างการตอบสนองทันที โมเดลการให้เหตุผลจะจัดสรรเวลาในการคำนวณหรือคิดเพิ่มเติมก่อนที่จะสร้างคำตอบเพื่อแก้ปัญหาหลายขั้นตอน OpenAI ได้นำคำศัพท์นี้มาใช้ในเดือนกันยายน 2024 เมื่อเปิดตัว ซีรี่ส์ o1...

ประวัติศาสตร์

แนวทางการวิจัยเกี่ยวกับแบบจำลองการให้เหตุผลได้ผสมผสานความก้าวหน้าใน การกำกับดูแล การ กระตุ้น และ การอนุมานแบบค้นหาเข้า ด้วย กัน

ข้อเสีย

แบบจำลองการให้เหตุผลต้องการทรัพยากรการคำนวณมากกว่าแบบจำลองที่ไม่ใช้การให้เหตุผลอย่างมีนัยสำคัญในระหว่างการอนุมาน การวิจัยเกี่ยวกับเกณฑ์มาตรฐานการสอบ คณิตศาสตร์ American Invitational Mathematics Examination (AIME)...