อ่าน 1 นาที
หน้าต่างบริบท
หน้าต่าง บริบท ของ แบบจำลองภาษาขนาดใหญ่ (LLM) คือปริมาณสูงสุดของข้อความหรืออินพุตที่ถูกแยกเป็นโทเค็นอื่นๆ ที่แบบจำลองสามารถเข้าถึงได้ในคราวเดียวเมื่อสร้างเอาต์พุต โดยปกติจะวัดเป็น...
หน้าต่างบริบท
หน้าต่างบริบทของแบบจำลองภาษาขนาดใหญ่ (LLM) คือปริมาณสูงสุดของข้อความหรืออินพุตที่ถูกแยกเป็นโทเค็นอื่นๆ ที่แบบจำลองสามารถเข้าถึงได้ในคราวเดียวเมื่อสร้างเอาต์พุต โดยปกติจะวัดเป็นโทเค็นซึ่งเป็นหน่วยที่สร้างโดยตัวแยกโทเค็นของแบบจำลอง แทนที่จะเป็นคำหรือตัวอักษร ในทางปฏิบัติ หน้าต่างบริบทคือเนื้อหาที่แบบจำลองสามารถ "มองเห็น" ได้ในขณะที่สร้างการตอบสนอง สิ่งใดก็ตามที่อยู่นอกหน้าต่างนั้นจะไม่สามารถใช้งานได้โดยตรง เว้นแต่จะมีการสรุป ดึงข้อมูล หรือให้มาอีกครั้ง หน้าต่างบริบทที่ยาวขึ้นจะช่วยให้แบบจำลองสามารถทำงานกับข้อความแจ้งเตือน บทสนทนา เอกสาร รหัส หรือข้อความที่ดึงมาได้ยาวขึ้นโดยไม่ต้องบีบอัดหรือทิ้งข้อมูลจำนวนมากก่อน[ 1 ]
ขนาดของหน้าต่างบริบทที่ใช้งานได้จริงเพิ่มขึ้นอย่างรวดเร็วเนื่องจากระบบ LLM ได้พัฒนาขึ้น บางโมเดลถูกจำกัดด้วยความยาวของลำดับที่ใช้ระหว่างการฝึกอบรม ในขณะที่รูปแบบความสนใจและวิธีการเข้ารหัสตามตำแหน่งช่วยให้โมเดลสามารถทำงานกับลำดับที่ยาวกว่าที่เห็นระหว่างการฝึกอบรมได้[ 2 ]ในช่วงกลางทศวรรษ 2020 ระบบบริบทแบบยาวได้รายงานหน้าต่างบริบทที่มีตั้งแต่หลายแสนถึงหลายล้านโทเค็น นักวิจัยของ Google รายงานการประเมิน Gemini 1.5 ในงานการดึงข้อมูลที่มากถึง 10 ล้านโทเค็น[ 3 ]
หน้าต่างบริบทที่ใหญ่ขึ้นไม่ได้หมายความว่าโมเดลจะสามารถใช้บริบททั้งหมดได้อย่างเท่าเทียมกันเสมอไป ใน "Lost in the Middle" Liu และคณะพบว่าประสิทธิภาพในงานบริบทยาวมักจะแย่ลงเมื่อข้อมูลที่เกี่ยวข้องปรากฏอยู่ตรงกลางของอินพุตมากกว่าอยู่ใกล้จุดเริ่มต้นหรือจุดสิ้นสุด[ 4 ]เกณฑ์มาตรฐานอื่นๆ ได้ประเมินความสามารถในบริบทยาวโดยใช้ภารกิจที่นอกเหนือไปจากการดึงข้อมูลแบบง่ายๆ รวมถึงการตอบคำถามหลายเอกสาร การทำความเข้าใจบทสนทนายาว การทำความเข้าใจคลังโค้ด และการให้เหตุผลข้อมูลที่มีโครงสร้าง[ 5 ] [ 6 ]
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ หน้าต่างบริบท
หน้าต่าง บริบท ของ แบบจำลองภาษาขนาดใหญ่ (LLM) คือปริมาณสูงสุดของข้อความหรืออินพุตที่ถูกแยกเป็นโทเค็นอื่นๆ ที่แบบจำลองสามารถเข้าถึงได้ในคราวเดียวเมื่อสร้างเอาต์พุต โดยปกติจะวัดเป็น...