เกณฑ์มาตรฐานแบบจำลองภาษา

การ ทดสอบ ประสิทธิภาพแบบจำลองภาษาคือการทดสอบมาตรฐานที่ออกแบบมาเพื่อประเมินประสิทธิภาพของแบบจำลองภาษาใน งาน ประมวลผลภาษาธรรมชาติ หลากหลายประเภท การทดสอบเหล่านี้มีจุดประสงค์เพื่อเปรียบเทียบความสามารถของแบบจำลองต่างๆ ในด้านต่างๆ เช่น การทำความ เข้าใจภาษา การสร้างภาษาและการให้เหตุผล

โดยทั่วไปแล้วเกณฑ์มาตรฐานจะประกอบด้วยชุดข้อมูลและตัวชี้วัดการประเมิน ที่เกี่ยวข้อง ชุดข้อมูลจะให้ตัวอย่างข้อความและคำอธิบายประกอบ ในขณะที่ตัวชี้วัดจะวัดประสิทธิภาพของแบบจำลองในงานต่างๆ เช่น การตอบคำถาม การจำแนกประเภทข้อความ และการแปลด้วยเครื่อง เกณฑ์มาตรฐานเหล่านี้ได้รับการพัฒนาและดูแลรักษาโดยสถาบันการศึกษา องค์กรวิจัย และผู้เล่นในอุตสาหกรรม เพื่อติดตามความคืบหน้าในสาขานี้ นอกเหนือจากความแม่นยำแล้ว ตัวชี้วัดยังสามารถรวมถึงปริมาณงาน ประสิทธิภาพการใช้พลังงาน อคติ ความน่าเชื่อถือ และความยั่งยืน^{[ 1 ]}

ภาพรวม

ประเภท

เกณฑ์มาตรฐานสามารถอธิบายได้ด้วยคำคุณศัพท์ต่อไปนี้ ซึ่งไม่จำเป็นต้องใช้แยกกัน:

แบบดั้งเดิม : งานเหล่านี้ได้รับการศึกษาในด้านการประมวลผลภาษาธรรมชาติ แม้กระทั่งก่อนการเกิดขึ้นของเทคโนโลยีการเรียนรู้เชิงลึก ตัวอย่างเช่นPenn Treebankสำหรับทดสอบการวิเคราะห์ไวยากรณ์และความหมาย รวมถึงการแปลสองภาษาที่วัดผลด้วยคะแนนBLEU
การตอบคำถาม : งานเหล่านี้มีคำถามที่เป็นข้อความและคำตอบที่เป็นข้อความ ซึ่งมักจะเป็นแบบเลือกตอบหลายตัวเลือก อาจเป็นแบบเปิดหนังสือหรือปิดหนังสือการตอบคำถามแบบเปิดหนังสือจะคล้ายกับ คำถาม การอ่านเพื่อความเข้าใจโดยมีข้อความที่เกี่ยวข้องรวมอยู่เป็นคำอธิบายประกอบในคำถาม ซึ่งคำตอบจะปรากฏอยู่ การตอบคำถามแบบปิดหนังสือจะไม่มีข้อความที่เกี่ยวข้อง การตอบคำถามแบบปิดหนังสือเรียกอีกอย่างว่าการตอบคำถามแบบเปิดโดเมน^{[ 2 ]}^{[ 3 ]}ก่อนยุคของแบบจำลองภาษาขนาดใหญ่ การตอบคำถามแบบเปิดหนังสือเป็นเรื่องปกติมากกว่า และเข้าใจกันว่าเป็นการทดสอบ วิธี การดึงข้อมูล การตอบคำถามแบบปิดหนังสือกลายเป็นเรื่องปกติมากขึ้นตั้งแต่ GPT-2 ในฐานะวิธีการวัดความรู้ที่จัดเก็บไว้ภายในพารามิเตอร์ของแบบจำลอง^{[ 4 ]}
Omnibus : เกณฑ์มาตรฐานแบบ Omnibus คือการรวมเกณฑ์มาตรฐานหลายๆ อย่างเข้าด้วยกัน ซึ่งมักจะเป็นเกณฑ์มาตรฐานที่เผยแพร่ไปแล้วก่อนหน้านี้ โดยมีจุดประสงค์เพื่อเป็นโซลูชันการวัดประสิทธิภาพแบบครบวงจร
เหตุผล : งานเหล่านี้มักอยู่ในรูปแบบคำถามและคำตอบ แต่มีจุดประสงค์เพื่อให้ยากกว่าการตอบคำถามทั่วไป
มัลติโมดอล : งานเหล่านี้ไม่เพียงแต่ต้องประมวลผลข้อความเท่านั้น แต่ยังต้องประมวลผลข้อมูลในรูปแบบอื่น เช่น รูปภาพและเสียง ตัวอย่างเช่น การรู้จำอักขระด้วย แสง (OCR)และการถอดเสียง
หน่วยงาน : งานเหล่านี้เป็นงานสำหรับ ซอฟต์แวร์ตัวแทน ที่ ใช้แบบจำลองภาษาซึ่งทำหน้าที่ควบคุมคอมพิวเตอร์ให้กับผู้ใช้ เช่น การแก้ไขรูปภาพ การท่องเว็บ เป็นต้น
การทดสอบ แบบ Adversarial : การทดสอบแบบ Benchmark จะเรียกว่า "Adversarial" หากรายการในการทดสอบถูกเลือกมาโดยเฉพาะเพื่อให้โมเดลบางตัวทำงานได้ไม่ดี การทดสอบแบบ Adversarial มักถูกสร้างขึ้นหลังจากที่ โมเดล ที่ทันสมัยที่สุด (SOTA) ทำได้ดีที่สุด (มีประสิทธิภาพ 100%) ในการทดสอบนั้นแล้ว เพื่อเป็นการปรับปรุงการทดสอบให้ทันสมัยอยู่เสมอ การทดสอบจะ "เป็นแบบ Adversarial" เฉพาะในช่วงเวลาหนึ่งเท่านั้น เนื่องจากสิ่งที่เคยเป็นแบบ Adversarial อาจหยุดเป็นแบบ Adversarial เมื่อมีโมเดล SOTA รุ่นใหม่ปรากฏขึ้น
สาธารณะ/ส่วนตัว : เกณฑ์มาตรฐานอาจเป็นส่วนตัวบางส่วนหรือทั้งหมด ซึ่งหมายความว่าคำถามบางส่วนหรือทั้งหมดไม่ได้เปิดเผยต่อสาธารณะ แนวคิดก็คือ หากคำถามเปิดเผยต่อสาธารณะ อาจถูกนำไปใช้ในการฝึกฝน ซึ่งจะเป็น "การฝึกฝนบนชุดทดสอบ" และทำให้ผลลัพธ์ของเกณฑ์มาตรฐานนั้นไม่ถูกต้อง โดยปกติแล้ว เฉพาะผู้ดูแลเกณฑ์มาตรฐานเท่านั้นที่จะเข้าถึงชุดข้อมูลย่อยที่เป็นส่วนตัวได้ และในการให้คะแนนโมเดลในเกณฑ์มาตรฐานดังกล่าว จำเป็นต้องส่งน้ำหนักของโมเดล หรือให้สิทธิ์การเข้าถึง API แก่ผู้ดูแล

เส้นแบ่งระหว่างเกณฑ์มาตรฐานและชุดข้อมูลนั้นไม่ชัดเจนนัก โดยทั่วไปแล้ว ชุดข้อมูลจะประกอบด้วย "ส่วนย่อย" สามส่วน ได้แก่ชุดฝึกฝน ชุดทดสอบ และชุดตรวจสอบความถูกต้องทั้งส่วนทดสอบและส่วนตรวจสอบความถูกต้องนั้นถือเป็นเกณฑ์มาตรฐานเช่นกัน โดยทั่วไปแล้ว เกณฑ์มาตรฐานจะแตกต่างจากชุดข้อมูลทดสอบ/ตรวจสอบความถูกต้องตรงที่ เกณฑ์มาตรฐานมักมีจุดประสงค์เพื่อใช้วัดประสิทธิภาพของโมเดลต่างๆ มากมายที่ไม่ได้รับการฝึกฝนมาโดยเฉพาะเพื่อให้ได้ผลลัพธ์ที่ดีบนเกณฑ์มาตรฐาน ในขณะที่ชุดทดสอบ/ตรวจสอบความถูกต้องมีจุดประสงค์เพื่อใช้วัดประสิทธิภาพของโมเดลที่ได้รับการฝึกฝนมาโดยเฉพาะบนชุดฝึกฝนที่เกี่ยวข้อง กล่าวอีกนัยหนึ่ง เกณฑ์มาตรฐานอาจถูกมองว่าเป็นชุดทดสอบ/ตรวจสอบความถูกต้องที่ไม่มีชุดฝึกฝนที่สอดคล้องกัน

ในทางกลับกัน เกณฑ์มาตรฐานบางอย่างอาจถูกใช้เป็นชุดฝึกอบรม เช่น Gigaword ภาษาอังกฤษ^{[ 5 ]}หรือเกณฑ์มาตรฐาน One Billion Word ซึ่งในภาษาสมัยใหม่ก็คือการ สูญเสีย log-likelihood เชิงลบ ในชุดฝึกอบรมล่วงหน้าที่มีคำศัพท์ 1 พันล้านคำ^{[ 6 ]}อันที่จริง ความแตกต่างระหว่างเกณฑ์มาตรฐานและชุดข้อมูลในแบบจำลองภาษาชัดเจนขึ้นหลังจากเกิดกระบวน ทัศน์ การฝึกอบรมล่วงหน้า ซึ่งแบบจำลองจะถูกฝึกฝนก่อนบนชุดข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับเพื่อเรียนรู้รูปแบบภาษาทั่วไป ไวยากรณ์ และความรู้ (การฝึกอบรมล่วงหน้า) จากนั้นแบบจำลองพื้นฐานจะถูกปรับให้เข้ากับงานเฉพาะปลายทางโดยใช้ชุดข้อมูลขนาดเล็กที่มีป้ายกำกับ (การปรับแต่ง)

วงจรชีวิต

โดยทั่วไป วงจรชีวิตของเกณฑ์มาตรฐานประกอบด้วยขั้นตอนต่อไปนี้: ^{[ 7 ]}

จุดเริ่มต้น: มีการเผยแพร่เกณฑ์มาตรฐาน อาจเป็นการแสดงให้เห็นถึงประสิทธิภาพของโมเดลใหม่ (โดยนัย) ซึ่งผู้อื่นนำไปใช้เป็นเกณฑ์มาตรฐานในภายหลัง หรืออาจเป็นเกณฑ์มาตรฐานที่ส่งเสริมให้ผู้อื่นนำไปใช้ (อย่างชัดเจน)
การเติบโต: มีบทความวิจัยและแบบจำลองจำนวนมากขึ้นที่ใช้เกณฑ์มาตรฐานนี้ และประสิทธิภาพบนเกณฑ์มาตรฐานก็ดีขึ้นเรื่อยๆ
ความอิ่มตัว การเสื่อมถอย หรือการหมดคุณค่า: เกณฑ์มาตรฐานอาจถึงจุดอิ่มตัวแล้ว นักวิจัยจึงหันไปใช้เกณฑ์มาตรฐานอื่นแทน ความคืบหน้าในเกณฑ์มาตรฐานนั้นอาจถูกละเลยไปเช่นกัน เนื่องจากวงการวิจัยหันไปให้ความสนใจกับเกณฑ์มาตรฐานอื่น ๆ แทน
การต่ออายุ: เกณฑ์มาตรฐานที่อิ่มตัวแล้วสามารถอัปเกรดให้ไม่ถึงจุดอิ่มตัวได้ ซึ่งจะช่วยให้เกิดความก้าวหน้าต่อไปได้

การก่อสร้าง

เช่นเดียวกับชุดข้อมูล เกณฑ์มาตรฐานมักถูกสร้างขึ้นโดยใช้วิธีการหลายวิธี ทั้งแบบแยกกันหรือแบบผสมผสาน:

การดึงข้อมูลจากเว็บไซต์: สามารถดึงข้อมูลคู่คำถาม-คำตอบสำเร็จรูปได้จากเว็บไซต์ต่างๆ เช่น เว็บไซต์ที่สอนคณิตศาสตร์และการเขียนโปรแกรม
การแปลง: สามารถสร้างรายการต่างๆ ได้โดยใช้โปรแกรมจากเนื้อหาเว็บที่ดึงมา เช่น โดยการลบชื่อเฉพาะออกจากประโยค และขอให้โมเดลเติมคำลงในช่องว่าง วิธีนี้ถูกนำมาใช้ในการสร้างแบบทดสอบความเข้าใจในการอ่านจาก CNN/Daily Mail
การระดมความคิดจากกลุ่มคน: อาจมีการสร้างรายการต่างๆ โดยการว่าจ้างให้ผู้คนเขียนโค้ด เช่น บนแพลตฟอร์มAmazon Mechanical Turkซึ่งเป็นวิธีการที่ใช้ในการสร้าง MCTest

การประเมิน

โดยทั่วไป การทดสอบประสิทธิภาพจะทำงานโดยอัตโนมัติอย่างสมบูรณ์ ซึ่งจำกัดคำถามที่สามารถถามได้ ตัวอย่างเช่น สำหรับคำถามทางคณิตศาสตร์ การ "พิสูจน์ข้ออ้าง" จะตรวจสอบได้ยากโดยอัตโนมัติ ในขณะที่การ "คำนวณคำตอบที่มีคำตอบเป็นจำนวนเต็มที่ไม่ซ้ำกัน" สามารถตรวจสอบได้โดยอัตโนมัติ สำหรับงานด้านการเขียนโปรแกรม คำตอบโดยทั่วไปสามารถตรวจสอบได้โดยการรันการทดสอบหน่วย โดยมีขีดจำกัดสูงสุดของเวลาในการทำงาน

คะแนนมาตรฐานมีดังต่อไปนี้:

สำหรับคำถามแบบเลือกตอบหรือแบบเติมคำในช่องว่างคะแนนที่ใช้กันทั่วไป ได้แก่ ความถูกต้อง (ความถี่ของคำตอบที่ถูกต้อง) ความเที่ยงตรง การเรียกคืนข้อมูลคะแนนF1เป็นต้น
pass@n: The model is given $n$ attempts to solve each problem. If any attempt is correct, the model earns a point. The pass@n score is the model's average score over all problems.
k@n: The model makes $n$ attempts to solve each problem, but only $k$ attempts out of them are selected for submission. If any submission is correct, the model earns a point. The k@n score is the model's average score over all problems.
cons@n: The model is given $n$ attempts to solve each problem. If the most common answer is correct, the model earns a point. The cons@n score is the model's average score over all problems. Here "cons" stands for "consensus" or "majority voting".^[8]

The pass@n score can be estimated more accurately by making $N>n$ attempts, and use the unbiased estimator $1-{\frac {\binom {Nc}{n}}{\binom {N}{n}}}$ , where $c$ is the number of correct attempts.^[9]

For less well-formed tasks, where the output can be any sentence, there are the following commonly used scores including BLEU ROUGE, METEOR, NIST, word error rate, LEPOR, CIDEr,^[10] and SPICE.^[11]

Issues

error: Some benchmark answers may be wrong.^[12]
ambiguity: Some benchmark questions may be ambiguously worded.
subjective: Some benchmark questions may not have an objective answer at all. This problem generally prevents creative writing benchmarks. Similarly, this prevents benchmarking writing proofs in natural language, though benchmarking proofs in a formal language is possible.
open-ended: Some benchmark questions may not have a single answer of a fixed size. This problem generally prevents programming benchmarks from using more natural tasks such as "write a program for X", and instead uses tasks such as "write a function that implements specification X".
inter-annotator agreement: Some benchmark questions may be not fully objective, such that even people would not agree with 100% on what the answer should be. This is common in natural language processing tasks, such as syntactic annotation.^[13]^[14]^[15]^[16]
shortcut: Some benchmark questions may be easily solved by an "unintended" shortcut. For example, in the SNLI benchmark, having a negative word like "not" in the second sentence is a strong signal for the "Contradiction" category, regardless of what the sentences actually say.^[17]
การปนเปื้อน/การรั่วไหล : คำถามมาตรฐานบางข้ออาจมีคำตอบอยู่ในชุดฝึกอบรมอยู่แล้ว เรียกอีกอย่างว่า "การฝึกอบรมบนชุดทดสอบ" ^{[ 18 ]}^{[ 19 ]}มาตรฐานบางอย่าง (เช่น Big-Bench) อาจใช้ "สตริง canary" เพื่อให้สามารถลบเอกสารที่มีสตริง canary ออกจากชุดฝึกอบรมได้โดยสมัครใจ
ความอิ่มตัว: เมื่อเวลาผ่านไป โมเดลหลายๆ รุ่นจะถึงระดับประสิทธิภาพสูงสุดที่เป็นไปได้ในทางปฏิบัติ ดังนั้นเกณฑ์มาตรฐานจึงไม่สามารถแยกแยะความแตกต่างของโมเดลเหล่านี้ได้อีกต่อไป ตัวอย่างเช่น GLUE ถึงจุดอิ่มตัวแล้ว จึงจำเป็นต้องใช้ SuperGLUE แทน
กฎของ Goodhart : หากมีการออกแบบหรือคัดเลือกโมเดลใหม่เพื่อให้ได้คะแนนสูงในเกณฑ์มาตรฐาน เกณฑ์มาตรฐานนั้นอาจไม่ใช่ตัวบ่งชี้ที่ดีสำหรับคุณภาพของโมเดลอีกต่อไป^{[ 7 ]}
การเลือกเฉพาะส่วนที่ดี : การเผยแพร่ข้อมูลโมเดลใหม่มักจะระบุเฉพาะคะแนนมาตรฐานที่โมเดลใหม่ทำได้ดี โดยหลีกเลี่ยงคะแนนมาตรฐานที่โมเดลใหม่ทำได้ไม่ดี

รายการเกณฑ์มาตรฐาน

การสร้างแบบจำลองภาษาทั่วไป

โดยพื้นฐานแล้วชุดข้อมูลใดๆ ก็สามารถใช้เป็นเกณฑ์มาตรฐานสำหรับการสร้างแบบจำลองภาษาเชิงสถิติได้โดยใช้ค่าความคลาดเคลื่อน (หรือค่าที่ใกล้เคียงกันคือค่าลบของลอการิทึม ความน่าจะเป็น และบิตต่ออักขระ เช่นเดียวกับการทดสอบเอนโทรปีของภาษาอังกฤษของแชนนอน ดั้งเดิม) ^{[ 20 ]}เป็นคะแนนเกณฑ์มาตรฐาน ตัวอย่างเช่น การประกาศ GPT-2 ดั้งเดิม ได้รวมข้อมูลของแบบจำลองบน WikiText-2, enwik8, text8 และ WikiText-103 (ทั้งหมดเป็นชุดข้อมูลภาษามาตรฐานที่สร้างจากวิกิพีเดียภาษาอังกฤษ ) ^{[ 4 ]}^{[ 21 ]}

อย่างไรก็ตาม มีชุดข้อมูลที่ใช้กันทั่วไปมากกว่า หรือได้รับการออกแบบมาโดยเฉพาะเพื่อใช้เป็นเกณฑ์มาตรฐาน

เกณฑ์มาตรฐานหนึ่งพันล้านคำ: การสูญเสียลอการิทึมเชิงลบของความน่าจะเป็นบนชุดข้อมูล 1 พันล้านคำ^{[ 6 ]}
Paloma (การวิเคราะห์ความซับซ้อนสำหรับการประเมินแบบจำลองภาษา): ชุดข้อความภาษาอังกฤษและรหัส แบ่งออกเป็น 546 โดเมน ใช้ในการวัดความซับซ้อนของแบบจำลองในโดเมนเฉพาะ^{[ 22 ]}
Penn Treebank : ค่าความคลาดเคลื่อนหรือค่าความน่าจะเป็นลบ (log likelihood loss) สำหรับการระบุชนิดของคำ (part-of-speech tags)ในชุดข้อมูลข้อความ

ความเข้าใจภาษาทั่วไป

ดู^{[ 23 ]}สำหรับการตรวจสอบเกณฑ์มาตรฐานดังกล่าวมากกว่า 100 รายการ

งานทดสอบความเข้าใจในการอ่าน CNN/Daily Mail: บทความจากCNN (380,000 ชุดฝึกอบรม, 3,900 ชุดพัฒนา, 3,200 ชุดทดสอบ) และDaily Mail (879,000 ชุดฝึกอบรม, 64,800 ชุดพัฒนา, 53,200 ชุดทดสอบ) ถูกดึงข้อมูลมา สรุปย่อแบบจุดไข่ปลาที่มาพร้อมกับบทความข่าวถูกนำมาใช้ ส่วนหนึ่งของจุดไข่ปลาถูกแทนที่ด้วยตัวยึดตำแหน่ง ทำให้เกิดคำถามแบบเติมคำในช่องว่าง เป้าหมายคือการระบุส่วนที่ถูกปิดบังจากบทความ^{[ 24 ]}
CoLA (Corpus of Linguistic Acceptability) : ประโยคภาษาอังกฤษ 10,657 ประโยคจากวรรณกรรมภาษาศาสตร์ที่ตีพิมพ์ซึ่งได้รับการติดป้ายกำกับด้วยตนเองว่าเป็นประโยคที่ถูกต้องตามหลักไวยากรณ์หรือไม่ถูกต้องตามหลักไวยากรณ์^{[ 25 ]}^{[ 26 ]}
HellaSwag (ตอนจบที่ยากขึ้น บริบทที่ยาวขึ้น และกิจกรรมที่มีโอกาสน้อยสำหรับ SWAG): เวอร์ชันที่ยากขึ้นของ SWAG ประกอบด้วยรายการ 10,000 รายการ^{[ 27 ]}^{[ 28 ]}
LAMBADA: ข้อความบรรยาย 10,000 ข้อความจากหนังสือ แต่ละข้อความมีคำสุดท้ายที่หายไป ซึ่งมนุษย์สามารถเดาได้หากได้รับข้อความทั้งหมด แต่ไม่สามารถเดาได้จากประโยคสุดท้ายเพียงอย่างเดียว^{[ 29 ]}
MultiNLI (การอนุมานภาษาธรรมชาติหลายรูปแบบ): คล้ายกับ SNLI โดยมีคู่ประโยคภาษาอังกฤษ 433,000 คู่จากสิบประเภทที่แตกต่างกันของภาษาอังกฤษที่เขียนและพูด^{[ 30 ]}
RACE (การสอบความเข้าใจในการอ่าน): โจทย์ความเข้าใจในการอ่าน 100,000 ข้อ ในบทความ 28,000 บทความ ซึ่งรวบรวมจากข้อสอบภาษาอังกฤษสำหรับนักเรียนชาวจีนระดับมัธยมต้นและมัธยมปลายที่มีอายุระหว่าง 12 ถึง 18 ปี^{[ 31 ]}
SNLI (Stanford Natural Language Inference ): คู่ประโยคภาษาอังกฤษที่เขียนโดยมนุษย์จำนวน 570,000 คู่ ได้รับการติดป้ายกำกับด้วยตนเองสำหรับการจำแนกประเภทที่สมดุลด้วยป้ายกำกับ 3 แบบ ได้แก่ " การอนุมาน " "ความขัดแย้ง" และ "เป็นกลาง" ^{[ 32 ]}^{[ 33 ]}
SWAG (สถานการณ์ที่มีการสร้างแบบต่อต้าน): คำอธิบายกิจกรรมหรือเหตุการณ์ 113,000 รายการ โดยแต่ละรายการมีตอนจบที่เป็นไปได้ 4 แบบ โมเดลต้องเลือกตอนจบที่น่าจะเป็นไปได้มากที่สุด เป็นการต่อต้านโมเดลภาษาตื้นๆ บางโมเดล ( MLP , bag of words , CNNชั้นเดียวฯลฯ) ^{[ 34 ]}
WSC ( ความท้าทายของแผนผัง Winograd ): ประโยค 273 ประโยคที่มีสรรพนามกำกวม งานคือการพิจารณาว่าสรรพนามนั้นหมายถึงอะไร^{[ 35 ]}
WinoGrande: WSC เวอร์ชันที่ใหญ่กว่า มีรายการทั้งหมด 44,000 รายการ ออกแบบมาเพื่อต่อต้าน SOTA ปี 2019 เนื่องจากเวอร์ชันดั้งเดิมอิ่มตัวแล้ว ชุดข้อมูลนี้ประกอบด้วยประโยคแบบเติมคำในช่องว่าง ซึ่งแตกต่างจากรูปแบบคำสรรพนามของชุดข้อมูลก่อนหน้านี้^{[ 36 ]}^{[ 37 ]}
WMT 2014 (Workshop on Statistical Machine Translation): ชุด เกณฑ์มาตรฐาน การแปลด้วยเครื่องจักร 4 รายการ ในการประชุมเชิงปฏิบัติการครั้งที่เก้าเกี่ยวกับการแปลด้วยเครื่องจักรเชิงสถิติ บทความAttention Is All You Needใช้เป็นเกณฑ์มาตรฐาน^{[ 38 ]}

การสร้างภาษาทั่วไป

CharXiv: คำถามเชิงพรรณนา 9292 ข้อ (ตรวจสอบองค์ประกอบแผนภูมิพื้นฐาน) และคำถามเชิงเหตุผล 2323 ข้อ (สังเคราะห์ข้อมูลจากองค์ประกอบภาพที่ซับซ้อน) เกี่ยวกับแผนภูมิ 2323 แผนภูมิจากเอกสารทางวิทยาศาสตร์^{[ 39 ]}
IFEval (Instruction-Following Eval): คำสั่ง 541 คำสั่งที่ต้องปฏิบัติตาม โดยแต่ละคำสั่งมีข้อจำกัดที่ตรวจสอบได้อย่างน้อยหนึ่งข้อ เช่น "กล่าวถึงคำหลักของ AI อย่างน้อย 3 ครั้ง" ^{[ 40 ]}
LMArena (เดิมชื่อ Chatbot Arena): ผู้ใช้ที่เป็นมนุษย์ลงคะแนนเลือกระหว่างผลลัพธ์สองรายการจากโมเดลภาษาสองแบบคะแนน Eloสำหรับแต่ละโมเดลภาษาจะถูกคำนวณตามคะแนนโหวตของมนุษย์เหล่านี้^{[ 41 ]}
MT-Bench (เกณฑ์มาตรฐานแบบหลายรอบ): เวอร์ชันอัตโนมัติของ Chatbot Arena ที่ LLM เข้ามาแทนที่มนุษย์ในการสร้างคะแนนโหวต^{[ 41 ]}
MultiChallenge: 273 ตัวอย่าง แต่ละตัวอย่างเป็นประวัติการสนทนาแบบหลายรอบ (สูงสุด 10 รอบ) ระหว่างสองฝ่าย โดยจบลงด้วยรอบสุดท้ายของผู้ใช้ที่มีข้อกำหนด/คำถาม ออกแบบมาเพื่อทดสอบการปฏิบัติตามคำแนะนำ การจัดสรรบริบท และการให้เหตุผลในบริบทไปพร้อมกัน ให้คะแนนโดย LLM ในฐานะกรรมการตัดสินโดยใช้เกณฑ์การให้คะแนนระดับตัวอย่าง^{[ 42 ]}
NaturalInstructions: งานที่แตกต่างกัน 61 งานพร้อมคำแนะนำที่เขียนโดยมนุษย์ และอินสแตนซ์งาน 193,000 รายการ (คู่ข้อมูลเข้า-ข้อมูลออก) คำแนะนำเหล่านี้ได้มาจากคำแนะนำแบบ crowdsourcing ที่ใช้ในการสร้างชุดข้อมูล NLP ที่มีอยู่ และแมปกับสคีมาที่เป็นหนึ่งเดียว^{[ 43 ]}
คำแนะนำเหนือธรรมชาติ: งาน NLP ที่หลากหลาย 1,616 งานและคำแนะนำที่เขียนโดยผู้เชี่ยวชาญ และอินสแตนซ์งาน 5 ล้านรายการ^{[ 44 ]}

การตอบคำถามแบบเปิดหนังสือ

ARC (AI2 Reasoning Challenge): คำถามแบบเลือกตอบหลายตัวเลือก โดยมีชุดคำถามท้าทาย (2590 ข้อ) และชุดคำถามง่าย (5197 ข้อ) ออกแบบมาโดยเฉพาะเพื่อต่อต้านโมเดลที่อิ่มตัวด้วย SNLI และ SQuAD ^{[ 45 ]}
ChartQA: คำถาม 32,719 ข้อเกี่ยวกับแผนภูมิ 20,882 แผนภูมิที่รวบรวมจากแหล่งข้อมูลออนไลน์ที่หลากหลาย 4 แหล่ง ( Statista , Pew Research Center , Our World In Data , OECD ) ในจำนวนนี้ 9,608 ข้อเขียนโดยมนุษย์ (ใน ChartQA-H) และ 23,111 ข้อสร้างโดยเครื่องจักร (ใน ChartQA-M) คำตอบเป็นข้อความที่คัดลอกมาจากแผนภูมิหรือเป็นจำนวนเต็มที่คำนวณจากข้อมูลในแผนภูมิ^{[ 46 ]}
CoQA (Conversational QA): คำถาม 127,000 ข้อพร้อมคำตอบ ซึ่งได้มาจากการสนทนา 8,000 ครั้งเกี่ยวกับข้อความจาก 7 โดเมนที่หลากหลาย^{[ 47 ]}
DocVQA: แบบมัลติโมดอล คำถาม 50,000 ข้อ เกี่ยวกับภาพเอกสาร 12,767 ภาพ ซึ่งแบ่งส่วนจากเอกสารที่แตกต่างกัน 6,071 ฉบับ เอกสารเหล่านี้มาจาก 5 อุตสาหกรรม (ยาสูบ อาหาร ยา เชื้อเพลิงฟอสซิล และเคมี) ของ ห้องสมุดเอกสารอุตสาหกรรม UCSFโดยส่วนใหญ่มาจากช่วงปี 1940-2010 เอกสารที่มีองค์ประกอบที่มีโครงสร้าง เช่น ตาราง แบบฟอร์ม รายการ และรูปภาพ จะได้รับความสำคัญเป็นอันดับแรก คำตอบเป็นการคัดลอกข้อความจากเอกสารโดยตรง^{[ 48 ]}^{[ 49 ]}^{[ 50 ]}
DROP (Discrete Reasoning Over the content of Paragraphs): คำถาม 96,567 ข้อพร้อมกับข้อความในวิกิพีเดีย โดยเฉพาะจากเรื่องเล่าที่มีข้อมูลเชิงตัวเลขจำนวนมาก (เช่น สรุปกีฬาและประวัติศาสตร์) ซึ่งมักเกี่ยวข้องกับการใช้เหตุผลเชิงตัวเลขหลายขั้นตอนในช่วงข้อความหลายช่วง เป็นการท้าทาย SOTA ปี 2019 ^{[ 51 ]}
GRS-QA: ชุดข้อมูลการตอบคำถามเชิงโครงสร้างโดยใช้เหตุผลแบบกราฟ ชุดข้อมูลที่ออกแบบมาเพื่อประเมินแบบจำลองการตอบคำถามในงานการให้เหตุผลแบบกราฟ^{[ 52 ]}
HotpotQA: คำถามแบบหลายขั้นตอนจำนวน 113,000 ข้อที่ต้องอ่านข้อความจาก Wikipedia หลายข้อความเพื่อตอบ โดยคำถามเหล่านี้สร้างขึ้นจากการแสดงเอกสารบริบทสนับสนุนหลายฉบับแก่ผู้ทำงานแบบกลุ่ม และขอให้พวกเขาสร้างคำถามที่ต้องใช้เหตุผลเกี่ยวกับเอกสารทั้งหมด^{[ 53 ]}
MCTest (Machine Comprehension Test): เรื่องสั้นสมมติ 500 เรื่อง แต่ละเรื่องมีคำถามแบบเลือกตอบ 4 ข้อ (อย่างน้อย 2 ข้อต้องอาศัยความเข้าใจหลายประโยค) ออกแบบมาให้เด็กอายุ 7 ขวบเข้าใจได้ คำศัพท์จำกัดอยู่ที่ประมาณ 8,000 คำ ซึ่งเด็กอายุ 7 ขวบน่าจะรู้จัก เรื่องสั้นเหล่านี้เขียนโดยคนงานในAmazon Mechanical Turk ^{[ 54 ]}
คำถามธรรมชาติ: 323045 รายการ แต่ละรายการประกอบด้วยคำถามที่ค้นหาใน Google หน้า Wikipedia ที่เกี่ยวข้องกับการตอบคำถาม คำตอบแบบยาว (โดยทั่วไปคือย่อหน้า) และคำตอบแบบสั้น (หนึ่งรายการขึ้นไป) หากมีอยู่ในหน้านั้น หรือ "null" หากไม่มีคำตอบแบบยาว/สั้น^{[ 55 ]}
OpenBookQA: คำถามแบบเลือกตอบ 5960 ข้อ แต่ละข้อมีข้อเท็จจริงทางวิทยาศาสตร์ระดับพื้นฐาน ("หนังสือเปิด") รวมทั้งหมด 1329 ข้อเท็จจริง^{[ 56 ]}
SearchQA: คำถาม-คำตอบ 140,461 คู่จากคลังข้อมูลJ!โดยแต่ละคู่ได้รับการเสริมด้วยข้อความย่อและ URL (โดยเฉลี่ย 50 รายการ) ที่ได้จากการค้นหาคำถามบน Google ^{[ 57 ]}
SQuAD (Stanford Question Answering Dataset): 100,000+ questions posed by crowd workers on 500+ Wikipedia articles. The task is, given a passage from Wikipedia and a question, find a span of text in the text that answers the question.^[58]

SQuAD 2.0: 50,000 unanswerable questions that look similar to SQuAD questions. Every such unanswerable question must be answered with an empty string. Written by crowd workers.^[59]

StrategyQA: 2,780 questions annotated with relevant passages from Wikipedia, such that the question require multi-hop reasoning over the passages to answer. For example, "Did Aristotle use a laptop?" is annotated with passages from the Wikipedia pages for "laptop" and "Aristotle".^[60]
WebQuestions: 6,642 question-answer pairs designed to be answerable with knowledge present in the 2013 version of Freebase.^[61]

Closed-book question-answering

C-Eval (Chinese Eval): 13948 multiple choice questions about in 52 subjects at 4 levels of difficulty. In Chinese.^[62]
MedQA: 61097 questions from professional medical board exams, in English, Simplified Chinese, Traditional Chinese.^[63]
OpenEQA (Open Embodied QA): over 1600 questions accompanying about videos, scans of real-world environments, and simulations.^[64]
PIQA (Physical Interaction QA): 17951 two-choice questions. Each question gives a goal (like separating egg yolk from egg white with a water bottle), and 2 choices for accomplishing it.^[65]
RealWorldQA: 765 multimodal multiple-choice questions. Each containing an image and a question. Designed to test spatial understanding. Images are drawn from various real-world scenarios, including those captured from vehicles.^[66]
ScienceQA: 21208 multiple choice questions in natural science, social science, and linguistics, with difficulty level from grade 1 to grade 12, sourced from elementary and high school science curricula. Some questions require reading a diagram. Most questions are annotated with lecture textual lectures and explanations.^[67]
SimpleQA: 4,326 short questions that are answerable with knowledge as of 2023. Each answer is graded as either "correct", "incorrect", or "not attempted". Adversarial against GPT-4 specifically.^[68]^[69]
TruthfulQA: 817 questions in health, law, finance and politics with common misconceptions. Adversarial against GPT-3 and T5.^[70]

Omnibus

เกณฑ์มาตรฐานบางอย่างเป็นแบบ "รวม" ซึ่งหมายความว่าสร้างขึ้นโดยการนำเกณฑ์มาตรฐานก่อนหน้านี้หลายๆ เกณฑ์มารวมกัน

Big-Bench (Beyond the Imitation Game): ชุดงานมาตรฐานจำนวน 204 งาน^{[ 71 ]}ชุดย่อยเฉพาะจำนวน 23 งานเรียกว่า BBH (Big-Bench Hard) ^{[ 72 ]}รูปแบบที่ท้าทายของ BBH เรียกว่า BBEH (Big-Bench Extra Hard) ซึ่งสร้างขึ้นโดยการแทนที่งานทั้ง 23 งานจาก BBH ด้วยรูปแบบที่คล้ายกันแต่ท้าทาย^{[ 73 ]}
GLUE (General Language Understanding Evaluation): ชุดเกณฑ์มาตรฐาน 9 ชุดที่ออกแบบมาเพื่อทดสอบความเข้าใจภาษาทั่วไป งานต่างๆ อยู่ในรูปแบบของประโยคหรือคู่ประโยค มีรายการมากกว่า 1 ล้านรายการ^{[ 74 ]}^{[ 75 ]}

SuperGLUE: การอัปเดต GLUE ออกแบบมาให้ยังคงท้าทายโมเดล SOTA ในขณะนั้น (2019) เนื่องจากรุ่นดั้งเดิมอิ่มตัวแล้ว ประกอบด้วยงานเพิ่มเติมอีก 8 งาน (เช่น การให้เหตุผลเชิงตรรกะ การอนุมานสามัญสำนึก การแก้ปัญหาการอ้างอิงร่วม) ^{[ 76 ]}

HELM (Holistic Evaluation of Language Models): กรอบมาตรฐานที่ได้รับการปรับปรุงอย่างต่อเนื่องของมาตรฐานหลายรายการ ซึ่งดูแลโดย Stanford Center for Research on Foundation Models ^{[ 77 ]}
MMLU (Measuring Massive Multitask Language Understanding): คำถามแบบเลือกตอบ 16,000 ข้อ ครอบคลุม 57 วิชาการ รวมถึงคณิตศาสตร์ ปรัชญา กฎหมาย และการแพทย์^{[ 78 ]}อัปเกรดเป็น MMLU-Pro ซึ่งเพิ่มจำนวนตัวเลือกจาก 4 เป็น 10 กำจัดคำถามที่ไม่สำคัญและคำถามที่มีเสียงรบกวนออกจาก MMLU และเพิ่มปัญหาที่ยากขึ้น^{[ 79 ]}

CMMLU (MMLU ภาษาจีน): คำถามแบบเลือกตอบ 1,528 ข้อ ครอบคลุม 67 วิชา โดย 16 วิชาเป็น "วิชาเฉพาะของจีน" เช่นภาษาจีนคลาสสิกข้อมูลบางส่วนรวบรวมจากเอกสารที่ไม่เปิดเผยต่อสาธารณะ คำถามสอบจำลอง และคำถามจากรายการตอบคำถาม เพื่อหลีกเลี่ยงการปนเปื้อน ข้อมูลมากกว่า 80% ถูกดึงมาจากไฟล์ PDF หลังจาก OCR ^{[ 80 ]}
MMMLU (MMLU หลายภาษา): ชุดทดสอบของ MMLU ซึ่งแปลเป็น 14 ภาษาโดยนักแปลมืออาชีพ^{[ 81 ]}

มัลติโมดอล

เกณฑ์มาตรฐานบางอย่างจะทดสอบความสามารถในการประมวลผลหลายรูปแบบ โดยเฉพาะ ซึ่งมักจะเป็นการประมวลผลระหว่างข้อความ รูปภาพ วิดีโอ และเสียง

MMMU (Massive Multi-discipline Multimodal Understanding): เวอร์ชันภาษาภาพและภาพของ MMLU มีคำถาม 11,550 ข้อที่รวบรวมจากข้อสอบวิทยาลัย แบบทดสอบ และตำราเรียน ครอบคลุม 30 วิชา คำถามเหล่านี้ต้องการความเข้าใจภาพเพื่อแก้ไข ประกอบด้วยคำถามแบบเลือกตอบและคำถามปลายเปิด (ซึ่งให้คะแนนโดย การสกัด regex ) เกณฑ์มาตรฐานของผู้เชี่ยวชาญมนุษย์คือ 89% ^{[ 82 ]}^{[ 83 ]}

MMMU-Pro: คำถามแบบปรนัยหลายรูปแบบจำนวน 1730 ข้อ ในรูปแบบเดียวกับ MMMU ซึ่งออกแบบมาเพื่อต่อต้านโมเดลที่ใช้เฉพาะข้อความเท่านั้น พบว่าปัญหาบางข้อใน MMMU สามารถตอบได้โดยไม่ต้องดูภาพ จึงจำเป็นต้องใช้ MMMU-Pro คำถามแต่ละข้อมีตัวเลือก 10 ตัวเลือก และนำเสนอในรูปแบบข้อความ-ภาพ และรูปแบบภาพหน้าจอ/ภาพถ่าย^{[ 84 ]}

MMT-Bench: เกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินประสิทธิภาพของ LVLM ในงานมัลติโมดอลขนาดใหญ่ที่เกี่ยวข้องกับความรู้ของผู้เชี่ยวชาญ การจดจำภาพ การระบุตำแหน่ง การให้เหตุผล และการวางแผน เกณฑ์มาตรฐานนี้ประกอบด้วยคำถามแบบเลือกตอบ 31,325 ข้อจากสถานการณ์มัลติโมดอลภาพ (เช่น การขับรถและการนำทาง) ซึ่งครอบคลุมงานหลัก 32 งานและงานย่อย 162 งาน^{[ 85 ]}
OmniDocBench: หน้า PDF ที่มีคำอธิบายประกอบ 981 หน้า (ขยายเป็น 1,355 หน้าในเวอร์ชัน 1.5) สุ่มตัวอย่างจากเอกสารมากกว่า 200,000 ฉบับ ครอบคลุมเอกสาร 9 ประเภท (บทความวิชาการ ตำราเรียน สไลด์ หนังสือพิมพ์ บันทึกย่อที่เขียนด้วยลายมือ ฯลฯ) ในภาษาอังกฤษ ภาษาจีนตัวย่อ และภาษาผสม ประเมินการวิเคราะห์เอกสารตั้งแต่ต้นจนจบ การตรวจจับเค้าโครง การจดจำตาราง การจดจำสูตร และ OCR ข้อความ^{[ 86 ]}
Vibe-Eval: คำถามกระตุ้นความเข้าใจเชิงภาพ 269 ข้อ พร้อมคำตอบมาตรฐานที่เขียนโดยผู้เชี่ยวชาญ ในจำนวนนี้ 100 ข้อเป็นคำถาม "ยาก" ซึ่งหมายความว่า LLM (Reka Core) ไม่สามารถแก้ไขได้ในขณะที่ตีพิมพ์ การให้คะแนนอัตโนมัติโดย LLM ^{[ 87 ]}
VideoMMMU: เหมือน MMMU แต่มีวิดีโอ ประกอบด้วยวิดีโอบรรยายระดับวิทยาลัย 300 รายการ ใน 30 วิชา ใน 6 สาขาวิชา (ศิลปะ ธุรกิจ วิทยาศาสตร์ การแพทย์ มนุษยศาสตร์ และวิศวกรรมศาสตร์) พร้อมคำถาม 900 ข้อ^{[ 88 ]}^{[ 89 ]}

หน่วยงาน

เกณฑ์มาตรฐานบางอย่างได้รับการกำหนดขึ้นเพื่อประเมิน ตัวแทน AIที่ใช้ LLM โดยเฉพาะ^{[ 90 ]}

เอเจนต์ APEX: เกณฑ์มาตรฐานที่แสดงให้เห็นว่าโมเดล AI ชั้นนำสามารถทำงานจริง ๆ ของงานระดับสูงได้ เช่น การให้คำปรึกษา การธนาคารเพื่อการลงทุน และกฎหมาย^{[ 91 ]}
BFCL (Berkeley Function-Calling Leaderboard): งานคือการเขียนการเรียก APIตามข้อกำหนด เผยแพร่ใน 3 เวอร์ชัน โดยมีจำนวนรายการ 1760, 2251 และ 1000 รายการตามลำดับ การเรียกบางรายการจะถูกประเมินโดยการแยกวิเคราะห์เป็นASTและเปรียบเทียบกับคำตอบอ้างอิง ในขณะที่บางรายการจะถูกประเมินโดยการเรียกและเปรียบเทียบการตอบสนองกับการตอบสนองอ้างอิง ประกอบด้วยPython , Java , JavaScript , SQLและREST API ^{[ 92 ]}
BrowseComp: คำถาม 1,266 ข้อที่ต้องใช้การท่องอินเทอร์เน็ตเพื่อหาคำตอบสั้นๆ ที่เป็นข้อเท็จจริง เป็นการต่อต้าน GPT-4o ทั้งแบบมีและไม่มีการค้นหาข้อมูล, OpenAI o1 และโมเดล Deep Research เวอร์ชันแรก^{[ 93 ]}
GAIA: คำถาม 450 ข้อที่มีคำตอบที่ชัดเจนซึ่งต้องใช้ข้อมูลที่สามารถหาได้จากการท่องอินเทอร์เน็ต โดยต้องใช้เครื่องมือและความเป็นอิสระในระดับต่างๆ ในการแก้ปัญหา แบ่งออกเป็น 3 ระดับความยาก^{[ 94 ]}
GDPval: งาน 1,320 งานที่ประเมินตัวแทน AI ในการส่งมอบงานความรู้ในโลกแห่งความเป็นจริงใน 44 อาชีพจาก 9 อุตสาหกรรมที่สนับสนุน GDP สูงสุดของสหรัฐฯ งานเหล่านี้จัดทำโดยผู้เชี่ยวชาญที่มีประสบการณ์เฉลี่ย 14 ปี การประเมินทั้งหมดเป็นการเปรียบเทียบแบบคู่โดยผู้เชี่ยวชาญแบบไม่เปิดเผยตัวตนกับผลงานของผู้เชี่ยวชาญที่เป็นมนุษย์ โดยการเปรียบเทียบแต่ละครั้งใช้เวลาเฉลี่ย 1 ชั่วโมง ชุดย่อยทองคำจำนวน 220 งานมีให้ใช้งานได้ทั่วไป ชุดสาธารณะสามารถให้คะแนนได้โดยใช้ GPT-5 เวอร์ชันที่ปรับแต่งแล้ว ชุดที่แยกไว้จำนวน 1,100 งานมีให้ใช้งานภายใน OpenAI เท่านั้น และไม่สามารถส่งโมเดลภายนอกเพื่อให้คะแนนในชุดนี้ได้^{[ 95 ]}
Mind2Web: รวบรวมงาน 2,350 งานจากเว็บไซต์ 137 แห่ง และลำดับการกระทำแบบ crowdsourced งานคือการทำซ้ำลำดับการกระทำ^{[ 96 ]}
OSWorld: งานใช้งานคอมพิวเตอร์แบบมัลติโมดอล 369 งาน ซึ่งเกี่ยวข้องกับแอปพลิเคชันเว็บและเดสก์ท็อปจริงหลายรายการ และการอ่าน/เขียนไฟล์ระบบปฏิบัติการ ทั้งในWindowsและUbuntuแต่ละงานประกอบด้วยการตั้งค่าสถานะเริ่มต้น และได้รับการทดสอบโดยสคริปต์การประเมินตามการดำเนินการ^{[ 97 ]}
TAU-bench (Tool-Agent-User benchmark หรือเขียนว่าτ -bench): สภาพแวดล้อมสองแบบ (ค้าปลีก การจองตั๋วเครื่องบิน) ที่ทดสอบตัวแทนในการปฏิบัติตามคำแนะนำของผู้ใช้แบบโต้ตอบผ่านบทสนทนาหลายรอบ ผู้ใช้จำลองโดยใช้แบบจำลองภาษา^{[ 98 ]}อัปเดตเป็น TAU2-bench (τ²-bench) ซึ่งเน้นที่ แอปพลิเคชัน โทรคมนาคม งานต่างๆ ถูกสร้างขึ้นโดย เอกสารข้อกำหนดผลิตภัณฑ์ที่สร้างโดย LLM , แผนผังฐานข้อมูลตัวแทน, เครื่องมือตัวแทน และสภาพแวดล้อมของผู้ใช้ ("โทรศัพท์จำลอง") ^{[ 99 ]}
terminal-bench: ชุดงานที่ซับซ้อนใน เทอร์มินั ลLinux ^{[ 100 ]}
WebArena: เว็บไซต์จำลอง 241 แห่งที่สร้างขึ้นจากเว็บไซต์จริง ( Reddit , GitLab , พอร์ทัลผู้ดูแลระบบของ Magentoเป็นต้น) และงาน 812 งานที่จะต้องดำเนินการบนเว็บไซต์ งานเหล่านี้รวมถึงการค้นหาข้อมูล การนำทางเว็บไซต์ และการจัดการเนื้อหาและการกำหนดค่า^{[ 101 ]}
WebVoyager: งานมัลติโมดอล 643 งานโดยอิงจากเว็บไซต์ยอดนิยม 15 แห่ง การประเมินจะทำโดยการจับภาพหน้าจอของลำดับการกระทำและขอให้แบบจำลองภาษาภาพตัดสิน^{[ 102 ]}
Windows Agent Arena: งานมัลติโมดอล 154 งานที่มีรูปแบบเดียวกับ OSWorld เฉพาะใน Windows เท่านั้น^{[ 103 ]}

ความยาวของบริบท

เกณฑ์มาตรฐานบางส่วนได้รับการออกแบบมาโดยเฉพาะเพื่อทดสอบความสามารถในการประมวลผลข้อความต่อเนื่องที่มีความยาวมาก

ข้อเท็จจริง การวางรากฐาน: 1,719 รายการ แบ่งออกเป็นชุดสาธารณะ (860) และชุดส่วนตัวที่แยกไว้ (859) แต่ละรายการประกอบด้วยเอกสาร คำสั่งระบบที่กำหนดให้ LLM ต้องอ้างอิงเฉพาะเอกสารที่ให้มา และคำขอของผู้ใช้ที่ต้องอาศัยความเข้าใจในเอกสาร คำตอบจะได้รับการให้คะแนนโดย LLM แนวหน้า^{[ 104 ]}^{[ 105 ]}
InfiniteBench: 3946 รายการใน 12 งานจาก 5 โดเมน (การค้นหา, โค้ด, คณิตศาสตร์, นิยาย และบทสนทนา) โดยมีความยาวของบริบทเกิน 100,000 โทเค็น^{[ 106 ]}
L-Eval: คู่คำถาม-คำตอบที่ติดป้ายกำกับโดยมนุษย์มากกว่า 2,000 คู่ ในเอกสารยาวกว่า 508 ฉบับ ใน 20 งาน รวมถึงประเภทงาน โดเมน และความยาวอินพุตที่หลากหลาย (3,000 ถึง 200,000 โทเค็น) ^{[ 107 ]}
LOFT (Long-Context Frontiers): 6 หมวดหมู่ภารกิจบริบทยาว (การค้นหาข้อความ การค้นหาภาพ การค้นหาเสียง การสร้างการค้นหาเพิ่มเติมการ สอบถามชุดข้อมูลแบบ SQL การเรียนรู้ แบบหลายช็อตในบริบท ) ใน 35 ชุดข้อมูลและ 4 รูปแบบ สูงสุด 1 ล้านโทเค็น^{[ 108 ]}
LongBench: งาน 4,750 งานบนชุดข้อมูล 21 ชุด ครอบคลุม 6 หมวดหมู่งาน ทั้งในภาษาอังกฤษและภาษาจีน โดยมีความยาวเฉลี่ย 6,711 คำ (ภาษาอังกฤษ) และ 13,386 ตัวอักษร (ภาษาจีน) ^{[ 109 ]}อัปเดตด้วย LongBench v2 ซึ่งมีงานเพิ่มขึ้นอีก 503 งาน โดยต้องการความยาวบริบทตั้งแต่ 8,000 ถึง 2 ล้านคำ โดยส่วนใหญ่มีความยาวต่ำกว่า 128,000 คำ^{[ 110 ]}^{[ 111 ]}
สนามประลองระยะไกล: งานสังเคราะห์ 6 งานที่ต้องใช้โทเค็นความยาวบริบท 1K ถึง 16K ในการแก้ปัญหา^{[ 112 ]}
Michelangelo: งาน 3 งานที่สร้างขึ้นโดยโปรแกรม และสามารถมีความยาวได้ตามต้องการ ได้แก่ การแก้ไขการอ้างอิงร่วมหลายรอบ (MRCR ติดตามตัวตนและการอ้างอิงในประวัติการสนทนาของฝ่ายตรงข้ามที่มีโทเค็นมากถึง 1 ล้านโทเค็น) รายการแฝง และฉันไม่รู้ (IDK) ^{[ 113 ]}
MTOB (การแปลด้วยเครื่องจากหนังสือเล่มเดียว): แปลประโยคระหว่างภาษาอังกฤษและภาษาคาลามังหลังจากอ่านหนังสือไวยากรณ์ภาษาคาลามัง (~570 หน้า) ^{[ 114 ]}รายการคำศัพท์สองภาษา (2,531 รายการ พร้อมแท็กส่วนของคำพูด ) และคลังข้อมูลคู่ประโยคขนาด เล็ก (~400 ประโยคฝึกฝน 100 ประโยคทดสอบ กรองเพื่อไม่รวมตัวอย่างจากหนังสือ) ซึ่งเผยแพร่บนDictionaria ^{[ 115 ]}^{[ 116 ]}
การทดสอบเข็มในกองฟาง (NIH): นี่ไม่ใช่เกณฑ์มาตรฐานเฉพาะ แต่เป็นวิธีการวัดความยาวของบริบท ในวิธีนี้ หน้าต่างบริบทที่ยาวจะถูกเติมด้วยข้อความ เช่น บทความของ Paul Graham และมีการแทรกข้อความแบบสุ่มเข้าไป งานคือการตอบคำถามเกี่ยวกับข้อความที่แทรกเข้าไป^{[ 117 ]}
NoLiMa: การประเมินบริบทระยะยาวที่เหนือกว่าการจับคู่ตามตัวอักษร เกณฑ์มาตรฐานนี้ประเมินแบบจำลองบริบทระยะยาวที่เหนือกว่าการจับคู่คำหลักแบบง่ายๆ โดยเฉพาะอย่างยิ่ง คำในคำถามมีการทับซ้อนทางคำศัพท์น้อยที่สุดหรือไม่ทับซ้อนโดยตรงกับคำในประโยค "เข็ม" "กองฟาง" คือหนังสือที่ได้รับอนุญาตแบบเปิด 10 เล่ม^{[ 118 ]}
กฎเกณฑ์: 13 งานใน 4 หมวดหมู่ (การดึงข้อมูล, หลายขั้นตอน, การรวมกลุ่ม, การตอบคำถาม) แต่ละงานจะถูกกำหนดโดยโปรแกรมที่สามารถสร้างอินสแตนซ์ของแต่ละงานที่มีความยาวตามต้องการได้^{[ 119 ]}
ZeroSCROLLS: 4,378 รายการใน 6 งาน ประกอบด้วย 6 งานจาก SCROLLS และแนะนำชุดข้อมูลใหม่ 4 ชุด ตั้งชื่อว่า "zero" เพราะได้รับการออกแบบมาสำหรับการเรียนรู้แบบ zero-shot ในช่วงแรกๆ ของกระบวนทัศน์การฝึกฝนล่วงหน้า ในสมัยที่ความสามารถ zero-shot ยังไม่แพร่หลาย^{[ 120 ]}

เหตุผล

คณิตศาสตร์

Alg514: โจทย์ปัญหาพีชคณิต 514 ข้อและระบบสมการที่เกี่ยวข้อง รวบรวมจาก Algebra.com ^{[ 121 ]}^{[ 122 ]}

AQuA-RAT (Algebra Question Answering with Rationales): หรือเรียกสั้นๆ ว่า "AQuA" ประกอบด้วยโจทย์ปัญหาพีชคณิต 100,000 ข้อ แต่ละข้อมีตัวเลือก 5 ตัวเลือก พร้อมคำอธิบายสำหรับตัวเลือกที่ถูกต้องด้วยเหตุผลในภาษาธรรมชาติ โจทย์ปัญหา "seed problems" จำนวน 34,202 ข้อ รวบรวมมาจากหลายแหล่ง เช่น GMAT และ GRE จากนั้นจึงขยายเป็นชุดข้อมูลทั้งหมดโดยใช้ Amazon Turk ^{[ 123 ]}
FrontierMath: มีคำถามหลายร้อยข้อจากสาขาคณิตศาสตร์สมัยใหม่ที่ยากสำหรับนักคณิตศาสตร์มืออาชีพในการแก้ปัญหา คำถามหลายข้อมีคำตอบเป็นจำนวนเต็ม เพื่อให้สามารถตรวจสอบคำตอบได้โดยอัตโนมัติ มีการกันไว้เพื่อป้องกันการปนเปื้อน แบ่งออกเป็นระดับ^{[ 124 ]}ระดับ 1-3 ประกอบด้วยปัญหา 300 ข้อ และสร้างเสร็จสมบูรณ์ในเดือนพฤศจิกายน 2024 ระดับ 4 ประกอบด้วยปัญหา 50 ข้อ และสร้างเสร็จสมบูรณ์ในเดือนมิถุนายน 2025 ^{[ 125 ]}ในเดือนมกราคม 2026 ได้มีการเพิ่มปัญหาที่ยังแก้ไม่ตกเข้าไปในเกณฑ์มาตรฐาน^{[ 126 ]}^{[ 127 ]}
GSM1K: 1205 รายการที่มีรูปแบบและความยากเหมือนกับ GSM8K บรรจุอย่างปลอดภัยยิ่งขึ้นเพื่อหลีกเลี่ยงข้อกังวลเรื่องการปนเปื้อนของข้อมูลใน GSM8K รุ่นก่อนหน้า^{[ 128 ]}
GSM8K (คณิตศาสตร์ระดับประถมศึกษา): โจทย์ปัญหาคณิตศาสตร์ระดับประถมศึกษา ที่มีความหลากหลายทางภาษาจำนวน 8,500 ข้อ ซึ่งต้องใช้การคำนวณเลขคณิตพื้นฐาน 2 ถึง 8 วิธีในการแก้^[¹²⁹^]มีข้อผิดพลาดที่ได้รับการแก้ไขแล้วใน GSM8K-Platinum ^[¹³⁰^]
IMO-Bench: เกณฑ์มาตรฐานที่อิงตามIMOประกอบด้วย 3 ส่วน: IMO-AnswerBench (400) สำหรับการหาคำตอบที่ถูกต้อง, IMO-ProofBench (60) สำหรับการเขียนบทพิสูจน์, IMO-GradingBench (1,000) สำหรับการให้คะแนนบทพิสูจน์ตามเกณฑ์ที่กำหนด^{[ 131 ]}^{[ 132 ]}
คณิตศาสตร์: โจทย์คณิตศาสตร์ระดับแข่งขัน 12,500 ข้อ แบ่งเป็นระดับความยาก 1 ถึง 5 (ตามแบบศิลปะแห่งการแก้ปัญหา ) โดยโจทย์ AIME อยู่ในระดับ 5 มีโจทย์ระดับ 5 จำนวน 1,324 ข้อ^{[ 133 ]}เวอร์ชันแบบแข่งขันคือ MATH-P ซึ่งได้มาจากการแก้ไขตัวอักษรบางตัวในคำถามต้นฉบับ^{[ 134 ]}
Math23K: โจทย์ปัญหาคณิตศาสตร์ภาษาจีนระดับประถมศึกษาจำนวน 23,164 ข้อ รวบรวมจากเว็บไซต์การศึกษาออนไลน์ต่างๆ^{[ 135 ]}
MathArena: แทนที่จะใช้เกณฑ์มาตรฐานที่สร้างขึ้นโดยเฉพาะ เกณฑ์มาตรฐาน MathArena กลับใช้การแข่งขันคณิตศาสตร์ล่าสุด (AIME และHMMT ) โดยเร็วที่สุดเท่าที่จะเป็นไปได้ และใช้เป็นเกณฑ์มาตรฐานสำหรับ LLM เพื่อป้องกันการปนเปื้อน^{[ 136 ]}
MathBench: มีคำถาม 3709 ข้อ เป็นภาษาอังกฤษและภาษาจีน แบ่งออกเป็น 5 ระดับความยาก (คณิตศาสตร์พื้นฐาน, ประถมศึกษา, มัธยมศึกษาตอนต้น, มัธยมศึกษาตอนปลาย, วิทยาลัย) แบ่งเป็นคำถาม MathBench-T (เชิงทฤษฎี) 2,209 ข้อ และคำถาม MathBench-A (เชิงประยุกต์) 1,500 ข้อ^{[ 137 ]}
MathEval: เกณฑ์มาตรฐานรวมที่มีเกณฑ์มาตรฐานอื่นๆ อีก 20 รายการ เช่น GSM8K, MATH และส่วนคณิตศาสตร์ของ MMLU มีโจทย์คณิตศาสตร์มากกว่า 20,000 ข้อ ระดับความยากตั้งแต่ระดับประถมศึกษาจนถึงระดับมัธยมศึกษาตอนปลาย^{[ 138 ]}
MathQA: โจทย์ปัญหาภาษาอังกฤษจำนวน 37,200 ข้อ แต่ละข้อมาจาก AQuA-RAT และมีคำอธิบายประกอบด้วย "โปรแกรมการดำเนินการ" ซึ่งระบุการดำเนินการทางคณิตศาสตร์ที่จำเป็นในการแก้ปัญหาอย่างแม่นยำ โดยเขียนด้วยภาษาเฉพาะโดเมนที่มีตัวดำเนินการ 58 ตัว^{[ 139 ]}มีเวอร์ชัน MathQA-Python ซึ่งประกอบด้วยโจทย์ปัญหา 23,914 ข้อ สร้างขึ้นโดยการนำคำตอบของชุดย่อยของชุดข้อมูล MathQA มาเขียนใหม่เป็นภาษา Python ^{[ 140 ]}
miniF2F (mini formal-to-formal): โจทย์คณิตศาสตร์ระดับโอลิมปิก 488 ข้อจากAIME , AMCและIMOที่ระบุในภาษาทางการ ( Metamath , Lean , Isabelle (บางส่วน) และHOL Light (บางส่วน)) งานนี้คือการพิสูจน์อย่างเป็นทางการของข้อความที่เป็นทางการ ซึ่งสามารถตรวจสอบได้โดยอัตโนมัติ^{[ 141 ]}
Omni-MATH: โจทย์คณิตศาสตร์ระดับแข่งขัน 4428 ข้อ พร้อมคำอธิบายโดยมนุษย์^{[ 142 ]}
ProofNet: ทฤษฎีบท 371 ข้อในคณิตศาสตร์ระดับปริญญาตรี แต่ละข้อประกอบด้วยข้อความที่เป็นทางการใน Lean ข้อความที่เป็นภาษาธรรมชาติ และการพิสูจน์ที่เป็นภาษาธรรมชาติ มีสองภารกิจ: เมื่อกำหนดข้อความที่ไม่เป็นทางการ (เป็นทางการ) ให้สร้างข้อความที่เป็นทางการ (ไม่เป็นทางการ) ที่สอดคล้องกัน เมื่อกำหนดข้อความทฤษฎีบทที่ไม่เป็นทางการ การพิสูจน์ที่ไม่เป็นทางการ และข้อความที่เป็นทางการ ให้สร้างการพิสูจน์ที่เป็นทางการ^{[ 143 ]}เดิมทีอยู่ใน Lean 3 ^{[ 144 ]}แต่ผู้เขียนดั้งเดิมได้ยกเลิกการใช้งานและหันมาใช้ Lean 4 แทน^{[ 145 ]}
PutnamBench: เวอร์ชันที่เป็นทางการ 1709 เวอร์ชันของ คำถาม การแข่งขัน Putnamในช่วงปี 1962 - 2023 งานคือการคำนวณคำตอบเชิงตัวเลข (ถ้ามีคำตอบเชิงตัวเลข) และจัดทำบทพิสูจน์ที่เป็นทางการ การทำให้เป็นทางการอยู่ในLean 4 , IsabelleและRocq (ต่อมาคือCoq ) ^{[ 146 ]}^{[ 147 ]}
TheoremQA: คำถาม 800 ข้อที่ทดสอบการใช้ทฤษฎีบท 350 ข้อจากคณิตศาสตร์ ฟิสิกส์ วิศวกรรมไฟฟ้า วิทยาการคอมพิวเตอร์ และการเงิน^{[ 148 ]}
U-MATH: โจทย์คณิตศาสตร์ 1,100 ข้อที่มาจากหลักสูตรมหาวิทยาลัยในโลกแห่งความเป็นจริง กระจายอย่างสมดุลในหกวิชา โดย 20% ของโจทย์มีองค์ประกอบภาพ^{[ 149 ]}

การเขียนโปรแกรม

Aider Polyglot: แบบฝึกหัดการเขียนโค้ดที่ยากที่สุด 225 ข้อจากExercismในภาษา C++, Go, Java, JavaScript, Python และ Rust ^{[ 150 ]}
แอป: ปัญหา 10,000 ข้อจากCodewars , AtCoder ^, Kattis และCodeforces ^[¹⁵¹ ]
BigCodeBench: งาน 1140 งานที่ต้องเรียกใช้ฟังก์ชันหลายครั้ง เกณฑ์มาตรฐานนี้ประกอบด้วยไลบรารี 139 รายการและโดเมน 7 รายการ ชุดย่อย BigCodeBench-Hard ประกอบด้วยชุดย่อยของเกณฑ์มาตรฐานแบบเต็มที่มีงานเพียง 148 งาน^{[ 152 ]}^{[ 153 ]}
CodeElo: ปัญหาการแข่งขัน 387 ข้อจากCodeforcesในปี 2024 พร้อมคำอธิบายประกอบเมตาเดต้า เช่น ประเภทการแข่งขัน ระดับความยากของปัญหา และแท็กอัลกอริทึมของปัญหา การวัดประสิทธิภาพทำได้โดยการส่งปัญหาไปยัง Codeforces โดยตรง ส่งผลให้ได้คะแนน Eloจำกัดการส่งปัญหาไว้ที่ 8 ครั้งต่อปัญหา^{[ 154 ]}
Cybench (cybersecurity bench): งาน Capture the Flag (CTF) ระดับมืออาชีพ 40 งานจาก 4 การแข่งขัน งานต่างๆ ถูกแบ่งออกเป็นงานย่อยเพื่อให้การให้คะแนนละเอียดขึ้น ทีมระดับมืออาชีพอย่างน้อยหนึ่งทีมในการแข่งขันแต่ละครั้งสามารถแก้ปัญหาแต่ละงานได้ เวลาที่ทีมที่เร็วที่สุดใช้ในการแก้ปัญหาแต่ละงานมีตั้งแต่ 2 นาทีถึง 25 ชั่วโมง^{[ 155 ]}
DS-1000: ปัญหาด้านวิทยาศาสตร์ข้อมูล 1,000 ข้อที่ได้มาจากการปรับปรุงปัญหา StackOverflow ที่ไม่ซ้ำกัน 451 ข้อ โดยต้องใช้ไลบรารี Python 7 ตัว เช่น NumPy และ Pandas การให้คะแนนคำตอบทำได้โดยการรันเคสทดสอบและเปรียบเทียบผลลัพธ์ รวมถึงตรวจสอบการมีอยู่/ไม่มีอยู่ของ API หรือคีย์เวิร์ดเฉพาะ^{[ 156 ]}^{[ 157 ]}
DSBench: งานวิเคราะห์ข้อมูล 466 งาน และงานสร้างแบบจำลองข้อมูล 74 งาน ซึ่งได้มาจาก การแข่งขัน Kaggleและ ModelOff ครอบคลุมการวิเคราะห์เชิงสำรวจ การรวมหลายตาราง และการสร้างแบบจำลองเชิงพยากรณ์ด้วยไฟล์ CSV ขนาดใหญ่ และข้อความแจ้งเตือนแบบหลายรูปแบบ^{[ 158 ]}
HCAST (Human-Calibrated Autonomy Software Tasks): งาน 189 งานในด้านการเรียนรู้ของเครื่อง ความปลอดภัยทางไซเบอร์ วิศวกรรมซอฟต์แวร์ และการให้เหตุผลทั่วไป แต่ละงานมี "ค่าพื้นฐาน" ซึ่งเป็นเวลาเฉลี่ยที่วัดได้สำหรับมนุษย์ที่มีทักษะในโดเมนงานนั้นๆ โดยทำงานภายใต้เงื่อนไขเดียวกันกับตัวแทน AI ค่าพื้นฐานมีตั้งแต่ 1 นาทีถึง 8 ชั่วโมงขึ้นไป^{[ 159 ]}
HumanEval: 164 ปัญหาที่วิธีแก้ปัญหามักจะเป็นฟังก์ชัน Python ซึ่งมักจะมีความยาวเพียงไม่กี่บรรทัด^{[ 9 ]}
KernelBench: งานการเรียนรู้เครื่อง PyTorch 250 งาน ซึ่งต้องเขียนเคอร์เนล CUDA ^{[ 160 ]}
MBPP (ปัญหาการเขียนโปรแกรมพื้นฐานส่วนใหญ่): ฟังก์ชัน Python สั้นๆ 974 ฟังก์ชันที่ออกแบบมาเพื่อให้โปรแกรมเมอร์ระดับเริ่มต้นสามารถแก้ไขได้ แต่ละฟังก์ชันมาพร้อมกับคำอธิบายข้อความและการทดสอบหน่วย ฟังก์ชันเหล่านี้เขียนขึ้นโดยกลุ่มผู้ร่วมงานภายในที่มีความรู้พื้นฐานเกี่ยวกับ Python ^{[ 140 ]}
PaperBench: งานที่สามารถประเมินผลได้ 8,316 รายการ ซึ่งจำเป็นสำหรับการจำลองเอกสาร Spotlight และ Oral จำนวน 20 ฉบับจากICML 2024ตั้งแต่เริ่มต้น เกณฑ์มาตรฐานของมนุษย์ในระดับปริญญาเอกด้าน ML (คะแนนที่ดีที่สุดจาก 3 ครั้ง) ที่ใช้เวลา 48 ชั่วโมง คือ 41.4% ^{[ 161 ]}
ScienceAgentBench: งาน วิทยาศาสตร์ข้อมูลแบบมัลติโมดอล 102 งาน โดยแต่ละงานเป็นปัญหาการค้นพบที่ขับเคลื่อนด้วยข้อมูลทางวิทยาศาสตร์จริง ๆ ซึ่งถูกปรับเปลี่ยนให้เป็นงานสร้างโค้ด เอเจนต์ต้องสร้างไฟล์โปรแกรม Python ที่สมบูรณ์ซึ่งใช้งานงานนั้น สามารถทำงานได้โดยอิสระ และบันทึกผลลัพธ์ ในสาขาชีวสารสนเทศศาสตร์เคมีเชิงคำนวณ วิทยาศาสตร์สารสนเทศทางภูมิศาสตร์และจิตวิทยาและประสาทวิทยาศาสตร์เชิงปัญญา มาจากสิ่งพิมพ์ที่ได้รับการตรวจสอบโดยผู้ทรงคุณวุฒิ 44 ฉบับที่เผยแพร่โค้ดและข้อมูลภายใต้ใบอนุญาตที่อนุญาต งานแต่ละงานได้รับการตรวจสอบโดยผู้เชี่ยวชาญในสาขา^{[ 162 ]}
SpreadsheetBench: งานการจัดการสเปรดชีตในโลกแห่งความเป็นจริง 912 งานที่รวบรวมจากฟอรัมช่วยเหลือ Excel สาธารณะ ครอบคลุมการเขียนสูตร การทำความสะอาดข้อมูล การกรอง และการแก้ไขเค้าโครงในรูปแบบต่างๆ ให้คะแนนโดยอัตโนมัติจากกรณีทดสอบ 2729 กรณีในระดับเซลล์ แผ่นงาน และโดยรวม^{[ 163 ]}
SWE-bench: ปัญหาด้านวิศวกรรมซอฟต์แวร์ 2,294 ข้อ ที่ดึงมาจากปัญหาจริงบน GitHub และ pull request ที่เกี่ยวข้องจาก 12 repositories Python ยอดนิยม โดยกำหนดให้ codebase และปัญหาหนึ่งข้อ งานคือการแก้ไข codebase เพื่อแก้ปัญหานั้น^{[ 164 ]}มี 2 ชุดย่อย: Lite (300 ปัญหาที่รันได้เร็วขึ้น) และ Verified (ชุดย่อย 500 ปัญหาที่ได้รับการตรวจสอบโดยวิศวกรซอฟต์แวร์) ^{[ 165 ]} SWE-bench Pro เปิดตัวในภายหลัง โดยมีรายการที่ยากขึ้น 1,865 รายการ แบ่งออกเป็น 3 ส่วน: สาธารณะ, สงวนไว้ และกรรมสิทธิ์ (มีให้เฉพาะกลุ่มสตาร์ทอัพในระยะเริ่มต้นเท่านั้น) ^{[ 166 ]}เวอร์ชัน Verified ถูกยกเลิกโดย OpenAI ในเดือนกุมภาพันธ์ 2026 เนื่องจากความล้มเหลวที่เหลืออยู่จำนวนมากสะท้อนให้เห็นถึงการทดสอบที่บกพร่องหรือไม่ระบุรายละเอียด พวกเขาแนะนำให้ใช้ SWE-bench Pro เวอร์ชันสาธารณะ^{[ 167 ]}

Multi-SWE-bench: ปัญหา 1,632 ข้อ ครอบคลุม 7 ภาษา ได้แก่ Java, TypeScript, JavaScript, Go, Rust, C และ C++ คล้ายกับ SWE-bench ^{[ 168 ]}
SWE-bench Multimodal: รูปแบบหนึ่งของ SWE-bench ที่มีอินสแตนซ์งาน 619 รายการจากคลัง JavaScript ยอดนิยม 17 แห่ง โดยแต่ละอินสแตนซ์จะมีรูปภาพที่จำเป็นสำหรับการแก้ปัญหา^{[ 169 ]}

SWE-Lancer: งานวิศวกรรมซอฟต์แวร์ฟรีแลนซ์ 1,488 งานจากUpworkมีงานสองประเภท: งานการนำไปใช้ (ตั้งแต่การแก้ไขบั๊กมูลค่า 50 ดอลลาร์ไปจนถึงการพัฒนาฟีเจอร์มูลค่า 32,000 ดอลลาร์) เรียกว่า "IC" (ย่อมาจาก "Individual Contributor") และงาน "การจัดการ" ซึ่งโมเดลต้องเลือกข้อเสนอการนำไปใช้ทางเทคนิค มีงานย่อย 502 งานที่เปิดเผยเป็นโอเพนซอร์สในชื่อ SWE-Lancer-Diamond ผลิตโดย OpenAI ^{[ 170 ]}^{[ 171 ]}

ทั่วไป

AGIEval: คำถามจากการสอบคัดเลือกและสอบวัดคุณสมบัติอย่างเป็นทางการ สาธารณะ และมีมาตรฐานสูง 20 รายการ เช่นSAT , Gaokao , การสอบเข้าโรงเรียนกฎหมาย, การแข่งขันคณิตศาสตร์, การทดสอบคุณสมบัติทนายความ และ การ สอบราชการพลเรือนแห่งชาติ^{[ 172 ]}
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence): เมื่อกำหนดไดอะแกรมก่อนและหลังการใช้กฎสามคู่ ให้ใช้กฎเดียวกันกับไดอะแกรมก่อนหน้าชุดที่สี่ ซึ่งคล้ายกับการทดสอบRaven's Progressive Matrices ^{[ 173 ]}
GPQA (Google-Proof Q&A): คำถามแบบเลือกตอบ 448 ข้อ เขียนโดยผู้เชี่ยวชาญในสาขาชีววิทยา ฟิสิกส์ และเคมี ออกแบบมาให้อยู่ในระดับปริญญาเอก OpenAI พบว่าผู้เชี่ยวชาญได้คะแนนเฉลี่ย 69.7% ในชุดย่อย Diamond ^{[ 174 ]}ประกอบด้วย 3 ชุด ได้แก่ "Extended" ที่มี 546 ข้อ ซึ่งประกอบด้วยข้อคำถามทั้งหมดที่ขอจากผู้เขียน "Main" ที่มี 448 ข้อ ซึ่งเป็นชุดย่อยที่ได้รับการตรวจสอบโดยผู้เชี่ยวชาญจาก "Extended" และ "Diamond" ที่มี 198 ข้อ ซึ่งเป็นข้อคำถามที่ยากที่สุดจาก "Main" ในชุดข้อมูลยังมีรายชื่อผู้เชี่ยวชาญ 60 คนที่ตรวจสอบชุดข้อมูลโดยไม่ระบุชื่อ พร้อมคุณสมบัติของพวกเขา^{[ 175 ]}^{[ 176 ]}ความเห็นพ้องต้องกันระหว่างผู้เชี่ยวชาญในชุด Extended อยู่ที่ 74% เท่านั้น การสร้างชุดข้อมูลมีค่าใช้จ่ายประมาณ 120,000 ดอลลาร์สหรัฐ แต่ละคำถามใช้เวลาเฉลี่ย 2 ชั่วโมงของผู้เชี่ยวชาญ ผู้เชี่ยวชาญแต่ละคนได้รับค่าจ้าง 100 ดอลลาร์ต่อชั่วโมง^{[ 177 ]}

SuperGPQA: คำถามแบบเลือกตอบ 26,529 ข้อที่รวบรวมโดยผู้เชี่ยวชาญในสาขาต่างๆ ในระดับบัณฑิตศึกษาจำนวน 285 สาขา คำถามเหล่านี้ถูกรวบรวมโดยบุคคลที่มีหรือกำลังศึกษาปริญญาเอก จากนั้นจึงทำการปรับปรุงและตรวจสอบด้วยความช่วยเหลือของแบบจำลองภาษาขนาดใหญ่^{[ 178 ]}

การสอบครั้งสุดท้ายของมนุษยชาติ : คำถามแบบมัลติโมดอล 3,000 ข้อ ครอบคลุมวิชาการกว่าร้อยวิชา โดยมีชุดข้อมูลส่วนตัวที่แยกไว้เพื่อป้องกันการปนเปื้อน 10% ของคำถามต้องอาศัยความเข้าใจทั้งภาพและข้อความ ส่วนที่เหลือเป็นคำถามแบบข้อความล้วน 80% ของคำถามจะให้คะแนนโดยการจับคู่สตริงที่ตรงกันทุกประการ ส่วนที่เหลือเป็นแบบเลือกตอบ^{[ 179 ]}
LiveBench: ชุดเกณฑ์มาตรฐานที่เผยแพร่ทุกเดือน ซึ่งรวมถึงคำถามการแข่งขันคณิตศาสตร์ระดับมัธยมปลาย คำถามการเขียนโค้ดเชิงแข่งขัน ปริศนาตรรกะ และงานอื่นๆ^{[ 180 ]}
MathVista: มีคำถาม 6,141 ข้อที่เกี่ยวข้องกับการใช้เหตุผลเชิงปริมาณซึ่งต้องใช้การอ่านภาพเพื่อแก้ปัญหา^{[ 181 ]}
OlympicArena: ปัญหา 11,163 ข้อจากการแข่งขันกีฬาโอลิมปิก 62 รายการที่แตกต่างกัน^{[ 182 ]}
OlympiadBench: โจทย์คณิตศาสตร์และฟิสิกส์ 8,476 ข้อ ทั้งภาษาอังกฤษและภาษาจีน รวบรวมจากการแข่งขันโอลิมปิกนานาชาติ การแข่งขันโอลิมปิกของจีน และการสอบเกาเกา^{[ 183 ]}
SimpleBench: แบบทดสอบวัดผลแบบเลือกตอบที่มีคำถามมากกว่า 200 ข้อ ครอบคลุมการให้เหตุผลเชิงพื้นที่และเวลา ความฉลาดทางสังคม และความทนทานต่อการโจมตีทางภาษา (หรือคำถามหลอกลวง) ออกแบบมาเพื่อทดสอบ "การให้เหตุผลของมนุษย์ในชีวิตประจำวัน" ^{[ 184 ]}
SPaRC (Spatial Pathfinding and Reasoning Challenge): ปริศนาตาราง 1,000 ข้อ (500 ข้อสำหรับฝึกฝน 500 ข้อสำหรับทดสอบ) ผู้แก้ปริศนาจะลากเส้นเดียวจากจุดเริ่มต้นไปยังจุดสิ้นสุดโดยไม่ตัดกัน โดยปฏิบัติตามกฎต่างๆ เช่น การผ่านจุด การหลีกเลี่ยงช่องว่าง การแยกหินสีต่างๆ ออกเป็นภูมิภาคต่างๆ และการจับคู่ รูปทรง โพลีโอมีโนปริศนาจะถูกจัดระดับความยากจาก 1 ถึง 5 โดยใช้กฎที่ดัดแปลงมาจากวิดีโอเกมThe Witnessผู้ประเมินที่เป็นมนุษย์สามารถแก้ปริศนาได้ 98.0% ซึ่งมากกว่าแบบจำลองที่ดีที่สุดที่ทดสอบมาก^{[ 185 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Hardt, Moritz (2025). "วิทยาศาสตร์ที่กำลังเกิดขึ้นของเกณฑ์มาตรฐานการเรียนรู้ของเครื่องจักร" . สืบค้นเมื่อ2026-03-06 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 5 ]

[8]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[ 88 ]

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 95 ]

[ 96 ]

[ 97 ]

[ 98 ]

[ 99 ]

[ 100 ]

[ 101 ]

[ 102 ]

[ 103 ]

[ 104 ]

[ 105 ]