การสร้างรายการอัตโนมัติ

Q: บริบท

ใน การทดสอบทางจิตวิทยา การตอบสนองของผู้เข้ารับการทดสอบต่อข้อสอบจะให้ข้อมูลการวัดเชิงวัตถุประสงค์สำหรับลักษณะต่างๆ ของมนุษย์[ 8 ] ลักษณะ บางอย่างที่วัดได้จากการทดสอบทางจิตวิทยาและการศึกษา ได้แก่ ความสามารถทางวิชาการ ผลการเรียน สติปัญญา แรง จูงใจ ฯลฯ

การสร้างข้อสอบอัตโนมัติ ( Automatic Item Generation หรือ AIG ) หรือการสร้างข้อสอบอัตโนมัติเป็นกระบวนการที่เชื่อมโยงจิตวิทยาการวัดผลกับการเขียนโปรแกรมคอมพิวเตอร์โดยใช้อัลกอริธึมคอมพิวเตอร์ในการสร้างข้อสอบ โดยอัตโนมัติ ซึ่งเป็นส่วนประกอบพื้นฐานของการทดสอบทางจิตวิทยาวิธีนี้ได้รับการอธิบายครั้งแรกโดย John R. Bormuth ^{[ 1 ]}ในช่วงทศวรรษ 1960 แต่เพิ่งได้รับการพัฒนาเมื่อไม่นานมานี้ AIG ใช้กระบวนการสองขั้นตอน ขั้นแรก ผู้เชี่ยวชาญด้านการทดสอบจะสร้างแม่แบบที่เรียกว่าแบบจำลองข้อสอบ จากนั้นจึงพัฒนาอัลกอริธึมคอมพิวเตอร์เพื่อสร้างข้อสอบ^{[ 2 ]}ดังนั้น แทนที่ผู้เชี่ยวชาญด้านการทดสอบจะเขียนข้อสอบแต่ละข้อ อัลกอริธึมคอมพิวเตอร์จะสร้างกลุ่มข้อสอบจากแบบจำลองข้อสอบหลักชุดเล็กกว่า^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}เมื่อไม่นานมานี้เครือข่ายประสาทเทียมรวมถึงแบบจำลองภาษาขนาดใหญ่เช่น ตระกูล GPTได้ถูกนำมาใช้ในการสร้างข้อสอบโดยอัตโนมัติอย่างประสบความสำเร็จ^{[ 6 ]}^{[ 7 ]}

บริบท

ในการทดสอบทางจิตวิทยาการตอบสนองของผู้เข้ารับการทดสอบต่อข้อสอบจะให้ข้อมูลการวัดเชิงวัตถุประสงค์สำหรับลักษณะต่างๆ ของมนุษย์[ ^{8 ] ลักษณะ}บางอย่างที่วัดได้จากการทดสอบทางจิตวิทยาและการศึกษา ได้แก่ ความสามารถทางวิชาการ ผลการเรียนสติปัญญา แรง จูงใจฯลฯ และการทดสอบเหล่านี้มักใช้ในการตัดสินใจที่มีผลกระทบอย่างมากต่อบุคคลหรือกลุ่มบุคคล การบรรลุมาตรฐานคุณภาพการวัด เช่นความถูกต้องของการทดสอบเป็นหนึ่งในเป้าหมายที่สำคัญที่สุดสำหรับนักจิตวิทยาและนักการศึกษา^{[ 9 ]} AIG เป็นแนวทางในการพัฒนาการทดสอบที่สามารถใช้เพื่อรักษาและปรับปรุงคุณภาพการทดสอบอย่างประหยัดในสภาพแวดล้อมปัจจุบันที่การทดสอบด้วยคอมพิวเตอร์ทำให้ความต้องการข้อสอบจำนวนมากเพิ่มมากขึ้น^{[ 5 ]}

ประโยชน์

AIG ช่วยลดต้นทุนในการผลิตแบบทดสอบมาตรฐาน [ ¹⁰^{] เนื่องจากอัลกอริทึมสามารถสร้างข้อสอบได้มากกว่าผู้เชี่ยวชาญ}^ด้านการทดสอบที่เป็นมนุษย์ในระยะเวลาที่กำหนด สามารถสร้างแบบทดสอบคู่ขนานได้อย่างรวดเร็วและง่ายดาย ซึ่งช่วยให้ผู้สอบที่แตกต่างกันได้สัมผัสกับกลุ่มข้อสอบที่แตกต่างกันแต่มีระดับความซับซ้อนหรือความยากเท่ากัน จึงช่วยเพิ่มความปลอดภัยของการทดสอบ^{[ 3 ]}เมื่อรวมกับการทดสอบแบบปรับตัวด้วยคอมพิวเตอร์ AIG สามารถสร้างข้อสอบใหม่หรือเลือกข้อสอบที่สร้างไว้แล้วที่จะนำมาใช้ในครั้งต่อไปตามความสามารถของผู้สอบในระหว่างการสอบ นอกจากนี้ คาดว่า AIG จะสร้างข้อสอบที่มีระดับความยากที่หลากหลาย มีข้อผิดพลาดในการสร้างน้อยลง และคาดว่าจะช่วยให้สามารถเปรียบเทียบข้อสอบได้มากขึ้นเนื่องจากการกำหนดแบบจำลองข้อสอบต้นแบบอย่างเป็นระบบมากขึ้น^{[ 3 ]}^{[ 11 ]}^{[ 12 ]}

รากศัพท์ ส่วนประกอบ และไอโซมอร์ฟ

การพัฒนาการทดสอบ (รวมถึง AIG) สามารถได้รับการปรับปรุงให้ดีขึ้นได้หากอิงตามทฤษฎีทางปัญญาใดๆ กระบวนการทางปัญญาที่นำมาจากทฤษฎีที่กำหนดมักจะจับคู่กับคุณลักษณะของข้อสอบในระหว่างการสร้าง จุดประสงค์ของการทำเช่นนี้คือเพื่อกำหนดพารามิเตอร์ทางจิตวิทยาที่กำหนดไว้ล่วงหน้า เช่น ความยากของข้อสอบ (ต่อไปนี้เรียกว่าβ ) ให้ราดิคัล^{[ 11 ]}เป็นองค์ประกอบโครงสร้างที่ส่งผลกระทบอย่างมีนัยสำคัญต่อพารามิเตอร์ของข้อสอบและทำให้ข้อสอบมีข้อกำหนดทางปัญญาบางประการ ราดิคัลหนึ่งตัวหรือมากกว่าของแบบจำลองข้อสอบสามารถถูกจัดการเพื่อสร้างแบบจำลองข้อสอบหลักที่มีระดับพารามิเตอร์ (เช่นβ ) ที่แตกต่างกัน จากนั้นแบบจำลองหลักแต่ละตัวสามารถขยายตระกูลของตนเองได้โดยการจัดการองค์ประกอบอื่นๆ ที่ Irvine ^[¹¹^]เรียกว่าอินซิเดนทัล อินซิเดนทัลเป็นคุณลักษณะพื้นผิวที่มีการเปลี่ยนแปลงแบบสุ่มจากข้อสอบหนึ่งไปยังอีกข้อสอบหนึ่งภายในตระกูลเดียวกัน ข้อสอบที่มีโครงสร้างของราดิคัลเหมือนกันและแตกต่างกันเฉพาะในอินซิเดนทัลมักจะถูกเรียกว่า ไอโซม อร์ฟ^[¹³^]หรือโคลน^[¹⁴^]^[¹⁵^]

การโคลนนิ่งรายการอาจมีสองประเภท: ในด้านหนึ่ง โมเดลรายการอาจประกอบด้วยรายการที่มีช่องว่างเปิดหนึ่งช่องหรือมากกว่า และการโคลนนิ่งจะทำโดยการเติมช่องว่างแต่ละช่องด้วยองค์ประกอบที่เลือกจากรายการความเป็นไปได้ ในอีกด้านหนึ่ง โมเดลรายการอาจเป็นรายการที่สมบูรณ์ซึ่งถูกโคลนนิ่งโดยการแนะนำการแปลง เช่น การเปลี่ยนมุมของวัตถุในการทดสอบความสามารถเชิงพื้นที่^{[ 16 ]}การเปลี่ยนแปลงลักษณะพื้นผิวของรายการเหล่านี้ไม่ควรส่งผลกระทบอย่างมีนัยสำคัญต่อการตอบสนองของผู้ทดสอบ นี่คือเหตุผลที่เชื่อกันว่าสิ่งแปลกปลอมทำให้เกิดความแตกต่างเพียงเล็กน้อยระหว่างพารามิเตอร์รายการของไอโซมอร์ฟ^{[ 3 ]}

ความคืบหน้าล่าสุด

เครื่องมือสร้างรายการจำนวนหนึ่งได้รับการทดสอบความถูกต้องเชิงวัตถุประสงค์แล้ว

MathGen เป็นโปรแกรมที่สร้างข้อสอบเพื่อทดสอบความสำเร็จทางคณิตศาสตร์ ในบทความปี 2018 สำหรับวารสาร Journal of Educational Measurementผู้เขียน Embretson และ Kingston ได้ทำการทบทวนเชิงคุณภาพอย่างกว้างขวางและการทดลองเชิงประจักษ์เพื่อประเมินคุณสมบัติเชิงคุณภาพและจิตวิทยาของข้อสอบที่สร้างขึ้น โดยสรุปว่าข้อสอบเหล่านั้นประสบความสำเร็จ และข้อสอบที่สร้างจากโครงสร้างข้อสอบเดียวกันมีคุณสมบัติทางจิตวิทยาที่คาดการณ์ได้^{[ 17 ]}^{[ 18 ]}

การทดสอบการแยกแยะทำนองเพลงที่พัฒนาขึ้นโดยใช้แบบจำลองการคำนวณ Rachman-Jun 2015 ^{[ 19 ]} ได้ถูกนำมาใช้กับผู้เข้าร่วมในการทดลองในปี 2017 จากข้อมูลที่รวบรวมโดย PM Harrison และคณะ ผลลัพธ์แสดงให้เห็นถึง ความถูกต้องและความน่าเชื่อถือที่แข็งแกร่ง^{[ 20 ]}

Ferreyra และ Backhoff-Escudero ^{[ 21 ]}สร้างแบบทดสอบความสามารถพื้นฐาน (Excoba) สองเวอร์ชันคู่ขนาน ซึ่งเป็นแบบทดสอบทั่วไปเกี่ยวกับทักษะทางการศึกษา โดยใช้โปรแกรมที่พวกเขาพัฒนาขึ้นชื่อ GenerEx จากนั้นพวกเขาก็ศึกษาโครงสร้างภายในและความเท่าเทียมกันทางจิตวิทยาของแบบทดสอบที่สร้างขึ้น ผลลัพธ์เชิงประจักษ์ของคุณภาพทางจิตวิทยาโดยรวมเป็นที่น่าพอใจ และแบบทดสอบและข้อสอบมีความสอดคล้องกันตามที่วัดได้จากดัชนีทางจิตวิทยาหลายตัว

Gierl และเพื่อนร่วมงานของเขา^{[ 22 ]}^{[ 23 ]}^{[ 24 ]}^{[ 25 ]}ใช้โปรแกรม AIG ที่เรียกว่า Item Generator (IGOR ^{[ 26 ]} ) เพื่อสร้างข้อสอบแบบปรนัยที่ทดสอบความรู้ทางการแพทย์ ข้อสอบที่สร้างโดย IGOR แม้จะเปรียบเทียบกับข้อสอบที่ออกแบบด้วยตนเอง ก็แสดงคุณสมบัติทางจิตวิทยาที่ดี

Arendasy, Sommer และ Mayr ^{[ 27 ]}ใช้ AIG เพื่อสร้างรายการคำพูดเพื่อทดสอบความคล่องแคล่วทางวาจาในภาษาเยอรมันและภาษาอังกฤษ โดยให้ผู้เข้าร่วมที่พูดภาษาเยอรมันและภาษาอังกฤษทำการทดสอบตามลำดับ รายการที่สร้างโดยคอมพิวเตอร์แสดงให้เห็นคุณสมบัติทางจิตวิทยาที่ยอมรับได้ ชุดรายการที่ใช้กับทั้งสองกลุ่มนี้อิงตามชุดรายการอ้างอิงระหว่างภาษาทั่วไป ซึ่งอำนวยความสะดวกในการเปรียบเทียบประสิทธิภาพข้ามภาษา

Holling, Bertling และ Zeuch ^{[ 28 ]}ใช้ทฤษฎีความน่าจะเป็นเพื่อสร้างโจทย์ปัญหาทางคณิตศาสตร์โดยอัตโนมัติด้วยระดับความยากที่คาดหวัง พวกเขาได้แบบจำลอง Rasch ^{[ 29 ]}ที่เหมาะสม และความยากของข้อสอบสามารถอธิบายได้ด้วยแบบจำลองการทดสอบโลจิสติกเชิงเส้น (LLTM ^{[ 30 ]} ) เช่นเดียวกับ LLTM แบบ Random-Effects Holling, Blank, Kuchenbäcker และ Kuhn ^{[ 31 ]}ได้ทำการศึกษาที่คล้ายกันกับโจทย์ปัญหาทางสถิติ แต่ไม่ได้ใช้ AIG Arendasy และเพื่อนร่วมงานของเขา^{[ 32 ]}^{[ 33 ]}ได้นำเสนอการศึกษาเกี่ยวกับโจทย์ปัญหาพีชคณิตที่สร้างขึ้นโดยอัตโนมัติ และตรวจสอบว่ากรอบการควบคุมคุณภาพของ AIG สามารถส่งผลต่อคุณภาพการวัดของข้อสอบได้อย่างไร

การสร้างรายการรูปภาพโดยอัตโนมัติ

โปรแกรมสร้างข้อสอบ (IMak) เป็นโปรแกรมที่เขียนด้วยภาษาโปรแกรม Rสำหรับการสร้างข้อสอบแบบเปรียบเทียบเชิงรูปธรรม คุณสมบัติทางจิตวิทยาของข้อสอบ 23 ข้อที่สร้างโดย IMak พบว่าอยู่ในระดับที่น่าพอใจ และความยากของข้อสอบตามการสร้างกฎสามารถทำนายได้โดยใช้แบบจำลองการทดสอบโลจิสติกเชิงเส้น (LLTM) ^{[ 3 ]}^{[ 34 ]}การวิจัยเพิ่มเติมยืนยันความสอดคล้องภายในที่ สูง ของข้อสอบที่สร้างขึ้น^{[ 35 ]}^{[ 36 ]}^{[ 37 ]}

MazeGen เป็นโปรแกรมอีกโปรแกรมหนึ่งที่เขียนด้วยภาษา R ซึ่งสร้างเขาวงกตโดยอัตโนมัติ พบว่าคุณสมบัติทางจิตวิทยาของเขาวงกตดังกล่าว 18 แห่งนั้นเหมาะสมที่สุด รวมถึง ความพอดี ของแบบจำลอง Raschและการทำนายความยากของเขาวงกตด้วย LLTM ^{[ 38 ]}

GeomGen เป็นโปรแกรมที่สร้างเมทริกซ์รูปภาพ^{[ 39 ]}การศึกษาที่ระบุแหล่งที่มาของอคติในการวัดที่เกี่ยวข้องกับกลยุทธ์การกำจัดคำตอบสำหรับรายการเมทริกซ์รูปภาพสรุปว่าความโดดเด่นของตัวลวงส่งเสริมการแสวงหากลยุทธ์การกำจัดคำตอบ และความรู้นี้สามารถนำไปรวมเข้ากับ AIG เพื่อปรับปรุงความถูกต้องเชิงโครงสร้างของรายการดังกล่าวได้^{[ 40 ]}กลุ่มเดียวกันนี้ใช้ AIG เพื่อศึกษาการทำงานของรายการที่แตกต่างกัน (DIF) และความแตกต่างทางเพศที่เกี่ยวข้องกับการหมุนทางจิตพวกเขาจัดการคุณลักษณะการออกแบบรายการที่แสดง DIF ทางเพศในการศึกษาครั้งก่อนๆ และพวกเขาแสดงให้เห็นว่าการประมาณขนาดผลกระทบของความแตกต่างทางเพศถูกลดทอนลงโดยการมีอยู่ของ DIF ทางเพศประเภทต่างๆ ที่อาจเกี่ยวข้องกับคุณลักษณะการออกแบบรายการเฉพาะ^{[ 41 ]}^{[ 42 ]}

Arendasy ยังศึกษาการละเมิดคุณภาพทางจิตวิทยาที่อาจเกิดขึ้นได้ โดยระบุโดยใช้ทฤษฎีการตอบสนองต่อข้อสอบ (IRT) ของข้อสอบการให้เหตุผลเชิงพื้นที่ภาพที่สร้างขึ้นโดยอัตโนมัติ เพื่อจุดประสงค์นี้ เขาได้นำเสนอโปรแกรมสองโปรแกรม ได้แก่ GeomGen ^{[ 39 ]}และ Endless Loop Generator (EsGen) เขาได้สรุปว่า GeomGen เหมาะสำหรับ AIG มากกว่า เนื่องจากสามารถนำหลักการ IRT มาใช้ในระหว่างการสร้างข้อสอบได้^{[ 43 ]}ในโครงการวิจัยคู่ขนานที่ใช้ GeomGen นั้น Arendasy และ Sommer ^{[ 44 ]}พบว่าการเปลี่ยนแปลงการจัดระเบียบการรับรู้ของข้อสอบอาจส่งผลต่อประสิทธิภาพของผู้ตอบแบบสอบถาม ขึ้นอยู่กับระดับความสามารถของพวกเขา และมีผลต่อดัชนีคุณภาพทางจิตวิทยาหลายประการ ด้วยผลลัพธ์เหล่านี้ พวกเขาจึงตั้งคำถามถึงสมมติฐานเรื่องมิติเดียวของข้อสอบเมทริกซ์รูปภาพโดยทั่วไป

MatrixDeveloper ^{[ 45 ]} ถูกใช้เพื่อสร้างรายการ เมทริกซ์สี่เหลี่ยมจัตุรัสขนาด 4x4 จำนวน 25 รายการโดยอัตโนมัติ รายการเหล่านี้ถูกนำไปใช้กับบุคคล 169 คน จากผลการวิจัยพบว่ารายการเหล่านี้ มีความเหมาะสมกับ แบบจำลอง Rasch ที่ดี และการสร้างตามกฎสามารถอธิบายความยากของรายการได้^{[ 46 ]}

เครื่องกำเนิดเมทริกซ์รายการแรกที่รู้จักได้รับการออกแบบโดย Embretson ^{[ 47 ]}^{[ 14 ]}และรายการที่สร้างขึ้นโดยอัตโนมัติของเธอแสดงให้เห็นคุณสมบัติทางจิตวิทยาที่ดี ดังที่ Embretson และ Reise ได้แสดงไว้^{[ 48 ]}เธอยังเสนอแบบจำลองสำหรับการสร้างรายการออนไลน์ที่เหมาะสมอีกด้วย

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 6 ]

[ 7 ]

8 ] ลักษณะ

[ 9 ]

10

[ 12 ]

[

[

[

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]