กลับไปหน้าบทความ

อ่าน 8 นาที

การสร้างรายการอัตโนมัติ

การสร้างข้อสอบอัตโนมัติ ( Automatic Item Generation หรือ AIG ) หรือ การสร้างข้อสอบอัตโนมัติ เป็นกระบวนการที่เชื่อม โยงจิตวิทยาการวัดผล กับ การเขียนโปรแกรมคอมพิวเตอร์ โดยใช้...

การสร้างรายการอัตโนมัติ

การสร้างข้อสอบอัตโนมัติ ( Automatic Item Generation หรือ AIG ) หรือการสร้างข้อสอบอัตโนมัติเป็นกระบวนการที่เชื่อมโยงจิตวิทยาการวัดผลกับการเขียนโปรแกรมคอมพิวเตอร์โดยใช้อัลกอริธึมคอมพิวเตอร์ในการสร้างข้อสอบ โดยอัตโนมัติ ซึ่งเป็นส่วนประกอบพื้นฐานของการทดสอบทางจิตวิทยาวิธีนี้ได้รับการอธิบายครั้งแรกโดย John R. Bormuth [ 1 ]ในช่วงทศวรรษ 1960 แต่เพิ่งได้รับการพัฒนาเมื่อไม่นานมานี้ AIG ใช้กระบวนการสองขั้นตอน ขั้นแรก ผู้เชี่ยวชาญด้านการทดสอบจะสร้างแม่แบบที่เรียกว่าแบบจำลองข้อสอบ จากนั้นจึงพัฒนาอัลกอริธึมคอมพิวเตอร์เพื่อสร้างข้อสอบ[ 2 ]ดังนั้น แทนที่ผู้เชี่ยวชาญด้านการทดสอบจะเขียนข้อสอบแต่ละข้อ อัลกอริธึมคอมพิวเตอร์จะสร้างกลุ่มข้อสอบจากแบบจำลองข้อสอบหลักชุดเล็กกว่า[ 3 ] [ 4 ] [ 5 ]เมื่อไม่นานมานี้เครือข่ายประสาทเทียมรวมถึงแบบจำลองภาษาขนาดใหญ่เช่น ตระกูล GPTได้ถูกนำมาใช้ในการสร้างข้อสอบโดยอัตโนมัติอย่างประสบความสำเร็จ[ 6 ] [ 7 ]

บริบท

ในการทดสอบทางจิตวิทยาการตอบสนองของผู้เข้ารับการทดสอบต่อข้อสอบจะให้ข้อมูลการวัดเชิงวัตถุประสงค์สำหรับลักษณะต่างๆ ของมนุษย์[ 8 ] ลักษณะบางอย่างที่วัดได้จากการทดสอบทางจิตวิทยาและการศึกษา ได้แก่ ความสามารถทางวิชาการ ผลการเรียนสติปัญญา แรงจูงใจฯลฯ และการทดสอบเหล่านี้มักใช้ในการตัดสินใจที่มีผลกระทบอย่างมากต่อบุคคลหรือกลุ่มบุคคล การบรรลุมาตรฐานคุณภาพการวัด เช่นความถูกต้องของการทดสอบเป็นหนึ่งในเป้าหมายที่สำคัญที่สุดสำหรับนักจิตวิทยาและนักการศึกษา[ 9 ] AIG เป็นแนวทางในการพัฒนาการทดสอบที่สามารถใช้เพื่อรักษาและปรับปรุงคุณภาพการทดสอบอย่างประหยัดในสภาพแวดล้อมปัจจุบันที่การทดสอบด้วยคอมพิวเตอร์ทำให้ความต้องการข้อสอบจำนวนมากเพิ่มมากขึ้น[ 5 ]

ประโยชน์

AIG ช่วยลดต้นทุนในการผลิตแบบทดสอบมาตรฐาน [ 10 ] เนื่องจากอัลกอริทึมสามารถสร้างข้อสอบได้มากกว่าผู้เชี่ยวชาญ ด้านการทดสอบที่เป็นมนุษย์ในระยะเวลาที่กำหนด สามารถสร้างแบบทดสอบคู่ขนานได้อย่างรวดเร็วและง่ายดาย ซึ่งช่วยให้ผู้สอบที่แตกต่างกันได้สัมผัสกับกลุ่มข้อสอบที่แตกต่างกันแต่มีระดับความซับซ้อนหรือความยากเท่ากัน จึงช่วยเพิ่มความปลอดภัยของการทดสอบ[ 3 ]เมื่อรวมกับการทดสอบแบบปรับตัวด้วยคอมพิวเตอร์ AIG สามารถสร้างข้อสอบใหม่หรือเลือกข้อสอบที่สร้างไว้แล้วที่จะนำมาใช้ในครั้งต่อไปตามความสามารถของผู้สอบในระหว่างการสอบ นอกจากนี้ คาดว่า AIG จะสร้างข้อสอบที่มีระดับความยากที่หลากหลาย มีข้อผิดพลาดในการสร้างน้อยลง และคาดว่าจะช่วยให้สามารถเปรียบเทียบข้อสอบได้มากขึ้นเนื่องจากการกำหนดแบบจำลองข้อสอบต้นแบบอย่างเป็นระบบมากขึ้น[ 3 ] [ 11 ] [ 12 ]

รากศัพท์ ส่วนประกอบ และไอโซมอร์ฟ

การพัฒนาการทดสอบ (รวมถึง AIG) สามารถได้รับการปรับปรุงให้ดีขึ้นได้หากอิงตามทฤษฎีทางปัญญาใดๆ กระบวนการทางปัญญาที่นำมาจากทฤษฎีที่กำหนดมักจะจับคู่กับคุณลักษณะของข้อสอบในระหว่างการสร้าง จุดประสงค์ของการทำเช่นนี้คือเพื่อกำหนดพารามิเตอร์ทางจิตวิทยาที่กำหนดไว้ล่วงหน้า เช่น ความยากของข้อสอบ (ต่อไปนี้เรียกว่าβ ) ให้ราดิคัล[ 11 ]เป็นองค์ประกอบโครงสร้างที่ส่งผลกระทบอย่างมีนัยสำคัญต่อพารามิเตอร์ของข้อสอบและทำให้ข้อสอบมีข้อกำหนดทางปัญญาบางประการ ราดิคัลหนึ่งตัวหรือมากกว่าของแบบจำลองข้อสอบสามารถถูกจัดการเพื่อสร้างแบบจำลองข้อสอบหลักที่มีระดับพารามิเตอร์ (เช่นβ ) ที่แตกต่างกัน จากนั้นแบบจำลองหลักแต่ละตัวสามารถขยายตระกูลของตนเองได้โดยการจัดการองค์ประกอบอื่นๆ ที่ Irvine [ 11 ]เรียกว่าอินซิเดนทัล อินซิเดนทัลเป็นคุณลักษณะพื้นผิวที่มีการเปลี่ยนแปลงแบบสุ่มจากข้อสอบหนึ่งไปยังอีกข้อสอบหนึ่งภายในตระกูลเดียวกัน ข้อสอบที่มีโครงสร้างของราดิคัลเหมือนกันและแตกต่างกันเฉพาะในอินซิเดนทัลมักจะถูกเรียกว่า ไอโซม อร์[ 13 ]หรือโคลน[ 14 ] [ 15 ]

การโคลนนิ่งรายการอาจมีสองประเภท: ในด้านหนึ่ง โมเดลรายการอาจประกอบด้วยรายการที่มีช่องว่างเปิดหนึ่งช่องหรือมากกว่า และการโคลนนิ่งจะทำโดยการเติมช่องว่างแต่ละช่องด้วยองค์ประกอบที่เลือกจากรายการความเป็นไปได้ ในอีกด้านหนึ่ง โมเดลรายการอาจเป็นรายการที่สมบูรณ์ซึ่งถูกโคลนนิ่งโดยการแนะนำการแปลง เช่น การเปลี่ยนมุมของวัตถุในการทดสอบความสามารถเชิงพื้นที่[ 16 ]การเปลี่ยนแปลงลักษณะพื้นผิวของรายการเหล่านี้ไม่ควรส่งผลกระทบอย่างมีนัยสำคัญต่อการตอบสนองของผู้ทดสอบ นี่คือเหตุผลที่เชื่อกันว่าสิ่งแปลกปลอมทำให้เกิดความแตกต่างเพียงเล็กน้อยระหว่างพารามิเตอร์รายการของไอโซมอร์ฟ[ 3 ]

ความคืบหน้าล่าสุด

เครื่องมือสร้างรายการจำนวนหนึ่งได้รับการทดสอบความถูกต้องเชิงวัตถุประสงค์แล้ว

MathGen เป็นโปรแกรมที่สร้างข้อสอบเพื่อทดสอบความสำเร็จทางคณิตศาสตร์ ในบทความปี 2018 สำหรับวารสาร Journal of Educational Measurementผู้เขียน Embretson และ Kingston ได้ทำการทบทวนเชิงคุณภาพอย่างกว้างขวางและการทดลองเชิงประจักษ์เพื่อประเมินคุณสมบัติเชิงคุณภาพและจิตวิทยาของข้อสอบที่สร้างขึ้น โดยสรุปว่าข้อสอบเหล่านั้นประสบความสำเร็จ และข้อสอบที่สร้างจากโครงสร้างข้อสอบเดียวกันมีคุณสมบัติทางจิตวิทยาที่คาดการณ์ได้[ 17 ] [ 18 ]

การทดสอบการแยกแยะทำนองเพลงที่พัฒนาขึ้นโดยใช้แบบจำลองการคำนวณ Rachman-Jun 2015 [ 19 ] ได้ถูกนำมาใช้กับผู้เข้าร่วมในการทดลองในปี 2017 จากข้อมูลที่รวบรวมโดย PM Harrison และคณะ ผลลัพธ์แสดงให้เห็นถึง ความถูกต้องและความน่าเชื่อถือที่แข็งแกร่ง[ 20 ]

Ferreyra และ Backhoff-Escudero [ 21 ]สร้างแบบทดสอบความสามารถพื้นฐาน (Excoba) สองเวอร์ชันคู่ขนาน ซึ่งเป็นแบบทดสอบทั่วไปเกี่ยวกับทักษะทางการศึกษา โดยใช้โปรแกรมที่พวกเขาพัฒนาขึ้นชื่อ GenerEx จากนั้นพวกเขาก็ศึกษาโครงสร้างภายในและความเท่าเทียมกันทางจิตวิทยาของแบบทดสอบที่สร้างขึ้น ผลลัพธ์เชิงประจักษ์ของคุณภาพทางจิตวิทยาโดยรวมเป็นที่น่าพอใจ และแบบทดสอบและข้อสอบมีความสอดคล้องกันตามที่วัดได้จากดัชนีทางจิตวิทยาหลายตัว

Gierl และเพื่อนร่วมงานของเขา[ 22 ] [ 23 ] [ 24 ] [ 25 ]ใช้โปรแกรม AIG ที่เรียกว่า Item Generator (IGOR [ 26 ] ) เพื่อสร้างข้อสอบแบบปรนัยที่ทดสอบความรู้ทางการแพทย์ ข้อสอบที่สร้างโดย IGOR แม้จะเปรียบเทียบกับข้อสอบที่ออกแบบด้วยตนเอง ก็แสดงคุณสมบัติทางจิตวิทยาที่ดี

Arendasy, Sommer และ Mayr [ 27 ]ใช้ AIG เพื่อสร้างรายการคำพูดเพื่อทดสอบความคล่องแคล่วทางวาจาในภาษาเยอรมันและภาษาอังกฤษ โดยให้ผู้เข้าร่วมที่พูดภาษาเยอรมันและภาษาอังกฤษทำการทดสอบตามลำดับ รายการที่สร้างโดยคอมพิวเตอร์แสดงให้เห็นคุณสมบัติทางจิตวิทยาที่ยอมรับได้ ชุดรายการที่ใช้กับทั้งสองกลุ่มนี้อิงตามชุดรายการอ้างอิงระหว่างภาษาทั่วไป ซึ่งอำนวยความสะดวกในการเปรียบเทียบประสิทธิภาพข้ามภาษา

Holling, Bertling และ Zeuch [ 28 ]ใช้ทฤษฎีความน่าจะเป็นเพื่อสร้างโจทย์ปัญหาทางคณิตศาสตร์โดยอัตโนมัติด้วยระดับความยากที่คาดหวัง พวกเขาได้แบบจำลอง Rasch [ 29 ]ที่เหมาะสม และความยากของข้อสอบสามารถอธิบายได้ด้วยแบบจำลองการทดสอบโลจิสติกเชิงเส้น (LLTM [ 30 ] ) เช่นเดียวกับ LLTM แบบ Random-Effects Holling, Blank, Kuchenbäcker และ Kuhn [ 31 ]ได้ทำการศึกษาที่คล้ายกันกับโจทย์ปัญหาทางสถิติ แต่ไม่ได้ใช้ AIG Arendasy และเพื่อนร่วมงานของเขา[ 32 ] [ 33 ]ได้นำเสนอการศึกษาเกี่ยวกับโจทย์ปัญหาพีชคณิตที่สร้างขึ้นโดยอัตโนมัติ และตรวจสอบว่ากรอบการควบคุมคุณภาพของ AIG สามารถส่งผลต่อคุณภาพการวัดของข้อสอบได้อย่างไร

การสร้างรายการรูปภาพโดยอัตโนมัติ

ตัวอย่างการเปรียบเทียบเชิงรูปธรรมโดยใช้กฎสี่ข้อที่สร้างขึ้นโดยอัตโนมัติด้วยแพ็กเกจ IMak (สำหรับข้อมูลเพิ่มเติม โปรดดูBlum & Holling 2018 )

โปรแกรมสร้างข้อสอบ (IMak) เป็นโปรแกรมที่เขียนด้วยภาษาโปรแกรม Rสำหรับการสร้างข้อสอบแบบเปรียบเทียบเชิงรูปธรรม คุณสมบัติทางจิตวิทยาของข้อสอบ 23 ข้อที่สร้างโดย IMak พบว่าอยู่ในระดับที่น่าพอใจ และความยากของข้อสอบตามการสร้างกฎสามารถทำนายได้โดยใช้แบบจำลองการทดสอบโลจิสติกเชิงเส้น (LLTM) [ 3 ] [ 34 ]การวิจัยเพิ่มเติมยืนยันความสอดคล้องภายในที่ สูง ของข้อสอบที่สร้างขึ้น[ 35 ] [ 36 ] [ 37 ]

MazeGen เป็นโปรแกรมอีกโปรแกรมหนึ่งที่เขียนด้วยภาษา R ซึ่งสร้างเขาวงกตโดยอัตโนมัติ พบว่าคุณสมบัติทางจิตวิทยาของเขาวงกตดังกล่าว 18 แห่งนั้นเหมาะสมที่สุด รวมถึง ความพอดี ของแบบจำลอง Raschและการทำนายความยากของเขาวงกตด้วย LLTM [ 38 ]

GeomGen เป็นโปรแกรมที่สร้างเมทริกซ์รูปภาพ[ 39 ]การศึกษาที่ระบุแหล่งที่มาของอคติในการวัดที่เกี่ยวข้องกับกลยุทธ์การกำจัดคำตอบสำหรับรายการเมทริกซ์รูปภาพสรุปว่าความโดดเด่นของตัวลวงส่งเสริมการแสวงหากลยุทธ์การกำจัดคำตอบ และความรู้นี้สามารถนำไปรวมเข้ากับ AIG เพื่อปรับปรุงความถูกต้องเชิงโครงสร้างของรายการดังกล่าวได้[ 40 ]กลุ่มเดียวกันนี้ใช้ AIG เพื่อศึกษาการทำงานของรายการที่แตกต่างกัน (DIF) และความแตกต่างทางเพศที่เกี่ยวข้องกับการหมุนทางจิตพวกเขาจัดการคุณลักษณะการออกแบบรายการที่แสดง DIF ทางเพศในการศึกษาครั้งก่อนๆ และพวกเขาแสดงให้เห็นว่าการประมาณขนาดผลกระทบของความแตกต่างทางเพศถูกลดทอนลงโดยการมีอยู่ของ DIF ทางเพศประเภทต่างๆ ที่อาจเกี่ยวข้องกับคุณลักษณะการออกแบบรายการเฉพาะ[ 41 ] [ 42 ]

Arendasy ยังศึกษาการละเมิดคุณภาพทางจิตวิทยาที่อาจเกิดขึ้นได้ โดยระบุโดยใช้ทฤษฎีการตอบสนองต่อข้อสอบ (IRT) ของข้อสอบการให้เหตุผลเชิงพื้นที่ภาพที่สร้างขึ้นโดยอัตโนมัติ เพื่อจุดประสงค์นี้ เขาได้นำเสนอโปรแกรมสองโปรแกรม ได้แก่ GeomGen [ 39 ]และ Endless Loop Generator (EsGen) เขาได้สรุปว่า GeomGen เหมาะสำหรับ AIG มากกว่า เนื่องจากสามารถนำหลักการ IRT มาใช้ในระหว่างการสร้างข้อสอบได้[ 43 ]ในโครงการวิจัยคู่ขนานที่ใช้ GeomGen นั้น Arendasy และ Sommer [ 44 ]พบว่าการเปลี่ยนแปลงการจัดระเบียบการรับรู้ของข้อสอบอาจส่งผลต่อประสิทธิภาพของผู้ตอบแบบสอบถาม ขึ้นอยู่กับระดับความสามารถของพวกเขา และมีผลต่อดัชนีคุณภาพทางจิตวิทยาหลายประการ ด้วยผลลัพธ์เหล่านี้ พวกเขาจึงตั้งคำถามถึงสมมติฐานเรื่องมิติเดียวของข้อสอบเมทริกซ์รูปภาพโดยทั่วไป

MatrixDeveloper [ 45 ] ถูกใช้เพื่อสร้างรายการ เมทริกซ์สี่เหลี่ยมจัตุรัสขนาด 4x4 จำนวน 25 รายการโดยอัตโนมัติ รายการเหล่านี้ถูกนำไปใช้กับบุคคล 169 คน จากผลการวิจัยพบว่ารายการเหล่านี้ มีความเหมาะสมกับ แบบจำลอง Rasch ที่ดี และการสร้างตามกฎสามารถอธิบายความยากของรายการได้[ 46 ]

เครื่องกำเนิดเมทริกซ์รายการแรกที่รู้จักได้รับการออกแบบโดย Embretson [ 47 ] [ 14 ]และรายการที่สร้างขึ้นโดยอัตโนมัติของเธอแสดงให้เห็นคุณสมบัติทางจิตวิทยาที่ดี ดังที่ Embretson และ Reise ได้แสดงไว้[ 48 ]เธอยังเสนอแบบจำลองสำหรับการสร้างรายการออนไลน์ที่เหมาะสมอีกด้วย

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Automatic_item_generation&oldid=1347441128 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การสร้างรายการอัตโนมัติ

การสร้างข้อสอบอัตโนมัติ ( Automatic Item Generation หรือ AIG ) หรือ การสร้างข้อสอบอัตโนมัติ เป็นกระบวนการที่เชื่อม โยงจิตวิทยาการวัดผล กับ การเขียนโปรแกรมคอมพิวเตอร์ โดยใช้...

บริบท

ใน การทดสอบทางจิตวิทยา การตอบสนองของผู้เข้ารับการทดสอบต่อข้อสอบจะให้ข้อมูลการวัดเชิงวัตถุประสงค์สำหรับลักษณะต่างๆ ของมนุษย์[ 8 ] ลักษณะ บางอย่างที่วัดได้จากการทดสอบทางจิตวิทยาและการศึกษา ได้แก่ ความสามารถทางวิชาการ ผลการเรียน สติปัญญา แรง จูงใจ ฯลฯ

ประโยชน์

AIG ช่วยลดต้นทุนในการผลิต แบบทดสอบมาตรฐาน [ 10 ] เนื่องจากอัลกอริทึมสามารถสร้างข้อสอบได้มากกว่าผู้เชี่ยวชาญ ด้าน การทดสอบที่เป็นมนุษย์ในระยะเวลาที่กำหนด สามารถสร้างแบบทดสอบคู่ขนานได้อย่างรวดเร็วและง่ายดาย...

รากศัพท์ ส่วนประกอบ และไอโซมอร์ฟ

การพัฒนาการทดสอบ (รวมถึง AIG) สามารถได้รับการปรับปรุงให้ดีขึ้นได้หากอิงตามทฤษฎีทางปัญญาใดๆ กระบวนการทางปัญญาที่นำมาจากทฤษฎีที่กำหนดมักจะจับคู่กับคุณลักษณะของข้อสอบในระหว่างการสร้าง...