อ่าน 13 นาที
การทำงานของรายการที่แตกต่างกัน
การทำงานของข้อสอบที่แตกต่างกัน ( DIF ) เป็นคุณสมบัติทางสถิติของข้อสอบที่บ่งชี้ว่าบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีความสามารถใกล้เคียงกันมีแนวโน้มที่จะตอบคำถามแตกต่างกันมากน้อยเพียงใ...
การทำงานของรายการที่แตกต่างกัน
การทำงานของข้อสอบที่แตกต่างกัน ( DIF ) เป็นคุณสมบัติทางสถิติของข้อสอบที่บ่งชี้ว่าบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีความสามารถใกล้เคียงกันมีแนวโน้มที่จะตอบคำถามแตกต่างกันมากน้อยเพียงใด DIF เกิดขึ้นเมื่อบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีระดับทักษะที่เทียบเคียงกันได้ไม่ได้มีโอกาสตอบคำถามได้อย่างถูกต้องเท่ากัน DIF มีสองประเภทหลัก ได้แก่DIF แบบสม่ำเสมอซึ่งกลุ่มหนึ่งได้เปรียบอีกกลุ่มหนึ่งอย่างสม่ำเสมอ และDIF แบบไม่สม่ำเสมอซึ่งความได้เปรียบจะแตกต่างกันไปตามระดับความสามารถของแต่ละบุคคล[ 1 ]
การมีอยู่ของ DIF จำเป็นต้องมีการตรวจสอบและตัดสิน แต่ไม่ได้หมายความว่าจะมีอคติเสมอไป การวิเคราะห์ DIF เป็นการบ่งชี้ถึงพฤติกรรมที่ไม่คาดคิดของข้อสอบ ลักษณะ DIF ของข้อสอบไม่ได้ถูกกำหนดโดยความน่าจะเป็นที่แตกต่างกันของการเลือกคำตอบเฉพาะในหมู่บุคคลจากกลุ่มต่างๆ เท่านั้น แต่ DIF จะเด่นชัดขึ้นเมื่อบุคคลจากกลุ่มต่างๆ ซึ่งมีความสามารถที่แท้จริงพื้นฐานเหมือนกันแสดงความน่าจะเป็นที่แตกต่างกันในการให้คำตอบบางอย่าง แม้ว่าจะมีอคติแบบสม่ำเสมออยู่ ผู้พัฒนาข้อสอบบางครั้งก็ใช้สมมติฐานเช่นว่าอคติ DIF อาจหักล้างกันได้เนื่องจากต้องใช้ความพยายามอย่างมากในการแก้ไข ซึ่งเป็นการประนีประนอมจริยธรรมของการทดสอบและทำให้เกิดอคติเชิงระบบต่อไป[ 2 ]
ขั้นตอนทั่วไปในการประเมิน DIF ได้แก่ขั้นตอน Mantel-Haenszel การถดถอยโลจิสติก วิธีการ ตามทฤษฎีการตอบสนองของรายการ (IRT) และ วิธีการตาม การวิเคราะห์ปัจจัยยืนยัน (CFA) [ 3 ]
คำอธิบาย
DIF หมายถึงความแตกต่างในการทำงานของข้อสอบในกลุ่มต่างๆ ซึ่งมักจะเป็นกลุ่มประชากรที่ตรงกันตามคุณลักษณะแฝง หรือโดยทั่วไปคือคุณลักษณะที่ข้อสอบหรือแบบทดสอบวัด[ 4 ] [ 5 ]สิ่งสำคัญคือต้องสังเกตว่าเมื่อตรวจสอบข้อสอบเพื่อหา DIF กลุ่มต่างๆ จะต้องตรงกันตามคุณลักษณะที่วัดได้ มิฉะนั้นอาจส่งผลให้การตรวจจับ DIF ไม่ถูกต้อง
เพื่อให้เข้าใจ DIF หรืออคติในการวัดโดยทั่วไป ลองพิจารณาตัวอย่างต่อไปนี้ที่เสนอโดย Osterlind และ Everson (2009) [ 6 ]ในกรณีนี้หมายถึงการตอบสนองต่อข้อสอบเฉพาะข้อหนึ่งซึ่งกำหนดโดยโครงสร้างแฝงที่กำลังวัด โครงสร้างแฝงที่สนใจเรียกว่า theta ( ) โดยที่เป็นตัวบ่งชี้ของซึ่งสามารถจัดเรียงตามการกระจายความน่าจะเป็นของบนโดยนิพจน์ดังนั้น การตอบสนองจึงขึ้นอยู่กับลักษณะแฝง ( )
เนื่องจาก DIF ตรวจสอบความแตกต่างในความน่าจะเป็นแบบมีเงื่อนไขระหว่างกลุ่ม เราจึงกำหนดกลุ่มเป็นกลุ่ม " อ้างอิง " และกลุ่ม "เป้าหมาย" แม้ว่าการกำหนดจะไม่สำคัญ แต่โดยทั่วไปในวรรณกรรมจะกำหนดให้กลุ่มอ้างอิงเป็นกลุ่มที่คาดว่าจะได้เปรียบ ในขณะที่กลุ่มเป้าหมายหมายถึงกลุ่มที่คาดว่าจะเสียเปรียบจากการทดสอบ[ 4 ]ดังนั้น เมื่อพิจารณาความสัมพันธ์เชิงฟังก์ชันและภายใต้สมมติฐานว่ามี การกระจาย ข้อผิดพลาดในการวัด ที่เหมือนกัน สำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย จึงสามารถสรุปได้ว่าภายใต้สมมติฐานว่าง : โดยที่สอดคล้องกับตัวแปรการจัดกลุ่ม กลุ่มอ้างอิง และกลุ่มเป้าหมาย
สมการนี้แสดงถึงกรณีที่ไม่มี DIF ในกรณีนี้ การไม่มี DIF ถูกกำหนดโดยข้อเท็จจริงที่ว่าการแจกแจงความน่าจะเป็นแบบมีเงื่อนไข ของ ไม่ขึ้นอยู่กับการเป็นสมาชิกกลุ่ม เพื่อให้เห็นภาพ ลองพิจารณาข้อสอบที่มีตัวเลือกคำตอบและโดยที่แสดงถึงคำตอบที่ผิด และแสดงถึงคำตอบที่ถูกต้อง ความน่าจะเป็นของการตอบคำถามได้อย่างถูกต้องนั้นเท่ากันสำหรับสมาชิกของทั้งสองกลุ่ม ซึ่งบ่งชี้ว่าไม่มี DIF หรือความลำเอียงของข้อสอบ เนื่องจากสมาชิกของกลุ่มอ้างอิงและกลุ่มเป้าหมายที่มีความสามารถหรือคุณลักษณะพื้นฐานเดียวกันมีความน่าจะเป็นในการตอบคำถามได้อย่างถูกต้องเท่ากัน ดังนั้นจึงไม่มีความลำเอียงหรือความเสียเปรียบสำหรับกลุ่มใดกลุ่มหนึ่งเหนืออีกกลุ่มหนึ่ง
พิจารณากรณีที่ความน่าจะเป็นแบบมีเงื่อนไขของไม่เท่ากันสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย กล่าวคือ สมาชิกของกลุ่มต่างๆ ที่มีลักษณะหรือระดับความสามารถเดียวกัน มีการกระจายความน่าจะเป็นที่ไม่เท่ากันบนเมื่อควบคุมตัวแปร แล้วจะเห็นความสัมพันธ์ที่ชัดเจนระหว่างการเป็นสมาชิกกลุ่มและประสิทธิภาพในการทำข้อสอบ สำหรับ ข้อสอบ แบบสองตัวเลือก สิ่งนี้ชี้ให้เห็นว่า เมื่อกลุ่มเป้าหมายและกลุ่มอ้างอิงอยู่ที่ตำแหน่งเดียวกันบนจะมีความน่าจะเป็นที่แตกต่างกันในการตอบคำถามได้อย่างถูกต้องหรือเห็นด้วยกับข้อสอบ ดังนั้น กลุ่มที่มีความน่าจะเป็นแบบมีเงื่อนไขสูงกว่าในการตอบคำถามได้อย่างถูกต้อง คือกลุ่มที่ได้เปรียบจากข้อสอบนั้น สิ่งนี้ชี้ให้เห็นว่าข้อสอบนั้นมีอคติและทำงานแตกต่างกันสำหรับแต่ละกลุ่ม จึงแสดงให้เห็นถึง DIF (Differential Filtering)
สิ่งสำคัญคือต้องแยกแยะความแตกต่างระหว่าง DIF หรืออคติในการวัดและความแตกต่างระหว่างกลุ่มทั่วไป ความแตกต่างระหว่างกลุ่มบ่งชี้ถึงการกระจายคะแนนที่แตกต่างกันบนDIF เกี่ยวข้องกับการกำหนดเงื่อนไขบน อย่างชัดเจนตัวอย่างเช่น พิจารณาสมการต่อไปนี้: สม การนี้บ่งชี้ว่าคะแนนของผู้สอบขึ้นอยู่กับการจัดกลุ่ม โดยที่การมีข้อมูลเกี่ยวกับการเป็นสมาชิกกลุ่มจะเปลี่ยนความน่าจะเป็นของการตอบที่ถูกต้อง ดังนั้น หากกลุ่มแตกต่างกันบนและประสิทธิภาพขึ้นอยู่กับสมการข้างต้นจะบ่งชี้ถึงอคติของข้อสอบแม้ว่าจะไม่มี DIF ก็ตาม ด้วยเหตุนี้ จึงเป็นที่ยอมรับกันโดยทั่วไปในวรรณกรรมด้านการวัดว่าความแตกต่างบน โดยมีเงื่อนไขเกี่ยวกับการเป็นสมาชิกกลุ่มเพียงอย่างเดียวนั้นไม่เพียงพอสำหรับการสร้างอคติ[ 7 ] [ 8 ] [ 9 ]
อันที่จริง ความแตกต่างด้านความสามารถหรือทักษะเป็นเรื่องปกติระหว่างกลุ่มต่างๆ และเป็นพื้นฐานของการวิจัยมากมาย โปรดจำไว้ว่า ในการตรวจสอบความลำเอียงหรือ DIF กลุ่มต่างๆ จะต้องได้รับการจับคู่กันในด้านต่างๆจากนั้นจึงแสดงให้เห็นถึงความน่าจะเป็นที่แตกต่างกันโดยขึ้นอยู่กับการเป็นสมาชิกของกลุ่ม
แบบฟอร์ม
DIF แบบสม่ำเสมอเป็น DIF ประเภทที่ง่ายที่สุด โดยที่ขนาดของการพึ่งพาแบบมีเงื่อนไขค่อนข้างคงที่ตลอดช่วงความต่อเนื่องของคุณลักษณะแฝง ( ) รายการที่สนใจจะให้ข้อได้เปรียบแก่กลุ่มหนึ่งอย่างสม่ำเสมอในทุกระดับความสามารถ[ 10 ] ภายใน กรอบทฤษฎีการตอบสนองต่อรายการ (IRT) สิ่งนี้จะปรากฏให้เห็นเมื่อ เส้นโค้งลักษณะเฉพาะของรายการ (ICC) ทั้งสอง เส้นมีความสามารถ ในการจำแนกที่เท่ากัน แต่แสดงความแตกต่างในพารามิเตอร์ความยาก (เช่นและ) ดังที่แสดงในรูปที่ 1 [ 11 ]
อย่างไรก็ตามDIF ที่ไม่สม่ำเสมอเป็นกรณีที่น่าสนใจ แทนที่จะให้ข้อได้เปรียบที่สม่ำเสมอแก่กลุ่มอ้างอิงตลอดช่วงความสามารถ การพึ่งพาแบบมีเงื่อนไขจะเคลื่อนที่และเปลี่ยนทิศทางที่ตำแหน่งต่างๆ บนช่วงความสามารถ[ 12 ]ตัวอย่างเช่น ข้อสอบหนึ่งอาจให้ข้อได้เปรียบเล็กน้อยแก่กลุ่มอ้างอิงที่ปลายล่างของช่วงความสามารถ ในขณะที่ให้ข้อได้เปรียบอย่างมากที่ปลายบน นอกจากนี้ ต่างจาก DIF ที่สม่ำเสมอ ข้อสอบหนึ่งสามารถเปลี่ยนแปลงการจำแนกสำหรับทั้งสองกลุ่มได้พร้อมกัน ในขณะเดียวกันก็เปลี่ยนแปลงความยาก (เช่นและ)
สิ่งที่ซับซ้อนยิ่งกว่าคือDIF ที่ไม่สม่ำเสมอแบบ "ตัดกัน"ดังแสดงในรูปที่ 2 สิ่งนี้เกิดขึ้นเมื่อข้อสอบให้ความได้เปรียบแก่กลุ่มอ้างอิงที่ปลายด้านหนึ่งของช่วงความต่อเนื่อง ในขณะที่ให้ความได้เปรียบแก่กลุ่มเป้าหมายที่ปลายอีกด้านหนึ่ง ความแตกต่างของค่า ICC บ่งชี้ว่าผู้สอบจากสองกลุ่มที่มีระดับความสามารถเท่ากันมีโอกาสในการตอบคำถามได้อย่างถูกต้องไม่เท่ากัน เมื่อเส้นโค้งแตกต่างกันแต่ไม่ตัดกัน นี่คือหลักฐานของ DIF ที่สม่ำเสมอ อย่างไรก็ตาม หากค่า ICC ตัดกันที่จุดใดจุดหนึ่งตามมาตราส่วน นั่นคือหลักฐานของ DIF ที่ไม่สม่ำเสมอ
ขั้นตอนการตรวจหา DIF
แมนเทล-ฮาเอ็นเซล
วิธีการทั่วไปในการตรวจจับ DIF คือวิธีการ Mantel-Haenszel (MH) [ 13 ]วิธีการ MH เป็น วิธีการที่ใช้ตารางความสัมพันธ์ ไคสแควร์ซึ่งตรวจสอบความแตกต่างระหว่างกลุ่มอ้างอิงและกลุ่มเป้าหมายในทุกรายการของการทดสอบทีละรายการ[ 14 ]ระดับความสามารถที่กำหนดโดยคะแนนรวมของการทดสอบจะถูกแบ่งออกเป็นช่วง ซึ่งจะใช้เป็นพื้นฐานในการจับคู่สมาชิกของทั้งสองกลุ่ม[ 15 ]ตารางความสัมพันธ์ 2 × 2 จะถูกใช้ในแต่ละช่วงของการเปรียบเทียบทั้งสองกลุ่มในแต่ละรายการ แถวของตารางความสัมพันธ์จะสอดคล้องกับการเป็นสมาชิกกลุ่ม (อ้างอิงหรือกลุ่มเป้าหมาย) ในขณะที่คอลัมน์จะสอดคล้องกับการตอบที่ถูกต้องหรือไม่ถูกต้อง ตารางต่อไปนี้แสดงรูปแบบทั่วไปสำหรับรายการเดียวในช่วงความสามารถที่ th
ผลลัพธ์ กลุ่ม | ถูกต้อง (1) | ไม่ถูกต้อง (0) | ทั้งหมด |
|---|---|---|---|
| อ้างอิง | |||
| โฟกัส | |||
| ทั้งหมด |
หมายเหตุ: , , และสอดคล้องกับความถี่ของเซลล์ที่สังเกตได้ ตัวห้อยสอดคล้องกับช่วงความสามารถ
อัตราส่วนความน่าจะเป็น
ขั้นตอนต่อไปในการคำนวณสถิติ MH คือการใช้ข้อมูลจากตารางความสัมพันธ์เพื่อหาอัตราส่วนความน่าจะเป็นสำหรับสองกลุ่มในรายการที่สนใจในช่วงเวลาที่กำหนด ซึ่งแสดงออกมาในรูปของและโดยที่แทนสัดส่วนที่ถูกต้องและสัดส่วนที่ไม่ถูกต้องสำหรับทั้งกลุ่มอ้างอิง ( ) และกลุ่มเป้าหมาย ( ) สำหรับขั้นตอน MH อัตราส่วนความน่าจะเป็นที่ได้จะแสดงด้วยโดยมีค่าที่เป็นไปได้ตั้งแต่ถึงค่า1.0 บ่งชี้ว่าไม่มี DIF และดังนั้นจึงมีประสิทธิภาพที่คล้ายคลึงกันของทั้งสองกลุ่ม ค่าที่มากกว่าแสดงว่ากลุ่มอ้างอิงมีประสิทธิภาพดีกว่าหรือพบว่ารายการนั้นยากน้อยกว่ากลุ่มเป้าหมาย ในทางกลับกัน หากค่าที่ได้น้อยกว่าแสดงว่ารายการนั้นยากน้อยกว่าสำหรับกลุ่มเป้าหมาย[ 9 ]
โดยใช้ตัวแปรจากตารางความสัมพันธ์ข้างต้น การคำนวณจะเป็นดังนี้: การคำนวณข้างต้นเกี่ยวข้องกับรายการแต่ละรายการในช่วงความสามารถเดียว การประมาณค่าประชากรสามารถขยายเพื่อสะท้อนอัตราส่วนความน่าจะเป็นร่วมกันในทุกช่วงความสามารถสำหรับรายการเฉพาะอัตราส่วน ความน่าจะเป็นร่วมกัน จะถูกกำหนดโดยและสามารถคำนวณได้โดยสมการต่อไปนี้: สำหรับทุกค่าของและ โดยที่แทนขนาดตัวอย่างทั้งหมดในช่วงที่
ค่าที่ได้มักจะถูกทำให้เป็นมาตรฐานโดยการแปลงลอการิทึม โดยกำหนดค่าศูนย์กลางไว้ที่ 0 [ 16 ]ตัวประมาณค่าที่แปลงใหม่จะคำนวณดังนี้: ดังนั้นค่าที่ได้ 0 จะบ่งชี้ว่าไม่มี DIF ในการตรวจสอบสมการ สิ่งสำคัญคือต้องสังเกตว่าเครื่องหมายลบจะเปลี่ยนการตีความค่าที่น้อยกว่าหรือมากกว่า 0 ค่าที่น้อยกว่า 0 บ่งชี้ถึงความได้เปรียบของกลุ่มอ้างอิง ในขณะที่ค่าที่มากกว่า 0 บ่งชี้ถึงความได้เปรียบสำหรับกลุ่มเป้าหมาย
ทฤษฎีการตอบสนองต่อรายการ
ทฤษฎีการตอบสนองต่อข้อสอบ (IRT) เป็นอีกวิธีหนึ่งที่ใช้กันอย่างแพร่หลายในการประเมิน DIF IRT ช่วยให้สามารถตรวจสอบการตอบสนองต่อข้อสอบเฉพาะข้อใดข้อหนึ่งจากแบบทดสอบหรือการวัดได้อย่างละเอียดถี่ถ้วน ดังที่กล่าวไว้ก่อนหน้านี้ DIF ตรวจสอบความน่าจะเป็นของการตอบหรือรับรองข้อสอบอย่างถูกต้องโดยพิจารณาจากคุณลักษณะหรือความสามารถแฝง เนื่องจาก IRT ตรวจสอบ ความสัมพันธ์ แบบโมโนโทนิกระหว่างการตอบสนองและคุณลักษณะหรือความสามารถแฝง จึงเป็นแนวทางที่เหมาะสมสำหรับการตรวจสอบ DIF [ 17 ]
ข้อดีหลักสามประการของการใช้ IRT ในการตรวจจับ DIF คือ: [ 18 ]
- เมื่อเปรียบเทียบกับทฤษฎีการทดสอบแบบคลาสสิก การประมาณ ค่าพารามิเตอร์ของ IRT จะไม่ได้รับผลกระทบจากลักษณะของกลุ่มตัวอย่างมากนัก
- คุณสมบัติทางสถิติของรายการต่างๆ สามารถแสดงออกมาได้อย่างแม่นยำยิ่งขึ้น ซึ่งจะช่วยเพิ่มความถูกต้องในการตีความ DIF ระหว่างสองกลุ่ม
- คุณสมบัติทางสถิติของสิ่งของเหล่านี้สามารถแสดงออกมาในรูปแบบกราฟได้ ซึ่งจะช่วยให้ตีความและเข้าใจได้ง่ายขึ้นว่าสิ่งของแต่ละชนิดทำงานแตกต่างกันอย่างไรในแต่ละกลุ่ม
ในส่วนที่เกี่ยวข้องกับ DIF นั้น จะมีการคำนวณค่าประมาณพารามิเตอร์ของข้อสอบ และตรวจสอบด้วยกราฟเส้นโค้งลักษณะเฉพาะของข้อสอบ (ICC) ซึ่งอาจเรียกอีกอย่างว่าเส้นติดตามหรือฟังก์ชันการตอบสนองของข้อสอบ (IRF) หลังจากตรวจสอบ ICC แล้ว และหากสงสัยว่ามี DIF จะมีการใช้กระบวนการทางสถิติเพื่อทดสอบความแตกต่างระหว่างค่าประมาณพารามิเตอร์
ICC แสดงถึงฟังก์ชันทางคณิตศาสตร์ของความสัมพันธ์ระหว่างตำแหน่งบนความต่อเนื่องของลักษณะแฝงและความน่าจะเป็นของการให้คำตอบเฉพาะ[ 19 ]รูปที่ 3 แสดงความสัมพันธ์นี้ในรูปของฟังก์ชันโลจิสติกบุคคลที่มีระดับลักษณะแฝงต่ำหรือมีความสามารถน้อยกว่าจะมีความน่าจะเป็นน้อยกว่าที่จะได้รับคำตอบที่ถูกต้องหรือเห็นด้วยกับรายการ โดยเฉพาะอย่างยิ่งเมื่อความยากเพิ่มขึ้น ดังนั้น ผู้ที่มีระดับลักษณะแฝงหรือความสามารถสูงกว่าจะมีโอกาสมากกว่าที่จะได้รับคำตอบที่ถูกต้องหรือเห็นด้วยกับรายการ ตัวอย่างเช่น ในแบบสอบถามภาวะซึมเศร้า บุคคลที่มีภาวะซึมเศร้าสูงจะมีความน่าจะเป็นมากกว่าที่จะเห็นด้วยกับรายการมากกว่าบุคคลที่มีภาวะซึมเศร้าน้อยกว่า ในทำนองเดียวกัน บุคคลที่มีความสามารถทางคณิตศาสตร์สูงกว่าจะมีความน่าจะเป็นมากกว่าที่จะตอบคำถามคณิตศาสตร์ได้ถูกต้องมากกว่าผู้ที่มีความสามารถน้อยกว่า
อีกแง่มุมที่สำคัญของ ICC เกี่ยวข้องกับจุดเปลี่ยนผันนี่คือจุดบนเส้นโค้งที่ความน่าจะเป็นของการตอบสนองเฉพาะคือ 0.5 และยังแสดงถึงค่าสูงสุดของความชันด้วย [ 20 ] จุดเปลี่ยนผันนี้บ่งชี้ว่าความน่าจะเป็นของการตอบสนองที่ถูกต้องหรือการรับรองรายการนั้น ๆ กลายเป็นมากกว่า 50% ยกเว้นเมื่อพารามิเตอร์มากกว่า 0 ซึ่งจะทำให้จุดเปลี่ยนผันอยู่ที่(คำอธิบายจะตามมาด้านล่าง) จุดเปลี่ยนผันถูกกำหนดโดยความยากของรายการซึ่งสอดคล้องกับค่าบนความต่อเนื่องของความสามารถหรือลักษณะแฝง[ 21 ]ดังนั้น สำหรับรายการที่ง่าย จุดเปลี่ยนผันนี้อาจต่ำกว่าบนความต่อเนื่องของความสามารถ ในขณะที่สำหรับรายการที่ยาก จุดเปลี่ยนผันนี้อาจสูงกว่าบนมาตราส่วนเดียวกัน
ก่อนที่จะนำเสนอขั้นตอนทางสถิติสำหรับการทดสอบความแตกต่างของพารามิเตอร์ของข้อสอบ สิ่งสำคัญคือต้องทำความเข้าใจทั่วไปเกี่ยวกับแบบจำลองการประมาณค่าพารามิเตอร์ต่างๆ และพารามิเตอร์ที่เกี่ยวข้องก่อน ซึ่งรวมถึงแบบจำลองโลจิสติกแบบหนึ่งพารามิเตอร์ สองพารามิเตอร์ และสามพารามิเตอร์ (PL) แบบจำลองทั้งหมดนี้ถือว่ามีคุณลักษณะแฝงหรือความสามารถพื้นฐานเพียงอย่างเดียว แบบจำลองทั้งสามนี้มีพารามิเตอร์ความยากของข้อสอบที่แสดงด้วยbสำหรับแบบจำลอง 1PL และ 2PL พารามิเตอร์ bสอดคล้องกับจุดเปลี่ยนบนมาตราส่วนความสามารถ ดังที่กล่าวไว้ข้างต้น ในกรณีของแบบจำลอง 3PL จุดเปลี่ยนสอดคล้องกับ โดยที่เป็นเส้นกำกับล่าง (จะกล่าวถึงต่อไป) ค่าความยากในทางทฤษฎีสามารถอยู่ในช่วงตั้งแต่ -∞ ถึง +∞ อย่างไรก็ตามในทางปฏิบัติมักจะไม่เกิน ±3 ค่าที่สูงกว่าบ่งชี้ว่าข้อสอบยากขึ้น ข้อสอบที่มีพารามิเตอร์ต่ำเป็นข้อสอบง่าย[ 22 ]
พารามิเตอร์อีกตัวหนึ่งที่ประมาณค่าคือพารามิเตอร์การจำแนกที่กำหนดพารามิเตอร์นี้เกี่ยวข้องกับความสามารถของรายการในการจำแนกความแตกต่างระหว่างบุคคลพารามิเตอร์นี้ประมาณค่าในแบบจำลอง 2PL และ 3PL ในกรณีของแบบจำลอง 1PL พารามิเตอร์นี้ถูกจำกัดให้เท่ากันระหว่างกลุ่ม ในส่วนที่เกี่ยวข้องกับ ICC พารามิเตอร์นี้คือความชันของจุดเปลี่ยนความชัน ดังที่กล่าวไว้ก่อนหน้านี้ ความชันจะมีค่าสูงสุดที่จุดเปลี่ยนความชันพารามิเตอร์นี้คล้ายกับพารามิเตอร์ สามารถอยู่ในช่วงตั้งแต่ -∞ ถึง +∞ อย่างไรก็ตามค่าทั่วไปจะน้อยกว่า 2 ในกรณีนี้ ค่าที่สูงกว่าแสดงถึงการจำแนกความแตกต่างระหว่างบุคคลที่มากขึ้น[ 23 ]
แบบจำลอง 3PL มีพารามิเตอร์เพิ่มเติมที่เรียกว่า พารามิเตอร์ การเดาหรือโอกาสเทียม และแสดงด้วยซึ่งสอดคล้องกับค่าแอสิมโทต ล่าง ซึ่งโดยพื้นฐานแล้วอนุญาตให้บุคคลสามารถตอบคำถามระดับปานกลางหรือยากได้อย่างถูกต้องแม้ว่าจะมีทักษะต่ำก็ตาม ค่าของ อยู่ในช่วงระหว่าง 0 ถึง 1 แต่โดยทั่วไปจะต่ำกว่า 0.3 [ 24 ]
เมื่อใช้กระบวนการทางสถิติเพื่อประเมิน DIF พารามิเตอร์ α และβ (การจำแนกและความยาก) เป็นสิ่งที่น่าสนใจเป็นพิเศษ อย่างไรก็ตาม สมมติว่าใช้แบบจำลอง 1PL ซึ่งพารามิเตอร์ถูกจำกัดให้เท่ากันสำหรับทั้งสองกลุ่ม เหลือเพียงการประมาณค่าพารามิเตอร์เท่านั้น หลังจากตรวจสอบ ICC แล้ว จะเห็นความแตกต่างที่ชัดเจนในพารามิเตอร์ของทั้งสองกลุ่ม การใช้วิธีที่คล้ายกับการทดสอบ t ของนักเรียนขั้นตอนต่อไปคือการพิจารณาว่าความแตกต่างในความยากนั้นมีนัยสำคัญทางสถิติ หรือไม่ ภายใต้สมมติฐานว่าง Lord (1980) ได้ให้ สถิติการทดสอบที่คำนวณได้ง่ายและมีการกระจายแบบปกติค่า ความคลาดเคลื่อนมาตรฐาน ของความแตกต่างระหว่าง พารามิเตอร์ βคำนวณได้โดย
สถิติวอลด์
อย่างไรก็ตาม โดยทั่วไปแล้ว โมเดล 2PL หรือ 3PL มักจะเหมาะสมกว่าการใช้โมเดล 1PL กับข้อมูล ดังนั้นจึงควรทดสอบความแตกต่างของค่า DIF ทั้งพารามิเตอร์ α และ β ลอร์ด (1980)เสนอวิธีการอื่นในการทดสอบความแตกต่างของทั้งพารามิเตอร์ α และ β โดยที่พารามิเตอร์ β ถูกกำหนดให้เท่ากันในทุกกลุ่ม การทดสอบนี้ให้ค่าสถิติ Waldซึ่งมีการแจกแจงแบบไคสแควร์ ในกรณีนี้ สมมติฐานว่างที่กำลังทดสอบคือ α = 0
ขั้นแรก คำนวณเมทริกซ์ความแปรปรวนร่วม 2 × 2 ของค่าประมาณพารามิเตอร์สำหรับแต่ละกลุ่ม ซึ่งแทนด้วย และสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย เมทริกซ์ความแปรปรวนร่วมเหล่านี้คำนวณโดยการผกผันเมทริกซ์ข้อมูล ที่ได้มา ถัดไป ความแตกต่างระหว่างพารามิเตอร์ที่ประมาณค่าได้จะถูกใส่ลงในเวกเตอร์ 2 × 1 และแทนด้วย จาก นั้น ประมาณเมทริกซ์ความแปรปรวนร่วมโดยการบวกและโดยใช้ข้อมูลนี้ คำนวณสถิติ Wald ดังนี้: ซึ่งประเมินที่ระดับความเป็นอิสระ 2 องศา
การทดสอบอัตราส่วนความน่าจะเป็น
การทดสอบอัตราส่วนความน่าจะเป็นเป็นอีกวิธีหนึ่งที่ใช้ IRT ในการประเมิน DIF ขั้นตอนนี้เกี่ยวข้องกับการเปรียบเทียบอัตราส่วนของสองแบบจำลอง ภายใต้แบบจำลองพารามิเตอร์ของรายการจะถูกจำกัดให้เท่ากันหรือไม่เปลี่ยนแปลงระหว่างกลุ่มอ้างอิงและกลุ่มเป้าหมาย ภายใต้แบบจำลองพารามิเตอร์ของรายการสามารถเปลี่ยนแปลงได้อย่างอิสระ[ 25 ]ฟังก์ชันความน่าจะเป็นภายใต้จะถูกแสดงด้วยในขณะที่ฟังก์ชันความน่าจะเป็นภายใต้จะถูกกำหนดรายการที่ถูกจำกัดให้เท่ากันจะทำหน้าที่เป็นรายการหลักสำหรับขั้นตอนนี้ ในขณะที่รายการที่สงสัยว่ามี DIF จะได้รับอนุญาตให้เปลี่ยนแปลงได้อย่างอิสระ
โดยการใช้รายการหลักและอนุญาตให้พารามิเตอร์รายการที่เหลือเปลี่ยนแปลงได้ สามารถประเมิน DIF ของหลายรายการพร้อมกันได้[ 26 ]อย่างไรก็ตาม หากอัตราส่วนความน่าจะเป็นบ่งชี้ถึง DIF ที่อาจเกิดขึ้น การวิเคราะห์ทีละรายการจะเหมาะสมเพื่อพิจารณาว่ารายการใดบ้างที่มี DIF หากไม่ใช่ทั้งหมด
อัตราส่วนความน่าจะเป็นของแบบจำลองทั้งสองคำนวณได้จาก หรืออีกทางหนึ่ง อัตราส่วนสามารถแสดงได้ด้วย โดย ที่และเป็นค่าผกผัน และลอการิทึม ของพวกมัน เป็นค่าลบ
โดยประมาณจะเป็นไปตามการแจกแจงไคกำลังสอง โดยเฉพาะอย่างยิ่งกับตัวอย่างขนาดใหญ่ ดังนั้นจึงมีการประเมินโดยระดับความเป็นอิสระที่สอดคล้องกับจำนวนข้อจำกัดที่จำเป็นในการสร้างแบบจำลองที่มีข้อจำกัดจากแบบจำลองที่เปลี่ยนแปลงได้อย่างอิสระ[ 27 ]ตัวอย่างเช่น หากใช้แบบจำลอง 2PL และพารามิเตอร์ทั้งสองสามารถเปลี่ยนแปลงได้อย่างอิสระภายใต้และพารามิเตอร์ทั้งสองนี้ถูกจำกัดภายใต้อัตราส่วนจะถูกประเมินที่ระดับความเป็นอิสระ 2
การถดถอยโลจิสติก
แนวทาง การถดถอยโลจิสติกในการตรวจจับ DIF เกี่ยวข้องกับการวิเคราะห์แยกกันสำหรับแต่ละรายการ ตัวแปรอิสระที่รวมอยู่ในการวิเคราะห์ ได้แก่ การเป็นสมาชิกกลุ่ม ตัวแปรการจับคู่ความสามารถ ซึ่งโดยทั่วไปคือคะแนนรวม และพจน์ปฏิสัมพันธ์ระหว่างทั้งสอง ตัวแปรตามที่สนใจคือความน่าจะเป็นหรือโอกาสที่จะได้คำตอบที่ถูกต้องหรือการรับรองรายการ เนื่องจากผลลัพธ์ที่สนใจแสดงในรูปของความน่าจะเป็นการประมาณค่าความน่าจะเป็นสูงสุดจึงเป็นขั้นตอนที่เหมาะสม[ 28 ]ชุดตัวแปรเหล่านี้สามารถแสดงได้ด้วยสมการการถดถอยต่อไปนี้: โดยที่สอดคล้องกับค่าคงที่หรือความน่าจะเป็นของการตอบสนองเมื่อและเท่ากับ 0 โดยที่เหลือสอดคล้องกับสัมประสิทธิ์น้ำหนักสำหรับแต่ละตัวแปรอิสระตัวแปรอิสระตัวแรกคือ ตัวแปรการจับคู่ที่ใช้เชื่อมโยงบุคคลตามความสามารถ ในกรณีนี้คือคะแนนการทดสอบรวม คล้ายกับที่ใช้ในขั้นตอน Mantel-Haenszel ตัวแปรการเป็นสมาชิกกลุ่มจะถูกกำหนดโดยและในกรณีของการถดถอย จะแสดงผ่าน ตัวแปร ที่เข้ารหัสแบบดัมมี่พจน์สุดท้ายสอดคล้องกับปฏิสัมพันธ์ระหว่างตัวแปรสองตัวที่กล่าวถึงข้างต้น
สำหรับขั้นตอนนี้ ตัวแปรจะถูกป้อนตามลำดับชั้น โดยตามโครงสร้างของสมการการถดถอยที่ให้ไว้ข้างต้น ตัวแปรจะถูกป้อนตามลำดับดังนี้: ตัวแปรจับคู่ตัวแปรจัดกลุ่มและตัวแปรปฏิสัมพันธ์การตรวจสอบ DIF ทำได้โดยการประเมินค่าสถิติไคสแควร์ที่ได้มา โดยมี 2 องศาอิสระ นอกจากนี้ยังมีการทดสอบความสำคัญของการประมาณค่าพารามิเตอร์ด้วย
จากผลลัพธ์ของการถดถอยโลจิสติก จะบ่งชี้ว่ามี DIF หากบุคคลที่จับคู่กันตามความสามารถมีโอกาสตอบสนองต่อข้อสอบแตกต่างกันอย่างมีนัยสำคัญ และส่งผลให้เส้นโค้งการถดถอยโลจิสติกแตกต่างกัน ในทางกลับกัน หากเส้นโค้งของทั้งสองกลุ่มเหมือนกัน แสดงว่าข้อสอบนั้นไม่มีอคติ และดังนั้นจึงไม่มี DIF ในแง่ของ DIF แบบสม่ำเสมอและไม่สม่ำเสมอ หากค่าจุดตัดและพารามิเตอร์ตัวแปรการจับคู่ของทั้งสองกลุ่มไม่เท่ากัน แสดงว่ามี DIF แบบสม่ำเสมอ อย่างไรก็ตาม หากมีพารามิเตอร์ปฏิสัมพันธ์ที่ไม่เป็นศูนย์ แสดงว่ามี DIF แบบไม่สม่ำเสมอ[ 29 ]
ข้อควรพิจารณา
ขนาดตัวอย่าง
ประเด็นแรกที่ต้องพิจารณาคือเรื่องขนาดของกลุ่มตัวอย่าง โดยเฉพาะอย่างยิ่งกลุ่มอ้างอิงและกลุ่มเป้าหมาย ก่อนการวิเคราะห์ใดๆ โดยทั่วไปแล้วเราจะทราบข้อมูลเกี่ยวกับจำนวนคนในแต่ละกลุ่ม เช่น จำนวนชาย/หญิง หรือสมาชิกของกลุ่มชาติพันธุ์/เชื้อชาติ อย่างไรก็ตาม ประเด็นสำคัญกว่านั้นคือจำนวนคนต่อกลุ่มนั้นเพียงพอที่จะมีกำลังทางสถิติ มากพอ ที่จะระบุ DIF ได้หรือไม่ ในบางกรณี เช่น กลุ่มชาติพันธุ์ อาจมีหลักฐานแสดงให้เห็นถึงขนาดกลุ่มที่ไม่เท่ากัน เช่น กลุ่มคนผิวขาวเป็นกลุ่มตัวอย่างที่ใหญ่กว่ากลุ่มชาติพันธุ์แต่ละกลุ่มมาก ดังนั้น ในกรณีเช่นนี้ อาจเหมาะสมที่จะปรับเปลี่ยนหรือแก้ไขข้อมูลเพื่อให้กลุ่มที่นำมาเปรียบเทียบเพื่อหา DIF มีขนาดเท่ากันหรือใกล้เคียงกันมากขึ้น
การเข้ารหัสหรือการเข้ารหัสใหม่แบบดัมมี่เป็นวิธีการทั่วไปที่ใช้เพื่อปรับความไม่เท่าเทียมกันในขนาดของกลุ่มอ้างอิงและกลุ่มเป้าหมาย ในกรณีนี้ กลุ่มชาติพันธุ์ที่ไม่ใช่คนผิวขาวทั้งหมดสามารถจัดกลุ่มเข้าด้วยกันเพื่อให้มีขนาดตัวอย่างที่ค่อนข้างเท่ากันสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย ซึ่งจะช่วยให้สามารถเปรียบเทียบการทำงานของข้อสอบแบบ "ส่วนใหญ่/ส่วนน้อย" ได้ หากไม่มีการปรับเปลี่ยนและดำเนินการตามขั้นตอน DIF อาจไม่มีกำลังทางสถิติเพียงพอที่จะระบุ DIF ได้ แม้ว่าจะมี DIF ระหว่างกลุ่มก็ตาม
อีกประเด็นหนึ่งที่เกี่ยวข้องกับขนาดของกลุ่มตัวอย่างโดยตรงนั้น เกี่ยวข้องกับกระบวนการทางสถิติที่ใช้ในการตรวจหา DIF นอกเหนือจากการพิจารณาขนาดของกลุ่มตัวอย่างอ้างอิงและกลุ่มเป้าหมายแล้ว คุณลักษณะบางประการของกลุ่มตัวอย่างเองก็ต้องเป็นไปตามข้อสมมติฐานของแต่ละการทดสอบทางสถิติที่ใช้ในการตรวจหา DIF ด้วย
ตัวอย่างเช่น การใช้แนวทาง IRT อาจต้องใช้กลุ่มตัวอย่างขนาดใหญ่กว่าที่จำเป็นสำหรับวิธีการ Mantel-Haenszel ซึ่งเป็นสิ่งสำคัญ เนื่องจากการตรวจสอบขนาดกลุ่มอาจนำไปสู่การเลือกใช้วิธีการใดวิธีการหนึ่งมากกว่าอีกวิธีหนึ่ง ในแนวทางการถดถอยโลจิสติกส์ค่าที่มีการใช้ประโยชน์และค่าผิดปกติเป็นสิ่งที่ต้องให้ความสำคัญเป็นพิเศษและต้องได้รับการตรวจสอบก่อนการตรวจหา DIF นอกจากนี้ เช่นเดียวกับการวิเคราะห์ทั้งหมด ต้องเป็นไปตามข้อสมมติฐานของการทดสอบทางสถิติ วิธีการบางอย่างมีความทนทานต่อการละเมิดเล็กน้อยมากกว่า ในขณะที่บางวิธีมีความทนทานน้อยกว่า ดังนั้น ควรตรวจสอบลักษณะการกระจายตัวของผลตอบสนองของกลุ่มตัวอย่างก่อนที่จะนำวิธีการ DIF ใดๆ มาใช้
รายการ
การกำหนดจำนวนข้อที่ใช้ในการตรวจหา DIF นั้นต้องพิจารณาอย่างรอบคอบ ไม่มีมาตรฐานตายตัวว่าควรใช้ข้อคำถามกี่ข้อในการตรวจหา DIF เนื่องจากจำนวนข้อคำถามจะแตกต่างกันไปในแต่ละการศึกษา ในบางกรณี การทดสอบข้อคำถามทั้งหมดเพื่อหา DIF อาจเหมาะสม ในขณะที่บางกรณีอาจไม่จำเป็น หากสงสัยว่ามีเพียงบางข้อคำถามที่มี DIF โดยมีเหตุผลที่เพียงพอ การทดสอบข้อคำถามเหล่านั้นอาจเหมาะสมกว่าการทดสอบทั้งชุด อย่างไรก็ตาม บ่อยครั้งที่ยากที่จะคาดเดาว่าข้อคำถามใดอาจมีปัญหา ด้วยเหตุนี้ จึงมักแนะนำให้ตรวจสอบข้อคำถามทั้งหมดพร้อมกันเพื่อหา DIF ซึ่งจะให้ข้อมูลเกี่ยวกับข้อคำถามทั้งหมด ช่วยให้เห็นภาพข้อคำถามที่มีปัญหา รวมถึงข้อคำถามที่ทำงานคล้ายกันทั้งในกลุ่มอ้างอิงและกลุ่มเป้าหมาย
ในส่วนของการทดสอบทางสถิติ ขั้นตอนบางอย่าง เช่น การทดสอบอัตราส่วนความน่าจะเป็นของ IRT จำเป็นต้องใช้รายการอ้างอิง รายการบางรายการถูกกำหนดให้เท่ากันในทุกกลุ่ม ในขณะที่รายการที่สงสัยว่ามี DIF จะได้รับอนุญาตให้แตกต่างกันได้อย่างอิสระ ในกรณีนี้ จะมีเพียงส่วนย่อยเท่านั้นที่ถูกระบุว่าเป็นรายการ DIF ในขณะที่ส่วนที่เหลือจะทำหน้าที่เป็นกลุ่มเปรียบเทียบสำหรับการตรวจหา DIF เมื่อระบุรายการ DIF แล้ว รายการอ้างอิงก็สามารถนำมาวิเคราะห์ได้เช่นกัน โดยการกำหนดข้อจำกัดให้กับรายการ DIF เดิม และอนุญาตให้รายการอ้างอิงเดิมแตกต่างกันได้อย่างอิสระ
ดังนั้นดูเหมือนว่าการทดสอบทุกรายการพร้อมกันอาจเป็นวิธีการที่มีประสิทธิภาพมากกว่า อย่างไรก็ตาม ดังที่กล่าวไว้ วิธีการเลือกรายการ DIF จะแตกต่างกันไปขึ้นอยู่กับวิธีการที่นำมาใช้
นอกเหนือจากการระบุจำนวนรายการที่ใช้ในการตรวจจับ DIF แล้ว สิ่งสำคัญเพิ่มเติมคือการกำหนดจำนวนรายการในการทดสอบหรือการวัดทั้งหมด คำแนะนำทั่วไปดังที่ Zumbo (1999) [ 30 ] ระบุไว้ คือควรมีรายการอย่างน้อย 20 รายการ เหตุผลที่ต้องมีรายการอย่างน้อย 20 รายการนั้นเกี่ยวข้องโดยตรงกับการสร้างเกณฑ์การจับคู่ ดังที่กล่าวไว้ในส่วนก่อนหน้านี้ คะแนนรวมของการทดสอบมักใช้เป็นวิธีการจับคู่บุคคลตามความสามารถ คะแนนรวมของการทดสอบจะถูกแบ่งออกเป็นระดับความสามารถ 3-5 ระดับ ( ) ซึ่งจะใช้ในการจับคู่บุคคลตามความสามารถก่อนขั้นตอนการวิเคราะห์ DIF การใช้รายการอย่างน้อย 20 รายการช่วยให้มีความแปรปรวนมากขึ้นในการกระจายคะแนน ซึ่งส่งผลให้กลุ่มระดับความสามารถมีความหมายมากขึ้น
แม้ว่าคุณสมบัติทางจิตวิทยาของเครื่องมือควรได้รับการประเมินก่อนนำไปใช้ แต่สิ่งสำคัญคือความถูกต้องและความน่าเชื่อถือของเครื่องมือต้องเพียงพอ รายการทดสอบจำเป็นต้องวัดโครงสร้างที่สนใจอย่างแม่นยำเพื่อให้ได้กลุ่มระดับความสามารถที่มีความหมาย แน่นอนว่าเราไม่ต้องการเพิ่มค่าสัมประสิทธิ์ความน่าเชื่อถือโดยการเพิ่มรายการที่ซ้ำซ้อน สิ่งสำคัญคือการมีเครื่องมือวัดที่ถูกต้องและน่าเชื่อถือพร้อมรายการที่เพียงพอสำหรับการพัฒนากลุ่มการจับคู่ที่มีความหมาย Gadermann et al. (2012), [ 31 ] Revelle and Zinbarg (2009), [ 32 ]และ John and Soto (2007) [ 33 ]ให้ข้อมูลเพิ่มเติมเกี่ยวกับแนวทางที่ทันสมัยในการตรวจสอบความถูกต้องเชิงโครงสร้างและวิธีการที่แม่นยำและเหมาะสมยิ่งขึ้นสำหรับการประเมินความน่าเชื่อถือ
การสร้างสมดุลระหว่างสถิติและการใช้เหตุผล
เช่นเดียวกับการวิจัยทางจิตวิทยาและการประเมินทางจิตวิทยา อื่นๆ สถิติมีบทบาทสำคัญ แต่ไม่ควรเป็นพื้นฐานเพียงอย่างเดียวในการตัดสินใจและข้อสรุป การใช้เหตุผลอย่างรอบคอบมีความสำคัญอย่างยิ่งในการประเมินข้อสอบเพื่อหาความแตกต่างของข้อ (DIF) ตัวอย่างเช่น ผลลัพธ์ที่ได้อาจแตกต่างกันไปขึ้นอยู่กับวิธีการทางสถิติที่ใช้ในการตรวจหา DIF บางวิธีมีความแม่นยำมากกว่า ในขณะที่บางวิธีมีความแม่นยำน้อยกว่า ตัวอย่างเช่น วิธีการของ Mantel-Haenszel กำหนดให้ผู้วิจัยสร้างระดับความสามารถโดยอิงจากคะแนนรวมของการทดสอบ ในขณะที่ IRT จัดวางบุคคลตามคุณลักษณะแฝงหรือความสามารถได้อย่างมีประสิทธิภาพมากกว่า ดังนั้น วิธีการหนึ่งอาจบ่งชี้ว่ามี DIF สำหรับบางข้อ ในขณะที่วิธีการอื่นๆ อาจไม่พบ
อีกประเด็นหนึ่งคือ บางครั้งอาจมีการระบุ DIF แต่ไม่มีเหตุผลที่ชัดเจนว่าทำไม DIF จึงเกิดขึ้น นี่คือจุดที่การตัดสินใจอย่างมีเหตุผลเข้ามามีบทบาท โดยเฉพาะอย่างยิ่งโดยการทำความเข้าใจว่าทำไม DIF แบบสม่ำเสมอและไม่สม่ำเสมอจึงเกิดขึ้น[ 15 ]นักวิจัยต้องใช้สามัญสำนึกในการหาความหมายจากการวิเคราะห์ DIF การรายงานว่ารายการทำงานแตกต่างกันสำหรับกลุ่มต่างๆ นั้นไม่เพียงพอ จำเป็นต้องมีเหตุผลเชิงคุณภาพว่าทำไมจึงเกิดขึ้น
ความเหลื่อมล้ำแบบสม่ำเสมอ (Uniform DIF) เกิดขึ้นเมื่อกลุ่มหนึ่งได้เปรียบอีกกลุ่มหนึ่งอย่างสม่ำเสมอในทุกระดับความสามารถ ความลำเอียงประเภทนี้มักแก้ไขได้โดยการใช้เกณฑ์มาตรฐานการทดสอบที่แตกต่างกันสำหรับแต่ละกลุ่มเพื่อให้เกิดความยุติธรรมในการประเมิน ในทางกลับกัน ความเหลื่อมล้ำแบบไม่สม่ำเสมอ (Nonuniform DIF) นั้นซับซ้อนกว่า เนื่องจากความได้เปรียบนั้นแตกต่างกันไปตามระดับความสามารถของแต่ละบุคคล ปัจจัยต่างๆ เช่น สถานะทางเศรษฐกิจและสังคม ความแตกต่างทางวัฒนธรรม อุปสรรคทางภาษา และความเหลื่อมล้ำในการเข้าถึงความรู้ สามารถส่งผลให้เกิดความเหลื่อมล้ำแบบไม่สม่ำเสมอได้ การระบุและแก้ไขความเหลื่อมล้ำแบบไม่สม่ำเสมอต้องอาศัยความเข้าใจอย่างลึกซึ้งเกี่ยวกับกระบวนการทางปัญญาที่เกี่ยวข้อง และอาจต้องมีการแทรกแซงที่เหมาะสมเพื่อให้มั่นใจได้ว่าการประเมินมีความยุติธรรม
ในการศึกษา DIF การค้นพบข้อสอบบางข้อที่แสดง DIF เป็นเรื่องปกติ ซึ่งบ่งชี้ถึงปัญหาที่อาจเกิดขึ้นและจำเป็นต้องได้รับการตรวจสอบ อย่างไรก็ตาม หลักฐาน DIF ไม่ได้หมายความว่าข้อสอบทั้งหมดไม่ยุติธรรมโดยอัตโนมัติ แต่เป็นการบ่งชี้ว่าข้อสอบบางข้ออาจมีความลำเอียง ซึ่งจำเป็นต้องให้ความสนใจเพื่อรักษาความสมบูรณ์และความยุติธรรมของข้อสอบสำหรับผู้เข้าสอบทุกคน การระบุข้อสอบที่มี DIF เปิดโอกาสให้ทบทวนและอาจแก้ไขหรือลบข้อสอบที่มีปัญหา เพื่อให้มั่นใจได้ว่าการประเมินผลมีความเท่าเทียมกัน ดังนั้น การวิเคราะห์ DIF จึงเป็นเครื่องมือที่มีคุณค่าสำหรับการวิเคราะห์ข้อสอบโดยเฉพาะอย่างยิ่งเมื่อเสริมด้วยการสำรวจเชิงคุณภาพเกี่ยวกับปัจจัยที่เป็นสาเหตุ
ซอฟต์แวร์ทางสถิติ
ด้านล่างนี้คือโปรแกรมทางสถิติที่ใช้กันทั่วไป ซึ่งสามารถดำเนินการตามขั้นตอนที่กล่าวถึงในที่นี้ได้ เมื่อคลิกที่ " รายการโปรแกรมทางสถิติ"คุณจะถูกนำไปยังรายการที่ครอบคลุมของซอฟต์แวร์ทางสถิติแบบโอเพนซอร์ส สาธารณะฟรีแวร์และแบบมีลิขสิทธิ์
ขั้นตอน Mantel-Haenszel
ขั้นตอนตาม IRT
- BILOG-MG
- มัลติล็อก
- พาร์สเกล
- เทสท์แฟค
- อีคิวเอสไออาร์ที
- R (เช่น 'difR' [ 34 ]หรือ 'mirt' [ 35 ]แพ็คเกจ)
- ไออาร์ทีโปร
การถดถอยโลจิสติก
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การทำงานของรายการที่แตกต่างกัน
การทำงานของข้อสอบที่แตกต่างกัน ( DIF ) เป็นคุณสมบัติทางสถิติของข้อสอบที่บ่งชี้ว่าบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีความสามารถใกล้เคียงกันมีแนวโน้มที่จะตอบคำถามแตกต่างกันมากน้อยเพียงใ...
คำอธิบาย
DIF หมายถึงความแตกต่างในการทำงานของข้อสอบในกลุ่มต่างๆ ซึ่งมักจะเป็นกลุ่มประชากรที่ตรงกันตามคุณลักษณะแฝง หรือโดยทั่วไปคือคุณลักษณะที่ข้อสอบหรือแบบทดสอบวัด [ 4 ] [ 5 ] สิ่งสำคัญคือต้องสังเกตว่าเมื่อตรวจสอบข้อสอบเพื่อหา DIF กลุ่มต่างๆ...
แบบฟอร์ม
DIF แบบสม่ำเสมอ เป็น DIF ประเภทที่ง่ายที่สุด โดยที่ขนาดของการพึ่งพาแบบมีเงื่อนไขค่อนข้างคงที่ตลอดช่วงความต่อเนื่องของคุณลักษณะแฝง ( ) รายการที่สนใจจะให้ข้อได้เปรียบแก่กลุ่มหนึ่งอย่างสม่ำเสมอในทุกระดับความสามารถ[ 10 ] ภายใน กรอบทฤษฎีการตอบสนองต่อรายการ (IRT)...
แมนเทล-ฮาเอ็นเซล
วิธีการทั่วไปในการตรวจจับ DIF คือวิธีการ Mantel-Haenszel (MH) [ 13 ] วิธีการ MH เป็น วิธีการที่ใช้ตารางความสัมพันธ์ ไคสแควร์ ซึ่งตรวจสอบความแตกต่างระหว่างกลุ่มอ้างอิงและกลุ่มเป้าหมายในทุกรายการของการทดสอบทีละรายการ [ 14 ]...
