การทำงานของรายการที่แตกต่างกัน

การทำงานของข้อสอบที่แตกต่างกัน ( DIF ) เป็นคุณสมบัติทางสถิติของข้อสอบที่บ่งชี้ว่าบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีความสามารถใกล้เคียงกันมีแนวโน้มที่จะตอบคำถามแตกต่างกันมากน้อยเพียงใด DIF เกิดขึ้นเมื่อบุคคลจากกลุ่มที่แตกต่างกันซึ่งมีระดับทักษะที่เทียบเคียงกันได้ไม่ได้มีโอกาสตอบคำถามได้อย่างถูกต้องเท่ากัน DIF มีสองประเภทหลัก ได้แก่DIF แบบสม่ำเสมอซึ่งกลุ่มหนึ่งได้เปรียบอีกกลุ่มหนึ่งอย่างสม่ำเสมอ และDIF แบบไม่สม่ำเสมอซึ่งความได้เปรียบจะแตกต่างกันไปตามระดับความสามารถของแต่ละบุคคล^{[ 1 ]}

การมีอยู่ของ DIF จำเป็นต้องมีการตรวจสอบและตัดสิน แต่ไม่ได้หมายความว่าจะมีอคติเสมอไป การวิเคราะห์ DIF เป็นการบ่งชี้ถึงพฤติกรรมที่ไม่คาดคิดของข้อสอบ ลักษณะ DIF ของข้อสอบไม่ได้ถูกกำหนดโดยความน่าจะเป็นที่แตกต่างกันของการเลือกคำตอบเฉพาะในหมู่บุคคลจากกลุ่มต่างๆ เท่านั้น แต่ DIF จะเด่นชัดขึ้นเมื่อบุคคลจากกลุ่มต่างๆ ซึ่งมีความสามารถที่แท้จริงพื้นฐานเหมือนกันแสดงความน่าจะเป็นที่แตกต่างกันในการให้คำตอบบางอย่าง แม้ว่าจะมีอคติแบบสม่ำเสมออยู่ ผู้พัฒนาข้อสอบบางครั้งก็ใช้สมมติฐานเช่นว่าอคติ DIF อาจหักล้างกันได้เนื่องจากต้องใช้ความพยายามอย่างมากในการแก้ไข ซึ่งเป็นการประนีประนอมจริยธรรมของการทดสอบและทำให้เกิดอคติเชิงระบบต่อไป^{[ 2 ]}

ขั้นตอนทั่วไปในการประเมิน DIF ได้แก่ขั้นตอน Mantel-Haenszel การถดถอยโลจิสติก วิธีการ ตามทฤษฎีการตอบสนองของรายการ (IRT) และ วิธีการตาม การวิเคราะห์ปัจจัยยืนยัน (CFA) ^{[ 3 ]}

คำอธิบาย

DIF หมายถึงความแตกต่างในการทำงานของข้อสอบในกลุ่มต่างๆ ซึ่งมักจะเป็นกลุ่มประชากรที่ตรงกันตามคุณลักษณะแฝง หรือโดยทั่วไปคือคุณลักษณะที่ข้อสอบหรือแบบทดสอบวัด^{[ 4 ]}^{[ 5 ]}สิ่งสำคัญคือต้องสังเกตว่าเมื่อตรวจสอบข้อสอบเพื่อหา DIF กลุ่มต่างๆ จะต้องตรงกันตามคุณลักษณะที่วัดได้ มิฉะนั้นอาจส่งผลให้การตรวจจับ DIF ไม่ถูกต้อง

เพื่อให้เข้าใจ DIF หรืออคติในการวัดโดยทั่วไป ลองพิจารณาตัวอย่างต่อไปนี้ที่เสนอโดย Osterlind และ Everson (2009) ^{[ 6 ]}ในกรณีนี้หมายถึงการตอบสนองต่อข้อสอบเฉพาะข้อหนึ่งซึ่งกำหนดโดยโครงสร้างแฝงที่กำลังวัด โครงสร้างแฝงที่สนใจเรียกว่า theta ( ) โดยที่เป็นตัวบ่งชี้ของซึ่งสามารถจัดเรียงตามการกระจายความน่าจะเป็นของบนโดยนิพจน์ดังนั้น การตอบสนองจึงขึ้นอยู่กับลักษณะแฝง ( ) ${\textstyle Y}$ ${\textstyle \theta }$ ${\textstyle Y}$ ${\textstyle \theta }$ ${\textstyle Y}$ ${\textstyle \theta }$ ${\textstyle f(Y)|\theta }$ ${\textstyle Y}$ ${\textstyle \theta }$

เนื่องจาก DIF ตรวจสอบความแตกต่างในความน่าจะเป็นแบบมีเงื่อนไขระหว่างกลุ่ม เราจึงกำหนดกลุ่มเป็นกลุ่ม " อ้างอิง " และกลุ่ม "เป้าหมาย" แม้ว่าการกำหนดจะไม่สำคัญ แต่โดยทั่วไปในวรรณกรรมจะกำหนดให้กลุ่มอ้างอิงเป็นกลุ่มที่คาดว่าจะได้เปรียบ ในขณะที่กลุ่มเป้าหมายหมายถึงกลุ่มที่คาดว่าจะเสียเปรียบจากการทดสอบ^[⁴^]ดังนั้น เมื่อพิจารณาความสัมพันธ์เชิงฟังก์ชันและภายใต้สมมติฐานว่ามี การกระจาย ข้อผิดพลาดในการวัด ที่เหมือนกัน สำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย จึงสามารถสรุปได้ว่าภายใต้สมมติฐานว่าง : โดยที่สอดคล้องกับตัวแปรการจัดกลุ่ม กลุ่มอ้างอิง และกลุ่มเป้าหมาย ${\textstyle Y}$ ${\textstyle f(Y)|\theta }$ $f(Y=1|\theta ,G=r)=f(Y=1|\theta ,G=f)$ ${\textstyle G}$ ${\textstyle r}$ ${\textstyle f}$

สมการนี้แสดงถึงกรณีที่ไม่มี DIF ในกรณีนี้ การไม่มี DIF ถูกกำหนดโดยข้อเท็จจริงที่ว่าการแจกแจงความน่าจะเป็นแบบมีเงื่อนไข ของ ไม่ขึ้นอยู่กับการเป็นสมาชิกกลุ่ม เพื่อให้เห็นภาพ ลองพิจารณาข้อสอบที่มีตัวเลือกคำตอบและโดยที่แสดงถึงคำตอบที่ผิด และแสดงถึงคำตอบที่ถูกต้อง ความน่าจะเป็นของการตอบคำถามได้อย่างถูกต้องนั้นเท่ากันสำหรับสมาชิกของทั้งสองกลุ่ม ซึ่งบ่งชี้ว่าไม่มี DIF หรือความลำเอียงของข้อสอบ เนื่องจากสมาชิกของกลุ่มอ้างอิงและกลุ่มเป้าหมายที่มีความสามารถหรือคุณลักษณะพื้นฐานเดียวกันมีความน่าจะเป็นในการตอบคำถามได้อย่างถูกต้องเท่ากัน ดังนั้นจึงไม่มีความลำเอียงหรือความเสียเปรียบสำหรับกลุ่มใดกลุ่มหนึ่งเหนืออีกกลุ่มหนึ่ง ${\textstyle Y}$ ${\textstyle 0}$ ${\textstyle 1}$ ${\textstyle Y=0}$ ${\textstyle Y=1}$

พิจารณากรณีที่ความน่าจะเป็นแบบมีเงื่อนไขของไม่เท่ากันสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย กล่าวคือ สมาชิกของกลุ่มต่างๆ ที่มีลักษณะหรือระดับความสามารถเดียวกัน มีการกระจายความน่าจะเป็นที่ไม่เท่ากันบนเมื่อควบคุมตัวแปร แล้วจะเห็นความสัมพันธ์ที่ชัดเจนระหว่างการเป็นสมาชิกกลุ่มและประสิทธิภาพในการทำข้อสอบ สำหรับ ข้อสอบ แบบสองตัวเลือก สิ่งนี้ชี้ให้เห็นว่า เมื่อกลุ่มเป้าหมายและกลุ่มอ้างอิงอยู่ที่ตำแหน่งเดียวกันบนจะมีความน่าจะเป็นที่แตกต่างกันในการตอบคำถามได้อย่างถูกต้องหรือเห็นด้วยกับข้อสอบ ดังนั้น กลุ่มที่มีความน่าจะเป็นแบบมีเงื่อนไขสูงกว่าในการตอบคำถามได้อย่างถูกต้อง คือกลุ่มที่ได้เปรียบจากข้อสอบนั้น สิ่งนี้ชี้ให้เห็นว่าข้อสอบนั้นมีอคติและทำงานแตกต่างกันสำหรับแต่ละกลุ่ม จึงแสดงให้เห็นถึง DIF (Differential Filtering) ${\textstyle Y}$ ${\textstyle Y}$ ${\textstyle \theta }$ ${\textstyle \theta }$

สิ่งสำคัญคือต้องแยกแยะความแตกต่างระหว่าง DIF หรืออคติในการวัดและความแตกต่างระหว่างกลุ่มทั่วไป ความแตกต่างระหว่างกลุ่มบ่งชี้ถึงการกระจายคะแนนที่แตกต่างกันบนDIF เกี่ยวข้องกับการกำหนดเงื่อนไขบน อย่างชัดเจนตัวอย่างเช่น พิจารณาสมการต่อไปนี้: สม การนี้บ่งชี้ว่าคะแนนของผู้สอบขึ้นอยู่กับการจัดกลุ่ม โดยที่การมีข้อมูลเกี่ยวกับการเป็นสมาชิกกลุ่มจะเปลี่ยนความน่าจะเป็นของการตอบที่ถูกต้อง ดังนั้น หากกลุ่มแตกต่างกันบนและประสิทธิภาพขึ้นอยู่กับสมการข้างต้นจะบ่งชี้ถึงอคติของข้อสอบแม้ว่าจะไม่มี DIF ก็ตาม ด้วยเหตุนี้ จึงเป็นที่ยอมรับกันโดยทั่วไปในวรรณกรรมด้านการวัดว่าความแตกต่างบน โดยมีเงื่อนไขเกี่ยวกับการเป็นสมาชิกกลุ่มเพียงอย่างเดียวนั้นไม่เพียงพอสำหรับการสร้างอคติ^[⁷^]^[⁸^]^[⁹^] ${\textstyle Y}$ ${\textstyle \theta }$ $p(Y=1|G=g)\neq p(Y=1)$ ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle Y}$

อันที่จริง ความแตกต่างด้านความสามารถหรือทักษะเป็นเรื่องปกติระหว่างกลุ่มต่างๆ และเป็นพื้นฐานของการวิจัยมากมาย โปรดจำไว้ว่า ในการตรวจสอบความลำเอียงหรือ DIF กลุ่มต่างๆ จะต้องได้รับการจับคู่กันในด้านต่างๆจากนั้นจึงแสดงให้เห็นถึงความน่าจะเป็นที่แตกต่างกันโดยขึ้นอยู่กับการเป็นสมาชิกของกลุ่ม ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle Y}$

แบบฟอร์ม

DIF แบบสม่ำเสมอเป็น DIF ประเภทที่ง่ายที่สุด โดยที่ขนาดของการพึ่งพาแบบมีเงื่อนไขค่อนข้างคงที่ตลอดช่วงความต่อเนื่องของคุณลักษณะแฝง ( ) รายการที่สนใจจะให้ข้อได้เปรียบแก่กลุ่มหนึ่งอย่างสม่ำเสมอในทุกระดับความสามารถ[ ¹⁰^]^{ภายใน} กรอบทฤษฎีการตอบสนองต่อรายการ (IRT) สิ่งนี้จะปรากฏให้เห็นเมื่อ เส้นโค้งลักษณะเฉพาะของรายการ (ICC) ทั้งสอง เส้นมีความสามารถ ในการจำแนกที่เท่ากัน แต่แสดงความแตกต่างในพารามิเตอร์ความยาก (เช่นและ) ดังที่แสดงในรูปที่ 1 ^[¹¹^] ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle a_{r}=a_{f}}$ ${\textstyle b_{r}<b_{f}}$

อย่างไรก็ตามDIF ที่ไม่สม่ำเสมอเป็นกรณีที่น่าสนใจ แทนที่จะให้ข้อได้เปรียบที่สม่ำเสมอแก่กลุ่มอ้างอิงตลอดช่วงความสามารถ การพึ่งพาแบบมีเงื่อนไขจะเคลื่อนที่และเปลี่ยนทิศทางที่ตำแหน่งต่างๆ บนช่วงความสามารถ^[¹²^]ตัวอย่างเช่น ข้อสอบหนึ่งอาจให้ข้อได้เปรียบเล็กน้อยแก่กลุ่มอ้างอิงที่ปลายล่างของช่วงความสามารถ ในขณะที่ให้ข้อได้เปรียบอย่างมากที่ปลายบน นอกจากนี้ ต่างจาก DIF ที่สม่ำเสมอ ข้อสอบหนึ่งสามารถเปลี่ยนแปลงการจำแนกสำหรับทั้งสองกลุ่มได้พร้อมกัน ในขณะเดียวกันก็เปลี่ยนแปลงความยาก (เช่นและ) ${\textstyle \theta }$ ${\textstyle a_{r}\neq a_{f}}$ ${\textstyle b_{r}<b_{f}}$

สิ่งที่ซับซ้อนยิ่งกว่าคือDIF ที่ไม่สม่ำเสมอแบบ "ตัดกัน"ดังแสดงในรูปที่ 2 สิ่งนี้เกิดขึ้นเมื่อข้อสอบให้ความได้เปรียบแก่กลุ่มอ้างอิงที่ปลายด้านหนึ่งของช่วงความต่อเนื่อง ในขณะที่ให้ความได้เปรียบแก่กลุ่มเป้าหมายที่ปลายอีกด้านหนึ่ง ความแตกต่างของค่า ICC บ่งชี้ว่าผู้สอบจากสองกลุ่มที่มีระดับความสามารถเท่ากันมีโอกาสในการตอบคำถามได้อย่างถูกต้องไม่เท่ากัน เมื่อเส้นโค้งแตกต่างกันแต่ไม่ตัดกัน นี่คือหลักฐานของ DIF ที่สม่ำเสมอ อย่างไรก็ตาม หากค่า ICC ตัดกันที่จุดใดจุดหนึ่งตามมาตราส่วน นั่นคือหลักฐานของ DIF ที่ไม่สม่ำเสมอ ${\textstyle \theta }$ ${\textstyle \theta }$

รูปที่ 1. ICC สำหรับ Uniform DIF
รูปที่ 2.ค่า ICC สำหรับ DIF ที่ไม่สม่ำเสมอ

ขั้นตอนการตรวจหา DIF

แมนเทล-ฮาเอ็นเซล

วิธีการทั่วไปในการตรวจจับ DIF คือวิธีการ Mantel-Haenszel (MH) ^{[ 13 ]}วิธีการ MH เป็น วิธีการที่ใช้ตารางความสัมพันธ์ ไคสแควร์ซึ่งตรวจสอบความแตกต่างระหว่างกลุ่มอ้างอิงและกลุ่มเป้าหมายในทุกรายการของการทดสอบทีละรายการ^{[ 14 ]}ระดับความสามารถที่กำหนดโดยคะแนนรวมของการทดสอบจะถูกแบ่งออกเป็นช่วง ซึ่งจะใช้เป็นพื้นฐานในการจับคู่สมาชิกของทั้งสองกลุ่ม^[¹⁵^]ตารางความสัมพันธ์ 2 × 2 จะถูกใช้ในแต่ละช่วงของการเปรียบเทียบทั้งสองกลุ่มในแต่ละรายการ แถวของตารางความสัมพันธ์จะสอดคล้องกับการเป็นสมาชิกกลุ่ม (อ้างอิงหรือกลุ่มเป้าหมาย) ในขณะที่คอลัมน์จะสอดคล้องกับการตอบที่ถูกต้องหรือไม่ถูกต้อง ตารางต่อไปนี้แสดงรูปแบบทั่วไปสำหรับรายการเดียวในช่วงความสามารถที่ th ${\textstyle k}$ ${\textstyle k}$ ${\textstyle k}$

สิ่งของที่น่าสนใจ
ผลลัพธ์ กลุ่ม	ถูกต้อง (1)	ไม่ถูกต้อง (0)	ทั้งหมด
อ้างอิง	${\textstyle A_{k}}$	${\textstyle B_{k}}$	${\textstyle A_{k}+B_{k}}$
โฟกัส	${\textstyle C_{k}}$	${\textstyle D_{k}}$	${\textstyle C_{k}+D_{k}}$
ทั้งหมด	${\textstyle A_{k}+C_{k}}$	${\textstyle B_{k}+D_{k}}$	${\textstyle A_{k}+B_{k}+C_{k}+D_{k}}$

หมายเหตุ: , , และสอดคล้องกับความถี่ของเซลล์ที่สังเกตได้ ตัวห้อยสอดคล้องกับช่วงความสามารถ ${\textstyle A}$ ${\textstyle B}$ ${\textstyle C}$ ${\textstyle D}$ ${\textstyle k}$

อัตราส่วนความน่าจะเป็น

ขั้นตอนต่อไปในการคำนวณสถิติ MH คือการใช้ข้อมูลจากตารางความสัมพันธ์เพื่อหาอัตราส่วนความน่าจะเป็นสำหรับสองกลุ่มในรายการที่สนใจในช่วงเวลาที่กำหนด ซึ่งแสดงออกมาในรูปของและโดยที่แทนสัดส่วนที่ถูกต้องและสัดส่วนที่ไม่ถูกต้องสำหรับทั้งกลุ่มอ้างอิง ( ) และกลุ่มเป้าหมาย ( ) สำหรับขั้นตอน MH อัตราส่วนความน่าจะเป็นที่ได้จะแสดงด้วยโดยมีค่าที่เป็นไปได้ตั้งแต่ถึงค่า1.0 บ่งชี้ว่าไม่มี DIF และดังนั้นจึงมีประสิทธิภาพที่คล้ายคลึงกันของทั้งสองกลุ่ม ค่าที่มากกว่าแสดงว่ากลุ่มอ้างอิงมีประสิทธิภาพดีกว่าหรือพบว่ารายการนั้นยากน้อยกว่ากลุ่มเป้าหมาย ในทางกลับกัน หากค่าที่ได้น้อยกว่าแสดงว่ารายการนั้นยากน้อยกว่าสำหรับกลุ่มเป้าหมาย^[⁹^] ${\textstyle k}$ ${\textstyle p}$ ${\textstyle q}$ ${\textstyle p}$ ${\textstyle q}$ ${\textstyle R}$ ${\textstyle F}$ ${\textstyle \alpha }$ ${\textstyle 0}$ ${\textstyle \infty }$ ${\textstyle \alpha }$ ${\textstyle 1.0}$ ${\textstyle 1.0}$

โดยใช้ตัวแปรจากตารางความสัมพันธ์ข้างต้น การคำนวณจะเป็นดังนี้: การคำนวณข้างต้นเกี่ยวข้องกับรายการแต่ละรายการในช่วงความสามารถเดียว การประมาณค่าประชากรสามารถขยายเพื่อสะท้อนอัตราส่วนความน่าจะเป็นร่วมกันในทุกช่วงความสามารถสำหรับรายการเฉพาะอัตราส่วน ความน่าจะเป็นร่วมกัน จะถูกกำหนดโดยและสามารถคำนวณได้โดยสมการต่อไปนี้: สำหรับทุกค่าของและ โดยที่แทนขนาดตัวอย่างทั้งหมดในช่วงที่ $\alpha ={\frac {p_{R_{k}}/q_{R_{k}}}{p_{F_{k}}/q_{F_{k}}}}={\frac {(A_{k}/(A_{k}+B_{k}))/(B_{k}/(A_{k}+B_{k}))}{(C_{k}/(C_{k}+D_{k}))/(D_{k}/(C_{k}+D_{k}))}}={\frac {A_{k}/B_{k}}{C_{k}/D_{k}}}={\frac {A_{k}D_{k}}{B_{k}C_{k}}}$ ${\textstyle \alpha }$ ${\textstyle k}$ ${\textstyle \alpha _{MH}}$ $\alpha _{MH}={\frac {\sum (A_{k}D_{k}/N_{k})}{\sum (B_{k}C_{k}/N_{k})}}$ ${\textstyle k}$ ${\textstyle N_{k}}$ ${\textstyle k}$

ค่าที่ได้มักจะถูกทำให้เป็นมาตรฐานโดยการแปลงลอการิทึม โดยกำหนดค่าศูนย์กลางไว้ที่ 0 ^[¹⁶^]ตัวประมาณค่าที่แปลงใหม่จะคำนวณดังนี้: ดังนั้นค่าที่ได้ 0 จะบ่งชี้ว่าไม่มี DIF ในการตรวจสอบสมการ สิ่งสำคัญคือต้องสังเกตว่าเครื่องหมายลบจะเปลี่ยนการตีความค่าที่น้อยกว่าหรือมากกว่า 0 ค่าที่น้อยกว่า 0 บ่งชี้ถึงความได้เปรียบของกลุ่มอ้างอิง ในขณะที่ค่าที่มากกว่า 0 บ่งชี้ถึงความได้เปรียบสำหรับกลุ่มเป้าหมาย ${\textstyle \alpha _{MH}}$ ${\textstyle {MH}_{D-DIF}}$ ${MH}_{D-DIF}=-2.35\ln \alpha _{MH}$

ทฤษฎีการตอบสนองต่อรายการ

ทฤษฎีการตอบสนองต่อข้อสอบ (IRT) เป็นอีกวิธีหนึ่งที่ใช้กันอย่างแพร่หลายในการประเมิน DIF IRT ช่วยให้สามารถตรวจสอบการตอบสนองต่อข้อสอบเฉพาะข้อใดข้อหนึ่งจากแบบทดสอบหรือการวัดได้อย่างละเอียดถี่ถ้วน ดังที่กล่าวไว้ก่อนหน้านี้ DIF ตรวจสอบความน่าจะเป็นของการตอบหรือรับรองข้อสอบอย่างถูกต้องโดยพิจารณาจากคุณลักษณะหรือความสามารถแฝง เนื่องจาก IRT ตรวจสอบ ความสัมพันธ์ แบบโมโนโทนิกระหว่างการตอบสนองและคุณลักษณะหรือความสามารถแฝง จึงเป็นแนวทางที่เหมาะสมสำหรับการตรวจสอบ DIF ^{[ 17 ]}

ข้อดีหลักสามประการของการใช้ IRT ในการตรวจจับ DIF คือ: ^{[ 18 ]}

เมื่อเปรียบเทียบกับทฤษฎีการทดสอบแบบคลาสสิก การประมาณ ค่าพารามิเตอร์ของ IRT จะไม่ได้รับผลกระทบจากลักษณะของกลุ่มตัวอย่างมากนัก
คุณสมบัติทางสถิติของรายการต่างๆ สามารถแสดงออกมาได้อย่างแม่นยำยิ่งขึ้น ซึ่งจะช่วยเพิ่มความถูกต้องในการตีความ DIF ระหว่างสองกลุ่ม
คุณสมบัติทางสถิติของสิ่งของเหล่านี้สามารถแสดงออกมาในรูปแบบกราฟได้ ซึ่งจะช่วยให้ตีความและเข้าใจได้ง่ายขึ้นว่าสิ่งของแต่ละชนิดทำงานแตกต่างกันอย่างไรในแต่ละกลุ่ม

ในส่วนที่เกี่ยวข้องกับ DIF นั้น จะมีการคำนวณค่าประมาณพารามิเตอร์ของข้อสอบ และตรวจสอบด้วยกราฟเส้นโค้งลักษณะเฉพาะของข้อสอบ (ICC) ซึ่งอาจเรียกอีกอย่างว่าเส้นติดตามหรือฟังก์ชันการตอบสนองของข้อสอบ (IRF) หลังจากตรวจสอบ ICC แล้ว และหากสงสัยว่ามี DIF จะมีการใช้กระบวนการทางสถิติเพื่อทดสอบความแตกต่างระหว่างค่าประมาณพารามิเตอร์

ICC แสดงถึงฟังก์ชันทางคณิตศาสตร์ของความสัมพันธ์ระหว่างตำแหน่งบนความต่อเนื่องของลักษณะแฝงและความน่าจะเป็นของการให้คำตอบเฉพาะ^{[ 19 ]}รูปที่ 3 แสดงความสัมพันธ์นี้ในรูปของฟังก์ชันโลจิสติกบุคคลที่มีระดับลักษณะแฝงต่ำหรือมีความสามารถน้อยกว่าจะมีความน่าจะเป็นน้อยกว่าที่จะได้รับคำตอบที่ถูกต้องหรือเห็นด้วยกับรายการ โดยเฉพาะอย่างยิ่งเมื่อความยากเพิ่มขึ้น ดังนั้น ผู้ที่มีระดับลักษณะแฝงหรือความสามารถสูงกว่าจะมีโอกาสมากกว่าที่จะได้รับคำตอบที่ถูกต้องหรือเห็นด้วยกับรายการ ตัวอย่างเช่น ในแบบสอบถามภาวะซึมเศร้า บุคคลที่มีภาวะซึมเศร้าสูงจะมีความน่าจะเป็นมากกว่าที่จะเห็นด้วยกับรายการมากกว่าบุคคลที่มีภาวะซึมเศร้าน้อยกว่า ในทำนองเดียวกัน บุคคลที่มีความสามารถทางคณิตศาสตร์สูงกว่าจะมีความน่าจะเป็นมากกว่าที่จะตอบคำถามคณิตศาสตร์ได้ถูกต้องมากกว่าผู้ที่มีความสามารถน้อยกว่า

อีกแง่มุมที่สำคัญของ ICC เกี่ยวข้องกับจุดเปลี่ยนผันนี่คือจุดบนเส้นโค้งที่ความน่าจะเป็นของการตอบสนองเฉพาะคือ 0.5 และยังแสดงถึงค่าสูงสุดของความชันด้วย [ ^{20 ] จุด}เปลี่ยนผันนี้บ่งชี้ว่าความน่าจะเป็นของการตอบสนองที่ถูกต้องหรือการรับรองรายการนั้น ๆ กลายเป็นมากกว่า 50% ยกเว้นเมื่อพารามิเตอร์มากกว่า 0 ซึ่งจะทำให้จุดเปลี่ยนผันอยู่ที่(คำอธิบายจะตามมาด้านล่าง) จุดเปลี่ยนผันถูกกำหนดโดยความยากของรายการซึ่งสอดคล้องกับค่าบนความต่อเนื่องของความสามารถหรือลักษณะแฝง^[²¹^]ดังนั้น สำหรับรายการที่ง่าย จุดเปลี่ยนผันนี้อาจต่ำกว่าบนความต่อเนื่องของความสามารถ ในขณะที่สำหรับรายการที่ยาก จุดเปลี่ยนผันนี้อาจสูงกว่าบนมาตราส่วนเดียวกัน ${\textstyle c}$ ${\textstyle 1+c/2}$

รูปที่ 3. ICC พร้อมจุดเปลี่ยนความชันและเส้นความชัน

ก่อนที่จะนำเสนอขั้นตอนทางสถิติสำหรับการทดสอบความแตกต่างของพารามิเตอร์ของข้อสอบ สิ่งสำคัญคือต้องทำความเข้าใจทั่วไปเกี่ยวกับแบบจำลองการประมาณค่าพารามิเตอร์ต่างๆ และพารามิเตอร์ที่เกี่ยวข้องก่อน ซึ่งรวมถึงแบบจำลองโลจิสติกแบบหนึ่งพารามิเตอร์ สองพารามิเตอร์ และสามพารามิเตอร์ (PL) แบบจำลองทั้งหมดนี้ถือว่ามีคุณลักษณะแฝงหรือความสามารถพื้นฐานเพียงอย่างเดียว แบบจำลองทั้งสามนี้มีพารามิเตอร์ความยากของข้อสอบที่แสดงด้วยbสำหรับแบบจำลอง 1PL และ 2PL พารามิเตอร์ bสอดคล้องกับจุดเปลี่ยนบนมาตราส่วนความสามารถ ดังที่กล่าวไว้ข้างต้น ในกรณีของแบบจำลอง 3PL จุดเปลี่ยนสอดคล้องกับ โดยที่เป็นเส้นกำกับล่าง (จะกล่าวถึงต่อไป) ค่าความยากในทางทฤษฎีสามารถอยู่ในช่วงตั้งแต่ -∞ ถึง +∞ อย่างไรก็ตามในทางปฏิบัติมักจะไม่เกิน ±3 ค่าที่สูงกว่าบ่งชี้ว่าข้อสอบยากขึ้น ข้อสอบที่มีพารามิเตอร์ต่ำเป็นข้อสอบง่าย^[²²^] ${\textstyle 1+c/2}$ ${\textstyle c}$ ${\textstyle b}$

พารามิเตอร์อีกตัวหนึ่งที่ประมาณค่าคือพารามิเตอร์การจำแนกที่กำหนดพารามิเตอร์นี้เกี่ยวข้องกับความสามารถของรายการในการจำแนกความแตกต่างระหว่างบุคคลพารามิเตอร์นี้ประมาณค่าในแบบจำลอง 2PL และ 3PL ในกรณีของแบบจำลอง 1PL พารามิเตอร์นี้ถูกจำกัดให้เท่ากันระหว่างกลุ่ม ในส่วนที่เกี่ยวข้องกับ ICC พารามิเตอร์นี้คือความชันของจุดเปลี่ยนความชัน ดังที่กล่าวไว้ก่อนหน้านี้ ความชันจะมีค่าสูงสุดที่จุดเปลี่ยนความชันพารามิเตอร์นี้คล้ายกับพารามิเตอร์ สามารถอยู่ในช่วงตั้งแต่ -∞ ถึง +∞ อย่างไรก็ตามค่าทั่วไปจะน้อยกว่า 2 ในกรณีนี้ ค่าที่สูงกว่าแสดงถึงการจำแนกความแตกต่างระหว่างบุคคลที่มากขึ้น^[²³^] ${\textstyle a}$ ${\textstyle a}$ ${\textstyle a}$ ${\textstyle a}$ ${\textstyle b}$

แบบจำลอง 3PL มีพารามิเตอร์เพิ่มเติมที่เรียกว่า พารามิเตอร์ การเดาหรือโอกาสเทียม และแสดงด้วยซึ่งสอดคล้องกับค่าแอสิมโทต ล่าง ซึ่งโดยพื้นฐานแล้วอนุญาตให้บุคคลสามารถตอบคำถามระดับปานกลางหรือยากได้อย่างถูกต้องแม้ว่าจะมีทักษะต่ำก็ตาม ค่าของ อยู่ในช่วงระหว่าง 0 ถึง 1 แต่โดยทั่วไปจะต่ำกว่า 0.3 ^[²⁴^] ${\textstyle c}$ ${\textstyle c}$

เมื่อใช้กระบวนการทางสถิติเพื่อประเมิน DIF พารามิเตอร์ α และβ (การจำแนกและความยาก) เป็นสิ่งที่น่าสนใจเป็นพิเศษ อย่างไรก็ตาม สมมติว่าใช้แบบจำลอง 1PL ซึ่งพารามิเตอร์ถูกจำกัดให้เท่ากันสำหรับทั้งสองกลุ่ม เหลือเพียงการประมาณค่าพารามิเตอร์เท่านั้น หลังจากตรวจสอบ ICC แล้ว จะเห็นความแตกต่างที่ชัดเจนในพารามิเตอร์ของทั้งสองกลุ่ม การใช้วิธีที่คล้ายกับการทดสอบ t ของนักเรียนขั้นตอนต่อไปคือการพิจารณาว่าความแตกต่างในความยากนั้นมีนัยสำคัญทางสถิติ หรือไม่ ภายใต้สมมติฐานว่าง Lord (1980) ได้ให้ สถิติการทดสอบที่คำนวณได้ง่ายและมีการกระจายแบบปกติค่า ความคลาดเคลื่อนมาตรฐาน ของความแตกต่างระหว่าง พารามิเตอร์ βคำนวณได้โดย ${\textstyle a}$ ${\textstyle b}$ ${\textstyle a}$ ${\textstyle b}$ ${\textstyle b}$ ${\textstyle H_{0}:b_{r}=b_{f}}$ $d={\frac {b_{r}-b_{f}}{{\text{SE}}(b_{r}-b_{f})}}$ ${\textstyle {\sqrt {\left[{\text{SE}}(b_{r})\right]^{2}+\left[{\text{SE}}(b_{f})\right]^{2}}}}$

สถิติวอลด์

อย่างไรก็ตาม โดยทั่วไปแล้ว โมเดล 2PL หรือ 3PL มักจะเหมาะสมกว่าการใช้โมเดล 1PL กับข้อมูล ดังนั้นจึงควรทดสอบความแตกต่างของค่า DIF ทั้งพารามิเตอร์ α และ β ลอร์ด (1980)เสนอวิธีการอื่นในการทดสอบความแตกต่างของทั้งพารามิเตอร์ α และ β โดยที่พารามิเตอร์ β ถูกกำหนดให้เท่ากันในทุกกลุ่ม การทดสอบนี้ให้ค่าสถิติ Waldซึ่งมีการแจกแจงแบบไคสแควร์ ในกรณีนี้ สมมติฐานว่างที่กำลังทดสอบคือ α = 0 ${\textstyle a}$ ${\textstyle b}$ ${\textstyle a}$ ${\textstyle b}$ ${\textstyle c}$ ${\textstyle H_{0}:a_{r}=a_{f}\operatorname {and} b_{r}=b_{f}}$

ขั้นแรก คำนวณเมทริกซ์ความแปรปรวนร่วม 2 × 2 ของค่าประมาณพารามิเตอร์สำหรับแต่ละกลุ่ม ซึ่งแทนด้วย และสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย เมทริกซ์ความแปรปรวนร่วมเหล่านี้คำนวณโดยการผกผันเมทริกซ์ข้อมูล ที่ได้มา ถัดไป ความแตกต่างระหว่างพารามิเตอร์ที่ประมาณค่าได้จะถูกใส่ลงในเวกเตอร์ 2 × 1 และแทนด้วย จาก นั้น ประมาณเมทริกซ์ความแปรปรวนร่วมโดยการบวกและโดยใช้ข้อมูลนี้ คำนวณสถิติ Wald ดังนี้: ซึ่งประเมินที่ระดับความเป็นอิสระ 2 องศา ${\textstyle S_{r}}$ ${\textstyle S_{f}}$ ${\textstyle V'=(a_{r}-a_{f},b_{r}-b_{f})}$ ${\textstyle S}$ ${\textstyle S_{r}}$ ${\textstyle S_{f}}$ $\chi ^{2}={V'}S^{-1}V$

การทดสอบอัตราส่วนความน่าจะเป็น

การทดสอบอัตราส่วนความน่าจะเป็นเป็นอีกวิธีหนึ่งที่ใช้ IRT ในการประเมิน DIF ขั้นตอนนี้เกี่ยวข้องกับการเปรียบเทียบอัตราส่วนของสองแบบจำลอง ภายใต้แบบจำลองพารามิเตอร์ของรายการจะถูกจำกัดให้เท่ากันหรือไม่เปลี่ยนแปลงระหว่างกลุ่มอ้างอิงและกลุ่มเป้าหมาย ภายใต้แบบจำลองพารามิเตอร์ของรายการสามารถเปลี่ยนแปลงได้อย่างอิสระ^[²⁵^]ฟังก์ชันความน่าจะเป็นภายใต้จะถูกแสดงด้วยในขณะที่ฟังก์ชันความน่าจะเป็นภายใต้จะถูกกำหนดรายการที่ถูกจำกัดให้เท่ากันจะทำหน้าที่เป็นรายการหลักสำหรับขั้นตอนนี้ ในขณะที่รายการที่สงสัยว่ามี DIF จะได้รับอนุญาตให้เปลี่ยนแปลงได้อย่างอิสระ ${\textstyle M_{c}}$ ${\textstyle M_{v}}$ ${\textstyle M_{c}}$ ${\textstyle L_{c}}$ ${\textstyle M_{v}}$ ${\textstyle L_{v}}$

โดยการใช้รายการหลักและอนุญาตให้พารามิเตอร์รายการที่เหลือเปลี่ยนแปลงได้ สามารถประเมิน DIF ของหลายรายการพร้อมกันได้^{[ 26 ]}อย่างไรก็ตาม หากอัตราส่วนความน่าจะเป็นบ่งชี้ถึง DIF ที่อาจเกิดขึ้น การวิเคราะห์ทีละรายการจะเหมาะสมเพื่อพิจารณาว่ารายการใดบ้างที่มี DIF หากไม่ใช่ทั้งหมด

อัตราส่วนความน่าจะเป็นของแบบจำลองทั้งสองคำนวณได้จาก หรืออีกทางหนึ่ง อัตราส่วนสามารถแสดงได้ด้วย โดย ที่และเป็นค่าผกผัน และลอการิทึม ของพวกมัน เป็นค่าลบ $G^{2}=2\ln \left[L_{v}/L_{c}\right]$ $G^{2}=-2\ln \left[L_{c}/L_{v}\right]$ ${\textstyle L_{v}}$ ${\textstyle L_{c}}$

${\textstyle G^{2}}$ โดยประมาณจะเป็นไปตามการแจกแจงไคกำลังสอง โดยเฉพาะอย่างยิ่งกับตัวอย่างขนาดใหญ่ ดังนั้นจึงมีการประเมินโดยระดับความเป็นอิสระที่สอดคล้องกับจำนวนข้อจำกัดที่จำเป็นในการสร้างแบบจำลองที่มีข้อจำกัดจากแบบจำลองที่เปลี่ยนแปลงได้อย่างอิสระ^{[ 27 ]}ตัวอย่างเช่น หากใช้แบบจำลอง 2PL และพารามิเตอร์ทั้งสองสามารถเปลี่ยนแปลงได้อย่างอิสระภายใต้และพารามิเตอร์ทั้งสองนี้ถูกจำกัดภายใต้อัตราส่วนจะถูกประเมินที่ระดับความเป็นอิสระ 2 ${\textstyle a}$ ${\textstyle b}$ ${\textstyle M_{v}}$ ${\textstyle M_{c}}$

การถดถอยโลจิสติก

แนวทาง การถดถอยโลจิสติกในการตรวจจับ DIF เกี่ยวข้องกับการวิเคราะห์แยกกันสำหรับแต่ละรายการ ตัวแปรอิสระที่รวมอยู่ในการวิเคราะห์ ได้แก่ การเป็นสมาชิกกลุ่ม ตัวแปรการจับคู่ความสามารถ ซึ่งโดยทั่วไปคือคะแนนรวม และพจน์ปฏิสัมพันธ์ระหว่างทั้งสอง ตัวแปรตามที่สนใจคือความน่าจะเป็นหรือโอกาสที่จะได้คำตอบที่ถูกต้องหรือการรับรองรายการ เนื่องจากผลลัพธ์ที่สนใจแสดงในรูปของความน่าจะเป็นการประมาณค่าความน่าจะเป็นสูงสุดจึงเป็นขั้นตอนที่เหมาะสม^{[ 28 ]}ชุดตัวแปรเหล่านี้สามารถแสดงได้ด้วยสมการการถดถอยต่อไปนี้: โดยที่สอดคล้องกับค่าคงที่หรือความน่าจะเป็นของการตอบสนองเมื่อและเท่ากับ 0 โดยที่เหลือสอดคล้องกับสัมประสิทธิ์น้ำหนักสำหรับแต่ละตัวแปรอิสระตัวแปรอิสระตัวแรกคือ ตัวแปรการจับคู่ที่ใช้เชื่อมโยงบุคคลตามความสามารถ ในกรณีนี้คือคะแนนการทดสอบรวม คล้ายกับที่ใช้ในขั้นตอน Mantel-Haenszel ตัวแปรการเป็นสมาชิกกลุ่มจะถูกกำหนดโดยและในกรณีของการถดถอย จะแสดงผ่าน ตัวแปร ที่เข้ารหัสแบบดัมมี่พจน์สุดท้ายสอดคล้องกับปฏิสัมพันธ์ระหว่างตัวแปรสองตัวที่กล่าวถึงข้างต้น $Y=\beta _{0}+\beta _{1}M+\beta _{2}G+\beta _{3}MG$ ${\textstyle \beta _{0}}$ ${\textstyle M}$ ${\textstyle G}$ ${\textstyle \beta _{s}}$ ${\textstyle M}$ ${\textstyle G}$ ${\textstyle MG}$

สำหรับขั้นตอนนี้ ตัวแปรจะถูกป้อนตามลำดับชั้น โดยตามโครงสร้างของสมการการถดถอยที่ให้ไว้ข้างต้น ตัวแปรจะถูกป้อนตามลำดับดังนี้: ตัวแปรจับคู่ตัวแปรจัดกลุ่มและตัวแปรปฏิสัมพันธ์การตรวจสอบ DIF ทำได้โดยการประเมินค่าสถิติไคสแควร์ที่ได้มา โดยมี 2 องศาอิสระ นอกจากนี้ยังมีการทดสอบความสำคัญของการประมาณค่าพารามิเตอร์ด้วย ${\textstyle M}$ ${\textstyle G}$ ${\textstyle MG}$

จากผลลัพธ์ของการถดถอยโลจิสติก จะบ่งชี้ว่ามี DIF หากบุคคลที่จับคู่กันตามความสามารถมีโอกาสตอบสนองต่อข้อสอบแตกต่างกันอย่างมีนัยสำคัญ และส่งผลให้เส้นโค้งการถดถอยโลจิสติกแตกต่างกัน ในทางกลับกัน หากเส้นโค้งของทั้งสองกลุ่มเหมือนกัน แสดงว่าข้อสอบนั้นไม่มีอคติ และดังนั้นจึงไม่มี DIF ในแง่ของ DIF แบบสม่ำเสมอและไม่สม่ำเสมอ หากค่าจุดตัดและพารามิเตอร์ตัวแปรการจับคู่ของทั้งสองกลุ่มไม่เท่ากัน แสดงว่ามี DIF แบบสม่ำเสมอ อย่างไรก็ตาม หากมีพารามิเตอร์ปฏิสัมพันธ์ที่ไม่เป็นศูนย์ แสดงว่ามี DIF แบบไม่สม่ำเสมอ^{[ 29 ]}

ข้อควรพิจารณา

ขนาดตัวอย่าง

ประเด็นแรกที่ต้องพิจารณาคือเรื่องขนาดของกลุ่มตัวอย่าง โดยเฉพาะอย่างยิ่งกลุ่มอ้างอิงและกลุ่มเป้าหมาย ก่อนการวิเคราะห์ใดๆ โดยทั่วไปแล้วเราจะทราบข้อมูลเกี่ยวกับจำนวนคนในแต่ละกลุ่ม เช่น จำนวนชาย/หญิง หรือสมาชิกของกลุ่มชาติพันธุ์/เชื้อชาติ อย่างไรก็ตาม ประเด็นสำคัญกว่านั้นคือจำนวนคนต่อกลุ่มนั้นเพียงพอที่จะมีกำลังทางสถิติ มากพอ ที่จะระบุ DIF ได้หรือไม่ ในบางกรณี เช่น กลุ่มชาติพันธุ์ อาจมีหลักฐานแสดงให้เห็นถึงขนาดกลุ่มที่ไม่เท่ากัน เช่น กลุ่มคนผิวขาวเป็นกลุ่มตัวอย่างที่ใหญ่กว่ากลุ่มชาติพันธุ์แต่ละกลุ่มมาก ดังนั้น ในกรณีเช่นนี้ อาจเหมาะสมที่จะปรับเปลี่ยนหรือแก้ไขข้อมูลเพื่อให้กลุ่มที่นำมาเปรียบเทียบเพื่อหา DIF มีขนาดเท่ากันหรือใกล้เคียงกันมากขึ้น

การเข้ารหัสหรือการเข้ารหัสใหม่แบบดัมมี่เป็นวิธีการทั่วไปที่ใช้เพื่อปรับความไม่เท่าเทียมกันในขนาดของกลุ่มอ้างอิงและกลุ่มเป้าหมาย ในกรณีนี้ กลุ่มชาติพันธุ์ที่ไม่ใช่คนผิวขาวทั้งหมดสามารถจัดกลุ่มเข้าด้วยกันเพื่อให้มีขนาดตัวอย่างที่ค่อนข้างเท่ากันสำหรับกลุ่มอ้างอิงและกลุ่มเป้าหมาย ซึ่งจะช่วยให้สามารถเปรียบเทียบการทำงานของข้อสอบแบบ "ส่วนใหญ่/ส่วนน้อย" ได้ หากไม่มีการปรับเปลี่ยนและดำเนินการตามขั้นตอน DIF อาจไม่มีกำลังทางสถิติเพียงพอที่จะระบุ DIF ได้ แม้ว่าจะมี DIF ระหว่างกลุ่มก็ตาม

อีกประเด็นหนึ่งที่เกี่ยวข้องกับขนาดของกลุ่มตัวอย่างโดยตรงนั้น เกี่ยวข้องกับกระบวนการทางสถิติที่ใช้ในการตรวจหา DIF นอกเหนือจากการพิจารณาขนาดของกลุ่มตัวอย่างอ้างอิงและกลุ่มเป้าหมายแล้ว คุณลักษณะบางประการของกลุ่มตัวอย่างเองก็ต้องเป็นไปตามข้อสมมติฐานของแต่ละการทดสอบทางสถิติที่ใช้ในการตรวจหา DIF ด้วย

ตัวอย่างเช่น การใช้แนวทาง IRT อาจต้องใช้กลุ่มตัวอย่างขนาดใหญ่กว่าที่จำเป็นสำหรับวิธีการ Mantel-Haenszel ซึ่งเป็นสิ่งสำคัญ เนื่องจากการตรวจสอบขนาดกลุ่มอาจนำไปสู่การเลือกใช้วิธีการใดวิธีการหนึ่งมากกว่าอีกวิธีหนึ่ง ในแนวทางการถดถอยโลจิสติกส์ค่าที่มีการใช้ประโยชน์และค่าผิดปกติเป็นสิ่งที่ต้องให้ความสำคัญเป็นพิเศษและต้องได้รับการตรวจสอบก่อนการตรวจหา DIF นอกจากนี้ เช่นเดียวกับการวิเคราะห์ทั้งหมด ต้องเป็นไปตามข้อสมมติฐานของการทดสอบทางสถิติ วิธีการบางอย่างมีความทนทานต่อการละเมิดเล็กน้อยมากกว่า ในขณะที่บางวิธีมีความทนทานน้อยกว่า ดังนั้น ควรตรวจสอบลักษณะการกระจายตัวของผลตอบสนองของกลุ่มตัวอย่างก่อนที่จะนำวิธีการ DIF ใดๆ มาใช้

รายการ

การกำหนดจำนวนข้อที่ใช้ในการตรวจหา DIF นั้นต้องพิจารณาอย่างรอบคอบ ไม่มีมาตรฐานตายตัวว่าควรใช้ข้อคำถามกี่ข้อในการตรวจหา DIF เนื่องจากจำนวนข้อคำถามจะแตกต่างกันไปในแต่ละการศึกษา ในบางกรณี การทดสอบข้อคำถามทั้งหมดเพื่อหา DIF อาจเหมาะสม ในขณะที่บางกรณีอาจไม่จำเป็น หากสงสัยว่ามีเพียงบางข้อคำถามที่มี DIF โดยมีเหตุผลที่เพียงพอ การทดสอบข้อคำถามเหล่านั้นอาจเหมาะสมกว่าการทดสอบทั้งชุด อย่างไรก็ตาม บ่อยครั้งที่ยากที่จะคาดเดาว่าข้อคำถามใดอาจมีปัญหา ด้วยเหตุนี้ จึงมักแนะนำให้ตรวจสอบข้อคำถามทั้งหมดพร้อมกันเพื่อหา DIF ซึ่งจะให้ข้อมูลเกี่ยวกับข้อคำถามทั้งหมด ช่วยให้เห็นภาพข้อคำถามที่มีปัญหา รวมถึงข้อคำถามที่ทำงานคล้ายกันทั้งในกลุ่มอ้างอิงและกลุ่มเป้าหมาย

ในส่วนของการทดสอบทางสถิติ ขั้นตอนบางอย่าง เช่น การทดสอบอัตราส่วนความน่าจะเป็นของ IRT จำเป็นต้องใช้รายการอ้างอิง รายการบางรายการถูกกำหนดให้เท่ากันในทุกกลุ่ม ในขณะที่รายการที่สงสัยว่ามี DIF จะได้รับอนุญาตให้แตกต่างกันได้อย่างอิสระ ในกรณีนี้ จะมีเพียงส่วนย่อยเท่านั้นที่ถูกระบุว่าเป็นรายการ DIF ในขณะที่ส่วนที่เหลือจะทำหน้าที่เป็นกลุ่มเปรียบเทียบสำหรับการตรวจหา DIF เมื่อระบุรายการ DIF แล้ว รายการอ้างอิงก็สามารถนำมาวิเคราะห์ได้เช่นกัน โดยการกำหนดข้อจำกัดให้กับรายการ DIF เดิม และอนุญาตให้รายการอ้างอิงเดิมแตกต่างกันได้อย่างอิสระ

ดังนั้นดูเหมือนว่าการทดสอบทุกรายการพร้อมกันอาจเป็นวิธีการที่มีประสิทธิภาพมากกว่า อย่างไรก็ตาม ดังที่กล่าวไว้ วิธีการเลือกรายการ DIF จะแตกต่างกันไปขึ้นอยู่กับวิธีการที่นำมาใช้

นอกเหนือจากการระบุจำนวนรายการที่ใช้ในการตรวจจับ DIF แล้ว สิ่งสำคัญเพิ่มเติมคือการกำหนดจำนวนรายการในการทดสอบหรือการวัดทั้งหมด คำแนะนำทั่วไปดังที่ Zumbo (1999) ^{[ 30 ]} ระบุไว้ คือควรมีรายการอย่างน้อย 20 รายการ เหตุผลที่ต้องมีรายการอย่างน้อย 20 รายการนั้นเกี่ยวข้องโดยตรงกับการสร้างเกณฑ์การจับคู่ ดังที่กล่าวไว้ในส่วนก่อนหน้านี้ คะแนนรวมของการทดสอบมักใช้เป็นวิธีการจับคู่บุคคลตามความสามารถ คะแนนรวมของการทดสอบจะถูกแบ่งออกเป็นระดับความสามารถ 3-5 ระดับ ( ) ซึ่งจะใช้ในการจับคู่บุคคลตามความสามารถก่อนขั้นตอนการวิเคราะห์ DIF การใช้รายการอย่างน้อย 20 รายการช่วยให้มีความแปรปรวนมากขึ้นในการกระจายคะแนน ซึ่งส่งผลให้กลุ่มระดับความสามารถมีความหมายมากขึ้น ${\textstyle k}$

แม้ว่าคุณสมบัติทางจิตวิทยาของเครื่องมือควรได้รับการประเมินก่อนนำไปใช้ แต่สิ่งสำคัญคือความถูกต้องและความน่าเชื่อถือของเครื่องมือต้องเพียงพอ รายการทดสอบจำเป็นต้องวัดโครงสร้างที่สนใจอย่างแม่นยำเพื่อให้ได้กลุ่มระดับความสามารถที่มีความหมาย แน่นอนว่าเราไม่ต้องการเพิ่มค่าสัมประสิทธิ์ความน่าเชื่อถือโดยการเพิ่มรายการที่ซ้ำซ้อน สิ่งสำคัญคือการมีเครื่องมือวัดที่ถูกต้องและน่าเชื่อถือพร้อมรายการที่เพียงพอสำหรับการพัฒนากลุ่มการจับคู่ที่มีความหมาย Gadermann et al. (2012), ^{[ 31 ]} Revelle and Zinbarg (2009), ^{[ 32 ]}และ John and Soto (2007) ^{[ 33 ]}ให้ข้อมูลเพิ่มเติมเกี่ยวกับแนวทางที่ทันสมัยในการตรวจสอบความถูกต้องเชิงโครงสร้างและวิธีการที่แม่นยำและเหมาะสมยิ่งขึ้นสำหรับการประเมินความน่าเชื่อถือ

การสร้างสมดุลระหว่างสถิติและการใช้เหตุผล

เช่นเดียวกับการวิจัยทางจิตวิทยาและการประเมินทางจิตวิทยา อื่นๆ สถิติมีบทบาทสำคัญ แต่ไม่ควรเป็นพื้นฐานเพียงอย่างเดียวในการตัดสินใจและข้อสรุป การใช้เหตุผลอย่างรอบคอบมีความสำคัญอย่างยิ่งในการประเมินข้อสอบเพื่อหาความแตกต่างของข้อ (DIF) ตัวอย่างเช่น ผลลัพธ์ที่ได้อาจแตกต่างกันไปขึ้นอยู่กับวิธีการทางสถิติที่ใช้ในการตรวจหา DIF บางวิธีมีความแม่นยำมากกว่า ในขณะที่บางวิธีมีความแม่นยำน้อยกว่า ตัวอย่างเช่น วิธีการของ Mantel-Haenszel กำหนดให้ผู้วิจัยสร้างระดับความสามารถโดยอิงจากคะแนนรวมของการทดสอบ ในขณะที่ IRT จัดวางบุคคลตามคุณลักษณะแฝงหรือความสามารถได้อย่างมีประสิทธิภาพมากกว่า ดังนั้น วิธีการหนึ่งอาจบ่งชี้ว่ามี DIF สำหรับบางข้อ ในขณะที่วิธีการอื่นๆ อาจไม่พบ

อีกประเด็นหนึ่งคือ บางครั้งอาจมีการระบุ DIF แต่ไม่มีเหตุผลที่ชัดเจนว่าทำไม DIF จึงเกิดขึ้น นี่คือจุดที่การตัดสินใจอย่างมีเหตุผลเข้ามามีบทบาท โดยเฉพาะอย่างยิ่งโดยการทำความเข้าใจว่าทำไม DIF แบบสม่ำเสมอและไม่สม่ำเสมอจึงเกิดขึ้น^{[ 15 ]}นักวิจัยต้องใช้สามัญสำนึกในการหาความหมายจากการวิเคราะห์ DIF การรายงานว่ารายการทำงานแตกต่างกันสำหรับกลุ่มต่างๆ นั้นไม่เพียงพอ จำเป็นต้องมีเหตุผลเชิงคุณภาพว่าทำไมจึงเกิดขึ้น

ความเหลื่อมล้ำแบบสม่ำเสมอ (Uniform DIF) เกิดขึ้นเมื่อกลุ่มหนึ่งได้เปรียบอีกกลุ่มหนึ่งอย่างสม่ำเสมอในทุกระดับความสามารถ ความลำเอียงประเภทนี้มักแก้ไขได้โดยการใช้เกณฑ์มาตรฐานการทดสอบที่แตกต่างกันสำหรับแต่ละกลุ่มเพื่อให้เกิดความยุติธรรมในการประเมิน ในทางกลับกัน ความเหลื่อมล้ำแบบไม่สม่ำเสมอ (Nonuniform DIF) นั้นซับซ้อนกว่า เนื่องจากความได้เปรียบนั้นแตกต่างกันไปตามระดับความสามารถของแต่ละบุคคล ปัจจัยต่างๆ เช่น สถานะทางเศรษฐกิจและสังคม ความแตกต่างทางวัฒนธรรม อุปสรรคทางภาษา และความเหลื่อมล้ำในการเข้าถึงความรู้ สามารถส่งผลให้เกิดความเหลื่อมล้ำแบบไม่สม่ำเสมอได้ การระบุและแก้ไขความเหลื่อมล้ำแบบไม่สม่ำเสมอต้องอาศัยความเข้าใจอย่างลึกซึ้งเกี่ยวกับกระบวนการทางปัญญาที่เกี่ยวข้อง และอาจต้องมีการแทรกแซงที่เหมาะสมเพื่อให้มั่นใจได้ว่าการประเมินมีความยุติธรรม

ในการศึกษา DIF การค้นพบข้อสอบบางข้อที่แสดง DIF เป็นเรื่องปกติ ซึ่งบ่งชี้ถึงปัญหาที่อาจเกิดขึ้นและจำเป็นต้องได้รับการตรวจสอบ อย่างไรก็ตาม หลักฐาน DIF ไม่ได้หมายความว่าข้อสอบทั้งหมดไม่ยุติธรรมโดยอัตโนมัติ แต่เป็นการบ่งชี้ว่าข้อสอบบางข้ออาจมีความลำเอียง ซึ่งจำเป็นต้องให้ความสนใจเพื่อรักษาความสมบูรณ์และความยุติธรรมของข้อสอบสำหรับผู้เข้าสอบทุกคน การระบุข้อสอบที่มี DIF เปิดโอกาสให้ทบทวนและอาจแก้ไขหรือลบข้อสอบที่มีปัญหา เพื่อให้มั่นใจได้ว่าการประเมินผลมีความเท่าเทียมกัน ดังนั้น การวิเคราะห์ DIF จึงเป็นเครื่องมือที่มีคุณค่าสำหรับการวิเคราะห์ข้อสอบโดยเฉพาะอย่างยิ่งเมื่อเสริมด้วยการสำรวจเชิงคุณภาพเกี่ยวกับปัจจัยที่เป็นสาเหตุ

ซอฟต์แวร์ทางสถิติ

ด้านล่างนี้คือโปรแกรมทางสถิติที่ใช้กันทั่วไป ซึ่งสามารถดำเนินการตามขั้นตอนที่กล่าวถึงในที่นี้ได้ เมื่อคลิกที่ " รายการโปรแกรมทางสถิติ"คุณจะถูกนำไปยังรายการที่ครอบคลุมของซอฟต์แวร์ทางสถิติแบบโอเพนซอร์ส สาธารณะฟรีแวร์และแบบมีลิขสิทธิ์

ขั้นตอน Mantel-Haenszel

ขั้นตอนตาม IRT

BILOG-MG
มัลติล็อก
พาร์สเกล
เทสท์แฟค
อีคิวเอสไออาร์ที
R (เช่น 'difR' ^{[ 34 ]}หรือ 'mirt' ^{[ 35 ]}แพ็คเกจ)
ไออาร์ทีโปร

การถดถอยโลจิสติก

SPSS
เอสเอเอส
สเตต้า
R (เช่นแพ็คเกจ 'difR' ^{[ 34 ] )}
ซิสแตท

ดูเพิ่มเติม

ความไม่แปรผันของการวัด

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[

[

[

10

[

[

[ 13 ]

[ 14 ]

[

[

[ 17 ]

[ 18 ]

[ 19 ]

20 ] จุด

[

[

[

[

[

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ] )

[ 35 ]