การทดสอบความเท่าเทียมกัน

Q: การเปรียบเทียบระหว่างการทดสอบ t และการทดสอบความเท่าเทียมกัน

การทดสอบความเท่าเทียมกันสามารถ อนุมานได้ จากการทดสอบ t [ 7 ] พิจารณาการทดสอบ t ที่ระดับนัยสำคัญ α t-test ด้วย กำลัง 1-β t-test สำหรับขนาดผลกระทบที่เกี่ยวข้อง d r หาก Δ = d r เช่นเดียวกับ α equiv.-test = β t-test และ β equiv.

Q: วรรณกรรม

เอกสารด้านล่างนี้เป็นบทนำที่ดีเกี่ยวกับการทดสอบความเท่าเทียมกัน

การทดสอบความเท่าเทียมกัน เป็นการ ทดสอบสมมติฐานประเภทหนึ่งที่ใช้ในการ อนุมาน ทางสถิติจากข้อมูลที่สังเกตได้ ในการทดสอบเหล่านี้ สมมติฐาน ว่าง (null hypothesis)ถูกกำหนดให้เป็นผลกระทบที่มีขนาดใหญ่พอที่จะถือว่าน่าสนใจ โดยระบุด้วยขอบเขตความเท่าเทียมกัน สมมติฐานทางเลือก (alternative hypothesis) คือผลกระทบใดๆ ที่มีความรุนแรงน้อยกว่าขอบเขตความเท่าเทียมกันดังกล่าว ข้อมูลที่สังเกตได้จะถูกเปรียบเทียบทางสถิติกับขอบเขตความเท่าเทียมกัน หากการทดสอบทางสถิติบ่งชี้ว่าข้อมูลที่สังเกตได้นั้นน่าประหลาดใจ โดยสมมติว่าผลกระทบที่แท้จริงมีความรุนแรงอย่างน้อยเท่ากับขอบเขตความเท่าเทียมกัน เรา สามารถใช้แนวทางของ เนย์แมน-เพียร์สัน (Neyman-Pearson)ในการอนุมานทางสถิติเพื่อปฏิเสธขนาดของผลกระทบที่ใหญ่กว่าขอบเขตความเท่าเทียมกันด้วยอัตรา ความผิดพลาดประเภทที่ 1 ที่กำหนดไว้ล่วงหน้า

การทดสอบความเท่าเทียม กันมีต้นกำเนิดมาจากสาขาการทดลองทางคลินิก^{[ 1 ]}การประยุกต์ใช้อย่างหนึ่งที่เรียกว่าการทดลองที่ไม่ด้อยกว่าใช้เพื่อแสดงให้เห็นว่ายาใหม่ที่ราคาถูกกว่ายาทางเลือกที่มีอยู่ทำงานได้ดีเท่ากับยาที่มีอยู่แล้ว โดยพื้นฐานแล้ว การทดสอบความเท่าเทียมกันประกอบด้วยการคำนวณช่วงความเชื่อมั่นรอบขนาดผลกระทบ ที่สังเกตได้ และปฏิเสธผลกระทบที่รุนแรงกว่าขอบเขตความเท่าเทียมกันเมื่อช่วงความเชื่อมั่นไม่ทับซ้อนกับขอบเขตความเท่าเทียมกัน ในการทดสอบแบบสองด้าน จะมีการระบุทั้งขอบเขตความเท่าเทียมกันบนและล่าง ในการทดลองที่ไม่ด้อยกว่า ซึ่งเป้าหมายคือการทดสอบสมมติฐานว่าการรักษาใหม่ไม่แย่กว่าการรักษาที่มีอยู่ จะมีการระบุเฉพาะขอบเขตความเท่าเทียมกันล่างเท่านั้น

การทดสอบความเท่าเทียมกันสามารถดำเนินการได้นอกเหนือจากการทดสอบความสำคัญของสมมติฐานว่าง^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}ซึ่งอาจป้องกันการตีความค่า p ที่มากกว่าระดับอัลฟาผิดพลาดว่าเป็นหลักฐานสนับสนุนการไม่มีผลกระทบที่แท้จริง นอกจากนี้ การทดสอบความเท่าเทียมกันยังสามารถระบุผลกระทบที่มีนัยสำคัญทางสถิติแต่ไม่มีนัยสำคัญในทางปฏิบัติได้ เมื่อใดก็ตามที่ผลกระทบแตกต่างจากศูนย์ทางสถิติ แต่ยังเล็กกว่าขนาดผลกระทบใดๆ ที่ถือว่าคุ้มค่าทางสถิติ (ดูรูปแรก) ^{[ 6 ]}เดิมทีการทดสอบความเท่าเทียมกันถูกนำมาใช้ในสาขาต่างๆ เช่น เภสัชกรรม โดยมักใช้ในการทดลองความเท่าเทียมกันทางชีวภาพ อย่างไรก็ตาม การทดสอบเหล่านี้สามารถนำไปใช้กับกรณีใดๆ ก็ตามที่คำถามวิจัยถามว่าค่าเฉลี่ยของคะแนนสองชุดนั้นเท่าเทียมกันในทางปฏิบัติหรือทางทฤษฎีหรือไม่ การทดสอบความเท่าเทียมกันเพิ่งได้รับการแนะนำในการประเมินอุปกรณ์การวัด^{[ 7 ]}^{[ 8 ]}ปัญญาประดิษฐ์^{[ 9 ]}สรีรวิทยาการออกกำลังกายและวิทยาศาสตร์การกีฬา^{[ 10 ]}รัฐศาสตร์^{[ 11 ]}จิตวิทยา^{[ 6 ]}^{[ 12 ]}และเศรษฐศาสตร์^{[ 13 ]}มีการทดสอบหลายอย่างสำหรับการวิเคราะห์ความเท่าเทียมกัน อย่างไรก็ตาม เมื่อไม่นานมานี้ ขั้นตอนการทดสอบ t แบบสองด้าน (TOST) ได้รับความสนใจอย่างมาก ดังที่ได้กล่าวไว้ด้านล่าง วิธีการนี้เป็นการดัดแปลงมาจากการทดสอบ t ที่เป็นที่รู้จักกันอย่างแพร่หลาย

ขั้นตอน TOST

วิธีการทดสอบความเท่าเทียมกันที่ง่ายมากวิธีหนึ่งคือขั้นตอน 'การทดสอบ t แบบด้านเดียวสองครั้ง' (TOST) ^{[ 14 ]}ในขั้นตอน TOST จะมีการระบุขอบเขตความเท่าเทียมกันบน (Δ _U ) และล่าง (–Δ _L ) โดยอิงจากขนาดผลกระทบที่เล็กที่สุดที่สนใจ (เช่น ความแตกต่างที่เป็นบวกหรือลบของ d = 0.3) จะมีการทดสอบสมมติฐานว่างแบบผสมสองข้อ: H ₀₁ : Δ ≤ –Δ _Lและ H ₀₂ : Δ ≥ Δ _Uเมื่อการทดสอบแบบด้านเดียวทั้งสองนี้สามารถถูกปฏิเสธทางสถิติได้ เราสามารถสรุปได้ว่า –Δ _L < Δ < Δ _Uหรือว่าผลกระทบที่สังเกตได้นั้นอยู่ภายในขอบเขตความเท่าเทียมกันและมีขนาดเล็กกว่าผลกระทบใดๆ ที่ถือว่าคุ้มค่าและถือว่าเทียบเท่ากันในทางปฏิบัติ^{[ 6 ]}นอกจากนี้ยังมีการพัฒนาทางเลือกอื่นนอกเหนือจากขั้นตอน TOST ด้วย^{[ 15 ]}การปรับเปลี่ยน TOST ครั้งล่าสุดทำให้วิธีการนี้สามารถทำได้ในกรณีของการวัดซ้ำและการประเมินตัวแปรหลายตัว^{[ 16 ]}

การเปรียบเทียบระหว่างการทดสอบ t และการทดสอบความเท่าเทียมกัน

การทดสอบความเท่าเทียมกันสามารถอนุมานได้จากการทดสอบt ^{[ 7 ]}พิจารณาการทดสอบ t ที่ระดับนัยสำคัญ α _t-testด้วยกำลัง 1-β _t-testสำหรับขนาดผลกระทบที่เกี่ยวข้อง d _rหาก Δ = d _rเช่นเดียวกับ α _equiv.-test = β _t-testและ β _equiv.-test = α _t-testตรงกัน กล่าวคือ ประเภทของข้อผิดพลาด (ประเภทที่ 1 และประเภทที่ 2) สลับกันระหว่างการทดสอบ t และการทดสอบความเท่าเทียมกัน การทดสอบ t จะได้ผลลัพธ์เช่นเดียวกับการทดสอบความเท่าเทียมกัน เพื่อให้ได้ผลลัพธ์นี้สำหรับการทดสอบ t จำเป็นต้องคำนวณขนาดตัวอย่างอย่างถูกต้อง หรือต้องปรับระดับนัยสำคัญของการทดสอบ t α _t-testซึ่งเรียกว่าการทดสอบ t ที่แก้ไขแล้ว^{[ 7 ]}ทั้งสองแนวทางมีข้อจำกัดในทางปฏิบัติ เนื่องจากการวางแผนขนาดตัวอย่างขึ้นอยู่กับสมมติฐานที่ไม่สามารถตรวจสอบได้ของค่าเบี่ยงเบนมาตรฐานและการทดสอบ t ที่แก้ไขแล้วก่อให้เกิดปัญหาเชิงตัวเลข^{[ 7 ]}การรักษาพฤติกรรมการทดสอบ ข้อจำกัดเหล่านั้นสามารถขจัดออกได้โดยใช้การทดสอบความเท่าเทียมกัน

ภาพด้านล่างแสดงการเปรียบเทียบเชิงภาพระหว่างการทดสอบความเท่าเทียมกันและการทดสอบ t เมื่อการคำนวณขนาดตัวอย่างได้รับผลกระทบจากความแตกต่างระหว่างค่าเบี่ยงเบนมาตรฐานที่กำหนดไว้ล่วงหน้าและค่าเบี่ยงเบนมาตรฐานของตัวอย่างซึ่งเป็นปัญหาที่พบได้ทั่วไป การใช้การทดสอบความเท่าเทียมกันแทนการทดสอบ t ยังช่วยให้มั่นใจได้ว่าค่า α ของ_{การทดสอบความเท่าเทียมกัน}นั้นมีขอบเขตจำกัด ซึ่งการทดสอบ t ไม่สามารถทำได้ในกรณีที่ความผิดพลาดประเภทที่ 2 เพิ่มขึ้นอย่างไม่มีขีดจำกัด ในทางกลับกันผลลัพธ์ของการทดสอบ t นั้นเข้มงวดกว่าค่า d _rที่ระบุไว้ในการวางแผน ซึ่งอาจลงโทษแหล่งที่มาของตัวอย่าง (เช่น ผู้ผลิตอุปกรณ์) อย่างไม่เป็นธรรม ทำให้การทดสอบความเท่าเทียมกันมีความปลอดภัยในการใช้งานมากกว่า ${\textstyle \sigma }$ ${\textstyle {\widehat {\sigma }}}$ ${\textstyle {\widehat {\sigma }}>\sigma }$ ${\textstyle {\widehat {\sigma }}<\sigma }$

ดูเพิ่มเติม

การทดสอบโดยใช้บูตสแตรป (สถิติ)

วรรณกรรม