อ่าน 22 นาที
ขนาดของผลกระทบ
ใน ทางสถิติ ขนาด ผลกระทบ (effect size) คือการวัดเชิงปริมาณของขนาดของ ปรากฏการณ์ [ 1 ] อาจหมายถึงค่าของสถิติที่คำนวณจากตัวอย่าง ข้อมูล ค่าของพารามิเตอร์หนึ่งตัวสำหรับประชากรสมมติ...
ขนาดของผลกระทบ
ในทางสถิติขนาดผลกระทบ (effect size)คือการวัดเชิงปริมาณของขนาดของปรากฏการณ์[ 1 ]อาจหมายถึงค่าของสถิติที่คำนวณจากตัวอย่างข้อมูลค่าของพารามิเตอร์หนึ่งตัวสำหรับประชากรสมมติ หรือสมการที่แสดงให้เห็นว่าสถิติหรือพารามิเตอร์นำไปสู่ค่าขนาดผลกระทบได้อย่างไร[ 1 ]ตัวอย่างของขนาดผลกระทบ ได้แก่ความสัมพันธ์ระหว่างตัวแปรสองตัว[ 2 ]สัมประสิทธิ์การถดถอยในการถดถอย ความแตกต่างของ ค่าเฉลี่ยและความเสี่ยงของเหตุการณ์เฉพาะ (เช่น โรคหัวใจวาย) ขนาดผลกระทบเป็นเครื่องมือเสริมสำหรับการทดสอบสมมติฐานทางสถิติและมีบทบาทสำคัญใน การวิเคราะห์ กำลังทางสถิติเพื่อประเมินขนาดตัวอย่างที่จำเป็นสำหรับการทดลองใหม่[ 3 ]การคำนวณขนาดผลกระทบเป็นพื้นฐานสำหรับการวิเคราะห์เมตา (meta-analysis ) ซึ่งมีจุดมุ่งหมายเพื่อให้ได้ขนาดผลกระทบรวมโดยอิงจากข้อมูลจากการศึกษาหลายๆ ครั้ง กลุ่มของวิธีการวิเคราะห์ข้อมูลที่เกี่ยวข้องกับขนาดผลกระทบเรียกว่าสถิติการประมาณค่า
ขนาดผลกระทบ (effect size) เป็นองค์ประกอบสำคัญในการประเมินความน่าเชื่อถือของข้ออ้างทางสถิติ และเป็นรายการแรก (ขนาด) ในเกณฑ์ MAGICค่าเบี่ยงเบนมาตรฐานของขนาดผลกระทบมีความสำคัญอย่างยิ่ง เนื่องจากบ่งชี้ว่ามีความไม่แน่นอนมากน้อยเพียงใดในการวัดที่สังเกตได้ ค่าเบี่ยงเบนมาตรฐานที่มากเกินไปจะทำให้การวัดแทบไม่มีความหมาย ในการวิเคราะห์เมตา (meta-analysis) ซึ่งมีเป้าหมายเพื่อสรุปขนาดผลกระทบหลายๆ ค่าให้เป็นค่าประมาณเดียว ความไม่แน่นอนในขนาดผลกระทบของการศึกษาต่างๆ จะถูกนำมาใช้เพื่อถ่วงน้ำหนักการมีส่วนร่วมของการศึกษาแต่ละชิ้น ดังนั้นการศึกษาขนาดใหญ่จึงถือว่ามีความสำคัญมากกว่าการศึกษาขนาดเล็ก ความไม่แน่นอนในขนาดผลกระทบจะคำนวณแตกต่างกันสำหรับขนาดผลกระทบแต่ละประเภท แต่โดยทั่วไปแล้วจะต้องทราบเพียงขนาดตัวอย่างของการศึกษา ( N ) หรือจำนวนการสังเกต ( n ) ในแต่ละกลุ่มเท่านั้น
การรายงานขนาดผลกระทบหรือค่าประมาณของผลกระทบ (ค่าประมาณผลกระทบ [EE], ค่าประมาณของผลกระทบ) ถือเป็นแนวปฏิบัติที่ดีเมื่อนำเสนอผลการวิจัยเชิงประจักษ์ในหลายสาขา[ 4 ] [ 5 ]การรายงานขนาดผลกระทบช่วยให้การตีความความสำคัญของผลการวิจัยง่ายขึ้น ซึ่งแตกต่างจากนัยสำคัญทางสถิติ [ 6 ]ขนาดผลกระทบมีความสำคัญอย่างยิ่งในการวิจัยทางสังคมศาสตร์และ การแพทย์ โดยเฉพาะ อย่าง ยิ่ง การวิจัยทางการแพทย์ที่เน้นความสำคัญของขนาดของ ผลกระทบการรักษา โดย เฉลี่ย
ขนาดของผลกระทบอาจวัดได้ทั้งในเชิงสัมพัทธ์หรือเชิงสัมบูรณ์ ในขนาดของผลกระทบเชิงสัมพัทธ์นั้น จะเปรียบเทียบสองกลุ่มโดยตรง เช่นอัตราส่วนความน่าจะเป็นและความเสี่ยงเชิงสัมพัทธ์ค่าสัมบูรณ์ที่มากขึ้นมักบ่งชี้ถึงผลกระทบที่รุนแรงกว่าสำหรับขนาดของผลกระทบเชิงสัมบูรณ์ การวัดหลายประเภทสามารถแสดงได้ทั้งในรูปของค่าสัมบูรณ์หรือเชิงสัมพัทธ์ และสามารถใช้ร่วมกันได้เนื่องจากให้ข้อมูลที่แตกต่างกัน คณะทำงานที่มีชื่อเสียงใน วงการ วิจัยจิตวิทยาได้ให้คำแนะนำดังต่อไปนี้:
ควรนำเสนอขนาดผลกระทบสำหรับผลลัพธ์หลักเสมอ...หากหน่วยวัดมีความหมายในระดับปฏิบัติ (เช่น จำนวนบุหรี่ที่สูบต่อวัน) เรามักจะเลือกใช้การวัดที่ไม่เป็นมาตรฐาน (สัมประสิทธิ์การถดถอยหรือความแตกต่างเฉลี่ย) มากกว่าการวัดที่เป็นมาตรฐาน ( rหรือd ) [ 4 ]
ภาพรวม
ขนาดผลกระทบของประชากรและกลุ่มตัวอย่าง
เช่นเดียวกับการประมาณค่าทางสถิติขนาดผลกระทบที่แท้จริงจะแตกต่างจากขนาดผลกระทบที่สังเกตได้ ตัวอย่างเช่น ในการวัดความเสี่ยงของโรคในประชากร (ขนาดผลกระทบของประชากร) เราสามารถวัดความเสี่ยงภายในกลุ่มตัวอย่างของประชากรนั้น (ขนาดผลกระทบของกลุ่มตัวอย่าง) ข้อกำหนดสำหรับการอธิบายขนาดผลกระทบที่แท้จริงและที่สังเกตได้เป็นไปตามหลักปฏิบัติทางสถิติมาตรฐาน วิธีที่ใช้กันทั่วไปวิธีหนึ่งคือการใช้ตัวอักษรกรีก เช่น ρ [rho] เพื่อแสดงพารามิเตอร์ของประชากร และตัวอักษรละติน เช่นrเพื่อแสดงค่าสถิติที่สอดคล้องกัน หรืออีกวิธีหนึ่ง อาจวาง "หมวก" ไว้เหนือพารามิเตอร์ของประชากรเพื่อแสดงค่าสถิติ เช่น โดยที่เป็น ค่าประมาณของพารามิเตอร์
เช่นเดียวกับการตั้งค่าทางสถิติใดๆ ขนาดผลกระทบจะถูกประมาณด้วยข้อผิดพลาดในการสุ่มตัวอย่างและอาจมีอคติได้ เว้นแต่ตัวประมาณขนาดผลกระทบที่ใช้จะเหมาะสมกับวิธีการสุ่มตัวอย่าง ข้อมูล และวิธีการวัด ตัวอย่างเช่น อคติในการตีพิมพ์ซึ่งเกิดขึ้นเมื่อนักวิทยาศาสตร์รายงานผลลัพธ์เฉพาะเมื่อขนาดผลกระทบที่ประมาณได้มีขนาดใหญ่หรือมีนัยสำคัญทางสถิติ ผลที่ตามมาคือ หากนักวิจัยจำนวนมากทำการศึกษาที่มีกำลังทางสถิติต่ำ ขนาดผลกระทบที่รายงานจะมีแนวโน้มที่จะใหญ่กว่าผลกระทบที่แท้จริง (ของประชากร) หากมี[ 7 ]อีกตัวอย่างหนึ่งที่ขนาดผลกระทบอาจบิดเบือนได้คือในการทดลองแบบหลายรอบ ซึ่งการคำนวณขนาดผลกระทบจะขึ้นอยู่กับการตอบสนองเฉลี่ยหรือรวมจากรอบการทดลอง[ 8 ]
การศึกษาขนาดเล็กบางครั้งแสดงขนาดผลที่แตกต่างกัน ซึ่งมักจะใหญ่กว่าการศึกษาขนาดใหญ่ ปรากฏการณ์นี้เรียกว่าผลกระทบจากการศึกษาขนาดเล็ก ซึ่งอาจบ่งชี้ถึงอคติในการตีพิมพ์[ 9 ]
ความสัมพันธ์กับสถิติการทดสอบ
ขนาดผลกระทบที่ได้จากตัวอย่างนั้นแตกต่างจากสถิติการทดสอบที่ใช้ในการทดสอบสมมติฐาน ตรงที่ขนาดผลกระทบจะประมาณความแข็งแกร่ง (ขนาด) ของความสัมพันธ์ที่ปรากฏให้เห็น แทนที่จะกำหนด ระดับ นัยสำคัญที่สะท้อนว่าขนาดของความสัมพันธ์ที่สังเกตได้นั้นอาจเกิดจากความบังเอิญหรือไม่ ขนาดผลกระทบไม่ได้กำหนดระดับนัยสำคัญโดยตรง หรือในทางกลับกัน หากขนาดตัวอย่างมีขนาดใหญ่เพียงพอ การเปรียบเทียบทางสถิติที่ไม่เป็นศูนย์จะแสดงผลลัพธ์ที่มีนัยสำคัญทางสถิติเสมอ เว้นแต่ขนาดผลกระทบของประชากรจะเป็นศูนย์พอดี (และแม้ในกรณีนั้น ผลลัพธ์ก็จะมีนัยสำคัญทางสถิติในอัตราความผิดพลาดประเภทที่ 1 ที่ใช้) ตัวอย่างเช่น ค่า สัมประสิทธิ์สหสัมพันธ์เพียร์สันของตัวอย่างที่ 0.01 มีนัยสำคัญทางสถิติหากขนาดตัวอย่างคือ 1000 การรายงานเฉพาะค่าp ที่มีนัยสำคัญ จากการวิเคราะห์นี้อาจทำให้เข้าใจผิดได้ หากค่าสหสัมพันธ์ 0.01 เล็กเกินไปที่จะมีความสำคัญในแอปพลิเคชันเฉพาะนั้น ๆ
ขนาดผลกระทบแบบมาตรฐานและแบบไม่มาตรฐาน
คำว่าขนาดผลกระทบ (effect size)อาจหมายถึง การวัดผลกระทบแบบมาตรฐาน (เช่นr , Cohen's dหรืออัตราส่วนความน่าจะเป็น ) หรือการวัดแบบไม่มาตรฐาน (เช่น ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม หรือสัมประสิทธิ์การถดถอยแบบไม่มาตรฐาน) โดยทั่วไปแล้ว การวัดขนาดผลกระทบแบบมาตรฐานจะใช้เมื่อ:
- ตัวชี้วัดของตัวแปรที่กำลังศึกษานั้นไม่มีความหมายในตัวเอง (เช่น คะแนนจากการทดสอบบุคลิกภาพบนมาตราส่วนที่ไม่ตายตัว)
- มีการนำผลลัพธ์จากหลายการศึกษามารวมกัน
- งานวิจัยบางส่วนหรือทั้งหมดใช้มาตรวัดที่แตกต่างกัน หรือ
- มีความต้องการที่จะสื่อถึงขนาดของผลกระทบเมื่อเทียบกับความแปรปรวนในประชากร
ในการวิเคราะห์แบบเมตา การใช้ขนาดผลกระทบมาตรฐานเป็นมาตรวัดทั่วไปที่สามารถคำนวณได้จากงานวิจัยต่างๆ แล้วนำมารวมกันเพื่อสรุปผลโดยรวม
การตีความ
การตีความขนาดผลกระทบว่าเล็กกลางหรือใหญ่ขึ้นอยู่กับบริบทเนื้อหาและคำจำกัดความเชิงปฏิบัติการ Jacob Cohen [ 10 ]แนะนำแนวทางการตีความที่พบได้ทั่วไปในหลายสาขา อย่างไรก็ตาม Cohen ก็ได้เตือนไว้เช่นกันว่า:
"คำว่า 'เล็ก' 'กลาง' และ 'ใหญ่' เป็นคำที่สัมพันธ์กัน ไม่เพียงแต่ระหว่างกันเองเท่านั้น แต่ยังสัมพันธ์กับสาขาวิทยาศาสตร์พฤติกรรม หรือโดยเฉพาะอย่างยิ่งกับเนื้อหาและวิธีการวิจัยเฉพาะที่ใช้ในการศึกษาใดๆ... ด้วยความสัมพันธ์เช่นนี้ จึงมีความเสี่ยงบางประการในการนำเสนอคำจำกัดความเชิงปฏิบัติการแบบเดิมสำหรับคำเหล่านี้เพื่อใช้ในการวิเคราะห์อำนาจในสาขาการศึกษาที่หลากหลายเช่นวิทยาศาสตร์พฤติกรรม อย่างไรก็ตาม ความเสี่ยงนี้ได้รับการยอมรับด้วยความเชื่อที่ว่า การจัดหาโครงสร้างอ้างอิงแบบเดิมทั่วไปนั้น จะได้ประโยชน์มากกว่าเสียประโยชน์ และแนะนำให้ใช้เฉพาะเมื่อไม่มีพื้นฐานที่ดีกว่าสำหรับการประมาณค่าดัชนี ES เท่านั้น" (หน้า 25)
Sawilowsky [ 11 ]แนะนำว่าควรแก้ไขกฎเกณฑ์ทั่วไปสำหรับขนาดผลกระทบ และขยายคำอธิบายให้ครอบคลุมถึงขนาดเล็กมากขนาดใหญ่มากและขนาดมหึมา Funder และ Ozer [ 12 ]แนะนำว่าควรตีความขนาดผลกระทบโดยอิงจากเกณฑ์มาตรฐานและผลที่ตามมาของการค้นพบ ซึ่งส่งผลให้มีการปรับคำแนะนำตามแนวทาง
Lenth [ 13 ]ตั้งข้อสังเกตสำหรับ ขนาดผลกระทบ ปานกลาง ว่า "คุณจะเลือก nเดียวกันโดยไม่คำนึงถึงความแม่นยำหรือความน่าเชื่อถือของเครื่องมือของคุณ หรือความแคบหรือความหลากหลายของกลุ่มตัวอย่างของคุณ เห็นได้ชัดว่ามีการพิจารณาที่สำคัญถูกละเลยที่นี่ นักวิจัยควรตีความความสำคัญเชิงเนื้อหาของผลลัพธ์โดยการวางรากฐานในบริบทที่มีความหมายหรือโดยการวัดปริมาณการมีส่วนร่วมต่อความรู้ และคำอธิบายขนาดผลกระทบของ Cohen สามารถเป็นประโยชน์ในฐานะจุดเริ่มต้น" [ 6 ]ในทำนองเดียวกัน รายงานที่ได้รับการสนับสนุนจากกระทรวงศึกษาธิการของสหรัฐอเมริกาโต้แย้งว่าการใช้แนวทางการตีความของ Cohen อย่างแพร่หลายโดยไม่เลือกปฏิบัติอาจไม่เหมาะสมและทำให้เข้าใจผิดได้[ 14 ]พวกเขาแนะนำว่าบรรทัดฐานควรขึ้นอยู่กับการกระจายของขนาดผลกระทบจากการศึกษาที่เปรียบเทียบได้ ดังนั้นผลกระทบเล็กน้อย (ในจำนวนสัมบูรณ์) อาจถือว่าใหญ่ได้หากผลกระทบนั้นใหญ่กว่าการศึกษาที่คล้ายคลึงกันในสาขา ดูความขัดแย้งของ Abelsonและความขัดแย้งของ Sawilowsky สำหรับประเด็นที่เกี่ยวข้อง[ 15 ] [ 16 ] [ 17 ]
ตารางด้านล่างประกอบด้วยคำอธิบายสำหรับขนาดต่างๆ ของd , r , fและomegaตามที่ Jacob Cohen แนะนำไว้ในตอนแรก[ 10 ]และต่อมาได้รับการขยายโดย Sawilowsky [ 11 ]และโดย Funder & Ozer [ 12 ]
| ขนาดของผลกระทบ | ง | ร | เอฟ | โอเมก้า |
|---|---|---|---|---|
| เล็กมาก | 0.01 [ 11 ] | 0.005 [ 11 ] | 0.005 [ 11 ] | |
| เล็ก | 0.20 [ 10 ] [ 11 ] | 0.10 [ 10 ] [ 11 ] | 0.10 [ 10 ] [ 11 ] | 0.10 [ 10 ] |
| ปานกลาง | 0.41, [ 12 ] 0.50 [ 10 ] | 0.20, [ 12 ] 0.24 [ 10 ] | 0.20, [ 12 ] 0.31 [ 10 ] | 0.30 [ 10 ] |
| ใหญ่ | 0.63, [ 12 ] 0.80 [ 10 ] | 0.30, [ 12 ] 0.37 [ 10 ] | 0.32, [ 12 ] 0.40 [ 10 ] | 0.50 [ 10 ] |
| ใหญ่มาก | 0.87, [ 12 ] 1.20 [ 11 ] | 0.40, [ 12 ] 0.51 [ 11 ] | 0.44, [ 11 ] 0.60 [ 12 ] | |
| ใหญ่ | 2.0 [ 11 ] | 0.71 [ 11 ] | 1.0 [ 11 ] |
ประเภท
มีมาตรวัดขนาดผลกระทบที่แตกต่างกันประมาณ 50 ถึง 100 แบบ มาตรวัดขนาดผลกระทบหลายประเภทสามารถแปลงเป็นประเภทอื่นได้ เนื่องจากหลายประเภทใช้ประมาณการแยกแยะความแตกต่างระหว่างสองการแจกแจง ดังนั้นจึงมีความสัมพันธ์ทางคณิตศาสตร์กัน ตัวอย่างเช่น ค่าสัมประสิทธิ์สหสัมพันธ์สามารถแปลงเป็นค่า Cohen's d ได้ และในทางกลับกัน
กลุ่มความสัมพันธ์: ขนาดของผลกระทบโดยพิจารณาจาก "ความแปรปรวนที่อธิบายได้"
ขนาดของผลกระทบเหล่านี้ประมาณปริมาณความแปรปรวนภายในการทดลองที่ "อธิบายได้" หรือ "รับมือได้" โดยแบบจำลองของการทดลอง ( ความแปรปรวนที่อธิบายได้ )
ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน(r)
ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งมักใช้สัญลักษณ์rและคิดค้นโดยคาร์ล เพียร์สันเป็นค่าที่ใช้กันอย่างแพร่หลายในการวัดขนาดผลกระทบเมื่อมีข้อมูลเชิงปริมาณแบบจับคู่ เช่น ในการศึกษาความสัมพันธ์ระหว่างน้ำหนักแรกเกิดกับอายุขัย ค่าสัมประสิทธิ์สหสัมพันธ์นี้ยังสามารถใช้ได้เมื่อข้อมูลเป็นแบบไบนารีค่า r ของเพียร์สัน มีค่าตั้งแต่ -1 ถึง 1 โดย -1 แสดงถึงความสัมพันธ์เชิงเส้นลบที่สมบูรณ์แบบ 1 แสดงถึงความสัมพันธ์เชิงเส้นบวกที่สมบูรณ์แบบ และ 0 แสดงว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
ค่า สัมประสิทธิ์การกำหนด( r²หรือR² )
ตัวแปร ขนาดผลกระทบที่เกี่ยวข้องอีกตัวหนึ่งคือr² ซึ่งเป็น สัมประสิทธิ์การกำหนด (เรียกอีกอย่างว่าR²หรือ " r -squared") คำนวณจากค่ากำลังสองของค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันrในกรณีของข้อมูลจับคู่ ค่านี้เป็นการวัดสัดส่วนของความแปรปรวนที่ตัวแปรทั้งสองมีร่วมกัน และมีค่าตั้งแต่ 0 ถึง 1 ตัวอย่างเช่น หากrเท่ากับ 0.21 สัมประสิทธิ์การกำหนดจะมีค่าเท่ากับ 0.0441 หมายความว่า 4.4% ของความแปรปรวนของตัวแปรใดตัวแปรหนึ่งนั้นมีร่วมกับตัวแปรอีกตัวหนึ่ง ค่าr² จะเป็นบวกเสมอ ดังนั้นจึงไม่ได้แสดงทิศทางของความสัมพันธ์ระหว่างตัวแปรทั้งสอง
เอตา-กำลังสอง ( η² )
ค่า Eta-squared อธิบายถึงอัตราส่วนของความแปรปรวนที่อธิบายได้ในตัวแปรตามโดยตัวแปรทำนาย ในขณะที่ควบคุมตัวแปรทำนายอื่นๆ ทำให้คล้ายคลึงกับค่าr² Eta -squared เป็นตัวประมาณค่าความแปรปรวนที่อธิบายได้โดยแบบจำลองในประชากรที่มีอคติ (มันประมาณค่าขนาดผลกระทบเฉพาะในกลุ่มตัวอย่างเท่านั้น) การประมาณค่านี้มีจุดอ่อนเช่นเดียวกับr² คือตัวแปรเพิ่มเติมแต่ละตัวจะทำให้ค่าη² เพิ่มขึ้นโดยอัตโนมัติ นอกจากนี้ มันวัดความแปรปรวนที่อธิบายได้ของกลุ่มตัวอย่าง ไม่ใช่ประชากร ซึ่งหมายความว่ามันจะประมาณค่าขนาดผลกระทบสูงเกินไปเสมอ แม้ว่าอคติจะลดลงเมื่อกลุ่มตัวอย่างมีขนาดใหญ่ขึ้นก็ตาม
โอเมก้ากำลัง สอง ( ω² )
ตัวประมาณค่าความแปรปรวนที่อธิบายได้ในประชากรที่มีอคติน้อยกว่าคือω 2 [ 18 ]
สูตรรูปแบบนี้จำกัดเฉพาะการวิเคราะห์ระหว่างกลุ่มตัวอย่างที่มีขนาดตัวอย่างเท่ากันในทุกเซลล์[ 18 ]เนื่องจากมีอคติน้อยกว่า (แม้ว่าจะไม่ใช่ไม่มีอคติ) ω 2จึงดีกว่า η 2อย่างไรก็ตาม การคำนวณสำหรับการวิเคราะห์ที่ซับซ้อนอาจไม่สะดวกกว่า รูปแบบทั่วไปของตัวประมาณค่าได้รับการเผยแพร่สำหรับการวิเคราะห์ระหว่างกลุ่มตัวอย่างและภายในกลุ่มตัวอย่าง การวัดซ้ำ การออกแบบแบบผสม และการทดลองแบบบล็อกสุ่ม[ 19 ]นอกจากนี้ วิธีการคำนวณω 2 บางส่วน สำหรับปัจจัยแต่ละตัวและปัจจัยรวมในการออกแบบที่มีตัวแปรอิสระมากถึงสามตัวได้รับการเผยแพร่แล้ว[ 19 ]
โคเฮนเอฟ2
ค่าf²ของ Cohen เป็นหนึ่งในมาตรวัดขนาดผลกระทบหลายตัวที่ใช้ในบริบทของการทดสอบ FสำหรับANOVAหรือการถดถอยพหุ ตัวแปร ปริมาณความเอนเอียง ( การประเมิน ขนาดผลกระทบสูงเกินไปสำหรับ ANOVA) ขึ้นอยู่กับความเอนเอียงของการ วัด ความแปรปรวนที่อธิบายได้ (เช่นR² , η² , ω² )
ค่าf² ซึ่งเป็นมาตรวัดขนาดผลกระทบสำหรับการ วิเคราะห์การถดถอยพหุตัวแปร ถูกกำหนดดังนี้:
ในทำนองเดียวกันf 2สามารถกำหนดได้ดังนี้: หรือ สำหรับแบบจำลองที่อธิบายโดยการวัดขนาดผลกระทบเหล่านั้น[ 20 ]
การวัดขนาดผลกระทบสำหรับการถดถอยพหุแบบลำดับและการใช้ทั่วไปสำหรับการสร้างแบบจำลอง PLS [ 21 ]กำหนดไว้ดังนี้: โดยที่R 2 Aคือความแปรปรวนที่อธิบายได้โดยชุดของตัวแปรอิสระA หนึ่งตัวหรือมากกว่า และR 2 ABคือความแปรปรวนรวมที่อธิบายได้โดยAและอีกชุดของตัวแปรอิสระที่สนใจB หนึ่ง ตัว หรือมากกว่า ตามธรรมเนียม ขนาดผลกระทบ f 2ของ, , และเรียกว่าเล็กปานกลางและใหญ่ตามลำดับ[ 10 ]
สูตร ของ Cohen ยังสามารถนำไปใช้กับการวิเคราะห์ความแปรปรวนเชิงปัจจัย (ANOVA) โดยการทำงานย้อนกลับได้ดังนี้:
ในการออกแบบที่สมดุล (ขนาดตัวอย่างเท่ากันในทุกกลุ่ม) ของ ANOVA พารามิเตอร์ประชากรที่สอดคล้องกันคือ โดยที่μjแทนค่าเฉลี่ยประชากรภายใน กลุ่ม ที่jจากทั้งหมดKกลุ่ม และσ แทนค่าเบี่ยงเบน มาตรฐานประชากรที่เท่ากันภายในแต่ละกลุ่มSSคือผลรวมกำลังสองใน ANOVA
คำถามของโคเฮน
อีกมาตรวัดหนึ่งที่ใช้กับความแตกต่างของค่าสหสัมพันธ์คือค่า Cohen's q ซึ่งเป็นความแตกต่างระหว่างค่าสัมประสิทธิ์การถดถอยของ Pearson ที่แปลงด้วยวิธี Fisher แล้วสองค่า ในเชิงสัญลักษณ์คือ
โดยที่r 1และr 2คือค่าการถดถอยที่กำลังเปรียบเทียบกัน ค่าที่คาดหวังของqคือศูนย์ และความแปรปรวนของมันคือ โดยที่N 1และN 2คือจำนวนจุดข้อมูลในการถดถอยครั้งแรกและครั้งที่สองตามลำดับ
กลุ่มความแตกต่าง: ขนาดของผลกระทบโดยพิจารณาจากความแตกต่างระหว่างค่าเฉลี่ย
ขนาดผลกระทบดิบที่เกี่ยวข้องกับการเปรียบเทียบสองกลุ่มนั้น โดยทั่วไปคำนวณจากความแตกต่างระหว่างค่าเฉลี่ยของทั้งสองกลุ่ม อย่างไรก็ตาม เพื่อให้ง่ายต่อการตีความ จึงนิยมทำการปรับค่าขนาดผลกระทบให้เป็นมาตรฐาน ซึ่งมีหลักเกณฑ์ต่างๆ สำหรับการปรับค่ามาตรฐานทางสถิติที่แสดงไว้ด้านล่าง
ความแตกต่างเฉลี่ยมาตรฐาน

ขนาดผลกระทบ (ประชากร) θที่อิงตามค่าเฉลี่ยมักจะพิจารณาความแตกต่างของค่าเฉลี่ยมาตรฐาน (SMD) ระหว่างประชากรสองกลุ่ม[ 22 ] : 78 โดยที่μ 1คือค่าเฉลี่ยของประชากรกลุ่มหนึ่งμ 2คือค่าเฉลี่ยของประชากรอีกกลุ่มหนึ่ง และ σ คือค่าเบี่ยงเบนมาตรฐานที่อิงตามประชากรกลุ่มใดกลุ่มหนึ่งหรือทั้งสองกลุ่ม
ในทางปฏิบัติ โดยทั่วไปแล้วค่าเฉลี่ยของประชากรจะไม่เป็นที่ทราบ และต้องประมาณค่าจากสถิติของกลุ่มตัวอย่าง วิธีการคำนวณขนาดผลกระทบโดยใช้ค่าเฉลี่ยมีหลายรูปแบบแตกต่างกันไปตามสถิติที่ใช้
รูปแบบการคำนวณขนาดผลกระทบนี้คล้ายกับการคำนวณ ค่าสถิติ t -testโดยมีความแตกต่างที่สำคัญคือ ค่าสถิติ t -test นั้นรวมปัจจัย χ² ไว้ด้วยซึ่งหมายความว่าสำหรับขนาดผลกระทบที่กำหนด ระดับนัยสำคัญจะเพิ่มขึ้นตามขนาดของกลุ่มตัวอย่าง ต่างจาก ค่าสถิติ t -test ตรงที่ขนาดผลกระทบมีจุดมุ่งหมายเพื่อประมาณ ค่าพารามิเตอร์ของประชากรและไม่ได้รับผลกระทบจากขนาดของกลุ่มตัวอย่าง
ค่า SMD ตั้งแต่ 0.2 ถึง 0.5 ถือว่าน้อย ค่า 0.5 ถึง 0.8 ถือว่าปานกลาง และค่าที่มากกว่า 0.8 ถือว่ามาก[ 23 ]
โคเฮนส์ดี
ค่า Cohen's dถูกกำหนดให้เป็นผลต่างระหว่างค่าเฉลี่ยสองค่า หารด้วยค่าเบี่ยงเบนมาตรฐานของข้อมูล กล่าวคือ
Jacob Cohenนิยามsซึ่งเป็นค่าเบี่ยงเบนมาตรฐานรวมไว้ดังนี้ (สำหรับตัวอย่างอิสระสองตัวอย่าง): [ 10 ] : 67 โดยที่ความแปรปรวนของกลุ่มหนึ่งถูกกำหนดเป็น และในทำนองเดียวกันสำหรับกลุ่มอื่น
ผู้เขียนคนอื่นๆ เลือกการคำนวณค่าเบี่ยงเบนมาตรฐานที่แตกต่างกันเล็กน้อยเมื่ออ้างถึง "Cohen's d " โดยที่ตัวส่วนไม่มี "-2" [ 24 ] [ 25 ] : 14 คำจำกัดความของ "Cohen's d " นี้เรียกว่า ตัวประมาณ ค่าความน่าจะเป็นสูงสุดโดย Hedges และ Olkin [ 22 ] และมีความสัมพันธ์กับ Hedges' gโดยปัจจัยการปรับขนาด (ดูด้านล่าง)
สำหรับตัวอย่างที่จับคู่กันสองชุด วิธีการหนึ่งคือการพิจารณาการกระจายของคะแนนความแตกต่าง ในกรณีนั้นsคือค่าเบี่ยงเบนมาตรฐานของการกระจายของคะแนนความแตกต่างนี้ (โปรดทราบว่า ค่าเบี่ยงเบนมาตรฐานของคะแนนความแตกต่างขึ้นอยู่กับความสัมพันธ์ระหว่างตัวอย่างที่จับคู่กัน) ซึ่งจะสร้างความสัมพันธ์ต่อไปนี้ระหว่างค่าสถิติ t เพื่อทดสอบความแตกต่างในค่าเฉลี่ยของกลุ่มที่จับคู่กันสองกลุ่มและ ค่า d' ของ Cohen (คำนวณจากคะแนนความแตกต่าง): และ อย่างไรก็ตาม สำหรับตัวอย่างที่จับคู่กัน Cohen ระบุว่า d' ไม่ได้ให้ค่าประมาณที่ถูกต้องในการหาอำนาจการทดสอบสำหรับ d และก่อนที่จะค้นหาค่าในตารางที่ให้ไว้สำหรับ d ควรแก้ไขสำหรับ r ตามสูตรต่อไปนี้: [ 26 ]โดยที่ r คือความสัมพันธ์ระหว่างการวัดที่จับคู่กัน เมื่อขนาดตัวอย่างเท่ากัน ยิ่ง r สูง อำนาจการทดสอบความแตกต่างของการจับคู่ก็จะยิ่งสูงขึ้น
เนื่องจาก d' ขึ้นอยู่กับ r การตีความขนาดผลกระทบจึงทำได้ยาก ดังนั้นในบริบทของการวิเคราะห์แบบจับคู่ เนื่องจากสามารถคำนวณ d' หรือ d (ประมาณด้วยค่าเบี่ยงเบนมาตรฐานรวมหรือของกลุ่มหรือจุดเวลา) ได้ จึงจำเป็นต้องระบุอย่างชัดเจนว่ากำลังรายงานค่าใด ในฐานะตัววัดขนาดผลกระทบ d (ประมาณด้วยค่าเบี่ยงเบนมาตรฐานรวมหรือของกลุ่มหรือจุดเวลา) จึงเหมาะสมกว่า เช่น ในการวิเคราะห์เมตา[ 27 ]
ค่า Cohen's dมักใช้ในการประมาณขนาดตัวอย่างสำหรับการทดสอบทางสถิติ ค่า Cohen's d ที่ต่ำกว่าบ่งชี้ถึงความจำเป็นของขนาดตัวอย่างที่ใหญ่กว่า และในทางกลับกัน ซึ่งสามารถกำหนดได้ในภายหลังร่วมกับพารามิเตอร์เพิ่มเติมของ ระดับนัยสำคัญที่ต้องการและกำลังทางสถิติ[ 28 ]
Δ ของกลาส
ในปี พ.ศ. 2519 Gene V. Glassได้เสนอตัวประมาณขนาดผลกระทบที่ใช้เพียงค่าเบี่ยงเบนมาตรฐานของกลุ่มที่สอง[ 22 ] : 78
กลุ่มที่สองอาจถือได้ว่าเป็นกลุ่มควบคุม และกลาสแย้งว่า หากเปรียบเทียบการรักษาหลายวิธีกับกลุ่มควบคุม จะเป็นการดีกว่าที่จะใช้ค่าเบี่ยงเบนมาตรฐานที่คำนวณจากกลุ่มควบคุมเพียงอย่างเดียว เพื่อให้ขนาดของผลกระทบไม่แตกต่างกันภายใต้ค่าเฉลี่ยที่เท่ากันและความแปรปรวนที่แตกต่างกัน
ภายใต้สมมติฐานที่ถูกต้องว่าความแปรปรวนของประชากรเท่ากัน การประมาณค่าσ แบบรวม จะมีความแม่นยำกว่า
เฮดจ์สจี
gของ Hedges ซึ่งเสนอโดยLarry Hedgesในปี 1981 [ 29 ] มีลักษณะคล้ายกับมาตรวัดอื่นๆ ที่อิงตามความแตกต่างมาตรฐาน[ 22 ] : 79 โดยที่ค่าเบี่ยงเบนมาตรฐานรวมจะคำนวณดังนี้:
อย่างไรก็ตาม ในฐานะตัวประมาณ ขนาดผลกระทบ ของประชากรθมันมีอคติ ถึงกระนั้นอคตินี้สามารถแก้ไขได้โดยประมาณโดยการคูณด้วยปัจจัย Hedges และ Olkin เรียกตัวประมาณที่มีอคติน้อยกว่านี้ว่าd [ 22 ]แต่มันไม่เหมือนกับd ของ Cohen รูปแบบที่แน่นอนสำหรับปัจจัยการแก้ไขJ () เกี่ยวข้องกับฟังก์ชันแกมมา[ 22 ] : 104 นอกจากนี้ยังมีตัวแปรหลายระดับของ g ของ Hedges เช่น สำหรับใช้ในการทดลองควบคุมแบบสุ่มกลุ่ม (CRTs) [ 30 ] CRTs เกี่ยวข้องกับการสุ่มกลุ่ม เช่น โรงเรียนหรือห้องเรียน ไปยังเงื่อนไขต่างๆ และมักใช้ในการวิจัยทางการศึกษา
Ψ, ผลกระทบมาตรฐานรากกำลังสองเฉลี่ย
ตัวประมาณขนาดผลกระทบที่คล้ายกันสำหรับการเปรียบเทียบหลายรายการ (เช่นANOVA ) คือผลกระทบมาตรฐานรากกำลังสองเฉลี่ย Ψ: [ 20 ] โดยที่kคือจำนวนกลุ่มในการเปรียบเทียบ
โดยพื้นฐานแล้ว นี่คือผลต่างโดยรวมของแบบจำลองทั้งหมดที่ปรับด้วยค่าเฉลี่ยกำลังสองราก ซึ่งคล้ายคลึงกับ dหรือg
นอกจากนี้ ยังมีการสรุปทั่วไปสำหรับการออกแบบปัจจัยหลายอย่าง[ 20 ]
การกระจายขนาดผลกระทบตามค่าเฉลี่ย
หากข้อมูลมี การกระจาย แบบเกาส์เซียนค่า gของHedges ที่ปรับขนาด แล้ว จะมีการกระจายแบบtที่ไม่เป็นศูนย์กลางโดยมีพารามิเตอร์ที่ไม่เป็นศูนย์กลางและ ระดับความเป็นอิสระ ( n 1 + n 2 − 2)ในทำนองเดียวกัน ค่า Δ ของ Glass ที่ปรับขนาดแล้วจะมีการกระจายโดยมีระดับความเป็นอิสระ n 2 − 1
จากข้อมูลการแจกแจง สามารถคำนวณค่าเฉลี่ยและความแปรปรวนของขนาดผลกระทบได้
ในบางกรณีจะใช้การประมาณค่าความแปรปรวนจากตัวอย่างขนาดใหญ่ ข้อเสนอแนะหนึ่งสำหรับความแปรปรวนของตัวประมาณค่าที่ไม่เอนเอียงของ Hedges คือ[ 22 ] : 86
ความแตกต่างของค่าเฉลี่ยมาตรฐานอย่างเคร่งครัด (SSMD)
SSMD (แทนด้วย ) เป็นพารามิเตอร์ทางสถิติที่กำหนดให้คืออัตราส่วนของค่าเฉลี่ยต่อค่าเบี่ยงเบนมาตรฐานของความแตกต่างของค่าสุ่มสองค่าจากสองกลุ่ม สมมติว่ากลุ่มหนึ่งมีค่าสุ่มที่มีค่าเฉลี่ยและความแปรปรวนและอีกกลุ่มหนึ่งมีค่าเฉลี่ยและความแปรปรวนความแปรปรวนร่วมระหว่างสองกลุ่มคือ จากนั้น SSMD สำหรับการเปรียบเทียบสองกลุ่มนี้จะถูกกำหนดเป็น[ 31 ]
ถ้าทั้งสองกลุ่มเป็นอิสระต่อกัน
ถ้ากลุ่มอิสระทั้งสองกลุ่มมีค่า ความแปรปรวน เท่ากัน
ตัวชี้วัดอื่นๆ
ระยะทาง Mahalanobis (D) เป็นการขยายทั่วไปของ Cohen's d แบบหลายตัวแปร ซึ่งคำนึงถึงความสัมพันธ์ระหว่างตัวแปร[ 32 ]
E ของ Subin ( ) เป็นขนาดผลกระทบที่มีขอบเขตสำหรับข้อมูลการประเมินซ้ำแบบจับคู่ โดยจะทำการปรับขนาดค่าเฉลี่ยของกำไรโดยใช้ค่าอ้างอิง คำนึงถึงความแตกต่างในคะแนนกำไรของแต่ละบุคคล และใช้การแปลง arctangent ที่มีขอบเขต มีวัตถุประสงค์เพื่อใช้ในการเปรียบเทียบแบบจับคู่ภายในกลุ่มในโอกาสการประเมินซ้ำ[ 33 ] [ 34 ]
ที่ไหน
ในการสอบเทียบที่เผยแพร่ของวิธีการ ค่าพารามิเตอร์ที่แนะนำคือและ[ 33 ]
ในที่นี้และแทนค่าเฉลี่ยในสองโอกาสการประเมินและแทนค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกันคือค่าเบี่ยงเบนมาตรฐานของคะแนนกำไรรายบุคคล และคือปัจจัยการแก้ไขตัวอย่างขนาดเล็ก ในการประมาณเชิงปฏิบัติที่รายงานสำหรับวิธีนี้[ 33 ]
ในการสอบเทียบที่เผยแพร่ ค่าสัมบูรณ์ของได้รับการตีความโดยใช้แถบเชิงประจักษ์ต่อไปนี้[ 33 ] [ 34 ]
| ค่าสัมบูรณ์ | การตีความ |
|---|---|
| 0.00–0.49 | ผลกระทบจำกัด |
| 0.50–0.64 | ผลกระทบเล็กน้อย |
| 0.65–0.79 | ผลกระทบที่สำคัญ |
| 0.80–0.89 | ผลกระทบที่รุนแรง |
| 0.90–1.00 | ผลกระทบที่รุนแรงมาก |
กลุ่มตัวแปรเชิงหมวดหมู่: ขนาดผลกระทบของความสัมพันธ์ระหว่างตัวแปรเชิงหมวดหมู่
|
|
| ฟี ( φ ) | ค่า Vของ Cramér ( φ c ) |
|---|
มาตรวัดความสัมพันธ์ที่ใช้กันทั่วไปสำหรับการทดสอบไคสแควร์ได้แก่สัมประสิทธิ์ PhiและCramér 's V (บางครั้งเรียกว่า Cramér's phi และใช้สัญลักษณ์φ c ) Phi เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์แบบจุดสองกลุ่มและ Cohen's dและประมาณขอบเขตของความสัมพันธ์ระหว่างตัวแปรสองตัว (2 × 2) [ 35 ] Cramér's V อาจใช้กับตัวแปรที่มีมากกว่าสองระดับ
ค่า Phi สามารถคำนวณได้โดยการหาค่ารากที่สองของค่าสถิติไคกำลังสอง หารด้วยขนาดของกลุ่มตัวอย่าง
ในทำนองเดียวกัน ค่า Cramér's V คำนวณได้จากการหาค่ารากที่สองของค่าสถิติไคกำลังสอง หารด้วยขนาดของกลุ่มตัวอย่างและความยาวของมิติขั้นต่ำ ( kคือค่าที่น้อยกว่าระหว่างจำนวนแถวrหรือจำนวนคอลัมน์ c )
φ cคือความสัมพันธ์ระหว่างตัวแปรแยกกันสองตัว[ 36 ]และสามารถคำนวณได้สำหรับค่าrหรือc ใดๆ ก็ได้ อย่างไรก็ตาม เนื่องจากค่าไคกำลังสองมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนเซลล์ ยิ่งความแตกต่างระหว่างrและc มาก เท่าใด V ก็ยิ่งมีแนวโน้มที่จะเข้าใกล้ 1 มากขึ้นเท่านั้น โดยไม่มีหลักฐานที่ชัดเจนของความสัมพันธ์ที่มีความหมาย
โอเมก้าของโคเฮน ( ω )
มาตรวัดขนาดผลกระทบอีกแบบหนึ่งที่ใช้สำหรับการทดสอบไคสแควร์คือ โอเมกาของโคเฮน ( ) ซึ่งกำหนดโดย โดย ที่p 0 iคือสัดส่วนของเซลล์ที่i ภายใต้ H 0 , p 1 iคือสัดส่วนของ เซลล์ ที่iภายใต้H 1และmคือจำนวนเซลล์
อัตราส่วนความน่าจะเป็น
อัตราส่วน ความน่าจะเป็น ( Odds Ratioหรือ OR) เป็นขนาดผลกระทบอีกแบบหนึ่งที่มีประโยชน์ เหมาะสมเมื่อคำถามวิจัยมุ่งเน้นไปที่ระดับความสัมพันธ์ระหว่างตัวแปรไบนารี สองตัว ตัวอย่างเช่น พิจารณาการศึกษาความสามารถในการสะกดคำ ในกลุ่มควบคุม นักเรียนสองคนสอบผ่านต่อนักเรียนหนึ่งคนที่สอบไม่ผ่าน ดังนั้นโอกาสที่จะสอบผ่านคือสองต่อหนึ่ง (หรือ 2/1 = 2) ในกลุ่มทดลอง นักเรียนหกคนสอบผ่านต่อนักเรียนหนึ่งคนที่สอบไม่ผ่าน ดังนั้นโอกาสที่จะสอบผ่านคือหกต่อหนึ่ง (หรือ 6/1 = 6) สามารถคำนวณขนาดผลกระทบได้โดยสังเกตว่าโอกาสที่จะสอบผ่านในกลุ่มทดลองสูงกว่าในกลุ่มควบคุมสามเท่า (เพราะ 6 หารด้วย 2 เท่ากับ 3) ดังนั้นอัตราส่วนความน่าจะเป็นคือ 3 สถิติอัตราส่วนความน่าจะเป็นอยู่ในมาตราส่วนที่แตกต่างจาก Cohen's dดังนั้น '3' นี้จึงไม่สามารถเปรียบเทียบกับ Cohen's dที่เท่ากับ 3 ได้
ความเสี่ยงสัมพัทธ์
ความเสี่ยงสัมพัทธ์ (RR) หรือที่เรียกว่าอัตราส่วนความเสี่ยงคือความเสี่ยง (ความน่าจะเป็น) ของเหตุการณ์หนึ่งเมื่อเทียบกับตัวแปรอิสระบางตัว มาตรวัดขนาดผลกระทบนี้แตกต่างจากอัตราส่วนความน่าจะเป็นตรงที่มันเปรียบเทียบความน่าจะเป็นแทนที่จะเป็นความน่าจะเป็นแต่จะเข้าใกล้ค่าหลังมากขึ้นเมื่อความน่าจะเป็นมีค่าน้อย จากตัวอย่างข้างต้นความน่าจะเป็นที่ผู้ที่อยู่ในกลุ่มควบคุมและกลุ่มทดลองจะผ่านการทดสอบคือ 2/3 (หรือ 0.67) และ 6/7 (หรือ 0.86) ตามลำดับ ขนาดผลกระทบสามารถคำนวณได้เช่นเดียวกับข้างต้น แต่ใช้ความน่าจะเป็นแทน ดังนั้น ความเสี่ยงสัมพัทธ์คือ 1.28 เนื่องจากใช้ความน่าจะเป็นในการผ่านการทดสอบที่ค่อนข้างสูง จึงมีความแตกต่างมากระหว่างความเสี่ยงสัมพัทธ์และอัตราส่วนความน่าจะเป็น หาก ใช้ ความล้มเหลว (ความน่าจะเป็นที่ต่ำกว่า) เป็นเหตุการณ์ (แทนที่จะเป็นการผ่านการทดสอบ ) ความแตกต่างระหว่างมาตรวัดขนาดผลกระทบทั้งสองจะไม่มากขนาดนี้
แม้ว่ามาตรการทั้งสองจะมีประโยชน์ แต่ก็มีการใช้งานทางสถิติที่แตกต่างกัน ในการวิจัยทางการแพทย์อัตราส่วนความน่าจะเป็นมักใช้สำหรับการศึกษาแบบกรณีควบคุมเนื่องจากโดยปกติจะประมาณค่าความน่าจะเป็น ไม่ใช่ความน่าจะเป็น[ 37 ] ความเสี่ยงสัมพัทธ์มักใช้ในการทดลองแบบสุ่มที่มีการควบคุมและการศึกษาแบบกลุ่มแต่ความเสี่ยงสัมพัทธ์มีส่วนทำให้เกิดการประเมินประสิทธิผลของการแทรกแซงสูงเกินไป[ 38 ]
ความแตกต่างของความเสี่ยง
ความแตกต่างของความเสี่ยง (RD) บางครั้งเรียกว่าการลดความเสี่ยงสัมบูรณ์ คือความแตกต่างของความเสี่ยง (ความน่าจะเป็น) ของเหตุการณ์ระหว่างสองกลุ่ม เป็นมาตรวัดที่มีประโยชน์ในการวิจัยเชิงทดลอง เนื่องจาก RD บอกคุณถึงขอบเขตที่การแทรกแซงเชิงทดลองเปลี่ยนแปลงความน่าจะเป็นของเหตุการณ์หรือผลลัพธ์ จากตัวอย่างข้างต้น ความน่าจะเป็นสำหรับผู้ที่อยู่ในกลุ่มควบคุมและกลุ่มทดลองที่ผ่านคือ 2/3 (หรือ 0.67) และ 6/7 (หรือ 0.86) ตามลำดับ ดังนั้นขนาดผลกระทบของ RD คือ 0.86 − 0.67 = 0.19 (หรือ 19%) RD เป็นมาตรวัดที่เหนือกว่าสำหรับการประเมินประสิทธิผลของการแทรกแซง[ 38 ]
โคเฮนส์h
มาตรวัดหนึ่งที่ใช้ในการวิเคราะห์กำลังเมื่อเปรียบเทียบสัดส่วนอิสระสองกลุ่มคือ ค่า h ของโคเฮน ซึ่งนิยามได้ดังนี้ โดย ที่p 1และp 2คือสัดส่วนของตัวอย่างสองกลุ่มที่กำลังเปรียบเทียบ และ arcsin คือการแปลงค่าด้วยฟังก์ชัน arcsine
ความน่าจะเป็นของความเหนือกว่า
เพื่อให้สามารถอธิบายความหมายของขนาดผลกระทบให้กับบุคคลภายนอกวงการสถิติได้ง่ายขึ้น จึงได้มีการออกแบบขนาดผลกระทบแบบภาษาทั่วไป (Common Language Effect Size) ตามชื่อที่บ่งบอกไว้ เพื่อสื่อสารความหมายในภาษาอังกฤษธรรมดา โดยใช้เพื่ออธิบายความแตกต่างระหว่างสองกลุ่ม และได้รับการเสนอและตั้งชื่อโดย Kenneth McGraw และ SP Wong ในปี 1992 [ 39 ]พวกเขาใช้ตัวอย่างต่อไปนี้ (เกี่ยวกับความสูงของชายและหญิง): "ในการจับคู่แบบสุ่มระหว่างชายและหญิงวัยหนุ่มสาว ความน่าจะเป็นที่ชายจะสูงกว่าหญิงคือ 0.92 หรือพูดให้ง่ายกว่านั้นก็คือ ในการนัดเดทแบบไม่รู้จักกัน 92 ครั้งจาก 100 ครั้งในกลุ่มคนหนุ่มสาว ชายจะสูงกว่าหญิง" [ 39 ]เมื่ออธิบายค่าประชากรของขนาดผลกระทบแบบภาษาทั่วไป
ขนาดผลกระทบสำหรับข้อมูลเชิงลำดับ
เดลต้าของคลิฟฟ์หรือซึ่งเดิมพัฒนาโดยนอร์แมน คลิฟฟ์เพื่อใช้กับข้อมูลเชิงลำดับ[ 40 ]เป็นการวัดความถี่ที่ค่าในการกระจายหนึ่งมีค่ามากกว่าค่าในการกระจายที่สอง ที่สำคัญคือ ไม่จำเป็นต้องมีข้อสมมติใดๆ เกี่ยวกับรูปร่างหรือการกระจายของการกระจายทั้งสอง
ค่าประมาณตัวอย่างกำหนดโดย: โดยที่การแจกแจงทั้งสองมีขนาดและโดยมีจำนวนรายการและตามลำดับ และคือวงเล็บไอเวอร์สันซึ่งมีค่าเป็น 1 เมื่อเนื้อหาเป็นจริง และ 0 เมื่อเป็นเท็จ
มีความสัมพันธ์เชิงเส้นกับสถิติ Mann–Whitney Uอย่างไรก็ตาม เครื่องหมายของสถิตินี้บ่งบอกถึงทิศทางของความแตกต่าง เมื่อกำหนดค่า Mann–Whitney แล้วจะได้ว่า:
โคเฮนส์ จี
หนึ่งในขนาดผลกระทบที่ง่ายที่สุดสำหรับการวัดว่าสัดส่วนแตกต่างจาก 50% มากน้อยเพียงใดคือค่า g ของ Cohen [ 10 ] : 147 ค่านี้ใช้วัดว่าสัดส่วนแตกต่างจาก 50% มากน้อยเพียงใด ตัวอย่างเช่น หาก 85.2% ของการจับกุมในคดีขโมยรถยนต์เป็นเพศชาย ขนาดผลกระทบของเพศต่อการจับกุมเมื่อวัดด้วยค่า g ของ Cohen คือโดยทั่วไป:
หน่วยของค่า g ของ Cohen นั้นเข้าใจง่ายกว่า (เป็นสัดส่วน) เมื่อเทียบกับค่าขนาดผลกระทบอื่นๆ บางค่า บางครั้งอาจใช้ร่วมกับ การทดสอบแบบ ทวิ นาม
ช่วงความเชื่อมั่นโดยใช้พารามิเตอร์ที่ไม่เป็นศูนย์กลาง
ช่วงความเชื่อมั่นของขนาดผลกระทบมาตรฐาน โดยเฉพาะอย่างยิ่งช่วงความเชื่อมั่นของ Cohen และอาศัยการคำนวณช่วงความเชื่อมั่นของพารามิเตอร์ความไม่เป็นศูนย์กลาง ( ncp ) วิธีการทั่วไปในการสร้างช่วงความเชื่อมั่นของncp คือการหาค่า ncpวิกฤตที่ทำให้สถิติที่สังเกตได้ตรงกับควอนไทล์ ส่วนหาง α /2 และ (1 − α /2) แพ็กเกจ MBESS ใน SAS และ R มีฟังก์ชันสำหรับหาค่าncpวิกฤต
การทดสอบ tสำหรับความแตกต่างของค่าเฉลี่ยระหว่างกลุ่มเดียวหรือสองกลุ่มที่เกี่ยวข้องกัน
สำหรับกลุ่มเดียวMแทนค่าเฉลี่ยของตัวอย่างμแทนค่าเฉลี่ยของประชากรSD แทนค่าเบี่ยงเบนมาตรฐานของตัวอย่างσ แทน ค่าเบี่ยงเบนมาตรฐานของประชากร และnคือขนาดตัวอย่างของกลุ่ม ค่า tใช้เพื่อทดสอบสมมติฐานเกี่ยวกับความแตกต่างระหว่างค่าเฉลี่ยและ ค่าพื้นฐานμbaselineโดยปกติμbaselineจะเป็นศูนย์ ในกรณีของสองกลุ่มที่เกี่ยวข้องกัน กลุ่มเดียวจะถูกสร้างขึ้นจากความแตกต่างในคู่ของตัวอย่าง ในขณะที่SDและσแทนค่าเบี่ยงเบนมาตรฐานของตัวอย่างและประชากรของความแตกต่าง ไม่ใช่ภายในสองกลุ่มเดิม และสูตรของ Cohen
คือค่าประมาณจุดของ
ดังนั้น,
การทดสอบ tเพื่อหาความแตกต่างของค่าเฉลี่ยระหว่างสองกลุ่มอิสระ
n 1หรือn 2คือขนาดตัวอย่างตามลำดับ
โดยที่
และค่าของโคเฮน คือค่าประมาณจุดของ
ดังนั้น,
การทดสอบ ANOVA แบบทางเดียวเพื่อหาความแตกต่างของค่าเฉลี่ยระหว่างกลุ่มอิสระหลายกลุ่ม
การทดสอบ ANOVA แบบทางเดียวใช้การแจกแจง F แบบไม่ศูนย์กลางในขณะที่หากกำหนดค่าเบี่ยงเบนมาตรฐานของประชากรแล้วการทดสอบเดียวกันจะใช้การแจกแจงไคกำลังสองแบบไม่ศูนย์กลาง
สำหรับ ตัวอย่างที่ j แต่ละ ตัวภายในกลุ่มที่i X i , jให้กำหนด
ในขณะที่,
ดังนั้น ทั้งncp ( s ) ของFและequate
ในกรณีที่มี กลุ่ม อิสระ Kกลุ่มที่มีขนาดเท่ากัน ขนาดตัวอย่างทั้งหมดคือN := n · K
การ ทดสอบ tสำหรับกลุ่มอิสระสองกลุ่มเป็นกรณีพิเศษของการวิเคราะห์ความแปรปรวนแบบทางเดียว (ANOVA) โปรดทราบว่าพารามิเตอร์ความไม่เป็นศูนย์กลางของ F ไม่สามารถเปรียบเทียบกับพารามิเตอร์ความไม่เป็นศูนย์กลางของt ที่สอดคล้องกันได้ อันที่จริง, และ
ดูเพิ่มเติม
- สถิติการประมาณค่า
- นัยสำคัญทางสถิติ
- ค่า Z-factorซึ่งเป็นมาตรวัดขนาดผลกระทบทางเลือก
อ่านเพิ่มเติม
- Aaron, B., Kromrey, JD, & Ferron, JM (พฤศจิกายน 1998). การเทียบดัชนีขนาดผลกระทบแบบ r และแบบ d: ปัญหาของสูตรที่แนะนำกันโดยทั่วไป บทความนำเสนอในการประชุมประจำปีของสมาคมวิจัยการศึกษาแห่งฟลอริดา ออร์แลนโด รัฐฟลอริดา(หมายเลขบริการถ่ายเอกสาร ERIC ED433353)
- Bonett, DG (2008). "ช่วงความเชื่อมั่นสำหรับการเปรียบเทียบเชิงเส้นมาตรฐานของค่าเฉลี่ย" วิธีการทางจิตวิทยา 13 ( 2): 99– 109. doi : 10.1037/1082-989x.13.2.99 . PMID 18557680 .
- Bonett, DG (2009). "การประมาณค่าความแตกต่างเชิงเส้นมาตรฐานของค่าเฉลี่ยด้วยความแม่นยำที่ต้องการ" วิธี การทางจิตวิทยา14 (1): 1– 5. doi : 10.1037/a0014270 . PMID 19271844 .
- Brooks, ME; Dalal, DK; Nolan, KP (2013). "ขนาดผลกระทบของภาษาทั่วไปเข้าใจง่ายกว่าขนาดผลกระทบแบบดั้งเดิมหรือไม่?" วารสารจิตวิทยาประยุกต์ 99 ( 2): 332– 340. doi : 10.1037/a0034745 . PMID 24188393 .
- Cumming, G.; Finch, S. (2001). "บทนำเกี่ยวกับการทำความเข้าใจ การใช้ และการคำนวณช่วงความเชื่อมั่นที่อิงตามการแจกแจงแบบศูนย์กลางและแบบไม่ศูนย์กลาง" การวัดทางการศึกษาและจิตวิทยา61 (4): 530– 572. doi : 10.1177/0013164401614002 . S2CID 120672914 .
- Kelley, K (2007). "ช่วงความเชื่อมั่นสำหรับขนาดผลกระทบมาตรฐาน: ทฤษฎี การประยุกต์ใช้ และการนำไปใช้"วารสารซอฟต์แวร์สถิติ 20 ( 8): 1– 24. doi : 10.18637/jss.v020.i08 .
- Lipsey, MW และ Wilson, DB (2001). การวิเคราะห์เมตาเชิงปฏิบัติ . Sage: Thousand Oaks, CA.
ลิงก์ภายนอก
คำอธิบายเพิ่มเติม
- ขนาดผลกระทบ (ES)
- EffectSizeFAQ.com
- EstimationStats.comแอปพลิเคชันบนเว็บสำหรับสร้างกราฟแสดงขนาดผลกระทบ
- การวัดขนาดผลกระทบ
- การคำนวณและการตีความขนาดผลกระทบด้วย ViSta เก็บถาวรเมื่อ 2014-12-27 ที่Wayback Machine
- แพ็คเกจ effsize สำหรับโครงการ R เพื่อการคำนวณทางสถิติ