การทดสอบF

Q: ตัวอย่างทั่วไป

ตัวอย่างทั่วไปของการใช้ การทดสอบ F ได้แก่ การศึกษาในกรณีต่อไปนี้

การทดสอบFเป็นการทดสอบทางสถิติที่เปรียบเทียบความแปรปรวน ใช้เพื่อตรวจสอบว่าความแปรปรวนของสองตัวอย่าง หรืออัตราส่วนของความแปรปรวนระหว่างหลายตัวอย่าง แตกต่างกันอย่างมีนัยสำคัญหรือไม่ การทดสอบจะคำนวณค่าสถิติซึ่งแทนด้วยตัวแปรสุ่ม F และตรวจสอบว่าเป็นไปตามการแจกแจง F หรือไม่ การตรวจสอบนี้ถือว่าถูกต้องหากสมมติฐานว่างเป็นจริงและข้อสมมติมาตรฐานเกี่ยวกับข้อผิดพลาด (ε) ในข้อมูลเป็นไปตามที่กำหนด^{[ 1 ]}

การทดสอบ Fมักใช้เพื่อเปรียบเทียบแบบจำลองทางสถิติต่างๆ และหาแบบจำลองที่อธิบายประชากรที่ข้อมูลมาจากได้ดีที่สุด เมื่อสร้างแบบจำลองโดยใช้วิธีกำลังสองน้อยที่สุด การทดสอบ F ที่ได้ มักเรียกว่าการทดสอบF แบบ "แม่นยำ" สถิติ Fได้รับการพัฒนาโดยRonald Fisherในช่วงทศวรรษ 1920 ในชื่ออัตราส่วนความแปรปรวน และต่อมาได้รับการตั้งชื่อเพื่อเป็นเกียรติแก่เขาโดยGeorge W. Snedecor ^{[ 2 ]}

ตัวอย่างทั่วไป

ตัวอย่างทั่วไปของการใช้ การทดสอบ Fได้แก่ การศึกษาในกรณีต่อไปนี้

ตาราง ANOVA แบบทางเดียวที่มีกลุ่มสุ่ม 3 กลุ่ม แต่ละกลุ่มมีข้อมูล 30 ตัวอย่าง ค่า Fถูกคำนวณในคอลัมน์รองสุดท้าย
สมมติฐานที่ว่าค่าเฉลี่ยของประชากร กลุ่มหนึ่งที่มี การกระจายแบบปกติ และมี ค่าเบี่ยงเบนมาตรฐาน เท่ากันนั้น จะเท่ากัน นี่อาจเป็น แบบทดสอบ F ที่เป็นที่รู้จักมากที่สุด และมีบทบาทสำคัญในการวิเคราะห์ความแปรปรวน (ANOVA)
- การทดสอบ Fในการวิเคราะห์ความแปรปรวน (ANOVA) ต้องอาศัยข้อสมมติสามประการ
สมมติฐานที่ว่าแบบจำลองการถดถอยที่เสนอเหมาะสมกับข้อมูลเป็นอย่างดี ดูที่ ผลรวมกำลังสองของความคลาดเคลื่อนจากแบบจำลอง
สมมติฐานที่ว่าชุดข้อมูลในการวิเคราะห์การถดถอยเป็นไปตามแบบจำลองเชิงเส้นที่ง่ายกว่าในสองแบบจำลองที่ซ้อนกันอยู่
การทดสอบเปรียบเทียบหลายรายการดำเนินการโดยใช้ข้อมูลที่จำเป็นใน การทดสอบ F ที่เสร็จสมบูรณ์แล้ว หาก การทดสอบ Fนำไปสู่การปฏิเสธสมมติฐานว่าง และปัจจัยที่กำลังศึกษามีผลกระทบต่อตัวแปรตาม^{[ 1 ]}
- " การเปรียบเทียบ แบบกำหนดล่วงหน้า " / "การเปรียบเทียบที่วางแผนไว้" - ชุดการเปรียบเทียบเฉพาะเจาะจง
- "การเปรียบเทียบแบบคู่" - การเปรียบเทียบที่เป็นไปได้ทั้งหมด
  - เช่น การทดสอบ ความแตกต่างที่มีนัยสำคัญน้อยที่สุดของฟิชเชอร์ (LSD), การทดสอบความแตกต่างที่มีนัยสำคัญอย่างแท้จริงของทูคีย์ (HSD) , การทดสอบนิวแมน-คูลส์ , การทดสอบของดูแคน
- " การเปรียบเทียบภายหลัง " / " การเปรียบเทียบแบบ post hoc " / " การเปรียบเทียบเชิงสำรวจ " - เลือกการเปรียบเทียบหลังจากตรวจสอบข้อมูลแล้ว
  - เช่น วิธีของ Scheffé

การทดสอบ Fเพื่อตรวจสอบความเท่าเทียมกันของความแปรปรวนสองค่า

การทดสอบF มี ความไวต่อ ภาวะที่ไม่เป็นไปตาม การแจกแจง ปกติ^{[ 3 ]}^{[ 4 ]}ในการวิเคราะห์ความแปรปรวน (ANOVA) การทดสอบทางเลือกอื่นๆ ได้แก่ การทดสอบ ของLevene การทดสอบของ Bartlettและการทดสอบ Brown–Forsytheอย่างไรก็ตาม เมื่อทำการทดสอบใดๆ เหล่านี้เพื่อทดสอบสมมติฐานพื้นฐานของhomoscedasticity ( เช่นความเป็นเอกรูปของความแปรปรวน) ซึ่งเป็นขั้นตอนเบื้องต้นในการทดสอบผลกระทบของค่าเฉลี่ย จะมีการเพิ่มขึ้นของอัตราความผิดพลาดประเภทที่ 1 ของการทดลองโดยรวม ^{[ 5 ]}

สูตรและการคำนวณ

การทดสอบ Fส่วนใหญ่เกิดขึ้นจากการพิจารณาการแยกส่วนความแปรปรวนในชุดข้อมูลในแง่ของผลรวมกำลังสอง สถิติการทดสอบในการ ทดสอบ Fคืออัตราส่วนของผลรวมกำลังสองที่ปรับขนาดแล้วสองค่า ซึ่งสะท้อนถึงแหล่งที่มาของความแปรปรวนที่แตกต่างกัน ผลรวมกำลังสองเหล่านี้ถูกสร้างขึ้นเพื่อให้สถิติมีแนวโน้มที่จะมากขึ้นเมื่อสมมติฐานว่างไม่เป็นจริง เพื่อให้สถิติเป็นไปตามการแจกแจง Fภายใต้สมมติฐานว่าง ผลรวมกำลังสองควรเป็นอิสระทางสถิติและแต่ละค่าควรเป็นไปตามการแจกแจง χ² ที่ปรับขนาดแล้ว เงื่อนไขหลังนี้รับประกันได้หากค่าข้อมูลเป็นอิสระและมีการแจกแจงแบบปกติโดย มีค่าความแปรปรวน ร่วมกัน

การวิเคราะห์ความแปรปรวนแบบทางเดียว

สูตรสำหรับค่าสถิติF ของ ANOVA แบบทางเดียว คือ

F={\frac {\text{ความแปรปรวนที่อธิบายได้}}{\text{ความแปรปรวนที่อธิบายไม่ได้}}},

หรือ

F={\frac {\text{ความแปรปรวนระหว่างกลุ่ม}}{\text{ความแปรปรวนภายในกลุ่ม}}}.

"ความแปรปรวนที่อธิบายได้" หรือ "ความแปรปรวนระหว่างกลุ่ม" คือ

\sum _{i=1}^{K}n_{i}({\bar {Y}}_{i\cdot }-{\bar {Y}})^{2}/(K-1)

โดยที่แทนค่าเฉลี่ยของตัวอย่างใน กลุ่มที่ i , คือจำนวนข้อมูลใน กลุ่มที่ i , แทนค่าเฉลี่ยโดยรวมของข้อมูล และแทนจำนวนกลุ่ม ${\bar {Y}}_{i\cdot }$ $n_{i}$ ${\bar {Y}}$ $K$

"ความแปรปรวนที่อธิบายไม่ได้" หรือ "ความแปรปรวนภายในกลุ่ม" คือ

\sum _{i=1}^{K}\sum _{j=1}^{n_{i}}\left(Y_{ij}-{\bar {Y}}_{i\cdot }\right)^{2}/(NK),

โดยที่คือ การสังเกต ^{ครั้งที่}jในกลุ่มที่ⁱและคือขนาดตัวอย่างโดยรวมสถิติF นี้เป็นไปตาม การแจกแจง Fที่มีองศาอิสระและอยู่ภายใต้สมมติฐานว่าง สถิตินี้จะมีค่ามากหากความแปรปรวนระหว่างกลุ่มมีค่ามากเมื่อเทียบกับความแปรปรวนภายในกลุ่ม ซึ่งไม่น่าจะเกิดขึ้นหากค่าเฉลี่ยประชากรของทุกกลุ่มมีค่าเท่ากัน $Y_{ij}$ $K$ $N$ $d_{1}=K-1$ $d_{2}=NK$

ผลลัพธ์ของ การทดสอบ Fสามารถกำหนดได้โดยการเปรียบเทียบค่าF ที่คำนวณได้กับค่า F วิกฤต ที่ระดับนัยสำคัญที่กำหนด (เช่น 5%) ตาราง Fทำหน้าที่เป็นคู่มืออ้างอิงที่มี ค่า F วิกฤต สำหรับการกระจายของ สถิติ Fภายใต้สมมติฐานของสมมติฐานว่างที่เป็นจริง ออกแบบมาเพื่อช่วยกำหนดเกณฑ์ที่ คาดว่าสถิติ Fจะเกินเปอร์เซ็นต์ที่ควบคุมได้ (เช่น 5%) เมื่อสมมติฐานว่างถูกต้อง ในการหา ค่า F วิกฤต ใน ตาราง Fจำเป็นต้องใช้ระดับความเป็นอิสระที่เกี่ยวข้อง ซึ่งเกี่ยวข้องกับการระบุแถวและคอลัมน์ที่เหมาะสมใน ตาราง Fที่สอดคล้องกับระดับนัยสำคัญที่กำลังทดสอบ (เช่น 5%) ^{[ 6 ]}

วิธีการใช้ค่า F วิกฤต:

ถ้า ค่าสถิติ F น้อยกว่า ค่า Fวิกฤต

ไม่สามารถปฏิเสธสมมติฐานว่างได้
ปฏิเสธสมมติฐานทางเลือก
ไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยของกลุ่มตัวอย่าง
ความแตกต่างที่สังเกตได้ระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างนั้น อาจเกิดจากความบังเอิญได้
ผลลัพธ์ที่ได้ไม่มีนัยสำคัญทางสถิติ

ถ้า ค่าสถิติ F มากกว่า ค่า Fวิกฤต

ยอมรับสมมติฐานทางเลือก
ปฏิเสธสมมติฐานว่าง
มีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยของกลุ่มตัวอย่าง
ความแตกต่างที่สังเกตได้ระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างนั้น ไม่น่าจะเกิดจากความบังเอิญโดยสมบูรณ์
ผลลัพธ์นี้มีความสำคัญทางสถิติ

โปรดทราบว่าเมื่อมีเพียงสองกลุ่มสำหรับการทดสอบF ของ ANOVA แบบทางเดียว โดยที่tคือค่าสถิติ ของ Student $F=t^{2}$ $t$

ข้อดี

ประสิทธิภาพในการเปรียบเทียบหลายกลุ่ม: ช่วยให้สามารถเปรียบเทียบหลายกลุ่มพร้อมกันได้ ซึ่งจะช่วยเพิ่มประสิทธิภาพโดยเฉพาะในสถานการณ์ที่มีกลุ่มมากกว่าสองกลุ่ม
ความชัดเจนในการเปรียบเทียบความแปรปรวน: นำเสนอการตีความความแตกต่างของความแปรปรวนระหว่างกลุ่มได้อย่างตรงไปตรงมา ช่วยให้เข้าใจรูปแบบข้อมูลที่สังเกตได้ชัดเจนยิ่งขึ้น
ความสามารถรอบด้านข้ามสาขาวิชา: แสดงให้เห็นถึงการประยุกต์ใช้ในวงกว้างในหลากหลายสาขา รวมถึงสังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรมศาสตร์

ข้อเสีย

ความไวต่อข้อสมมติ: การทดสอบ Fมีความไวสูงต่อข้อสมมติบางประการ เช่น ความเป็นเอกรูปของความแปรปรวนและความเป็นปกติ ซึ่งอาจส่งผลต่อความแม่นยำของผลการทดสอบ
ข้อจำกัดด้านขอบเขตในการเปรียบเทียบกลุ่ม: การทดสอบ Fถูกออกแบบมาเพื่อเปรียบเทียบความแปรปรวนระหว่างกลุ่ม ทำให้ไม่เหมาะสมสำหรับการวิเคราะห์ที่อยู่นอกเหนือขอบเขตเฉพาะนี้
ความท้าทายในการตีความ: การทดสอบ Fไม่ได้ระบุกลุ่มคู่ที่เฉพาะเจาะจงซึ่งมีความแปรปรวนที่แตกต่างกัน การตีความอย่างระมัดระวังจึงเป็นสิ่งจำเป็น และการทดสอบเพิ่มเติมแบบ post hoc มักมีความสำคัญต่อการทำความเข้าใจความแตกต่างระหว่างกลุ่มอย่างละเอียดมากขึ้น

ปัญหาเกี่ยวกับการวิเคราะห์ความแปรปรวนแบบเปรียบเทียบหลายกลุ่ม

การ ทดสอบ Fในการวิเคราะห์ความแปรปรวนแบบทางเดียว ( ANOVA ) ใช้เพื่อประเมินว่าค่าที่คาดหวังของตัวแปรเชิงปริมาณภายในกลุ่มที่กำหนดไว้ล่วงหน้าหลายกลุ่มนั้นแตกต่างกันหรือไม่ ตัวอย่างเช่น สมมติว่าการทดลองทางการแพทย์เปรียบเทียบการรักษา 4 วิธี การทดสอบ F ของ ANOVA สามารถใช้เพื่อประเมินว่าการรักษาใดโดยเฉลี่ยแล้วดีกว่าหรือแย่กว่าการรักษาอื่น ๆ เมื่อเทียบกับสมมติฐานว่างที่ว่าการรักษาทั้ง 4 วิธีให้ผลลัพธ์เฉลี่ยเท่ากัน นี่เป็นตัวอย่างของการทดสอบแบบ "omnibus" ซึ่งหมายความว่าการทดสอบเพียงครั้งเดียวจะดำเนินการเพื่อตรวจหาความแตกต่างที่เป็นไปได้หลายอย่าง หรืออีกทางหนึ่ง เราสามารถทำการทดสอบแบบจับคู่ระหว่างการรักษาได้ (ตัวอย่างเช่น ในตัวอย่างการทดลองทางการแพทย์ที่มีการรักษา 4 วิธี เราสามารถทำการทดสอบ 6 ครั้งระหว่างการรักษาแต่ละคู่) ข้อดีของ การทดสอบ F ของ ANOVA คือเราไม่จำเป็นต้องระบุล่วงหน้าว่าการรักษาใดที่จะนำมาเปรียบเทียบ และเราไม่จำเป็นต้องปรับค่าสำหรับการเปรียบเทียบหลายครั้ง ข้อเสียของ การทดสอบ F ใน ANOVA คือ หากเราปฏิเสธสมมติฐานว่างเราจะไม่ทราบว่าการรักษาใดบ้างที่แตกต่างจากการรักษาอื่นอย่างมีนัยสำคัญ และหาก ทำการทดสอบ Fที่ระดับ α เราจะไม่สามารถระบุได้ว่าคู่การรักษาที่มีความแตกต่างของค่าเฉลี่ยมากที่สุดนั้นแตกต่างกันอย่างมีนัยสำคัญที่ระดับ α

ปัญหาการถดถอย

พิจารณาสองแบบจำลอง คือแบบจำลองที่ 1 และแบบจำลองที่ 2 โดยที่แบบจำลองที่ 1 เป็นแบบจำลองที่ 'ซ้อน' อยู่ภายในแบบจำลองที่ 2 แบบจำลองที่ 1 เป็นแบบจำลองที่มีข้อจำกัด และแบบจำลองที่ 2 เป็นแบบจำลองที่ไม่มีข้อจำกัด กล่าวคือ แบบจำลองที่ 1 มี_{พารามิเตอร์ p₁ และแบบจำลองที่ 2 มีพารามิเตอร์ p₂}_โดยที่ p₁ _<p₂และสำหรับ การ เลือก พารามิเตอร์ใดๆ ในแบบจำลอง _ที่ 1 เส้นโค้งการถดถอยเดียวกันสามารถได้มาจากการเลือกพารามิเตอร์บางอย่างในแบบจำลองที่ 2

บริบททั่วไปอย่างหนึ่งในเรื่องนี้คือ การตัดสินใจว่าแบบจำลองหนึ่งเหมาะสมกับข้อมูลได้ดีกว่าแบบจำลองพื้นฐานหรือไม่ ซึ่งในแบบจำลองพื้นฐานนั้น ตัวแปรอธิบายเพียงอย่างเดียวคือค่าคงที่ ทำให้ค่าที่ทำนายได้ทั้งหมดของตัวแปรตามเท่ากับค่าเฉลี่ยของตัวแปรนั้นในตัวอย่าง แบบจำลองพื้นฐานเป็นแบบจำลองที่ถูกจำกัด เนื่องจากสัมประสิทธิ์ของตัวแปรอธิบายที่เป็นไปได้ทั้งหมดถูกจำกัดให้เท่ากับศูนย์

อีกบริบทหนึ่งที่พบได้บ่อยคือการตัดสินใจว่ามีจุดเปลี่ยนโครงสร้างในข้อมูลหรือไม่ ในกรณีนี้แบบจำลองแบบจำกัดจะใช้ข้อมูลทั้งหมดในการวิเคราะห์การถดถอยครั้งเดียว ในขณะที่แบบจำลองแบบไม่จำกัดจะใช้การวิเคราะห์การถดถอยแยกกันสำหรับชุดข้อมูลย่อยสองชุดที่แตกต่างกัน การใช้ การทดสอบ F ในลักษณะนี้ เรียกว่า การ ทดสอบ Chow

แบบจำลองที่มีพารามิเตอร์มากกว่าจะสามารถปรับให้เข้ากับข้อมูลได้ดีอย่างน้อยก็เท่ากับแบบจำลองที่มีพารามิเตอร์น้อยกว่า ดังนั้นโดยทั่วไปแล้วแบบจำลองที่ 2 จะให้ผลลัพธ์ที่เหมาะสมกับข้อมูลได้ดีกว่า (เช่น ข้อผิดพลาดต่ำกว่า) แบบจำลองที่ 1 แต่บ่อยครั้งที่เราต้องการตรวจสอบว่าแบบจำลองที่ 2 ให้ผลลัพธ์ที่ เหมาะสมกับข้อมูลได้ดีกว่า อย่างมีนัยสำคัญหรือไม่ วิธีหนึ่งในการแก้ปัญหานี้คือการใช้การทดสอบ F

หากมี จุดข้อมูล nจุดสำหรับประมาณค่าพารามิเตอร์ของทั้งสองแบบจำลอง ก็สามารถคำนวณค่า สถิติ Fได้ดังนี้

F={\frac {\left({\frac {{\text{RSS}}_{1}-{\text{RSS}}_{2}}{p_{2}-p_{1}}}\right)}{\left({\frac {{\text{RSS}}_{2}}{n-p_{2}}}\right)}}={\frac {{\text{RSS}}_{1}-{\text{RSS}}_{2}}{{\text{RSS}}_{2}}}\cdot {\frac {n-p_{2}}{p_{2}-p_{1}}},

โดยที่ RSS _iคือผลรวมกำลังสองของค่าคลาดเคลื่อนของแบบจำลองiหากแบบจำลองการถดถอยคำนวณโดยใช้ค่าน้ำหนัก ให้แทนที่ RSS _iด้วย χ² ^ซึ่งเป็นผลรวมกำลังสองของค่าคลาดเคลื่อนแบบถ่วงน้ำหนัก ภายใต้สมมติฐานว่างที่ว่าแบบจำลอง 2 ไม่ได้ให้ความเหมาะสมที่ดีกว่าแบบจำลอง 1 อย่างมีนัยสำคัญค่าFจะมี การแจกแจง แบบ F โดยมี องศาอิสระ ( p² ₋p₁ , n − p₂ ₎สมมติฐานว่างจะถูกปฏิเสธหากค่าFที่คำนวณจากข้อมูลมากกว่าค่าวิกฤตของการแจกแจงแบบ_Fสำหรับความน่าจะเป็นของการปฏิเสธเท็จที่ต้องการ (เช่น 0.05) เนื่องจากFเป็นฟังก์ชันเอกภาคของสถิติอัตราส่วนความน่าจะเป็น การทดสอบF จึง เป็นการ ทดสอบอัตราส่วนความน่าจะเป็น

ดูเพิ่มเติม

ความพอดีที่ดี

อ่านเพิ่มเติม

ฟ็อกซ์, คาร์ล เอ. (1980). สถิติเศรษฐศาสตร์ระดับกลาง (ฉบับพิมพ์ครั้งที่สอง). นิวยอร์ก: จอห์น ไวลีย์ แอนด์ ซันส์. หน้า 290–310 . ISBN 0-88275-521-8.
จอห์นสตัน, จอห์น (1972). วิธีการทางเศรษฐมิติ (ฉบับพิมพ์ครั้งที่สอง). นิวยอร์ก: แมคกรอว์-ฮิลล์. หน้า 35–38 .
Kmenta, Jan (1986). องค์ประกอบของเศรษฐศาสตร์เชิงปริมาณ (ฉบับพิมพ์ครั้งที่สอง). นิวยอร์ก: Macmillan. หน้า 147–148 . ISBN 0-02-365070-2.
มัดดาลา, GS ; ลาฮิรี, คาจัล (2009) เศรษฐมิติเบื้องต้น (ฉบับที่สี่) ชิเชสเตอร์: ไวลีย์ หน้า 155– 160. ไอเอสบีเอ็น 978-0-470-01512-4.

ลิงก์ภายนอก

ตารางค่าวิกฤตของการทดสอบF
เครื่องคำนวณฟรีสำหรับการทดสอบF
การ ทดสอบ Fสำหรับการถดถอยเชิงเส้น
วิดีโอการบรรยายวิชาเศรษฐศาสตร์เชิงปริมาณ (หัวข้อ: การทดสอบสมมติฐาน)บน YouTubeโดย Mark Thoma

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]