อ่าน 4 นาที
อคติจากตัวแปรที่ถูกละเว้น
ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว...
อคติจากตัวแปรที่ถูกละเว้น
ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว อคตินี้ส่งผลให้แบบจำลองนำผลกระทบของตัวแปรที่หายไปไปใช้กับตัวแปรที่ถูกรวมไว้
กล่าวโดยเฉพาะเจาะจงแล้ว OVB คืออคติที่ปรากฏในค่าประมาณของพารามิเตอร์ในการวิเคราะห์การถดถอยเมื่อข้อกำหนด ที่สมมติขึ้น ไม่ถูกต้อง กล่าวคือละเว้นตัวแปรอิสระที่เป็นตัวกำหนดตัวแปรตามและมีความสัมพันธ์กับตัวแปรอิสระที่รวมอยู่หนึ่งตัวหรือมากกว่านั้น
ในการถดถอยเชิงเส้น
ปรีชา
สมมติว่าความสัมพันธ์ระหว่างสาเหตุและผลลัพธ์ที่แท้จริงเป็นดังนี้:
โดยมีพารามิเตอร์a, b, cตัวแปรตามyตัวแปรอิสระxและzและเทอมความคลาดเคลื่อนuเราต้องการทราบผลกระทบของxต่อy (กล่าวคือ เราต้องการประมาณค่าb )
จะเกิดอคติจากการละเว้นตัวแปรในแบบจำลองการถดถอยเชิงเส้นได้ นั้น ต้องเป็นไปตามเงื่อนไขสองประการดังนี้ :
- ตัวแปรที่ถูกละเว้นจะต้องเป็นตัวกำหนดของตัวแปรตาม (กล่าวคือ ค่าสัมประสิทธิ์การถดถอยที่แท้จริงของตัวแปรนั้นจะต้องไม่เป็นศูนย์) และ
- ตัวแปรที่ถูกละเว้นจะต้องมีความสัมพันธ์กับตัวแปรอิสระที่ระบุไว้ในสมการถดถอย (กล่าวคือ cov( z , x ) จะต้องไม่เท่ากับศูนย์)
สมมติว่าเราตัดตัวแปรz ออก จากการวิเคราะห์การถดถอย และสมมติว่าความสัมพันธ์ระหว่างxและzกำหนดโดย
โดยมีพารามิเตอร์d , fและเทอมความคลาดเคลื่อนeเมื่อแทนสมการที่สองลงในสมการแรกจะได้
ถ้า ทำการถดถอยของy กับ xเพียงอย่างเดียว สมการสุดท้ายนี้จะเป็นสิ่งที่ถูกประมาณค่า และสัมประสิทธิ์การถดถอยบนxนั้นแท้จริงแล้วเป็นการประมาณค่าของ ( b + cf ) ซึ่งไม่ได้ให้เพียงแค่การประมาณค่าของผลกระทบโดยตรงที่ต้องการของxต่อy (ซึ่งก็คือb ) แต่เป็นการประมาณค่าผลรวมของผลกระทบโดยตรงนั้นกับผลกระทบทางอ้อม (ผลกระทบfของxต่อzคูณด้วยผลกระทบcของzต่อy ) ดังนั้น โดยการละเว้นตัวแปรzจากการถดถอย เราจึงได้ประมาณค่าอนุพันธ์รวมของyเทียบกับxแทนที่จะเป็นอนุพันธ์ย่อย ของ y เทียบกับ xซึ่งจะแตกต่างกันหากทั้งcและfไม่เป็นศูนย์
ทิศทางและขนาดของอคติมีอยู่ในcfเนื่องจากผลที่ต้องการคือbแต่การประมาณค่าการถดถอย คือ b+cfขนาดของอคติคือค่าสัมบูรณ์ของcfและทิศทางของอคติจะเป็นขึ้น (ไปสู่ค่าบวกมากขึ้นหรือค่าลบน้อยลง) ถ้าcf > 0 (ถ้าทิศทางของความสัมพันธ์ระหว่างyและzเหมือนกับระหว่างxและz ) และจะเป็นลงในกรณีอื่น ๆ
การวิเคราะห์โดยละเอียด
ยกตัวอย่างเช่น พิจารณาแบบจำลองเชิงเส้นที่มีรูปแบบดังนี้
ที่ไหน
- x iคือเวกเตอร์แถวขนาด 1 × pที่ประกอบด้วยค่าของตัวแปรอิสระp ตัว ที่สังเกตได้ ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i
- βคือ เวกเตอร์คอลัมน์ขนาด p × 1 ของพารามิเตอร์ที่ไม่สามารถสังเกตได้ (สัมประสิทธิ์การตอบสนองของตัวแปรตามต่อ ตัวแปรอิสระ pตัวในx i แต่ละตัว ) ที่ต้องประมาณค่า
- z iเป็นค่าสเกลาร์และเป็นค่าของตัวแปรอิสระอีกตัวหนึ่งที่สังเกตได้ ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i
- δเป็นค่าสเกลาร์และเป็นพารามิเตอร์ที่ไม่สามารถสังเกตได้ (สัมประสิทธิ์การตอบสนองของตัวแปรตามต่อz i ) ซึ่งจะต้องได้รับการประมาณค่า
- u iคือค่าความคลาดเคลื่อน ที่ไม่สามารถสังเกตได้ ซึ่งเกิดขึ้น ณ เวลาiหรือสำหรับ ผู้เข้าร่วมการศึกษา คนที่i ; เป็นค่าที่เกิดขึ้นจริงโดยไม่สามารถสังเกตได้ของตัวแปรสุ่มที่มีค่าเฉลี่ย เป็น 0 (โดยมีเงื่อนไขว่าx iและz i )
- y iคือค่าสังเกตของตัวแปรตาม ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i
เราเก็บรวบรวมข้อมูลการสังเกตของตัวแปรทั้งหมดที่มีดัชนีi = 1, ..., nแล้วเรียงซ้อนกัน เพื่อให้ได้เมทริกซ์Xและเวกเตอร์Y , ZและU :
และ
หากไม่นำตัวแปรอิสระzออกจากการวิเคราะห์การถดถอย ค่าประมาณของพารามิเตอร์การตอบสนองของตัวแปรอิสระอื่นๆ จะได้มาจากการคำนวณ แบบกำลังสองน้อยที่สุด ตามปกติ
(โดยที่สัญลักษณ์ "ไพรม์" หมายถึงการสลับแถวและคอลัมน์ของเมทริกซ์ และตัวยก -1 หมายถึงการผกผันเมทริกซ์ )
แทนค่าYโดยใช้แบบจำลองเชิงเส้นที่สมมติขึ้น
เมื่อพิจารณาค่าเฉลี่ยแล้ว การมีส่วนร่วมของพจน์สุดท้ายจะเป็นศูนย์ ซึ่งเป็นผลมาจากสมมติฐานที่ว่าUไม่มีความสัมพันธ์กับตัวแปรอิสระXเมื่อลดรูปพจน์ที่เหลือ:
พจน์ที่สองหลังเครื่องหมายเท่ากับคือค่าความเอนเอียงของตัวแปรที่ถูกละเว้นในกรณีนี้ ซึ่งจะมีค่าไม่เป็นศูนย์หากตัวแปรที่ถูกละเว้นzมีความสัมพันธ์กับตัวแปรใดๆ ที่รวมอยู่ในเมทริกซ์X (นั่นคือ ถ้าX′Zไม่เท่ากับเวกเตอร์ของศูนย์) โปรดทราบว่าค่าความเอนเอียงนี้เท่ากับส่วนถ่วงน้ำหนักของz iที่ "อธิบาย" ได้โดย x i
ผลกระทบในวิธีการกำลังสองน้อยที่สุดแบบธรรมดา
ทฤษฎีบท เกาส์-มาร์คอฟกล่าวว่า แบบจำลองการถดถอยที่ตรงตามข้อสมมติฐานของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก จะให้ ค่าประมาณเชิงเส้น ที่มีประสิทธิภาพสูงสุดและไม่เอนเอียงในวิธีการกำลังสองน้อยที่สุดแบบธรรมดาข้อสมมติฐานที่เกี่ยวข้องของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกคือ เทอมความคลาดเคลื่อนไม่มีความสัมพันธ์กับตัวแปรอิสระ
การมีอคติจากตัวแปรที่ถูกละเว้นนั้นขัดแย้งกับข้อสมมติฐานนี้ การละเมิดนี้ทำให้ตัวประมาณค่า OLS มีอคติและไม่สอดคล้องกันทิศทางของอคติขึ้นอยู่กับตัวประมาณค่า รวมทั้งความแปรปรวนร่วมระหว่างตัวแปรอิสระและตัวแปรที่ถูกละเว้น หากตัวแปรอิสระมีความแปรปรวนร่วมเป็นบวกกับทั้งตัวแปรอิสระและตัวแปรตาม ค่าประมาณ OLS ของสัมประสิทธิ์ของตัวแปรอิสระที่รวมอยู่จะมีค่ามากกว่าค่าที่แท้จริงของสัมประสิทธิ์นั้น สามารถเห็นผลกระทบนี้ได้จากการหาค่าเฉลี่ยของพารามิเตอร์ ดังแสดงในส่วนก่อนหน้า
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อคติจากตัวแปรที่ถูกละเว้น
ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว...
ปรีชา
สมมติว่าความสัมพันธ์ระหว่างสาเหตุและผลลัพธ์ที่แท้จริงเป็นดังนี้:
การวิเคราะห์โดยละเอียด
ยกตัวอย่างเช่น พิจารณา แบบจำลองเชิงเส้น ที่มีรูปแบบดังนี้
ผลกระทบในวิธีการกำลังสองน้อยที่สุดแบบธรรมดา
ทฤษฎีบท เกา ส์-มาร์คอฟ กล่าวว่า แบบจำลองการถดถอยที่ตรงตามข้อสมมติฐานของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก จะให้ ค่าประมาณเชิงเส้น ที่มีประสิทธิภาพสูงสุด และ ไม่เอนเอียง ในวิธี การกำลังสองน้อยที่สุดแบบธรรมดา...