กลับไปหน้าบทความ

อ่าน 4 นาที

อคติจากตัวแปรที่ถูกละเว้น

ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว...

อคติจากตัวแปรที่ถูกละเว้น

ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว อคตินี้ส่งผลให้แบบจำลองนำผลกระทบของตัวแปรที่หายไปไปใช้กับตัวแปรที่ถูกรวมไว้

กล่าวโดยเฉพาะเจาะจงแล้ว OVB คืออคติที่ปรากฏในค่าประมาณของพารามิเตอร์ในการวิเคราะห์การถดถอยเมื่อข้อกำหนด ที่สมมติขึ้น ไม่ถูกต้อง กล่าวคือละเว้นตัวแปรอิสระที่เป็นตัวกำหนดตัวแปรตามและมีความสัมพันธ์กับตัวแปรอิสระที่รวมอยู่หนึ่งตัวหรือมากกว่านั้น

ในการถดถอยเชิงเส้น

ปรีชา

สมมติว่าความสัมพันธ์ระหว่างสาเหตุและผลลัพธ์ที่แท้จริงเป็นดังนี้:

โดยมีพารามิเตอร์a, b, cตัวแปรตามyตัวแปรอิสระxและzและเทอมความคลาดเคลื่อนuเราต้องการทราบผลกระทบของxต่อy (กล่าวคือ เราต้องการประมาณค่าb )

จะเกิดอคติจากการละเว้นตัวแปรในแบบจำลองการถดถอยเชิงเส้นได้ นั้น ต้องเป็นไปตามเงื่อนไขสองประการดังนี้ :

  • ตัวแปรที่ถูกละเว้นจะต้องเป็นตัวกำหนดของตัวแปรตาม (กล่าวคือ ค่าสัมประสิทธิ์การถดถอยที่แท้จริงของตัวแปรนั้นจะต้องไม่เป็นศูนย์) และ
  • ตัวแปรที่ถูกละเว้นจะต้องมีความสัมพันธ์กับตัวแปรอิสระที่ระบุไว้ในสมการถดถอย (กล่าวคือ cov( z , x ) จะต้องไม่เท่ากับศูนย์)

สมมติว่าเราตัดตัวแปรz ออก จากการวิเคราะห์การถดถอย และสมมติว่าความสัมพันธ์ระหว่างxและzกำหนดโดย

โดยมีพารามิเตอร์d , fและเทอมความคลาดเคลื่อนeเมื่อแทนสมการที่สองลงในสมการแรกจะได้

ถ้า ทำการถดถอยของy กับ xเพียงอย่างเดียว สมการสุดท้ายนี้จะเป็นสิ่งที่ถูกประมาณค่า และสัมประสิทธิ์การถดถอยบนxนั้นแท้จริงแล้วเป็นการประมาณค่าของ ( b  +  cf ) ซึ่งไม่ได้ให้เพียงแค่การประมาณค่าของผลกระทบโดยตรงที่ต้องการของxต่อy (ซึ่งก็คือb ) แต่เป็นการประมาณค่าผลรวมของผลกระทบโดยตรงนั้นกับผลกระทบทางอ้อม (ผลกระทบfของxต่อzคูณด้วยผลกระทบcของzต่อy ) ดังนั้น โดยการละเว้นตัวแปรzจากการถดถอย เราจึงได้ประมาณค่าอนุพันธ์รวมของyเทียบกับxแทนที่จะเป็นอนุพันธ์ย่อย ของ y เทียบกับ  xซึ่งจะแตกต่างกันหากทั้งcและfไม่เป็นศูนย์

ทิศทางและขนาดของอคติมีอยู่ในcfเนื่องจากผลที่ต้องการคือbแต่การประมาณค่าการถดถอย คือ b+cfขนาดของอคติคือค่าสัมบูรณ์ของcfและทิศทางของอคติจะเป็นขึ้น (ไปสู่ค่าบวกมากขึ้นหรือค่าลบน้อยลง) ถ้าcf > 0 (ถ้าทิศทางของความสัมพันธ์ระหว่างyและzเหมือนกับระหว่างxและz ) และจะเป็นลงในกรณีอื่น ๆ

การวิเคราะห์โดยละเอียด

ยกตัวอย่างเช่น พิจารณาแบบจำลองเชิงเส้นที่มีรูปแบบดังนี้

ที่ไหน

  • x iคือเวกเตอร์แถวขนาด 1 ×  pที่ประกอบด้วยค่าของตัวแปรอิสระp ตัว ที่สังเกตได้ ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i
  • βคือ เวกเตอร์คอลัมน์ขนาด p  × 1 ของพารามิเตอร์ที่ไม่สามารถสังเกตได้ (สัมประสิทธิ์การตอบสนองของตัวแปรตามต่อ ตัวแปรอิสระ pตัวในx i แต่ละตัว ) ที่ต้องประมาณค่า
  • z iเป็นค่าสเกลาร์และเป็นค่าของตัวแปรอิสระอีกตัวหนึ่งที่สังเกตได้ ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i
  • δเป็นค่าสเกลาร์และเป็นพารามิเตอร์ที่ไม่สามารถสังเกตได้ (สัมประสิทธิ์การตอบสนองของตัวแปรตามต่อz i ) ซึ่งจะต้องได้รับการประมาณค่า
  • u iคือค่าความคลาดเคลื่อน ที่ไม่สามารถสังเกตได้ ซึ่งเกิดขึ้น ณ เวลาiหรือสำหรับ ผู้เข้าร่วมการศึกษา  คนที่i ; เป็นค่าที่เกิดขึ้นจริงโดยไม่สามารถสังเกตได้ของตัวแปรสุ่มที่มีค่าเฉลี่ย  เป็น 0 (โดยมีเงื่อนไขว่าx iและz i )
  • y iคือค่าสังเกตของตัวแปรตาม ณ เวลาiหรือสำหรับผู้เข้าร่วมการศึกษาคน ที่i

เราเก็บรวบรวมข้อมูลการสังเกตของตัวแปรทั้งหมดที่มีดัชนีi = 1, ..., nแล้วเรียงซ้อนกัน เพื่อให้ได้เมทริกซ์Xและเวกเตอร์Y , ZและU :

และ

หากไม่นำตัวแปรอิสระzออกจากการวิเคราะห์การถดถอย ค่าประมาณของพารามิเตอร์การตอบสนองของตัวแปรอิสระอื่นๆ จะได้มาจากการคำนวณ แบบกำลังสองน้อยที่สุด ตามปกติ

(โดยที่สัญลักษณ์ "ไพรม์" หมายถึงการสลับแถวและคอลัมน์ของเมทริกซ์ และตัวยก -1 หมายถึงการผกผันเมทริกซ์ )

แทนค่าYโดยใช้แบบจำลองเชิงเส้นที่สมมติขึ้น

เมื่อพิจารณาค่าเฉลี่ยแล้ว การมีส่วนร่วมของพจน์สุดท้ายจะเป็นศูนย์ ซึ่งเป็นผลมาจากสมมติฐานที่ว่าUไม่มีความสัมพันธ์กับตัวแปรอิสระXเมื่อลดรูปพจน์ที่เหลือ:

พจน์ที่สองหลังเครื่องหมายเท่ากับคือค่าความเอนเอียงของตัวแปรที่ถูกละเว้นในกรณีนี้ ซึ่งจะมีค่าไม่เป็นศูนย์หากตัวแปรที่ถูกละเว้นzมีความสัมพันธ์กับตัวแปรใดๆ ที่รวมอยู่ในเมทริกซ์X (นั่นคือ ถ้าX′Zไม่เท่ากับเวกเตอร์ของศูนย์) โปรดทราบว่าค่าความเอนเอียงนี้เท่ากับส่วนถ่วงน้ำหนักของz iที่ "อธิบาย" ได้โดย x i

ผลกระทบในวิธีการกำลังสองน้อยที่สุดแบบธรรมดา

ทฤษฎีบท เกาส์-มาร์คอฟกล่าวว่า แบบจำลองการถดถอยที่ตรงตามข้อสมมติฐานของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก จะให้ ค่าประมาณเชิงเส้น ที่มีประสิทธิภาพสูงสุดและไม่เอนเอียงในวิธีการกำลังสองน้อยที่สุดแบบธรรมดาข้อสมมติฐานที่เกี่ยวข้องของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกคือ เทอมความคลาดเคลื่อนไม่มีความสัมพันธ์กับตัวแปรอิสระ

การมีอคติจากตัวแปรที่ถูกละเว้นนั้นขัดแย้งกับข้อสมมติฐานนี้ การละเมิดนี้ทำให้ตัวประมาณค่า OLS มีอคติและไม่สอดคล้องกันทิศทางของอคติขึ้นอยู่กับตัวประมาณค่า รวมทั้งความแปรปรวนร่วมระหว่างตัวแปรอิสระและตัวแปรที่ถูกละเว้น หากตัวแปรอิสระมีความแปรปรวนร่วมเป็นบวกกับทั้งตัวแปรอิสระและตัวแปรตาม ค่าประมาณ OLS ของสัมประสิทธิ์ของตัวแปรอิสระที่รวมอยู่จะมีค่ามากกว่าค่าที่แท้จริงของสัมประสิทธิ์นั้น สามารถเห็นผลกระทบนี้ได้จากการหาค่าเฉลี่ยของพารามิเตอร์ ดังแสดงในส่วนก่อนหน้า

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Omitted-variable_bias&oldid=1335969961 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ อคติจากตัวแปรที่ถูกละเว้น

ในทางสถิติอคติจากการละเว้นตัวแปร ( OVB ) เกิดขึ้นเมื่อแบบจำลองทางสถิติละเว้นตัวแปรที่เกี่ยวข้องอย่างน้อยหนึ่งตัว...

ปรีชา

สมมติว่าความสัมพันธ์ระหว่างสาเหตุและผลลัพธ์ที่แท้จริงเป็นดังนี้:

การวิเคราะห์โดยละเอียด

ยกตัวอย่างเช่น พิจารณา แบบจำลองเชิงเส้น ที่มีรูปแบบดังนี้

ผลกระทบในวิธีการกำลังสองน้อยที่สุดแบบธรรมดา

ทฤษฎีบท เกา ส์-มาร์คอฟ กล่าวว่า แบบจำลองการถดถอยที่ตรงตามข้อสมมติฐานของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก จะให้ ค่าประมาณเชิงเส้น ที่มีประสิทธิภาพสูงสุด และ ไม่เอนเอียง ในวิธี การกำลังสองน้อยที่สุดแบบธรรมดา...