กลับไปหน้าบทความ

อ่าน 14 นาที

ตัวแปรเครื่องมือ

ใน สถิติ เศรษฐศาสตร์ เชิงปริมาณ ระบาดวิทยา และสาขาวิชาที่เกี่ยวข้อง วิธี การกึ่งทดลอง ของ ตัวแปรเครื่องมือ ( IV ) ใช้ในการประมาณ ความสัมพันธ์เชิงสาเหตุ เมื่อ การทดลองแบบควบคุม...

ตัวแปรเครื่องมือ

ในสถิติเศรษฐศาสตร์เชิงปริมาณระบาดวิทยาและสาขาวิชาที่เกี่ยวข้อง วิธี การกึ่งทดลองของตัวแปรเครื่องมือ ( IV ) ใช้ในการประมาณความสัมพันธ์เชิงสาเหตุเมื่อการทดลองแบบควบคุมไม่สามารถทำได้ หรือเมื่อการรักษาไม่ประสบความสำเร็จในทุกหน่วยในการทดลองแบบสุ่ม[ 1 ]โดยทั่วไปแล้ว IV จะถูกใช้เมื่อตัวแปรอธิบาย (หรือที่เรียกว่าตัวแปรอิสระหรือตัวทำนาย) ที่สนใจมีความสัมพันธ์กับเทอมความคลาดเคลื่อน (ตัวแปรภายใน) ซึ่งในกรณีนี้วิธีการกำลังสองน้อยที่สุดแบบธรรมดาและANOVAจะให้ ผลลัพธ์ ที่ลำเอียงเมื่อใช้แล้ว เครื่องมือที่ถูกต้องจะเปลี่ยนตัวแปรอธิบาย (ตัวแปรที่มีความสัมพันธ์กับตัวแปรภายใน) แต่ไม่มีผลกระทบที่เป็นอิสระต่อตัวแปรตามและไม่มีความสัมพันธ์กับเทอมความคลาดเคลื่อน ดังนั้นจึงช่วยให้นักวิจัยหรือนักวิเคราะห์สามารถค้นพบผลกระทบเชิงสาเหตุที่แท้จริงของตัวแปรอธิบายต่อตัวแปรตามได้

วิธีการใช้ตัวแปรเครื่องมือช่วยให้ สามารถประมาณค่า ได้อย่างสม่ำเสมอเมื่อตัวแปรอธิบาย (ตัวแปรควบคุม) มีความสัมพันธ์กับค่าความคลาดเคลื่อนใน แบบ จำลองการถดถอยความสัมพันธ์ดังกล่าวอาจเกิดขึ้นได้เมื่อ:

  1. การเปลี่ยนแปลงในตัวแปรตามจะส่งผลให้ค่าของตัวแปรอิสระ อย่างน้อยหนึ่งตัวเปลี่ยนแปลงไป ด้วย ("สาเหตุย้อนกลับ")
  2. มีตัวแปรที่ถูกละเว้นซึ่งส่งผลกระทบต่อทั้งตัวแปรตามและตัวแปรอิสระ หรือ
  3. ตัวแปรเสริมอาจมีความคลาดเคลื่อนในการวัด

ตัวแปรอธิบายที่ประสบปัญหาอย่างน้อยหนึ่งอย่างในบริบทของการถดถอยบางครั้งเรียกว่าตัวแปรภายในในสถานการณ์นี้ วิธี การกำลังสองน้อยที่สุดแบบธรรมดาจะให้ค่าประมาณที่ไม่สอดคล้องกันและมีอคติ[ 2 ]อย่างไรก็ตาม หาก มี เครื่องมืออยู่ ค่าประมาณที่สอดคล้องกันก็ยังคงสามารถได้รับ เครื่องมือคือตัวแปรที่ไม่ใช่ส่วนหนึ่งของสมการอธิบาย แต่มีความสัมพันธ์กับตัวแปรอธิบายภายใน โดยมีเงื่อนไขขึ้นอยู่กับค่าของตัวแปรควบคุมอื่นๆ

ในแบบจำลองเชิงเส้น มีข้อกำหนดหลักสองประการสำหรับการใช้ตัวแปรอิสระ:

  • เครื่องมือจะต้องมีความสัมพันธ์กับตัวแปรอธิบายภายใน โดยมีเงื่อนไขว่าตัวแปรควบคุมอื่นๆ หากความสัมพันธ์นี้แข็งแกร่ง เครื่องมือดังกล่าวจะกล่าวได้ว่ามีขั้นตอนแรกที่แข็งแกร่งความสัมพันธ์ที่อ่อนแออาจทำให้เกิดการอนุมานที่ผิดพลาดเกี่ยวกับการประมาณค่าพารามิเตอร์และทำให้ค่าความคลาดเคลื่อนมาตรฐานในขั้นตอนที่สองมีขนาดใหญ่กว่าการประมาณค่ากำลังสองน้อยที่สุดแบบธรรมดา[ 3 ] [ 4 ]
  • ตัวแปรเครื่องมือต้องไม่มีความสัมพันธ์กับค่าความคลาดเคลื่อนในสมการอธิบาย โดยมีเงื่อนไขว่าตัวแปรควบคุมอื่นๆ เป็นไปตามนั้น กล่าวอีกนัยหนึ่ง ตัวแปรเครื่องมือต้องไม่ประสบปัญหาเดียวกันกับตัวแปรทำนายเดิม หากตรงตามเงื่อนไขนี้ ตัวแปรเครื่องมือก็จะถือว่าตรงตามข้อจำกัดการยกเว้น

ตัวอย่าง

โดยทั่วไป ในการพยายามประมาณผลกระทบเชิงสาเหตุของตัวแปรX ("ตัวแปรควบคุม" หรือ "ตัวแปรอธิบาย") ต่อตัวแปรY ("ตัวแปรตาม") นั้นตัวแปรเครื่องมือคือตัวแปรที่สามZซึ่งส่งผล ต่อ Yก็ต่อเมื่อผ่านผลกระทบที่มีต่อ  Xเท่านั้น

ตัวอย่างเช่น สมมติว่านักวิจัยต้องการประเมินผลกระทบเชิงสาเหตุของการสูบบุหรี่ ( X ) ต่อสุขภาพโดยรวม ( Y ) [ 5 ] ความสัมพันธ์ระหว่างการสูบบุหรี่กับสุขภาพไม่ได้หมายความว่าการสูบบุหรี่ทำให้สุขภาพแย่ลง เพราะตัวแปรอื่นๆ เช่น ภาวะซึมเศร้า อาจส่งผลต่อทั้งสุขภาพและการสูบบุหรี่ หรือเพราะสุขภาพอาจส่งผลต่อการสูบบุหรี่ ไม่สามารถทำการทดลองแบบควบคุมเกี่ยวกับสถานะการสูบบุหรี่ในประชากรทั่วไปได้ นักวิจัยอาจพยายามประเมินผลกระทบเชิงสาเหตุของการสูบบุหรี่ต่อสุขภาพจากข้อมูลเชิงสังเกตโดยใช้อัตราภาษีสำหรับผลิตภัณฑ์ยาสูบ ( Z ) เป็นตัวแปรเครื่องมือสำหรับการสูบบุหรี่ อัตราภาษีสำหรับผลิตภัณฑ์ยาสูบเป็นตัวเลือกที่เหมาะสมสำหรับตัวแปรเครื่องมือ เพราะนักวิจัยสันนิษฐานว่าอัตราภาษีสามารถมีความสัมพันธ์กับสุขภาพได้ผ่านผลกระทบต่อการสูบบุหรี่เท่านั้น หากนักวิจัยพบว่าภาษียาสูบและสถานะสุขภาพมีความสัมพันธ์กัน นี่อาจถือเป็นหลักฐานว่าการสูบบุหรี่ทำให้เกิดการเปลี่ยนแปลงในสุขภาพ

ประวัติศาสตร์

การใช้ตัวแปรเครื่องมือครั้งแรกเกิดขึ้นในหนังสือปี 1928 โดยPhilip G. Wrightซึ่งเป็นที่รู้จักกันดีจากคำอธิบายที่ยอดเยี่ยมเกี่ยวกับการผลิต การขนส่ง และการขายน้ำมันพืชและน้ำมันสัตว์ในช่วงต้นทศวรรษ 1900 ในสหรัฐอเมริกา[ 6 ] [ 7 ]ในปี 1945 Olav Reiersølได้นำแนวทางเดียวกันนี้มาใช้ในบริบทของแบบจำลองข้อผิดพลาดในตัวแปรในวิทยานิพนธ์ของเขา และตั้งชื่อวิธีการนี้ว่า[ 8 ]

ไรท์พยายามหาอุปสงค์และอุปทานของเนยโดยใช้ข้อมูลแบบพาเนลเกี่ยวกับราคาและปริมาณที่ขายในสหรัฐอเมริกา แนวคิดก็คือ การวิเคราะห์การถดถอยสามารถสร้างเส้นโค้งอุปสงค์หรืออุปทานได้ เพราะเส้นโค้งเหล่านั้นเกิดจากเส้นทางระหว่างราคาและปริมาณที่ต้องการหรือเสนอขาย ปัญหาคือ ข้อมูลจากการสังเกตไม่ได้ก่อให้เกิดเส้นโค้งอุปสงค์หรืออุปทานอย่างแท้จริง แต่เป็นกลุ่มจุดสังเกตที่เปลี่ยนแปลงรูปร่างไปตามสภาวะตลาดที่แตกต่างกัน ดูเหมือนว่าการสรุปผลจากข้อมูลยังคงเป็นเรื่องยาก

ปัญหาคือ ราคา ส่งผลกระทบต่อทั้งอุปทานและอุปสงค์ ดังนั้น ฟังก์ชันที่อธิบายเพียงด้านใดด้านหนึ่งจึงไม่สามารถสร้างได้โดยตรงจากข้อมูลที่สังเกตได้ ไรท์จึงสรุปได้อย่างถูกต้องว่า เขาต้องการตัวแปรที่สัมพันธ์กับอุปสงค์หรืออุปทานอย่างใดอย่างหนึ่ง แต่ไม่ใช่ทั้งสองอย่าง นั่นคือ ตัวแปรเครื่องมือ (instrumental variable)

หลังจากพิจารณาอย่างถี่ถ้วน ไรท์ตัดสินใจใช้ปริมาณน้ำฝนในภูมิภาคเป็นตัวแปรเครื่องมือ โดยสรุปว่าปริมาณน้ำฝนมีผลต่อการผลิตหญ้าและส่งผลต่อการผลิตนม และในที่สุดก็ส่งผลต่อปริมาณเนย แต่ไม่มีผลต่อความต้องการเนย ด้วยวิธีนี้ เขาจึงสามารถสร้างสมการถดถอยโดยใช้เพียงตัวแปรเครื่องมือคือราคาและปริมาณอุปทาน[ 9 ]

คำจำกัดความอย่างเป็นทางการของตัวแปรเครื่องมือ โดยใช้เงื่อนไขสมมติและเกณฑ์กราฟิก ได้รับการกำหนดโดยJudea Pearlในปี 2000 [ 10 ] AngristและKrueger (2001) นำเสนอการสำรวจประวัติและการใช้เทคนิคตัวแปรเครื่องมือ[ 11 ]แนวคิดเรื่องความเป็นเหตุเป็นผลในเศรษฐศาสตร์เชิงปริมาณ และความสัมพันธ์กับตัวแปรเครื่องมือและวิธีการอื่นๆ ได้รับการกล่าวถึงโดยHeckman (2008) [ 12 ]

ทฤษฎี

แม้ว่าแนวคิดเบื้องหลัง IV จะขยายไปสู่โมเดลหลายประเภท แต่บริบททั่วไปของ IV คือการถดถอยเชิงเส้นตามธรรมเนียม[ 13 ]ตัวแปรเครื่องมือถูกกำหนดให้เป็นตัวแปรที่มีความสัมพันธ์กับตัวแปรอิสระ และไม่มีความสัมพันธ์กับ "เทอมความคลาดเคลื่อน" ในสมการเชิงเส้น

เป็นเวกเตอร์เป็นเมทริกซ์ โดยปกติจะมีคอลัมน์หนึ่งที่เป็นเลขหนึ่ง และอาจมีคอลัมน์เพิ่มเติมสำหรับตัวแปรเสริมอื่นๆ พิจารณาว่าเครื่องมือช่วยให้สามารถกู้คืนได้อย่างไร โปรดจำไว้ว่าOLSแก้หาค่าโดยที่(เมื่อเราลดผลรวมของกำลังสองของข้อผิดพลาด ให้เหลือน้อยที่สุดเงื่อนไขอันดับแรกคือ พอดี) หากเชื่อว่าแบบจำลองที่แท้จริงมีค่าเนื่องจากเหตุผลใดๆ ที่ระบุไว้ข้างต้น เช่น หากมีตัวแปรที่ถูกละเว้นซึ่งส่งผลกระทบต่อทั้งและแยกกันกระบวนการOLS นี้จะ ไม่ให้ผลกระทบเชิงสาเหตุของต่อ OLS จะเลือกพารามิเตอร์ที่ทำให้ข้อผิดพลาด ที่ เกิดขึ้นดูเหมือนไม่มีความสัมพันธ์กับ

เพื่อความง่าย ลองพิจารณากรณีตัวแปรเดียว สมมติว่าเรากำลังพิจารณาการถดถอยที่มีตัวแปรหนึ่งตัวและค่าคงที่หนึ่งตัว (อาจไม่จำเป็นต้องมีตัวแปรเสริมอื่น ๆ หรืออาจตัดตัวแปรเสริมอื่น ๆ ที่เกี่ยวข้อง ออกไปแล้ว ):

ในกรณีนี้ สัมประสิทธิ์ของตัวแปรอิสระที่สนใจจะกำหนดโดยแทน ค่าด้วย จะได้

โดยที่คือเวกเตอร์สัมประสิทธิ์ที่ประมาณค่าได้ ถ้า ในกรณีนี้ สามารถแสดงได้ว่าเป็นตัวประมาณค่าที่ไม่เอนเอียงของถ้าในแบบจำลองพื้นฐานที่เราเชื่อOLSจะให้ค่าประมาณที่ไม่สอดคล้องกัน ซึ่งไม่สะท้อนถึงผลกระทบเชิงสาเหตุพื้นฐานที่สนใจ IV ช่วยแก้ไขปัญหานี้โดยการระบุพารามิเตอร์โดยไม่ขึ้นอยู่กับว่าไม่มีความสัมพันธ์กับ หรือ ไม่ แต่ขึ้นอยู่กับว่าตัวแปรอื่นไม่มีความสัมพันธ์กับ หรือ ไม่ ถ้าทฤษฎีแนะนำว่ามีความสัมพันธ์กับ(ขั้นตอนแรก) แต่ไม่มีความสัมพันธ์กับ(ข้อจำกัดการยกเว้น) แล้ว IV อาจระบุพารามิเตอร์เชิงสาเหตุที่สนใจได้ ในขณะที่ OLS ล้มเหลว เนื่องจากมีวิธีการเฉพาะหลายวิธีในการใช้และหาค่าประมาณ IV แม้ในกรณีเชิงเส้น (IV, 2SLS, GMM) เราจึงขอละเว้นการอภิปรายเพิ่มเติมใน ส่วน การประมาณค่าด้านล่าง

คำจำกัดความเชิงกราฟิก

เทคนิค IV ได้รับการพัฒนาในกลุ่มแบบจำลองที่ไม่เป็นเชิงเส้นที่กว้างขึ้นมาก คำจำกัดความทั่วไปของตัวแปรเครื่องมือโดยใช้รูปแบบเชิงสมมติและเชิงกราฟิก ได้รับการกำหนดโดย Pearl (2000; หน้า 248) [ 10 ]คำจำกัดความเชิงกราฟิกกำหนดให้Zต้องเป็นไปตามเงื่อนไขต่อไปนี้:

โดยที่dหมายถึงการแยกและหมายถึงกราฟที่ลูกศรทั้งหมดที่เข้าสู่Xถูกตัดออก

นิยามเชิงสมมติกำหนดให้Z ต้อง เป็นไปตามเงื่อนไข

โดยที่Y xหมายถึงค่าที่Yจะได้รับหากXเป็นxและหมายถึงความเป็นอิสระ

หากมีตัวแปรเสริมW เพิ่มเติม คำจำกัดความข้างต้นจะถูกปรับเปลี่ยนเพื่อให้Zมีคุณสมบัติเป็นตัวแปรเครื่องมือได้ หากเป็นไปตามเกณฑ์ที่กำหนดโดยมีเงื่อนไขว่าW เป็น จริง

สาระสำคัญของคำจำกัดความของเพิร์ลคือ:

  1. สมการที่น่าสนใจคือสมการ "เชิงโครงสร้าง" ไม่ใช่สมการ "เชิงการถดถอย"
  2. ตัวแปรความคลาดเคลื่อนUหมายถึงปัจจัยภายนอกทั้งหมดที่ส่งผลต่อYเมื่อXคงที่
  3. เครื่องมือZควรเป็นอิสระจากU
  4. เครื่องมือZไม่ควรส่งผลกระทบต่อYเมื่อXคงที่ (ข้อจำกัดการยกเว้น)
  5. เครื่องมือZไม่ควรเป็นอิสระจากX

เงื่อนไขเหล่านี้ไม่ได้ขึ้นอยู่กับรูปแบบฟังก์ชันเฉพาะของสมการ และสามารถนำไปใช้กับสมการที่ไม่เป็นเชิงเส้นได้ โดยที่Uอาจไม่เป็นแบบบวก (ดูการวิเคราะห์แบบไม่ใช้พารามิเตอร์) นอกจากนี้ยังสามารถนำไปใช้กับระบบสมการหลายสมการได้ โดยที่X (และปัจจัยอื่นๆ) ส่งผลต่อYผ่านตัวแปรกลางหลายตัว ตัวแปรเครื่องมือไม่จำเป็นต้องเป็นสาเหตุของXตัวแทนของสาเหตุดังกล่าวอาจถูกนำมาใช้ได้เช่นกัน หากเป็นไปตามเงื่อนไข 1–5 [ 10 ]ข้อจำกัดการยกเว้น (เงื่อนไข 4) ซ้ำซ้อน เนื่องจากเป็นผลมาจากเงื่อนไข 2 และ 3

การเลือกเครื่องมือที่เหมาะสม

เนื่องจากUเป็นตัวแปรที่ไม่สามารถสังเกตได้ เงื่อนไขที่ว่าZ ต้อง เป็นอิสระจากUจึงไม่สามารถอนุมานได้จากข้อมูล แต่ต้องพิจารณาจากโครงสร้างของแบบจำลอง กล่าวคือ กระบวนการสร้างข้อมูลกราฟเชิงสาเหตุเป็นตัวแทนของโครงสร้างนี้ และคำจำกัดความเชิงกราฟที่กล่าวมาข้างต้นสามารถใช้เพื่อพิจารณาได้อย่างรวดเร็วว่าตัวแปรZมีคุณสมบัติเป็นตัวแปรเครื่องมือหรือไม่ เมื่อกำหนดชุดตัวแปรควบคุมWเพื่อดูวิธีการ ลองพิจารณาตัวอย่างต่อไปนี้

สมมติว่าเราต้องการประเมินผลกระทบของโครงการติวเสริมของมหาวิทยาลัยต่อเกรดเฉลี่ย ( GPA ) ความสัมพันธ์ระหว่างการเข้าร่วมโครงการติวเสริมและ GPA อาจถูกรบกวนจากหลายปัจจัย นักศึกษาที่เข้าร่วมโครงการติวเสริมอาจใส่ใจกับเกรดของตนเองมากขึ้น หรืออาจกำลังประสบปัญหาในการเรียน การรบกวนนี้แสดงให้เห็นในรูปที่ 1-3 ทางด้านขวาผ่านเส้นโค้งสองทิศทางระหว่างโครงการติวเสริมและ GPA หากนักศึกษาถูกจัดสรรเข้าหอพักแบบสุ่ม ความใกล้ชิดของหอพักนักศึกษากับโครงการติวเสริมจึงเป็นตัวแปรเครื่องมือที่เหมาะสม

อย่างไรก็ตาม ถ้าหากโครงการติวเตอร์ตั้งอยู่ในห้องสมุดของวิทยาลัยล่ะ? ในกรณีนั้น ความใกล้ชิดอาจทำให้ผู้เรียนใช้เวลาในห้องสมุดมากขึ้น ซึ่งส่งผลให้เกรดเฉลี่ยดีขึ้น (ดูรูปที่ 1) จากกราฟแสดงความสัมพันธ์เชิงสาเหตุที่แสดงในรูปที่ 2 เราจะเห็นว่าความใกล้ชิดไม่เข้าข่ายเป็นตัวแปรเครื่องมือ เนื่องจากเชื่อมโยงกับเกรดเฉลี่ยผ่านเส้นทาง ความใกล้ชิดชั่วโมง ในห้องสมุด เกรดเฉลี่ยอย่างไรก็ตาม หากเราควบคุมชั่วโมงในห้องสมุดโดยเพิ่มเป็นตัวแปรควบคุม ความใกล้ชิดจะกลายเป็นตัวแปรเครื่องมือ เนื่องจากความใกล้ชิดแยกออกจากเกรดเฉลี่ยเมื่อพิจารณาจากชั่วโมงในห้องสมุด

ทีนี้ สมมติว่าเราสังเกตเห็นว่า "ความสามารถโดยธรรมชาติ" ของนักเรียนส่งผลต่อจำนวนชั่วโมงที่ใช้ในห้องสมุด รวมถึงเกรดเฉลี่ยสะสม (GPA) ของเขาหรือเธอด้วย ดังแสดงในรูปที่ 3 เมื่อใช้กราฟความสัมพันธ์เชิงสาเหตุ เราจะเห็นว่า จำนวนชั่วโมงที่ใช้ในห้องสมุดเป็นตัวแปรแทรกซ้อน และการกำหนดเงื่อนไขโดยอิงจากตัวแปรนี้จะเปิดเส้นทางความสัมพันธ์ระหว่าง ความใกล้ชิดจำนวนชั่วโมงที่ใช้ในห้องสมุด และเกรดเฉลี่ยสะสม ดังนั้น ความใกล้ชิดจึงไม่สามารถใช้เป็นตัวแปรเครื่องมือได้

สุดท้าย สมมติว่าเวลาเข้าห้องสมุดไม่ได้ส่งผลกระทบต่อเกรดเฉลี่ยจริง ๆ เพราะนักเรียนที่ไม่ได้เรียนในห้องสมุดก็ไปเรียนที่อื่นแทน ดังแสดงในรูปที่ 4 ในกรณีนี้ การควบคุมตัวแปรเวลาเข้าห้องสมุดก็ยังคงเปิดเส้นทางที่ไม่ถูกต้องจากความใกล้ชิดไปยังเกรดเฉลี่ยอยู่ดี อย่างไรก็ตาม หากเราไม่ควบคุมตัวแปรเวลาเข้าห้องสมุดและตัดมันออกไปจากตัวแปรควบคุมแล้ว ความใกล้ชิดก็สามารถนำมาใช้เป็นตัวแปรเครื่องมือได้อีกครั้ง

การประมาณการ

ต่อไปนี้เราจะกลับมาทบทวนและขยายความกลไกของ IV อย่างละเอียดมากขึ้น สมมติว่าข้อมูลถูกสร้างขึ้นโดยกระบวนการในรูปแบบต่อไปนี้

ที่ไหน

  • iจัดทำดัชนีการสังเกตการณ์
  • คือ ค่าที่ iของตัวแปรตาม
  • เป็นเวกเตอร์ของ ค่าลำดับที่ iของตัวแปรอิสระและค่าคงที่
  • คือ ค่าที่ iของพจน์ความคลาดเคลื่อนที่ไม่สามารถสังเกตได้ ซึ่งแสดงถึงสาเหตุทั้งหมดของยกเว้นและ
  • เป็นเวกเตอร์พารามิเตอร์ที่ไม่สามารถสังเกตได้

เวกเตอร์พารามิเตอร์คือผลกระทบเชิงสาเหตุต่อของการเปลี่ยนแปลงหนึ่งหน่วยในแต่ละองค์ประกอบของ โดยคง สาเหตุอื่นๆ ของ ไว้คงที่ เป้าหมายทางเศรษฐมิติคือการประมาณค่าเพื่อความง่าย ให้สมมติว่าค่าสุ่มของeไม่มีความสัมพันธ์กัน และได้มาจาก1การแจกแจงที่มีความแปรปรวน เท่ากัน (นั่นคือ ข้อผิดพลาดไม่มีความสัมพันธ์กันแบบอนุกรมและมีความแปรปรวนคงที่ )

สมมติว่ามีการเสนอแบบจำลองการถดถอยที่มีรูปแบบเดียวกัน เมื่อกำหนดตัวอย่างสุ่มT ตัวอย่าง จากกระบวนการนี้ ตัวประมาณ ค่ากำลังสองน้อยที่สุดแบบธรรมดาคือ

โดยที่X , yและeแทนเวกเตอร์คอลัมน์ที่มีความยาวTสมการนี้คล้ายกับสมการที่เกี่ยวข้องในบทนำ (นี่คือเวอร์ชันเมทริกซ์ของสมการนั้น) เมื่อXและeไม่มีความสัมพันธ์กันภายใต้เงื่อนไขความสม่ำเสมอบางประการ พจน์ที่สองจะมีค่าคาดหวังโดยมีเงื่อนไขว่าXเป็นศูนย์ และลู่เข้าสู่ศูนย์ในลิมิต ดังนั้นตัวประมาณค่าจึงไม่เอนเอียงและสอดคล้องกัน อย่างไรก็ตาม เมื่อXและตัวแปรเชิงสาเหตุอื่นๆ ที่ไม่ได้วัดซึ่งรวมเข้ากับ พจน์ eมีความสัมพันธ์กัน ตัวประมาณค่า OLS โดยทั่วไปจะเอนเอียงและไม่สอดคล้องกันสำหรับ  βในกรณีนี้ การใช้ค่าประมาณเพื่อทำนายค่าของyเมื่อกำหนดค่าของX นั้นถูกต้อง แต่ค่าประมาณนั้นไม่สามารถกู้คืนผลกระทบเชิงสาเหตุของXต่อ  yได้

เพื่อกู้คืนพารามิเตอร์พื้นฐานเราจึงแนะนำชุดตัวแปรZที่มีความสัมพันธ์สูงกับแต่ละองค์ประกอบภายใน ของ Xแต่ (ในแบบจำลองพื้นฐานของเรา) ไม่มีความสัมพันธ์กับ  eเพื่อความง่าย อาจพิจารณาให้Xเป็น เมทริกซ์ T × 2 ที่ประกอบด้วยคอลัมน์ของค่าคงที่และตัวแปรภายในหนึ่งตัว และZเป็น เมทริกซ์ T × 2 ที่ประกอบด้วยคอลัมน์ของค่าคงที่และตัวแปรเครื่องมือหนึ่งตัว อย่างไรก็ตาม เทคนิคนี้สามารถขยายไปสู่กรณีที่Xเป็นเมทริกซ์ของค่าคงที่และตัวแปรภายใน 5 ตัว และZเป็นเมทริกซ์ที่ประกอบด้วยค่าคงที่และตัวแปรเครื่องมือ 5 ตัว ในการอธิบายต่อไปนี้ เราจะถือว่าXเป็น เมทริกซ์ T × Kและไม่ได้ระบุค่าKตัวประมาณค่าที่XและZเป็น เมทริกซ์ T × K ทั้งคู่ เรียกว่า ตัวประมาณค่าที่ระบุได้พอดี ( just-identified estimator )

สมมติว่าความสัมพันธ์ระหว่างองค์ประกอบภายในแต่ละตัวx iและตัวแปรเครื่องมือเป็นไปตามสมการต่อไปนี้

รูปแบบ IV ที่พบได้บ่อยที่สุดจะใช้ตัวประมาณค่าต่อไปนี้:

ข้อกำหนดนี้จะเข้าใกล้ค่าพารามิเตอร์ที่แท้จริงมากขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้น ตราบใดที่ในแบบจำลองที่แท้จริง:

ตราบใดที่กระบวนการพื้นฐานที่สร้างข้อมูลนั้น การใช้ตัวประมาณค่า IV อย่างเหมาะสมจะช่วยระบุพารามิเตอร์นี้ได้ วิธีการนี้ได้ผลเพราะ IV หาค่าพารามิเตอร์เฉพาะที่ตรงตามเงื่อนไขและด้วยเหตุนี้จึงช่วยให้เข้าถึงพารามิเตอร์พื้นฐานที่แท้จริงได้เมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้น

ต่อไปนี้เป็นการขยายความ: สมมติว่ามีตัวแปรเครื่องมือมากกว่าตัวแปรอิสระในสมการที่สนใจ ดังนั้นZจึงเป็น เมทริกซ์ขนาด T × Mโดยที่M > K กรณี นี้มักเรียกว่า กรณี ที่มีตัวแปรเครื่องมือเกิน (over-identified case) ในกรณีนี้ สามารถใช้ วิธีโมเมนต์ทั่วไป (Generalized Method of Moments : GMM) ได้ ตัวประมาณค่า GMM IV คือ

โดยที่หมาย ถึงเมทริกซ์การฉายภาพ

นิพจน์นี้จะลดรูปเหลือเป็นนิพจน์แรกเมื่อจำนวนเครื่องมือเท่ากับจำนวนตัวแปรอิสระในสมการที่สนใจ ดังนั้น IV ที่ระบุเกินจึงเป็นการขยายความของ IV ที่ระบุพอดี

พิสูจน์ว่า β GMMยุบตัวเป็น β IVในกรณีที่เพิ่งระบุไป

การพัฒนาสำนวน:

ในกรณีที่เพิ่งระบุไป เรามีตัวแปรเครื่องมือเท่ากับตัวแปรอธิบาย ดังนั้นมิติของXจึงเท่ากับมิติของ  Zดังนั้นและจึงเป็นเมทริกซ์จัตุรัสที่มีมิติเท่ากัน เราสามารถขยายเมทริกซ์ผกผันได้โดยใช้ข้อเท็จจริงที่ว่า สำหรับเมทริกซ์n x n ที่ผกผันได้ AและB ใดๆ ( AB ) −1 = B −1 A −1 (ดูเมทริกซ์ผกผันได้#คุณสมบัติ ):

อ้างอิง: ดู Davidson และ Mackinnnon (1993) [ 14 ] : 218

มี ตัวประมาณค่า ที่ไม่ระบุ ตัวแปรที่เทียบเท่ากัน สำหรับกรณีที่m < kเนื่องจากพารามิเตอร์เป็นคำตอบของชุดสมการเชิงเส้น ดังนั้นแบบจำลองที่ไม่ระบุตัวแปรโดยใช้ชุดสมการดังกล่าวจึงไม่มีคำตอบเดียว

การตีความแบบกำลังสองน้อยที่สุดสองขั้นตอน

วิธีการคำนวณค่าประมาณ IV วิธีหนึ่งคือ วิธีการกำลังสองน้อยที่สุดสองขั้นตอน (2SLS หรือ TSLS) ในขั้นตอนแรก ตัวแปรอธิบายแต่ละตัวที่เป็นตัวแปรภายในในสมการที่สนใจจะถูกถดถอยกับตัวแปรภายนอกทั้งหมดในแบบจำลอง รวมถึงตัวแปรภายนอกในสมการที่สนใจและเครื่องมือที่ถูกตัดออก ค่าที่ทำนายได้จากการถดถอยเหล่านี้คือ:

ขั้นตอนที่ 1:ทำการถดถอยแต่ละคอลัมน์ของXกับZ , ( ):

และบันทึกค่าที่คาดการณ์ไว้:

ในขั้นตอนที่สอง จะทำการประมาณค่าการถดถอยที่สนใจตามปกติ ยกเว้นว่าในขั้นตอนนี้ ตัวแปรอิสระภายในแต่ละตัวจะถูกแทนที่ด้วยค่าที่ทำนายได้จากขั้นตอนแรก:

ขั้นตอนที่ 2:ทำการวิเคราะห์การถดถอยของYกับค่าที่ทำนายได้จากขั้นตอนแรก:

ซึ่งให้

วิธีนี้ใช้ได้เฉพาะกับแบบจำลองเชิงเส้นเท่านั้น สำหรับตัวแปรภายในเชิงหมวดหมู่ อาจมีคนอยากใช้ขั้นตอนแรกที่แตกต่างจากกำลังสองน้อยที่สุดแบบธรรมดา เช่นแบบจำลองโพรบิตสำหรับขั้นตอนแรก ตามด้วย OLS สำหรับขั้นตอนที่สอง ซึ่งเป็นที่รู้จักกันทั่วไปในวรรณกรรมทางเศรษฐศาสตร์ว่าเป็นการถดถอยต้องห้าม[ 15 ]เนื่องจากค่าประมาณพารามิเตอร์ IV ในขั้นตอนที่สองจะสอดคล้องกันเฉพาะในกรณีพิเศษเท่านั้น[ 16 ]

บทพิสูจน์: การคำนวณตัวประมาณค่า 2SLS

ตัวประมาณค่า OLS ทั่วไปคือ: . แทนที่และสังเกตว่าเป็นเมทริกซ์สมมาตรและ เมทริก ซ์เอกลักษณ์ดังนั้น

ค่าประมาณที่ได้ของ มีค่าตัวเลขเหมือนกับนิพจน์ที่แสดงไว้ข้างต้น จำเป็นต้องมีการแก้ไขเล็กน้อยในผลรวมกำลังสองของค่าคลาดเคลื่อนในแบบจำลองที่ปรับให้เหมาะสมในขั้นตอนที่สอง เพื่อให้เมทริกซ์ความแปรปรวนร่วมของ คำนวณได้อย่างถูกต้อง

การวิเคราะห์แบบไม่ใช้พารามิเตอร์

เมื่อไม่ทราบรูปแบบของสมการโครงสร้าง ตัวแปรเครื่องมือยังคงสามารถกำหนดได้ผ่านสมการเหล่านั้น:

โดยที่และเป็นฟังก์ชันสองฟังก์ชันใดๆ และเป็นอิสระจากอย่างไรก็ตาม ต่างจากแบบจำลองเชิงเส้น การวัดค่าและไม่สามารถระบุผลกระทบเชิงสาเหตุเฉลี่ยของต่อ ได้ซึ่งแสดงด้วย ACE

Balke และ Pearl [1997] ได้กำหนดขอบเขตที่แน่นหนาสำหรับ ACE และแสดงให้เห็นว่าขอบเขตเหล่านี้สามารถให้ข้อมูลที่มีค่าเกี่ยวกับเครื่องหมายและขนาดของ ACE ได้[ 17 ]

ในการวิเคราะห์เชิงเส้น ไม่มีการทดสอบใดที่จะพิสูจน์ว่าสมมติฐานที่ว่าเป็นเครื่องมือเมื่อเทียบกับคู่ นั้นเป็นเท็จ ซึ่งไม่เป็นเช่นนั้นเมื่อเป็นแบบไม่ต่อเนื่อง Pearl (2000) ได้แสดงให้เห็นว่า สำหรับทุกและข้อจำกัดต่อไปนี้ที่เรียกว่า "ความไม่เท่าเทียมกันของเครื่องมือ" จะต้องเป็นจริงเมื่อใดก็ตามที่สอดคล้องกับสมการสองสมการข้างต้น: [ 10 ]

การตีความภายใต้ความแตกต่างของผลการรักษา

คำอธิบายข้างต้นถือว่าผลกระทบเชิงสาเหตุที่สนใจไม่เปลี่ยนแปลงไปตามการสังเกต นั่นคือ เป็นค่าคงที่ โดยทั่วไปแล้ว บุคคลต่างๆ จะตอบสนองต่อการเปลี่ยนแปลงใน "การรักษา" xในรูปแบบที่แตกต่างกัน เมื่อตระหนักถึงความเป็นไปได้นี้ ผลกระทบโดยเฉลี่ยในประชากรของการเปลี่ยนแปลงในxต่อyอาจแตกต่างจากผลกระทบในประชากรย่อยที่กำหนด ตัวอย่างเช่น ผลกระทบโดยเฉลี่ยของโปรแกรมฝึกอบรมงานอาจแตกต่างกันอย่างมากระหว่างกลุ่มคนที่ได้รับการฝึกอบรมจริงและกลุ่มคนที่เลือกที่จะไม่รับการฝึกอบรม ด้วยเหตุผลเหล่านี้ วิธีการ IV จึงอาศัยสมมติฐานโดยนัยเกี่ยวกับการตอบสนองทางพฤติกรรม หรือโดยทั่วไปแล้วสมมติฐานเกี่ยวกับความสัมพันธ์ระหว่างการตอบสนองต่อการรักษาและแนวโน้มที่จะได้รับการรักษา[ 18 ]

ตัวประมาณค่า IV มาตรฐานสามารถกู้คืนผลกระทบการรักษาเฉลี่ยเฉพาะที่ (LATE) แทนที่จะเป็นผลกระทบการรักษาเฉลี่ย (ATE) [ 1 ] Imbens และ Angrist (1994) แสดงให้เห็นว่าการประมาณค่า IV เชิงเส้นสามารถตีความได้ภายใต้เงื่อนไขที่อ่อนแอว่าเป็นค่าเฉลี่ยถ่วงน้ำหนักของผลกระทบการรักษาเฉลี่ยเฉพาะที่ โดยที่น้ำหนักขึ้นอยู่กับความยืดหยุ่นของตัวแปรถดถอยภายในต่อการเปลี่ยนแปลงในตัวแปรเครื่องมือ โดยคร่าวๆ นั่นหมายความว่าผลกระทบของตัวแปรจะปรากฏให้เห็นเฉพาะในกลุ่มย่อยที่ได้รับผลกระทบจากการเปลี่ยนแปลงที่สังเกตได้ในเครื่องมือ และกลุ่มย่อยที่ตอบสนองต่อการเปลี่ยนแปลงในเครื่องมือมากที่สุดจะมีผลกระทบมากที่สุดต่อขนาดของการประมาณค่า IV

ตัวอย่างเช่น หากนักวิจัยใช้การมีอยู่ของวิทยาลัยที่ได้รับที่ดินจากรัฐบาลเป็นตัวแปรแทนการศึกษาในระดับวิทยาลัยในการวิเคราะห์ความสัมพันธ์ระหว่างรายได้กับการศึกษา นักวิจัยจะสามารถระบุผลกระทบของการศึกษาในระดับวิทยาลัยต่อรายได้ในกลุ่มประชากรย่อยที่สำเร็จการศึกษาระดับวิทยาลัยหากมีวิทยาลัยอยู่ แต่จะไม่ได้รับปริญญาหากไม่มีวิทยาลัยอยู่ วิธีการเชิงประจักษ์นี้ หากปราศจากข้อสมมติเพิ่มเติม จะไม่สามารถบอกอะไรแก่นักวิจัยเกี่ยวกับผลกระทบของการศึกษาในระดับวิทยาลัยในกลุ่มคนที่สำเร็จการศึกษาระดับวิทยาลัยอยู่แล้วหรือไม่ได้เลย ไม่ว่าจะมีวิทยาลัยในท้องถิ่นหรือไม่ก็ตาม

ปัญหาเครื่องมือที่อ่อนแอ

ดังที่Bound , Jaegerและ Baker (1995) ตั้งข้อสังเกต ปัญหาเกิดจากการเลือกเครื่องมือที่ "อ่อนแอ" ซึ่งเป็นเครื่องมือที่ทำนายตัวทำนายคำถามภายในในสมการขั้นแรกได้ไม่ดี[ 19 ]ในกรณีนี้ การทำนายตัวทำนายคำถามโดยเครื่องมือจะแย่ และค่าที่ทำนายได้จะมีความแปรปรวนน้อยมาก ดังนั้นจึงไม่น่าจะประสบความสำเร็จมากนักในการทำนายผลลัพธ์สุดท้ายเมื่อใช้แทนตัวทำนายคำถามในสมการขั้นที่สอง

ในบริบทของตัวอย่างเรื่องการสูบบุหรี่และสุขภาพที่กล่าวถึงข้างต้น ภาษีบุหรี่เป็นตัวแปรที่อ่อนแอหากสถานะการสูบบุหรี่ไม่ตอบสนองต่อการเปลี่ยนแปลงของภาษีมากนัก หากภาษีที่สูงขึ้นไม่กระตุ้นให้ผู้คนเลิกสูบบุหรี่ (หรือไม่เริ่มสูบบุหรี่) การเปลี่ยนแปลงอัตราภาษีก็ไม่ได้บอกอะไรเราเกี่ยวกับผลกระทบของการสูบบุหรี่ต่อสุขภาพ หากภาษีส่งผลกระทบต่อสุขภาพผ่านช่องทางอื่นนอกเหนือจากผลกระทบต่อการสูบบุหรี่ ตัวแปรเหล่านั้นก็จะใช้ไม่ได้ผล และวิธีการใช้ตัวแปรเครื่องมืออาจให้ผลลัพธ์ที่ทำให้เข้าใจผิดได้ ตัวอย่างเช่น สถานที่และช่วงเวลาที่มีประชากรที่ใส่ใจสุขภาพค่อนข้างสูง อาจใช้ภาษีบุหรี่สูงและมีสุขภาพที่ดีขึ้นแม้ว่าอัตราการสูบบุหรี่จะคงที่ ดังนั้นเราจะสังเกตเห็นความสัมพันธ์ระหว่างสุขภาพและภาษีบุหรี่แม้ว่าการสูบบุหรี่จะไม่มีผลกระทบต่อสุขภาพก็ตาม ในกรณีนี้ เราจะเข้าใจผิดหากสรุปว่าการสูบบุหรี่มีผลกระทบเชิงสาเหตุต่อสุขภาพจากความสัมพันธ์ที่สังเกตได้ระหว่างภาษีบุหรี่และสุขภาพ

การทดสอบหาเครื่องมือที่อ่อนแอ

ความแข็งแกร่งของเครื่องมือสามารถประเมินได้โดยตรง เนื่องจากทั้งตัวแปรภายในและเครื่องมือสามารถสังเกตได้[ 20 ] กฎทั่วไปสำหรับแบบจำลองที่มีตัวแปรอิสระภายในหนึ่งตัวคือ: ค่าสถิติ Fเทียบกับสมมติฐานว่างที่ว่าเครื่องมือที่ถูกยกเว้นไม่เกี่ยวข้องกับการถดถอยขั้นแรกควรมีค่ามากกว่า 10

การอนุมานทางสถิติและการทดสอบสมมติฐาน

เมื่อตัวแปรอิสระเป็นตัวแปรภายนอก คุณสมบัติของตัวประมาณค่า OLS ในตัวอย่างขนาดเล็กสามารถหาได้โดยตรงโดยการคำนวณโมเมนต์ของตัวประมาณค่าแบบมีเงื่อนไขบนXแต่เมื่อตัวแปรอิสระบางตัวเป็นตัวแปรภายใน ทำให้ต้องใช้การประมาณค่าด้วยตัวแปรเครื่องมือ จะไม่สามารถหาค่าโมเมนต์ของตัวประมาณค่าได้ง่ายๆ โดยทั่วไปแล้ว ตัวประมาณค่าด้วยตัวแปรเครื่องมือจะมีคุณสมบัติที่ดีเฉพาะในเชิงอะซิมโทติกเท่านั้น ไม่ใช่ในตัวอย่างขนาดเล็ก และการอนุมานจะขึ้นอยู่กับการประมาณค่าเชิงอะซิมโทติกของการแจกแจงตัวอย่างของตัวประมาณค่า แม้ว่าตัวแปรเครื่องมือจะไม่มีความสัมพันธ์กับความคลาดเคลื่อนในสมการที่สนใจ และแม้ว่าตัวแปรเครื่องมือจะไม่อ่อนแอ คุณสมบัติของตัวประมาณค่าด้วยตัวแปรเครื่องมือในตัวอย่างขนาดเล็กก็อาจไม่ดี ตัวอย่างเช่น โมเดลที่ระบุอย่างแม่นยำจะสร้างตัวประมาณตัวอย่างจำกัดที่ไม่มีโมเมนต์ ดังนั้นจึงกล่าวได้ว่าตัวประมาณนั้นไม่มีอคติหรือไม่มีอคติ ขนาดที่ระบุของสถิติการทดสอบอาจบิดเบือนไปมาก และโดยทั่วไปแล้วค่าประมาณอาจอยู่ห่างไกลจากค่าที่แท้จริงของพารามิเตอร์[ 21 ]

การทดสอบข้อจำกัดการยกเว้น

ข้อสมมติฐานที่ว่าเครื่องมือไม่มีความสัมพันธ์กับพจน์ความคลาดเคลื่อนในสมการที่สนใจนั้นไม่สามารถทดสอบได้ในแบบจำลองที่ระบุได้อย่างแม่นยำ หากแบบจำลองมีการระบุเกิน จะมีข้อมูลที่สามารถนำมาใช้ทดสอบข้อสมมติฐานนี้ได้ การทดสอบข้อจำกัดการระบุเกินที่พบได้ บ่อยที่สุดเหล่านี้ เรียกว่าการทดสอบ Sargan–Hansenซึ่งอิงตามการสังเกตว่าค่าตกค้างควรจะไม่มีความสัมพันธ์กับชุดของตัวแปรภายนอกหากเครื่องมือเป็นตัวแปรภายนอกอย่างแท้จริง[ 22 ]สถิติการทดสอบ Sargan–Hansen สามารถคำนวณได้จาก(จำนวนการสังเกตคูณด้วยสัมประสิทธิ์การกำหนด ) จากการถดถอย OLS ของค่าตกค้างบนชุดของตัวแปรภายนอก สถิตินี้จะมีค่าเท่ากับไคกำลังสองโดยประมาณ โดยมี องศาอิสระ m  −  kภายใต้สมมติฐานว่างที่ว่าพจน์ความคลาดเคลื่อนไม่มีความสัมพันธ์กับเครื่องมือ

ดูเพิ่มเติม

อ่านเพิ่มเติม

บรรณานุกรม

  • Wooldridge, J. (1997): วิธีการความน่าจะเป็นเสมือนสำหรับข้อมูลการนับ, คู่มือเศรษฐศาสตร์ประยุกต์ เล่ม 2, บรรณาธิการ MH Pesaran และ P. Schmidt, Oxford, Blackwell, หน้า 352–406
  • Terza, JV (1998): "การประมาณแบบจำลองการนับที่มีการสลับภายใน: การเลือกตัวอย่างและผลกระทบของการรักษาภายใน" วารสารเศรษฐศาสตร์ (84), หน้า 129–154
  • Wooldridge, J. (2002): "การวิเคราะห์ทางเศรษฐมิติของข้อมูลภาคตัดขวางและข้อมูลแผง", สำนักพิมพ์ MIT , เคมบริดจ์, แมสซาชูเซตส์
  • บทหนึ่งจากหนังสือเรียนของแดเนียล แมคแฟดเดน
  • วิดีโอบรรยายวิชาเศรษฐศาสตร์เชิงปริมาณ (หัวข้อ: ตัวแปรเครื่องมือ)บน YouTubeโดย Mark Thoma
  • วิดีโอบรรยายวิชาเศรษฐศาสตร์เชิงปริมาณ (หัวข้อ: วิธีการกำลังสองน้อยที่สุดสองขั้นตอน)บน YouTubeโดย Mark Thoma
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Instrumental_variables&oldid=1356657858 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ตัวแปรเครื่องมือ

ใน สถิติ เศรษฐศาสตร์ เชิงปริมาณ ระบาดวิทยา และสาขาวิชาที่เกี่ยวข้อง วิธี การกึ่งทดลอง ของ ตัวแปรเครื่องมือ ( IV ) ใช้ในการประมาณ ความสัมพันธ์เชิงสาเหตุ เมื่อ การทดลองแบบควบคุม...

ตัวอย่าง

โดยทั่วไป ในการพยายามประมาณผลกระทบเชิงสาเหตุของตัวแปร X ("ตัวแปรควบคุม" หรือ "ตัวแปรอธิบาย") ต่อตัวแปร Y ("ตัวแปรตาม") นั้น ตัวแปรเครื่องมือ คือตัวแปรที่สาม Z ซึ่งส่งผล ต่อ Y ก็ต่อเมื่อผ่านผลกระทบที่มีต่อ X เท่านั้น

ประวัติศาสตร์

การใช้ตัวแปรเครื่องมือครั้งแรกเกิดขึ้นในหนังสือปี 1928 โดย Philip G.

ทฤษฎี

แม้ว่าแนวคิดเบื้องหลัง IV จะขยายไปสู่โมเดลหลายประเภท แต่บริบททั่วไปของ IV คือ การถดถอยเชิงเส้น ตามธรรมเนียม [ 13 ] ตัวแปรเครื่องมือถูกกำหนดให้เป็นตัวแปรที่มีความสัมพันธ์กับตัวแปรอิสระ และไม่มีความสัมพันธ์กับ "เทอมความคลาดเคลื่อน" ในสมการเชิงเส้น ซ...