อ่าน 16 นาที
แบบจำลองเชิงสาเหตุ
ใน อภิปรัชญา และ สถิติ แบบ จำลองเชิงสาเหตุ (เรียกอีกอย่างว่า แบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือ แบบจำลองเชิงแนวคิด ที่แสดงถึง กลไก เชิงสาเหตุ ของ ระบบ [ 2 ]...
แบบจำลองเชิงสาเหตุ

ในอภิปรัชญาและสถิติแบบจำลองเชิงสาเหตุ (เรียกอีกอย่างว่าแบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือแบบจำลองเชิงแนวคิดที่แสดงถึง กลไก เชิงสาเหตุของระบบ[ 2 ]แบบจำลองเชิงสาเหตุมักใช้สัญกรณ์เชิงสาเหตุ ที่เป็นทางการ เช่น การ สร้างแบบจำลองสมการเชิงโครงสร้างหรือกราฟแบบไม่มีวงจรเชิงสาเหตุ (DAGs)เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรและเพื่อเป็นแนวทางในการอนุมาน
โดยการชี้แจงว่าตัวแปรใดควรถูกรวม ไม่รวม หรือควบคุม แบบจำลองเชิงสาเหตุสามารถปรับปรุงการออกแบบการศึกษาเชิงประจักษ์และการตีความผลลัพธ์ได้[ 3 ]นอกจากนี้ยังช่วยให้นักวิจัยสามารถตอบคำถามเชิงสาเหตุบางข้อโดยใช้ข้อมูลจากการสังเกตลดความจำเป็นในการศึกษาเชิงแทรกแซงเช่น การทดลองแบบ สุ่ม ที่มีการควบคุม
ในกรณีที่การทดลองแบบสุ่มไม่สามารถทำได้จริงหรือผิดจริยธรรม เช่น เมื่อศึกษาผลกระทบของการสัมผัสกับสิ่งแวดล้อมหรือปัจจัยกำหนดสุขภาพทางสังคม แบบจำลองเชิงสาเหตุจะให้กรอบการทำงานสำหรับการสรุปผลที่ถูกต้องจากข้อมูลที่ไม่ใช่การทดลอง[ 4 ]
แบบจำลองเชิงสาเหตุสามารถช่วยตอบคำถามเกี่ยวกับความถูกต้องภายนอก (ว่าผลลัพธ์จากงานวิจัยหนึ่งสามารถนำไปใช้กับประชากรที่ยังไม่ได้ศึกษาได้หรือไม่) แบบจำลองเชิงสาเหตุยังช่วยให้สามารถรวมข้อมูลจากงานวิจัยหลายชิ้นเข้าด้วยกัน (ในบางสถานการณ์) เพื่อตอบคำถามที่ไม่สามารถตอบได้ด้วยชุดข้อมูลใดชุดข้อมูลหนึ่งเพียงอย่างเดียว
แบบจำลองเชิงสาเหตุพบการประยุกต์ใช้ในการประมวลผลสัญญาณระบาดวิทยาการเรียนรู้ของเครื่อง[ 2 ] การศึกษาทางวัฒนธรรม และการวางผังเมือง และสามารถอธิบายกระบวนการทั้งเชิงเส้นและไม่เชิงเส้นได้[ 5 ]
คำนิยาม
แบบจำลองเชิงสาเหตุเป็นแบบจำลองทางคณิตศาสตร์ที่แสดงถึงความสัมพันธ์เชิงสาเหตุภายในระบบหรือประชากรแต่ละระบบ แบบจำลองเหล่านี้อำนวยความสะดวกในการอนุมานเกี่ยวกับความสัมพันธ์เชิงสาเหตุจากข้อมูลทางสถิติ แบบจำลองเหล่านี้สามารถสอนเราได้มากเกี่ยวกับญาณวิทยาของสาเหตุ และเกี่ยวกับความสัมพันธ์ระหว่างสาเหตุและความน่าจะเป็น นอกจากนี้ยังมีการนำไปประยุกต์ใช้กับหัวข้อที่น่าสนใจสำหรับนักปรัชญา เช่น ตรรกะของข้อเท็จจริงเชิงสมมติ ทฤษฎีการตัดสินใจ และการวิเคราะห์สาเหตุที่แท้จริง[ 6 ]
— สารานุกรมปรัชญาแห่งมหาวิทยาลัยสแตนฟอร์ด
Judea Pearlนิยามแบบจำลองเชิงสาเหตุว่าเป็นสามลำดับโดยที่ U คือชุดของตัวแปรภายนอกซึ่งค่าของมันถูกกำหนดโดยปัจจัยภายนอกแบบจำลอง V คือชุดของตัวแปรภายในซึ่งค่าของมันถูกกำหนดโดยปัจจัยภายในแบบจำลอง และ E คือชุดของสมการโครงสร้างที่แสดงค่าของตัวแปรภายในแต่ละตัวเป็นฟังก์ชันของค่าของตัวแปรอื่น ๆ ใน U และ V [ 2 ]
ประวัติศาสตร์
อริสโตเติลได้กำหนดอนุกรมวิธานของสาเหตุ ซึ่งรวมถึงสาเหตุทางวัตถุ รูปแบบ ประสิทธิภาพ และผลลัพธ์ ฮิวจ์ปฏิเสธอนุกรมวิธานของอริสโตเติลและหันมาใช้แนวคิดเรื่องผลลัพธ์สมมติแทน ในบางจุด เขาปฏิเสธว่าวัตถุมี "พลัง" ที่ทำให้วัตถุหนึ่งเป็นสาเหตุและอีกวัตถุหนึ่งเป็นผล ต่อมาเขายอมรับแนวคิดที่ว่า "ถ้าวัตถุแรกไม่มีอยู่ วัตถุที่สองก็จะไม่เคยมีอยู่" (สาเหตุแบบ " แต่ถ้าไม่มี ") [ 7 ]
ในช่วงปลายศตวรรษที่ 19 สาขาวิชาสถิติเริ่มก่อตัวขึ้น หลังจากความพยายามหลายปีในการระบุกฎเชิงสาเหตุสำหรับโดเมนต่างๆ เช่น การถ่ายทอดทางชีววิทยากัลตันได้นำเสนอแนวคิดของการถดถอยของค่าเฉลี่ย (ซึ่งเป็นตัวอย่างที่ชัดเจนของภาวะตกต่ำในปีที่สองในกีฬา) ซึ่งต่อมานำเขาไปสู่แนวคิดที่ไม่ใช่เชิงสาเหตุของความสัมพันธ์[ 7 ]
ในฐานะนักปรัชญาปฏิฐานนิยมเพียร์สันได้ลบล้างแนวคิดเรื่องความเป็นเหตุเป็นผลจากวิทยาศาสตร์ส่วนใหญ่ เนื่องจากถือเป็นกรณีพิเศษที่ไม่สามารถพิสูจน์ได้ของการเชื่อมโยง และได้นำสัมประสิทธิ์สห สัมพันธ์มา ใช้เป็นตัวชี้วัดการเชื่อมโยง เขาเขียนว่า "แรงในฐานะที่เป็นสาเหตุของการเคลื่อนไหวก็เหมือนกับเทพเจ้าแห่งต้นไม้ในฐานะที่เป็นสาเหตุของการเจริญเติบโต" และความเป็นเหตุเป็นผลเป็นเพียง "สิ่งลึกลับที่ยากจะเข้าใจในวิทยาศาสตร์สมัยใหม่" เพียร์สันก่อตั้งBiometrikaและ Biometrics Lab ที่University College Londonซึ่งต่อมากลายเป็นผู้นำระดับโลกด้านสถิติ[ 7 ]
ในปี พ.ศ. 2451 HardyและWeinbergได้แก้ไขปัญหาความคงตัวของลักษณะที่ทำให้ Galton ละทิ้งความเป็นเหตุเป็นผล โดยการฟื้นฟูการถ่ายทอดทางพันธุกรรมแบบเมนเดล[ 7 ]
ในปี พ.ศ. 2464 การวิเคราะห์เส้นทางของไรท์ กลาย เป็นต้นกำเนิดทางทฤษฎีของการสร้างแบบจำลองเชิงสาเหตุและกราฟเชิงสาเหตุ [ 8 ] เขาพัฒนาแนวทางนี้ในขณะที่พยายามแยกแยะผลกระทบสัมพัทธ์ของพันธุกรรมการพัฒนา และสิ่งแวดล้อมที่มีต่อ รูปแบบขน ของหนูตะเภาเขาได้สนับสนุนข้ออ้างที่ในขณะนั้นถือว่านอกรีตโดยแสดงให้เห็นว่าการวิเคราะห์ดังกล่าวสามารถอธิบายความสัมพันธ์ระหว่างน้ำหนักแรกเกิดของหนูตะเภา ระยะเวลา ในครรภ์และขนาดของครอกได้ การคัดค้านแนวคิดเหล่านี้โดยนักสถิติที่มีชื่อเสียงทำให้แนวคิดเหล่านี้ถูกละเลยไปเป็นเวลา 40 ปีต่อมา (ยกเว้นในหมู่นักเพาะพันธุ์สัตว์) นักวิทยาศาสตร์จึงหันมาใช้ความสัมพันธ์แทน ซึ่งส่วนหนึ่งเป็นไปตามคำแนะนำของนักวิจารณ์ของไรท์ (และนักสถิติชั้นนำ) อย่างฟิชเชอร์ [ 7 ] ข้อยกเว้นประการหนึ่งคือเบิร์กส์นักศึกษาที่ในปี พ.ศ. 2469 เป็นคนแรกที่ใช้แผนภาพเส้นทางเพื่อแสดงอิทธิพลที่เป็นตัวกลาง ( ตัวกลาง ) และยืนยันว่าการคงตัวกลางไว้จะทำให้เกิดข้อผิดพลาด เธออาจคิดค้นแผนภาพเส้นทางขึ้นเองโดยอิสระ[ 7 ] : 304
ในปี พ.ศ. 2466 เนย์แมนได้นำเสนอแนวคิดเรื่องผลลัพธ์ที่เป็นไปได้ แต่บทความของเขาไม่ได้ถูกแปลจากภาษาโปแลนด์เป็นภาษาอังกฤษจนกระทั่งปี พ.ศ. 2533 [ 7 ] : 271
ในปี พ.ศ. 2491 ค็อกซ์เตือนว่าการควบคุมตัวแปร Z นั้นใช้ได้เฉพาะในกรณีที่ไม่น่าจะได้รับผลกระทบจากตัวแปรอิสระเท่านั้น[ 7 ] : 154
ในช่วงทศวรรษ 1960 Duncan , Blalock , Goldbergerและคนอื่นๆ ได้ค้นพบการวิเคราะห์เส้นทางอีกครั้ง ขณะที่อ่านงานของ Blalock เกี่ยวกับแผนภาพเส้นทาง Duncan นึกถึงการบรรยายของOgburnเมื่อ 20 ปีก่อน ซึ่งกล่าวถึงบทความของ Wright ซึ่งกล่าวถึง Burks อีกที[ 7 ] : 308
เดิมทีนักสังคมวิทยาเรียกแบบจำลองเชิงสาเหตุว่าการสร้างแบบจำลองสมการโครงสร้างแต่เมื่อมันกลายเป็นวิธีการที่ท่องจำ มันก็สูญเสียประโยชน์ใช้สอยไป ทำให้ผู้ปฏิบัติงานบางคนปฏิเสธความสัมพันธ์ใดๆ กับความเป็นเหตุเป็นผล นักเศรษฐศาสตร์นำส่วนพีชคณิตของการวิเคราะห์เส้นทางมาใช้ โดยเรียกมันว่าการสร้างแบบจำลองสมการพร้อมกัน อย่างไรก็ตาม นักเศรษฐศาสตร์ยังคงหลีกเลี่ยงการให้ความหมายเชิงสาเหตุกับสมการของพวกเขา[ 7 ]
หกสิบปีหลังจากบทความแรกของเขา ไรท์ได้ตีพิมพ์บทความที่สรุปบทความนั้นอีกครั้ง โดยอ้างอิงจาก คำวิจารณ์ของ Karlinและคณะ ซึ่งคัดค้านว่าบทความนั้นจัดการเฉพาะความสัมพันธ์เชิงเส้นเท่านั้น และการนำเสนอข้อมูลที่แข็งแกร่งและปราศจากแบบจำลองจะให้ข้อมูลเชิงลึกมากกว่า[ 7 ]
ในปี พ.ศ. 2516 ลูอิสสนับสนุนให้แทนที่ความสัมพันธ์ด้วยสาเหตุเชิงสมมติ (counterfactuals) เขาอ้างถึงความสามารถของมนุษย์ในการจินตนาการถึงโลกทางเลือกที่สาเหตุเกิดขึ้นหรือไม่เกิดขึ้น และผลกระทบปรากฏขึ้นหลังจากสาเหตุเท่านั้น[ 7 ] : 266ในปี พ.ศ. 2517 รูบินได้นำเสนอแนวคิดเรื่อง "ผลลัพธ์ที่เป็นไปได้" เป็นภาษาสำหรับการตั้งคำถามเชิงสาเหตุ[ 7 ] : 269
ในปี พ.ศ. 2526 คาร์ทไรท์เสนอว่าปัจจัยใดๆ ที่ "มีความเกี่ยวข้องเชิงสาเหตุ" กับผลกระทบจะต้องได้รับการกำหนดเงื่อนไข โดยก้าวข้ามความน่าจะเป็นแบบง่ายๆ ที่เป็นแนวทางเพียงอย่างเดียว[ 7 ] : 48
ในปี พ.ศ. 2529 Baron และ Kenny ได้นำเสนอหลักการสำหรับการตรวจจับและประเมินการไกล่เกลี่ยในระบบสมการเชิงเส้นณ ปี พ.ศ. 2557 บทความของพวกเขามีการอ้างอิงมากที่สุดเป็นอันดับที่ 33 ตลอดกาล[ 7 ] : 324ในปีนั้นGreenlandและRobinsได้นำเสนอแนวทาง "การแลกเปลี่ยนได้" ในการจัดการกับตัวแปรแทรกซ้อนโดยพิจารณาถึงสถานการณ์สมมติ พวกเขาเสนอให้ประเมินว่าจะเกิดอะไรขึ้นกับกลุ่มทดลองหากพวกเขาไม่ได้รับการรักษา และเปรียบเทียบผลลัพธ์นั้นกับกลุ่มควบคุม หากตรงกัน ก็กล่าวได้ว่าไม่มีตัวแปรแทรกซ้อน[ 7 ] : 154
ลำดับขั้นของสาเหตุและผลลัพธ์
แบบจำลองเชิงสาเหตุของ Pearl เกี่ยวข้องกับนามธรรมสามระดับที่เขาเรียกว่าบันไดแห่งสาเหตุ ระดับต่ำสุดคือ การเชื่อมโยง (การมองเห็น/การสังเกต) ซึ่งเกี่ยวข้องกับการรับรู้ความสม่ำเสมอหรือรูปแบบในข้อมูลป้อนเข้า ซึ่งแสดงออกมาในรูปของความสัมพันธ์ ระดับกลางคือ การแทรกแซง (การกระทำ) ซึ่งทำนายผลของการกระทำโดยเจตนา ซึ่งแสดงออกมาในรูปของความสัมพันธ์เชิงสาเหตุ ระดับสูงสุดคือการสมมติ (การจินตนาการ) ซึ่งเกี่ยวข้องกับการสร้างทฤษฎีของโลก (บางส่วน) ที่อธิบายว่าเหตุใดการกระทำเฉพาะจึงมีผลกระทบเฉพาะ และจะเกิดอะไรขึ้นหากไม่มีการกระทำดังกล่าว[ 7 ]
สมาคม
วัตถุหนึ่งมีความสัมพันธ์กับอีกวัตถุหนึ่ง หากการสังเกตเห็นวัตถุหนึ่งเปลี่ยนแปลงความน่าจะเป็นของการสังเกตเห็นอีกวัตถุหนึ่ง ตัวอย่างเช่น ผู้ซื้อที่ซื้อยาสีฟันมีแนวโน้มที่จะซื้อไหมขัดฟันด้วยเช่นกัน ในทางคณิตศาสตร์:
หรือความน่าจะเป็นของการ (ซื้อ) ไหมขัดฟันเมื่อ (ซื้อ) ยาสีฟัน ความสัมพันธ์ยังสามารถวัดได้โดยการคำนวณความสัมพันธ์ของเหตุการณ์ทั้งสอง ความสัมพันธ์ไม่มีนัยยะเชิงสาเหตุ เหตุการณ์หนึ่งอาจเป็นสาเหตุของอีกเหตุการณ์หนึ่ง หรือในทางกลับกัน หรือทั้งสองเหตุการณ์อาจเกิดจากเหตุการณ์ที่สาม (เช่น พนักงานสุขอนามัยที่ไม่พอใจตำหนิผู้ซื้อให้ดูแลช่องปากของตนเองให้ดีขึ้น) [ 7 ]
การแทรกแซง
ระดับนี้ยืนยันความสัมพันธ์เชิงสาเหตุที่เฉพาะเจาะจงระหว่างเหตุการณ์ต่างๆ การประเมินความสัมพันธ์เชิงสาเหตุทำได้โดยการทดลองกระทำการบางอย่างที่ส่งผลต่อเหตุการณ์หนึ่ง ตัวอย่างเช่น หลังจากขึ้นราคายาสีฟันเป็นสองเท่า โอกาสในการซื้อยาสีฟันใหม่จะเป็นเท่าใด ไม่สามารถพิสูจน์ความสัมพันธ์เชิงสาเหตุได้โดยการตรวจสอบประวัติ (ของการเปลี่ยนแปลงราคา) เพราะการเปลี่ยนแปลงราคาอาจเกิดจากสาเหตุอื่นที่อาจส่งผลกระทบต่อเหตุการณ์ที่สองได้ (เช่น ภาษีที่ทำให้ราคาสินค้าทั้งสองชนิดสูงขึ้น) ในทางคณิตศาสตร์:
โดยที่doเป็นตัวดำเนินการที่ส่งสัญญาณการแทรกแซงเชิงทดลอง (เพิ่มราคาเป็นสองเท่า) [ 7 ]ตัวดำเนินการนี้บ่งชี้ถึงการดำเนินการเปลี่ยนแปลงขั้นต่ำในโลกที่จำเป็นต่อการสร้างผลที่ต้องการ ซึ่งเป็น "การผ่าตัดขนาดเล็ก" บนแบบจำลองโดยมีการเปลี่ยนแปลงจากความเป็นจริงให้น้อยที่สุดเท่าที่จะเป็นไปได้[ 9 ]
ข้อสมมติฐานที่ตรงกันข้าม
ระดับสูงสุด คือ การพิจารณาสถานการณ์สมมติที่แตกต่างออกไป ซึ่งเกี่ยวข้องกับการพิจารณาเหตุการณ์ในอดีตในรูปแบบอื่น หรือสิ่งที่อาจเกิดขึ้นภายใต้สถานการณ์ที่แตกต่างกันสำหรับหน่วยทดลองเดียวกัน ตัวอย่างเช่น ความน่าจะเป็นที่หากร้านค้าขึ้นราคาไหมขัดฟันเป็นสองเท่า ผู้ซื้อยาสีฟันจะยังคงซื้อไหมขัดฟันอยู่หรือไม่
สถานการณ์สมมติสามารถบ่งชี้ถึงการมีอยู่ของความสัมพันธ์เชิงสาเหตุได้ แบบจำลองที่สามารถตอบคำถามสถานการณ์สมมติได้นั้นช่วยให้สามารถแทรกแซงได้อย่างแม่นยำซึ่งสามารถคาดการณ์ผลลัพธ์ได้ ในกรณีสุดขั้ว แบบจำลองดังกล่าวได้รับการยอมรับว่าเป็นกฎทางฟิสิกส์ (เช่นเดียวกับกฎทางฟิสิกส์ เช่น กฎความเฉื่อย ซึ่งกล่าวว่าหากไม่มีแรงกระทำต่อวัตถุที่อยู่นิ่ง วัตถุนั้นจะไม่เคลื่อนที่) [ 7 ]
ความเป็นเหตุเป็นผล
ความสัมพันธ์เชิงสาเหตุกับความสัมพันธ์เชิงสหสัมพันธ์
สถิติเกี่ยวข้องกับการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรหลายตัว โดยทั่วไป ความสัมพันธ์เหล่านี้จะถูกอธิบายว่าเป็นความสัมพันธ์เชิงสหสัมพันธ์ ซึ่งเป็นการเชื่อมโยงโดยไม่มีความสัมพันธ์เชิงสาเหตุโดยนัย แบบจำลองเชิงสาเหตุพยายามขยายกรอบนี้โดยเพิ่มแนวคิดเรื่องความสัมพันธ์เชิงสาเหตุ ซึ่งการเปลี่ยนแปลงในตัวแปรหนึ่งจะทำให้เกิดการเปลี่ยนแปลงในตัวแปรอื่น[ 2 ]
นิยามของความเป็นเหตุเป็นผล ในศตวรรษที่ 20 อาศัยเพียงความน่าจะเป็น/ความสัมพันธ์เท่านั้น กล่าวกันว่าเหตุการณ์หนึ่ง ( ) ก่อให้เกิดอีกเหตุการณ์หนึ่งหากความน่าจะเป็นของอีกเหตุการณ์หนึ่งเพิ่มขึ้น ( ) ในทางคณิตศาสตร์สามารถแสดงได้ดังนี้:
- .
คำจำกัดความดังกล่าวไม่เพียงพอเนื่องจากความสัมพันธ์อื่นๆ (เช่น สาเหตุร่วมกันสำหรับและ) สามารถตอบสนองเงื่อนไขได้ ความเป็นเหตุเป็นผลมีความเกี่ยวข้องกับขั้นบันไดขั้นที่สอง ความสัมพันธ์อยู่ในขั้นแรกและให้หลักฐานเฉพาะกับขั้นหลังเท่านั้น[ 7 ]
นิยามในภายหลังพยายามแก้ไขความกำกวมนี้โดยพิจารณาจากปัจจัยพื้นฐาน ในทางคณิตศาสตร์:
- ,
โดยที่ชุดตัวแปรพื้นหลังแสดงถึงค่าของตัวแปรเหล่านั้นในบริบทเฉพาะ อย่างไรก็ตาม ชุดตัวแปรพื้นหลังที่ต้องการนั้นไม่สามารถระบุได้ (ชุดหลายชุดอาจเพิ่มความน่าจะเป็น) ตราบใดที่ความน่าจะเป็นเป็นเกณฑ์เดียว[ 7 ]
ความพยายามอื่นๆ ในการกำหนดความเป็นเหตุเป็นผล ได้แก่ความเป็นเหตุเป็นผลแบบ Grangerซึ่งเป็นการทดสอบสมมติฐานทางสถิติที่ ประเมิน ความเป็นเหตุเป็นผล (ในทางเศรษฐศาสตร์ ) โดยการวัดความสามารถในการทำนายค่าในอนาคตของอนุกรมเวลา หนึ่ง โดยใช้ค่าก่อนหน้าของอนุกรมเวลาอื่น[ 7 ]
ประเภท
สาเหตุอาจเป็นสิ่งจำเป็น เพียงพอ มีส่วนสนับสนุนหรือเป็นการผสมผสานกัน[ 10 ]
จำเป็น
เพื่อให้xเป็นสาเหตุที่จำเป็นของyการมีอยู่ของyจะต้องบ่งชี้ถึงการเกิดขึ้นก่อนหน้าของx อย่างไรก็ตาม การมีอยู่ของxไม่ได้หมายความว่าy จะเกิดขึ้น[ 11 ]สาเหตุที่จำเป็นยังเป็นที่รู้จักในชื่อสาเหตุ "แต่ถ้าหาก" เช่นyจะไม่เกิดขึ้นหากปราศจากการเกิดขึ้นของx [ 7 ] : 261
สาเหตุที่เพียงพอ
เพื่อให้xเป็นสาเหตุที่เพียงพอของyการมีอยู่ของxจะต้องบ่งชี้ถึงการเกิดขึ้นของy ในภายหลัง อย่างไรก็ตาม สาเหตุอื่นzอาจทำให้เกิดy ได้โดยอิสระ ดังนั้นการมีอยู่ของyไม่จำเป็นต้องมีการเกิดขึ้นของx มา ก่อน[ 11 ]
สาเหตุที่มีส่วนร่วม
เพื่อให้xเป็นสาเหตุสนับสนุนของyการมีอยู่ของxจะต้องเพิ่มความน่าจะเป็นของyหากความน่าจะเป็นเป็น 100% xจะถูกเรียกว่าเพียงพอแทน สาเหตุสนับสนุนอาจเป็นสิ่งจำเป็นก็ได้[ 12 ]
แบบอย่าง
แผนภาพเชิงสาเหตุ
แผนภาพเชิงสาเหตุคือกราฟแบบมีทิศทางที่แสดง ความสัมพันธ์ เชิงสาเหตุระหว่างตัวแปรในแบบจำลองเชิงสาเหตุ แผนภาพเชิงสาเหตุประกอบด้วยชุดของตัวแปร (หรือโหนด ) แต่ละโหนดเชื่อมต่อด้วยลูกศรไปยังโหนดอื่นตั้งแต่หนึ่งโหนดขึ้นไปซึ่งมีอิทธิพลเชิงสาเหตุต่อกัน หัวลูกศรแสดงทิศทางของความเป็นเหตุเป็นผล เช่น ลูกศรที่เชื่อมต่อตัวแปร x และ y โดยมีหัวลูกศรอยู่ที่ x แสดงว่าการเปลี่ยนแปลงใน x ทำให้เกิดการเปลี่ยนแปลงใน x (โดยมีความน่าจะเป็นที่เกี่ยวข้อง) เส้นทางคือการเดินทางผ่านกราฟระหว่างสองโหนดตามลูกศรเชิงสาเหตุ[ 7 ]
แผนภาพเชิงสาเหตุประกอบด้วยแผนภาพวงวนเชิงสาเหตุกราฟแบบไม่มีวงจรทิศทางและแผนภาพอิชิกาวะ[ 7 ]
แผนภาพเชิงสาเหตุเป็นอิสระจากความน่าจะเป็นเชิงปริมาณที่แจ้งให้ทราบ การเปลี่ยนแปลงความน่าจะเป็นเหล่านั้น (เช่น เนื่องจากการปรับปรุงทางเทคโนโลยี) ไม่จำเป็นต้องเปลี่ยนแปลงแบบจำลอง[ 7 ]
องค์ประกอบของแบบจำลอง
แบบจำลองเชิงสาเหตุมีโครงสร้างที่เป็นทางการพร้อมองค์ประกอบที่มีคุณสมบัติเฉพาะ[ 7 ]
รูปแบบจุดเชื่อมต่อ
การเชื่อมต่อสามประเภทของโหนดสามโหนด ได้แก่ โซ่เชิงเส้น ส้อมแยกสาขา และตัวชนที่รวมกัน[ 7 ]
โซ่
โซ่คือการเชื่อมต่อเส้นตรงที่มีลูกศรชี้จากสาเหตุไปสู่ผล ในแบบจำลองนี้เป็นตัวกลางที่ทำหน้าที่ไกล่เกลี่ยการเปลี่ยนแปลงที่อาจเกิดขึ้นกับ[ 7 ] : 113
ส้อม
ในการแยกสาขา สาเหตุหนึ่งมีผลหลายอย่าง ผลทั้งสองมีสาเหตุร่วมกัน มีความสัมพันธ์ที่ผิดพลาด (ไม่ใช่สาเหตุ) ระหว่างและที่สามารถกำจัดได้โดยการกำหนดเงื่อนไขบน(สำหรับค่าเฉพาะของ) [ 7 ] : 114
"การกำหนดเงื่อนไขโดย" หมายถึง "กำหนดให้" (เช่น กำหนดค่าของ มาให้)
การขยายความของส้อมเป็นปัจจัยที่ทำให้เกิดความสับสน:
ในแบบจำลองดังกล่าวเป็นสาเหตุทั่วไปของและ(ซึ่งก่อให้เกิด ด้วยเช่นกัน) ทำให้เกิดตัวแปรแทรกซ้อน[ 7 ] : 114
เครื่องชน
ในคอลไลเดอร์สาเหตุหลายประการส่งผลต่อผลลัพธ์เดียว การกำหนดเงื่อนไข(สำหรับค่าเฉพาะของ) มักจะเผยให้เห็นความสัมพันธ์เชิงลบที่ไม่ใช่สาเหตุระหว่างและความสัมพันธ์เชิงลบนี้เรียกว่าอคติคอลไลเดอร์และผลกระทบ "อธิบายได้" เนื่องจากอธิบายความสัมพันธ์ระหว่างและ[ 7 ] : 115 ความสัมพันธ์อาจเป็นบวกในกรณีที่การมีส่วนร่วมจากทั้งและจำเป็นต่อการส่งผลต่อ[ 7 ] : 197
ประเภทโหนด
ผู้ไกล่เกลี่ย
โหนดตัวกลางจะปรับเปลี่ยนผลกระทบของสาเหตุอื่นๆ ที่มีต่อผลลัพธ์ (ตรงข้ามกับการส่งผลกระทบต่อผลลัพธ์โดยตรง) [ 7 ] : 113ตัวอย่างเช่น ในตัวอย่างลูกโซ่ข้างต้นเป็นตัวกลาง เพราะมันปรับเปลี่ยนผลกระทบของ(สาเหตุทางอ้อมของ) ที่มีต่อ(ผลลัพธ์)
ตัวแปรแทรกซ้อน
โหนดตัวแปรแทรกซ้อนส่งผลต่อผลลัพธ์หลายอย่าง ทำให้เกิดความสัมพันธ์เชิงบวกระหว่างกัน[ 7 ] : 114
ตัวแปรเครื่องมือ
ตัวแปรเครื่องมือคือตัวแปรที่: [ 7 ] : 246
- มีเส้นทางไปสู่ผลลัพธ์;
- ไม่มีเส้นทางอื่นใดที่จะนำไปสู่ตัวแปรเชิงสาเหตุได้
- ไม่มีอิทธิพลโดยตรงต่อผลลัพธ์
สัมประสิทธิ์การถดถอยสามารถใช้เป็นค่าประมาณของผลกระทบเชิงสาเหตุของตัวแปรเครื่องมือต่อผลลัพธ์ได้ ตราบใดที่ผลกระทบนั้นไม่ถูกรบกวน ด้วยวิธีนี้ ตัวแปรเครื่องมือช่วยให้สามารถวัดปริมาณปัจจัยเชิงสาเหตุได้โดยไม่ต้องมีข้อมูลเกี่ยวกับตัวแปรรบกวน[ 7 ] : 249
ตัวอย่างเช่น เมื่อพิจารณาแบบจำลองดังต่อไปนี้:
เป็นตัวแปรเครื่องมือ เนื่องจากมีเส้นทางไปสู่ผลลัพธ์และไม่มีตัวแปรแทรกซ้อน เช่น ตัวแปรอื่น
ในตัวอย่างข้างต้น ถ้าและรับค่าไบนารี สมมติฐานที่ว่าไม่เกิดขึ้น เรียกว่าความเป็นเอกรูป[ 7 ] : 253
การปรับปรุงเทคนิคนี้รวมถึงการสร้างเครื่องมือโดยการปรับเงื่อนไขตัวแปรอื่นเพื่อปิดกั้นเส้นทางระหว่างเครื่องมือและตัวแปรแทรกซ้อน และการรวมตัวแปรหลายตัวเพื่อสร้างเครื่องมือเดียว[ 7 ] : 257
การสุ่มแบบเมนเดล
คำจำกัดความ: การสุ่มแบบเมนเดลใช้การวัดความแปรผันในยีนที่มีหน้าที่ที่ทราบเพื่อตรวจสอบผลกระทบเชิงสาเหตุของการสัมผัสที่ปรับเปลี่ยนได้ต่อโรคในการศึกษาเชิงสังเกต[ 13 ] [ 14 ]
เนื่องจากยีนมีความแปรผันแบบสุ่มในประชากร การมีอยู่ของยีนจึงมักถือเป็นตัวแปรเครื่องมือ ซึ่งหมายความว่าในหลายกรณี ความเป็นเหตุเป็นผลสามารถวัดปริมาณได้โดยใช้การถดถอยในการศึกษาเชิงสังเกต[ 7 ] : 255
สมาคม
เงื่อนไขความเป็นอิสระ
เงื่อนไขความเป็นอิสระคือหลักเกณฑ์ในการตัดสินว่าตัวแปรสองตัวเป็นอิสระต่อกันหรือไม่ ตัวแปรจะเป็นอิสระต่อกันหากค่าของตัวแปรหนึ่งไม่ส่งผลกระทบโดยตรงต่อค่าของอีกตัวแปรหนึ่ง แบบจำลองเชิงสาเหตุหลายแบบสามารถใช้เงื่อนไขความเป็นอิสระร่วมกันได้ ตัวอย่างเช่น แบบจำลองต่างๆ
และ
ทั้งสองแบบจำลอง มีเงื่อนไขความเป็นอิสระเหมือนกัน เนื่องจากมีการกำหนดเงื่อนไขที่ใบไม้และตัวแปรอิสระ อย่างไรก็ตาม แบบจำลองทั้งสองไม่ได้มีความหมายเหมือนกัน และสามารถพิสูจน์ได้ว่าผิดโดยอาศัยข้อมูล (กล่าวคือ หากข้อมูลจากการสังเกตแสดงให้เห็นความสัมพันธ์ระหว่างตัวแปรและหลังจากกำหนดเงื่อนไขที่ใบไม้แล้ว แบบจำลองทั้งสองก็จะไม่ถูกต้อง) ในทางกลับกัน ข้อมูลไม่สามารถแสดงได้ว่าแบบจำลองใดถูกต้อง เนื่องจากมีเงื่อนไขความเป็นอิสระเหมือนกัน
การกำหนดเงื่อนไขบนตัวแปรเป็นกลไกสำหรับการทำการทดลองสมมติฐาน การกำหนดเงื่อนไขบนตัวแปรเกี่ยวข้องกับการวิเคราะห์ค่าของตัวแปรอื่น ๆ สำหรับค่าที่กำหนดของตัวแปรที่กำหนด ในตัวอย่างแรก การกำหนดเงื่อนไขบนตัวแปรหมายความว่าการสังเกตสำหรับค่าที่กำหนดของตัวแปรควรจะไม่แสดงความสัมพันธ์ระหว่างตัวแปรและตัวแปร หากมีความสัมพันธ์ดังกล่าว แสดงว่าแบบจำลองไม่ถูกต้อง แบบจำลองที่ไม่ใช่เชิงสาเหตุไม่สามารถแยกแยะความแตกต่างดังกล่าวได้ เนื่องจากแบบจำลองเหล่านี้ไม่ได้ยืนยันถึงสาเหตุ[ 7 ] : 129–130
ตัวแปรแทรกซ้อน/ตัวแปรขจัดตัวแปรแทรกซ้อน
องค์ประกอบสำคัญของการออกแบบการศึกษาเชิงสหสัมพันธ์คือการระบุอิทธิพลที่อาจก่อให้เกิดความสับสนต่อตัวแปรที่กำลังศึกษา เช่น ข้อมูลประชากร ตัวแปรเหล่านี้จะถูกควบคุมเพื่อขจัดอิทธิพลเหล่านั้น อย่างไรก็ตาม ไม่สามารถกำหนดรายการตัวแปรที่ก่อให้เกิดความสับสนที่ถูกต้องได้ล่วงหน้าดังนั้นจึงเป็นไปได้ที่การศึกษาอาจควบคุมตัวแปรที่ไม่เกี่ยวข้องหรือแม้กระทั่ง (ทางอ้อม) ตัวแปรที่กำลังศึกษา[ 7 ] : 139
แบบจำลองเชิงสาเหตุเป็นเทคนิคที่มีประสิทธิภาพในการระบุตัวแปรแทรกซ้อนที่เหมาะสม ในทางคณิตศาสตร์ Z ถือเป็นตัวแปรแทรกซ้อนหาก "Y มีความสัมพันธ์กับ Z ผ่านเส้นทางที่ไม่ผ่าน X" ซึ่งมักจะสามารถระบุได้โดยใช้ข้อมูลที่รวบรวมจากงานวิจัยอื่น ๆ ในทางคณิตศาสตร์ ถ้า
X และ Y สับสนกัน (โดยตัวแปรที่ทำให้เกิดความสับสน Z บางตัว) [ 7 ] : 151
ก่อนหน้านี้ คำจำกัดความที่ไม่ถูกต้องของตัวแปรแทรกซ้อน ได้แก่: [ 7 ] : 152
- "ตัวแปรใดๆ ที่มีความสัมพันธ์กับทั้ง X และ Y"
- Y มีความสัมพันธ์กับ Z ในกลุ่มที่ไม่ได้รับสารสัมผัส
- ความไม่สามารถยุบรวมได้: ความแตกต่างระหว่าง " ความเสี่ยงสัมพัทธ์ ดิบ และความเสี่ยงสัมพัทธ์ที่ได้หลังจากปรับค่าสำหรับตัวแปรแทรกซ้อนที่อาจเกิดขึ้น"
- ระบาดวิทยา: ตัวแปรที่เกี่ยวข้องกับ X ในประชากรโดยรวม และเกี่ยวข้องกับ Y ในกลุ่มคนที่ไม่ได้สัมผัสกับ X
วิธีหลังนั้นมีข้อบกพร่อง เนื่องจากในแบบจำลองนั้น:
Z ตรงกับคำจำกัดความ แต่เป็นตัวแปรสื่อกลาง ไม่ใช่ตัวแปรแทรกซ้อน และเป็นตัวอย่างของการควบคุมผลลัพธ์
ในแบบจำลอง
ตามธรรมเนียมแล้ว B ถือเป็นตัวแปรแทรกซ้อน เนื่องจากมีความสัมพันธ์กับ X และ Y แต่ไม่ได้อยู่บนเส้นทางเชิงสาเหตุหรือเป็นผลลัพธ์จากสิ่งใดๆ บนเส้นทางเชิงสาเหตุ การควบคุม B ทำให้ B กลายเป็นตัวแปรแทรกซ้อน ซึ่งเรียกว่า M-bias [ 7 ] : 161
การปรับแต่งประตูหลัง
สำหรับการวิเคราะห์ผลเชิงสาเหตุของ X ต่อ Y ในแบบจำลองเชิงสาเหตุ ตัวแปรที่ทำให้เกิดความสับสนทั้งหมดจะต้องได้รับการพิจารณา (การกำจัดความสับสน) เพื่อระบุชุดของตัวแปรที่ทำให้เกิดความสับสน (1) เส้นทางที่ไม่ใช่สาเหตุทุกเส้นทางระหว่าง X และ Y จะต้องถูกปิดกั้นโดยชุดนี้ (2) โดยไม่รบกวนเส้นทางเชิงสาเหตุใดๆ และ (3) โดยไม่สร้างเส้นทางปลอมใดๆ[ 7 ] : 158
คำจำกัดความ : เส้นทางลัดจากตัวแปร X ไปยัง Y คือเส้นทางใดๆ จาก X ไปยัง Y ที่เริ่มต้นด้วยลูกศรชี้ไปที่ X [ 7 ] : 158
นิยาม : เมื่อกำหนดคู่ลำดับของตัวแปร (X,Y) ในแบบจำลอง ชุดของตัวแปรแทรกซ้อน Z จะเป็นไปตามเกณฑ์ประตูหลังหาก (1) ไม่มีตัวแปรแทรกซ้อน Z ใดเป็นลูกหลานของ X และ (2) เส้นทางประตูหลังทั้งหมดระหว่าง X และ Y ถูกปิดกั้นโดยชุดของตัวแปรแทรกซ้อน
หากตรงตามเกณฑ์ backdoor สำหรับ (X,Y) X และ Y จะถูกแยกออกจากตัวแปรแทรกซ้อนโดยชุดตัวแปรแทรกซ้อน ไม่จำเป็นต้องควบคุมตัวแปรอื่นใดนอกจากตัวแปรแทรกซ้อน[ 7 ] : 158เกณฑ์ backdoor เป็นเงื่อนไขที่เพียงพอแต่ไม่จำเป็นในการค้นหาชุดตัวแปร Z เพื่อแยกการวิเคราะห์ผลกระทบเชิงสาเหตุของ X ต่อ y ออกจากตัวแปรแทรกซ้อน
เมื่อแบบจำลองเชิงสาเหตุเป็นการแสดงความเป็นจริงที่สมเหตุสมผลและตรงตามเกณฑ์ประตูหลัง สัมประสิทธิ์การถดถอยบางส่วนสามารถใช้เป็นสัมประสิทธิ์เส้นทาง (เชิงสาเหตุ) (สำหรับความสัมพันธ์เชิงเส้น) [ 7 ] : 223 [ 15 ]
- [ 7 ] : 227
การปรับแต่งประตูหน้า
หากองค์ประกอบของเส้นทางปิดกั้นทั้งหมดไม่สามารถสังเกตได้ เส้นทางลับจะไม่สามารถคำนวณได้ แต่หากเส้นทางไปข้างหน้าทั้งหมดจากมีองค์ประกอบที่ไม่มีเส้นทางเปิดเชื่อมต่ออยู่แล้วเซตของ ทั้งหมดสามารถวัดได้โดยพื้นฐานแล้ว มีเงื่อนไขที่สามารถทำหน้าที่เป็นตัวแทนของได้
คำจำกัดความ : เส้นทาง frontdoor คือเส้นทางเชิงสาเหตุโดยตรงที่ข้อมูลพร้อมใช้งานสำหรับทุกคน[ 7 ] : 226 สกัดกั้นเส้นทางที่มีทิศทางทั้งหมดไปยังไม่มีเส้นทางที่ไม่ถูกปิดกั้นจากไปยังและเส้นทาง backdoor ทั้งหมดจากไป ยัง ถูกปิดกั้นโดย[ 16 ]
ต่อไปนี้เป็นการแปลงนิพจน์ do ให้เป็นนิพจน์ do-free โดยกำหนดเงื่อนไขตามตัวแปรตามเส้นทางประตูหน้า[ 7 ] : 226
หากสมมติว่ามีข้อมูลสำหรับความน่าจะเป็นที่สังเกตได้เหล่านี้ ความน่าจะเป็นขั้นสุดท้ายสามารถคำนวณได้โดยไม่ต้องทำการทดลอง โดยไม่คำนึงถึงการมีอยู่ของเส้นทางรบกวนอื่นๆ และไม่ต้องปรับแก้แบบ backdoor [ 7 ] : 226
การแทรกแซง
คำถาม
คำถามคือคำถามที่ถามโดยอิงจากแบบจำลองเฉพาะ โดยทั่วไปจะได้รับคำตอบผ่านการทำการทดลอง (การแทรกแซง) การแทรกแซงมีรูปแบบเป็นการกำหนดค่าของตัวแปรหนึ่งในแบบจำลองและสังเกตผลลัพธ์ ในทางคณิตศาสตร์ คำถามดังกล่าวมีรูปแบบดังนี้ (จากตัวอย่าง): [ 7 ] : 8
โดยที่ ตัวดำเนินการ doบ่งชี้ว่าการทดลองได้ปรับเปลี่ยนราคาของยาสีฟันอย่างชัดเจน ในทางกราฟิก สิ่งนี้จะปิดกั้นปัจจัยเชิงสาเหตุใดๆ ที่อาจส่งผลต่อตัวแปรนั้น ในทางแผนภาพ สิ่งนี้จะลบลูกศรเชิงสาเหตุทั้งหมดที่ชี้ไปยังตัวแปรการทดลอง[ 7 ] : 40
สามารถทำการค้นหาข้อมูลที่ซับซ้อนกว่านี้ได้ โดยใช้ตัวดำเนินการ do (โดยกำหนดค่าคงที่) กับตัวแปรหลายตัว
การกระจายแบบแทรกแซง
ทำแคลคูลัส
แคลคูลัส do คือชุดของการดำเนินการที่มีอยู่เพื่อแปลงนิพจน์หนึ่งไปเป็นอีกนิพจน์หนึ่ง โดยมีเป้าหมายทั่วไปคือการแปลงนิพจน์ที่มีตัวดำเนินการ do ไปเป็นนิพจน์ที่ไม่มีตัวดำเนินการ do นิพจน์ที่ไม่มีตัวดำเนินการ do สามารถประมาณได้จากข้อมูลการสังเกตเพียงอย่างเดียว โดยไม่จำเป็นต้องมีการแทรกแซงเชิงทดลอง ซึ่งอาจมีราคาแพง ใช้เวลานาน หรือแม้กระทั่งผิดจริยธรรม (เช่น การขอให้ผู้ถูกทดลองสูบบุหรี่) [ 7 ] : 231ชุดของกฎนั้นสมบูรณ์ (สามารถใช้เพื่ออนุมานข้อความที่เป็นจริงทุกข้อความในระบบนี้ได้) [ 7 ] : 237อัลกอริทึมสามารถกำหนดได้ว่าสำหรับแบบจำลองที่กำหนด วิธีแก้ปัญหาสามารถคำนวณได้ในเวลาพหุนาม หรือ ไม่[ 7 ] : 238
กฎ
แคลคูลัสนี้ประกอบด้วยกฎสามข้อสำหรับการแปลง นิพจน์ ความน่าจะเป็นแบบมีเงื่อนไขที่เกี่ยวข้องกับตัวดำเนินการ do
กฎข้อที่ 1
กฎข้อที่ 1 อนุญาตให้เพิ่มหรือลบข้อสังเกตได้: [ 7 ] : 235
ในกรณีที่ชุดตัวแปร Z บล็อกเส้นทางทั้งหมดจาก W ไปยัง Y และลูกศรทั้งหมดที่นำไปสู่ X ถูกลบออก[ 7 ] : 234
กฎข้อที่ 2
กฎข้อที่ 2 อนุญาตให้เปลี่ยนการแทรกแซงเป็นการสังเกตหรือในทางกลับกัน: [ 7 ] : 235
ในกรณีที่ Z ตรงตามเกณฑ์ประตูหลัง[ 7 ] : 234
กฎข้อที่ 3
กฎข้อที่ 3 อนุญาตให้ลบหรือเพิ่มการแทรกแซงได้: [ 7 ]
ในกรณีที่ไม่มีเส้นทางเชิงสาเหตุเชื่อมโยง X และ Y [ 7 ] : 234 : 235
ส่วนขยาย
กฎไม่ได้หมายความว่าแบบสอบถามใดๆ จะสามารถลบตัวดำเนินการ do ออกได้ ในกรณีเหล่านั้น อาจเป็นไปได้ที่จะแทนที่ตัวแปรที่สามารถเปลี่ยนแปลงได้ (เช่น อาหาร) ด้วยตัวแปรที่ไม่สามารถเปลี่ยนแปลงได้ (เช่น คอเลสเตอรอลในเลือด) จากนั้นจึงแปลงตัวแปรนั้นเพื่อลบตัวดำเนินการ do ออก ตัวอย่าง:
ข้อสมมติฐานที่ตรงกันข้าม
สมมติฐานเชิงสมมติพิจารณาความเป็นไปได้ที่ไม่มีอยู่ในข้อมูล เช่น คนที่ไม่สูบบุหรี่จะป่วยเป็นมะเร็งหรือไม่ หากพวกเขาเป็นผู้สูบบุหรี่จัด สมมติฐานเหล่านี้เป็นขั้นสูงสุดในบันไดแห่งเหตุและผลตามแนวคิดของเพิร์ล
ผลลัพธ์ที่เป็นไปได้
คำจำกัดความ: ผลลัพธ์ที่เป็นไปได้สำหรับตัวแปร Y คือ "ค่า Y ที่จะได้รับสำหรับบุคคลuหาก X ได้รับค่า x" ทางคณิตศาสตร์: [ 7 ] : 270
- หรือ.
ผลลัพธ์ที่เป็นไปได้ถูกกำหนดไว้ในระดับของแต่ละบุคคลu [ 7 ] : 270
แนวทางแบบดั้งเดิมสำหรับผลลัพธ์ที่เป็นไปได้นั้นขับเคลื่อนด้วยข้อมูล ไม่ใช่แบบจำลอง ซึ่งจำกัดความสามารถในการแยกแยะความสัมพันธ์เชิงสาเหตุ โดยถือว่าคำถามเชิงสาเหตุเป็นปัญหาของข้อมูลที่ขาดหายไปและให้คำตอบที่ไม่ถูกต้องแม้แต่กับสถานการณ์มาตรฐาน[ 7 ] : 275
การอนุมานเชิงสาเหตุ
ในบริบทของแบบจำลองเชิงสาเหตุ ผลลัพธ์ที่เป็นไปได้จะถูกตีความในเชิงสาเหตุ มากกว่าในเชิงสถิติ
กฎข้อแรกของการอนุมานเชิงสาเหตุระบุว่า ผลลัพธ์ที่เป็นไปได้
สามารถคำนวณได้โดยการปรับเปลี่ยนแบบจำลองเชิงสาเหตุ M (โดยการลบลูกศรเข้าไปใน X) และคำนวณผลลัพธ์สำหรับx บางค่า อย่างเป็นทางการ: [ 7 ] : 280
ดำเนินการวิเคราะห์สถานการณ์สมมติ
การตรวจสอบสมมติฐานย้อนกลับโดยใช้แบบจำลองเชิงสาเหตุประกอบด้วยสามขั้นตอน[ 17 ]วิธีการนี้ใช้ได้ไม่ว่าความสัมพันธ์ของแบบจำลองจะเป็นแบบเชิงเส้นหรือแบบอื่น เมื่อความสัมพันธ์ของแบบจำลองถูกระบุอย่างครบถ้วนแล้ว สามารถคำนวณค่าจุดได้ ในกรณีอื่นๆ (เช่น เมื่อมีเพียงความน่าจะเป็นเท่านั้น) สามารถคำนวณข้อความช่วงความน่าจะเป็นได้ เช่น ผู้ไม่สูบบุหรี่xจะมีโอกาสเป็นมะเร็ง 10-20% [ 7 ] : 279
จากแบบจำลองที่กำหนด:
สามารถใช้ สมการในการคำนวณค่า A และ C ที่ได้จากการวิเคราะห์การถดถอยหรือเทคนิคอื่น โดยแทนที่ค่าที่ทราบจากการสังเกตและกำหนดค่าของตัวแปรอื่น (สมมติฐานย้อนกลับ) [ 7 ] : 278
ลักพาตัว
ใช้ การให้ เหตุผลแบบอุปนัย ( การอนุมานเชิงตรรกะที่ใช้การสังเกตเพื่อหาคำอธิบายที่ง่ายที่สุด/น่าจะเป็นไปได้มากที่สุด) เพื่อประมาณค่าuซึ่งเป็นตัวแทนของตัวแปรที่ไม่สามารถสังเกตได้ในการสังเกตเฉพาะที่สนับสนุนข้อเท็จจริงที่ตรงกันข้าม[ 7 ] : 278คำนวณความน่าจะเป็นของuเมื่อพิจารณาจากหลักฐานเชิงประพจน์
กระทำ
สำหรับการสังเกตเฉพาะ ให้ใช้ตัวดำเนินการ do เพื่อสร้างสมมติฐานย้อนกลับ (เช่นm = 0) โดยปรับเปลี่ยนสมการตามนั้น[ 7 ] : 278
ทำนาย
คำนวณค่าของเอาต์พุต ( y ) โดยใช้สมการที่แก้ไขแล้ว[ 7 ] : 278
การไกล่เกลี่ย
สาเหตุโดยตรงและโดยอ้อม (ผ่านตัวกลาง) สามารถแยกแยะได้โดยการทำสมมติฐานย้อนกลับเท่านั้น[ 7 ] : 301การทำความเข้าใจการไกล่เกลี่ยจำเป็นต้องคงตัวกลางไว้ในขณะที่แทรกแซงสาเหตุโดยตรง ในแบบจำลอง
M เป็นตัวกลางที่ส่งอิทธิพลของ X ต่อ Y ในขณะที่ X ก็มีผลกระทบต่อ Y โดยตรงเช่นกัน ดังนั้น M จึงคงที่ ในขณะที่ do(X) ถูกคำนวณ
ความผิดพลาดในการไกล่เกลี่ย (Mediation Fallacy) เกี่ยวข้องกับการพิจารณาตัวแปรไกล่เกลี่ย หากตัวแปรไกล่เกลี่ยและผลลัพธ์มีความสัมพันธ์กัน ดังเช่นในแบบจำลองข้างต้น
สำหรับแบบจำลองเชิงเส้น ผลกระทบทางอ้อมสามารถคำนวณได้โดยการคูณค่าสัมประสิทธิ์เส้นทางทั้งหมดตามเส้นทางที่เป็นตัวกลาง ผลกระทบทางอ้อมทั้งหมดคำนวณได้จากผลรวมของผลกระทบทางอ้อมแต่ละรายการ สำหรับแบบจำลองเชิงเส้น การระบุการเป็นตัวกลางจะเกิดขึ้นเมื่อค่าสัมประสิทธิ์ของสมการที่เหมาะสมโดยไม่รวมตัวกลางแตกต่างอย่างมีนัยสำคัญจากสมการที่รวมตัวกลางไว้[ 7 ] : 324
ผลกระทบโดยตรง
ในการทดลองเกี่ยวกับแบบจำลองดังกล่าว ผลกระทบโดยตรงที่ควบคุมได้ (CDE) จะถูกคำนวณโดยการบังคับค่าของตัวกลาง M (do(M = 0)) และสุ่มจัดสรรผู้ถูกทดลองบางส่วนให้กับแต่ละค่าของ X (do(X=0), do(X=1), ...) และสังเกตค่า Y ที่ได้[ 7 ] : 317
แต่ละค่าของตัวกลางจะมีค่า CDE ที่สอดคล้องกัน
อย่างไรก็ตาม การทดลองที่ดีกว่าคือการคำนวณผลโดยตรงตามธรรมชาติ (NDE) ซึ่งเป็นผลที่กำหนดโดยการปล่อยให้ความสัมพันธ์ระหว่าง X และ M ไม่เปลี่ยนแปลง ในขณะที่เข้าไปแทรกแซงความสัมพันธ์ระหว่าง X และ Y [ 7 ] : 318
ตัวอย่างเช่น พิจารณาผลโดยตรงของการเพิ่มความถี่ ในการไปพบ ทันตสุขาภิบาล (X) จากทุกๆ สองปี เป็นทุกปี ซึ่งกระตุ้นให้มีการใช้ไหมขัดฟัน (M) เหงือก (Y) จะมีสุขภาพดีขึ้น ไม่ว่าจะเกิดจากทันตสุขาภิบาล (ผลโดยตรง) หรือการใช้ไหมขัดฟัน (ตัวกลาง/ผลทางอ้อม) การทดลองคือการใช้ไหมขัดฟันต่อไปในขณะที่งดการไปพบทันตสุขาภิบาล
ผลกระทบทางอ้อม
ผลกระทบทางอ้อมของ X ต่อ Y คือ "การเพิ่มขึ้นที่เราจะเห็นใน Y ในขณะที่คง X ไว้คงที่และเพิ่ม M ไปจนถึงค่าใดก็ตามที่ M จะได้รับภายใต้การเพิ่มขึ้นหนึ่งหน่วยของ X" [ 7 ] : 328
ผลกระทบทางอ้อมไม่สามารถ "ควบคุม" ได้ เนื่องจากเส้นทางตรงไม่สามารถปิดใช้งานได้โดยการคงตัวแปรอื่นให้คงที่ ผลกระทบทางอ้อมตามธรรมชาติ (NIE) คือผลกระทบต่อสุขภาพเหงือก (Y) จากการใช้ไหมขัดฟัน (M) NIE คำนวณได้จากผลรวมของ (กรณีใช้ไหมขัดฟันและไม่ใช้ไหมขัดฟัน) ของความแตกต่างระหว่างความน่าจะเป็นของการใช้ไหมขัดฟันเมื่อมีผู้ช่วยทันตแพทย์และไม่มีผู้ช่วยทันตแพทย์ หรือ: [ 7 ] : 321
การคำนวณ NDE ข้างต้นรวมถึงตัวห้อยสมมติ ( ) สำหรับแบบจำลองที่ไม่เป็นเชิงเส้น ความเท่าเทียมกันที่ดูเหมือนชัดเจน[ 7 ] : 322
ไม่สามารถนำมาใช้ได้เนื่องจากความผิดปกติ เช่น ผลกระทบจากค่าเกณฑ์และค่าไบนารี อย่างไรก็ตาม
ใช้ได้กับความสัมพันธ์ของแบบจำลองทั้งหมด (เชิงเส้นและไม่เชิงเส้น) ช่วยให้สามารถคำนวณ NDE ได้โดยตรงจากข้อมูลการสังเกต โดยไม่ต้องมีการแทรกแซงหรือใช้ดัชนีสมมติฐาน[ 7 ] : 326
ความสามารถในการขนส่ง
แบบจำลองเชิงสาเหตุเป็นเครื่องมือในการบูรณาการข้อมูลข้ามชุดข้อมูลที่เรียกว่าการขนส่ง แม้ว่าแบบจำลองเชิงสาเหตุ (และข้อมูลที่เกี่ยวข้อง) จะแตกต่างกันก็ตาม ตัวอย่างเช่น ข้อมูลจากการสำรวจสามารถรวมเข้ากับข้อมูลจากการทดลองแบบสุ่มที่มีการควบคุมได้[ 7 ] : 352การขนส่งนำเสนอวิธีแก้ปัญหาสำหรับคำถามเรื่องความถูกต้องภายนอกว่าการศึกษาสามารถนำไปใช้ในบริบทที่แตกต่างกันได้หรือไม่
ในกรณีที่แบบจำลองสองแบบตรงกันในตัวแปรที่เกี่ยวข้องทั้งหมด และข้อมูลจากแบบจำลองหนึ่งเป็นที่ทราบกันว่าไม่มีอคติ ข้อมูลจากประชากรหนึ่งสามารถนำมาใช้เพื่อสรุปเกี่ยวกับประชากรอีกกลุ่มหนึ่งได้ ในกรณีอื่นๆ ที่ทราบว่าข้อมูลมีอคติ การถ่วงน้ำหนักใหม่จะช่วยให้สามารถถ่ายโอนชุดข้อมูลได้ ในกรณีที่สาม สามารถสรุปได้จากชุดข้อมูลที่ไม่สมบูรณ์ ในบางกรณี ข้อมูลจากการศึกษาของประชากรหลายกลุ่มสามารถนำมารวมกันได้ (ผ่านการถ่ายโอน) เพื่อให้สามารถสรุปเกี่ยวกับประชากรที่ไม่ได้วัดได้ ในบางกรณี การรวมค่าประมาณ (เช่น P(W|X)) จากการศึกษาหลายๆ ครั้งสามารถเพิ่มความแม่นยำของข้อสรุปได้[ 7 ] : 355
แคลคูลัสDoให้เกณฑ์ทั่วไปสำหรับการขนส่ง: ตัวแปรเป้าหมายสามารถแปลงเป็นนิพจน์อื่นได้ผ่านชุดของ การดำเนินการ doที่ไม่เกี่ยวข้องกับตัวแปร "ที่ทำให้เกิดความแตกต่าง" (ตัวแปรที่แยกความแตกต่างระหว่างประชากรทั้งสอง) [ 7 ] : 355กฎที่คล้ายกันนี้ใช้กับการศึกษาที่มีผู้เข้าร่วมที่แตกต่างกันอย่างมีนัยสำคัญ [ 7 ] : 356
เครือข่ายเบย์เซียน
แบบจำลองเชิงสาเหตุใดๆ ก็สามารถนำไปใช้เป็นเครือข่ายเบย์เซียนได้ เครือข่ายเบย์เซียนสามารถใช้เพื่อหาความน่าจะเป็นผกผันของเหตุการณ์ (เมื่อกำหนดผลลัพธ์แล้ว ความน่าจะเป็นของสาเหตุเฉพาะเจาะจงคืออะไร) ซึ่งต้องเตรียมตารางความน่าจะเป็นแบบมีเงื่อนไข โดยแสดงอินพุตและผลลัพธ์ที่เป็นไปได้ทั้งหมดพร้อมความน่าจะเป็นที่เกี่ยวข้อง[ 7 ] : 119
ตัวอย่างเช่น เมื่อกำหนดแบบจำลองสองตัวแปรของโรคและการทดสอบ (สำหรับโรค) ตารางความน่าจะเป็นแบบมีเงื่อนไขจะมีรูปแบบดังนี้: [ 7 ] : 117
| ทดสอบ | ||
|---|---|---|
| โรค | เชิงบวก | เชิงลบ |
| เชิงลบ | 12 | 88 |
| เชิงบวก | 73 | 27 |
จากตารางนี้ เมื่อผู้ป่วยไม่มีโรค โอกาสที่จะตรวจพบผลบวกคือ 12%
แม้ว่าวิธีนี้จะใช้ได้กับปัญหาเล็กๆ แต่เมื่อจำนวนตัวแปรและสถานะที่เกี่ยวข้องเพิ่มขึ้น ตารางความน่าจะเป็น (และเวลาในการคำนวณที่เกี่ยวข้อง) ก็จะเพิ่มขึ้นแบบทวีคูณ[ 7 ] : 121
เครือข่ายเบย์เซียนถูกนำไปใช้ในเชิงพาณิชย์ในแอปพลิเคชันต่างๆ เช่น การแก้ไขข้อผิดพลาดของข้อมูลไร้สายและการวิเคราะห์ DNA [ 7 ] : 122
ตัวแปรคงที่/บริบท
แนวคิดเรื่องความเป็นเหตุเป็นผลที่แตกต่างออกไปนั้นเกี่ยวข้องกับแนวคิดเรื่องความสัมพันธ์ที่ไม่เปลี่ยนแปลง ในกรณีของการระบุตัวเลขที่เขียนด้วยลายมือ รูปร่างของตัวเลขจะควบคุมความหมาย ดังนั้นรูปร่างและความหมายจึงเป็นตัวแปรที่ไม่เปลี่ยนแปลง การเปลี่ยนรูปร่างจะเปลี่ยนความหมาย คุณสมบัติอื่นๆ จะไม่เปลี่ยนแปลง (เช่น สี) ความไม่เปลี่ยนแปลงนี้ควรคงอยู่ตลอดชุดข้อมูลที่สร้างขึ้นในบริบทที่แตกต่างกัน (คุณสมบัติที่ไม่เปลี่ยนแปลงเป็นตัวกำหนดบริบท) แทนที่จะเรียนรู้ (ประเมินความเป็นเหตุเป็นผล) โดยใช้ชุดข้อมูลที่รวมกัน การเรียนรู้จากชุดข้อมูลหนึ่งและการทดสอบจากอีกชุดข้อมูลหนึ่งสามารถช่วยแยกแยะคุณสมบัติที่เปลี่ยนแปลงได้จากคุณสมบัติที่ไม่เปลี่ยนแปลง[ 18 ]
ดูเพิ่มเติม
- ระบบเหตุและผล
- เครือข่ายเชิงสาเหตุ – เครือข่ายแบบเบย์เซียนที่มีข้อกำหนดชัดเจนว่าความสัมพันธ์ต้องเป็นเชิงสาเหตุ
- การสร้างแบบจำลองสมการโครงสร้าง – เทคนิคทางสถิติสำหรับการทดสอบและประมาณความสัมพันธ์เชิงสาเหตุ
- การวิเคราะห์เส้นทาง (สถิติ)
- เครือข่ายเบย์เซียน
- แผนผังความสัมพันธ์เชิงสาเหตุ
- การสร้างแบบจำลองเชิงสาเหตุแบบไดนามิก
- แบบจำลองเชิงสาเหตุของรูบิน
แหล่งที่มา
- เพิร์ล, จูเดีย (14 กันยายน 2552). ความเป็นเหตุเป็นผล . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-1-139-64398-6.
ลิงก์ภายนอก
- Pearl, Judea (2010-02-26). "บทนำสู่การอนุมานเชิงสาเหตุ"วารสารสถิติชีวภาพระหว่างประเทศ 6 ( 2) 7. doi : 10.2202/1557-4679.1203 . ISSN 1557-4679 . PMC 2836213 . PMID 20305706 .
- การสร้างแบบจำลองเชิงสาเหตุที่PhilPapers
- ฟอล์ก, แดน (17 มีนาคม 2019). "อัลกอริทึม AI เก่งกาจอย่างน่าตกใจในการทำวิทยาศาสตร์" . Wired . ISSN 1059-1028 . สืบค้นเมื่อ20 มีนาคม 2019 .
- มอดลิน, ทิม (30 สิงหาคม 2019). "เหตุผลของโลก" . บอสตัน รีวิว. สืบค้นเมื่อ9 กันยายน 2019 .
- ฮาร์ทเน็ตต์, เควิน (15 พฤษภาคม 2018). "เพื่อสร้างเครื่องจักรที่ชาญฉลาดอย่างแท้จริง จงสอนให้พวกมันรู้จักเหตุและผล"นิตยสารควอนตา. สืบค้นเมื่อ19 กันยายน 2019 .
- [ 1 ]
- ^ การเรียนรู้การนำเสนอโดยใช้ความไม่แปรผันเชิงสาเหตุ , ICLR, กุมภาพันธ์ 2020 , สืบค้นเมื่อ 10 กุมภาพันธ์ 2020
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ แบบจำลองเชิงสาเหตุ
ใน อภิปรัชญา และ สถิติ แบบ จำลองเชิงสาเหตุ (เรียกอีกอย่างว่า แบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือ แบบจำลองเชิงแนวคิด ที่แสดงถึง กลไก เชิงสาเหตุ ของ ระบบ [ 2 ]...
คำนิยาม
แบบจำลองเชิงสาเหตุเป็นแบบจำลองทางคณิตศาสตร์ที่แสดงถึงความสัมพันธ์เชิงสาเหตุภายในระบบหรือประชากรแต่ละระบบ แบบจำลองเหล่านี้อำนวยความสะดวกในการอนุมานเกี่ยวกับความสัมพันธ์เชิงสาเหตุจากข้อมูลทางสถิติ แบบจำลองเหล่านี้สามารถสอนเราได้มากเกี่ยวกับญาณวิทยาของสาเหตุ...
ประวัติศาสตร์
อริสโตเติล ได้กำหนดอนุกรมวิธานของสาเหตุ ซึ่งรวมถึงสาเหตุทางวัตถุ รูปแบบ ประสิทธิภาพ และผลลัพธ์ ฮิวจ์ปฏิเสธอนุกรมวิธานของอริสโตเติลและหันมาใช้แนวคิดเรื่อง ผลลัพธ์สมมติ แทน ในบางจุด เขาปฏิเสธว่าวัตถุมี "พลัง" ที่ทำให้วัตถุหนึ่งเป็นสาเหตุและอีกวัตถุหนึ่งเป็นผล...
ลำดับขั้นของสาเหตุและผลลัพธ์
แบบจำลอง เชิงสาเหตุของ Pearl เกี่ยวข้องกับนามธรรมสามระดับที่เขาเรียกว่าบันไดแห่งสาเหตุ ระดับต่ำสุดคือ การเชื่อมโยง (การมองเห็น/การสังเกต) ซึ่งเกี่ยวข้องกับการรับรู้ความสม่ำเสมอหรือรูปแบบในข้อมูลป้อนเข้า ซึ่งแสดงออกมาในรูปของความสัมพันธ์ ระดับกลางคือ...