กลับไปหน้าบทความ

อ่าน 16 นาที

แบบจำลองเชิงสาเหตุ

ใน อภิปรัชญา และ สถิติ แบบ จำลองเชิงสาเหตุ (เรียกอีกอย่างว่า แบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือ แบบจำลองเชิงแนวคิด ที่แสดงถึง กลไก เชิงสาเหตุ ของ ระบบ [ 2 ]...

แบบจำลองเชิงสาเหตุ

การเปรียบเทียบโมเดลเชิงสาเหตุสองแบบที่แข่งขันกัน (DCM, GCM) ที่ใช้สำหรับการตีความภาพfMRI [ 1 ]

ในอภิปรัชญาและสถิติแบบจำลองเชิงสาเหตุ (เรียกอีกอย่างว่าแบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือแบบจำลองเชิงแนวคิดที่แสดงถึง กลไก เชิงสาเหตุของระบบ[ 2 ]แบบจำลองเชิงสาเหตุมักใช้สัญกรณ์เชิงสาเหตุ ที่เป็นทางการ เช่น การ สร้างแบบจำลองสมการเชิงโครงสร้างหรือกราฟแบบไม่มีวงจรเชิงสาเหตุ (DAGs)เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรและเพื่อเป็นแนวทางในการอนุมาน

โดยการชี้แจงว่าตัวแปรใดควรถูกรวม ไม่รวม หรือควบคุม แบบจำลองเชิงสาเหตุสามารถปรับปรุงการออกแบบการศึกษาเชิงประจักษ์และการตีความผลลัพธ์ได้[ 3 ]นอกจากนี้ยังช่วยให้นักวิจัยสามารถตอบคำถามเชิงสาเหตุบางข้อโดยใช้ข้อมูลจากการสังเกตลดความจำเป็นในการศึกษาเชิงแทรกแซงเช่น การทดลองแบบ สุ่ม ที่มีการควบคุม

ในกรณีที่การทดลองแบบสุ่มไม่สามารถทำได้จริงหรือผิดจริยธรรม เช่น เมื่อศึกษาผลกระทบของการสัมผัสกับสิ่งแวดล้อมหรือปัจจัยกำหนดสุขภาพทางสังคม แบบจำลองเชิงสาเหตุจะให้กรอบการทำงานสำหรับการสรุปผลที่ถูกต้องจากข้อมูลที่ไม่ใช่การทดลอง[ 4 ]

แบบจำลองเชิงสาเหตุสามารถช่วยตอบคำถามเกี่ยวกับความถูกต้องภายนอก (ว่าผลลัพธ์จากงานวิจัยหนึ่งสามารถนำไปใช้กับประชากรที่ยังไม่ได้ศึกษาได้หรือไม่) แบบจำลองเชิงสาเหตุยังช่วยให้สามารถรวมข้อมูลจากงานวิจัยหลายชิ้นเข้าด้วยกัน (ในบางสถานการณ์) เพื่อตอบคำถามที่ไม่สามารถตอบได้ด้วยชุดข้อมูลใดชุดข้อมูลหนึ่งเพียงอย่างเดียว

แบบจำลองเชิงสาเหตุพบการประยุกต์ใช้ในการประมวลผลสัญญาณระบาดวิทยาการเรียนรู้ของเครื่อง[ 2 ] การศึกษาทางวัฒนธรรม และการวางผังเมือง และสามารถอธิบายกระบวนการทั้งเชิงเส้นและไม่เชิงเส้นได้[ 5 ]

คำนิยาม

แบบจำลองเชิงสาเหตุเป็นแบบจำลองทางคณิตศาสตร์ที่แสดงถึงความสัมพันธ์เชิงสาเหตุภายในระบบหรือประชากรแต่ละระบบ แบบจำลองเหล่านี้อำนวยความสะดวกในการอนุมานเกี่ยวกับความสัมพันธ์เชิงสาเหตุจากข้อมูลทางสถิติ แบบจำลองเหล่านี้สามารถสอนเราได้มากเกี่ยวกับญาณวิทยาของสาเหตุ และเกี่ยวกับความสัมพันธ์ระหว่างสาเหตุและความน่าจะเป็น นอกจากนี้ยังมีการนำไปประยุกต์ใช้กับหัวข้อที่น่าสนใจสำหรับนักปรัชญา เช่น ตรรกะของข้อเท็จจริงเชิงสมมติ ทฤษฎีการตัดสินใจ และการวิเคราะห์สาเหตุที่แท้จริง[ 6 ]

— สารานุกรมปรัชญาแห่งมหาวิทยาลัยสแตนฟอร์ด

Judea Pearlนิยามแบบจำลองเชิงสาเหตุว่าเป็นสามลำดับโดยที่ U คือชุดของตัวแปรภายนอกซึ่งค่าของมันถูกกำหนดโดยปัจจัยภายนอกแบบจำลอง V คือชุดของตัวแปรภายในซึ่งค่าของมันถูกกำหนดโดยปัจจัยภายในแบบจำลอง และ E คือชุดของสมการโครงสร้างที่แสดงค่าของตัวแปรภายในแต่ละตัวเป็นฟังก์ชันของค่าของตัวแปรอื่น ๆ ใน U และ V [ 2 ]

ประวัติศาสตร์

อริสโตเติลได้กำหนดอนุกรมวิธานของสาเหตุ ซึ่งรวมถึงสาเหตุทางวัตถุ รูปแบบ ประสิทธิภาพ และผลลัพธ์ ฮิวจ์ปฏิเสธอนุกรมวิธานของอริสโตเติลและหันมาใช้แนวคิดเรื่องผลลัพธ์สมมติแทน ในบางจุด เขาปฏิเสธว่าวัตถุมี "พลัง" ที่ทำให้วัตถุหนึ่งเป็นสาเหตุและอีกวัตถุหนึ่งเป็นผล ต่อมาเขายอมรับแนวคิดที่ว่า "ถ้าวัตถุแรกไม่มีอยู่ วัตถุที่สองก็จะไม่เคยมีอยู่" (สาเหตุแบบ " แต่ถ้าไม่มี ") [ 7 ]

ในช่วงปลายศตวรรษที่ 19 สาขาวิชาสถิติเริ่มก่อตัวขึ้น หลังจากความพยายามหลายปีในการระบุกฎเชิงสาเหตุสำหรับโดเมนต่างๆ เช่น การถ่ายทอดทางชีววิทยากัลตันได้นำเสนอแนวคิดของการถดถอยของค่าเฉลี่ย (ซึ่งเป็นตัวอย่างที่ชัดเจนของภาวะตกต่ำในปีที่สองในกีฬา) ซึ่งต่อมานำเขาไปสู่แนวคิดที่ไม่ใช่เชิงสาเหตุของความสัมพันธ์[ 7 ]

ในฐานะนักปรัชญาปฏิฐานนิยมเพียร์สันได้ลบล้างแนวคิดเรื่องความเป็นเหตุเป็นผลจากวิทยาศาสตร์ส่วนใหญ่ เนื่องจากถือเป็นกรณีพิเศษที่ไม่สามารถพิสูจน์ได้ของการเชื่อมโยง และได้นำสัมประสิทธิ์สห สัมพันธ์มา ใช้เป็นตัวชี้วัดการเชื่อมโยง เขาเขียนว่า "แรงในฐานะที่เป็นสาเหตุของการเคลื่อนไหวก็เหมือนกับเทพเจ้าแห่งต้นไม้ในฐานะที่เป็นสาเหตุของการเจริญเติบโต" และความเป็นเหตุเป็นผลเป็นเพียง "สิ่งลึกลับที่ยากจะเข้าใจในวิทยาศาสตร์สมัยใหม่" เพียร์สันก่อตั้งBiometrikaและ Biometrics Lab ที่University College Londonซึ่งต่อมากลายเป็นผู้นำระดับโลกด้านสถิติ[ 7 ]

ในปี พ.ศ. 2451 HardyและWeinbergได้แก้ไขปัญหาความคงตัวของลักษณะที่ทำให้ Galton ละทิ้งความเป็นเหตุเป็นผล โดยการฟื้นฟูการถ่ายทอดทางพันธุกรรมแบบเมนเด[ 7 ]

ในปี พ.ศ. 2464 การวิเคราะห์เส้นทางของไรท์ กลาย เป็นต้นกำเนิดทางทฤษฎีของการสร้างแบบจำลองเชิงสาเหตุและกราฟเชิงสาเหตุ [ 8 ] เขาพัฒนาแนวทางนี้ในขณะที่พยายามแยกแยะผลกระทบสัมพัทธ์ของพันธุกรรมการพัฒนา และสิ่งแวดล้อมที่มีต่อ รูปแบบขน ของหนูตะเภาเขาได้สนับสนุนข้ออ้างที่ในขณะนั้นถือว่านอกรีตโดยแสดงให้เห็นว่าการวิเคราะห์ดังกล่าวสามารถอธิบายความสัมพันธ์ระหว่างน้ำหนักแรกเกิดของหนูตะเภา ระยะเวลา ในครรภ์และขนาดของครอกได้ การคัดค้านแนวคิดเหล่านี้โดยนักสถิติที่มีชื่อเสียงทำให้แนวคิดเหล่านี้ถูกละเลยไปเป็นเวลา 40 ปีต่อมา (ยกเว้นในหมู่นักเพาะพันธุ์สัตว์) นักวิทยาศาสตร์จึงหันมาใช้ความสัมพันธ์แทน ซึ่งส่วนหนึ่งเป็นไปตามคำแนะนำของนักวิจารณ์ของไรท์ (และนักสถิติชั้นนำ) อย่างฟิชเชอร์ [ 7 ] ข้อยกเว้นประการหนึ่งคือเบิร์กส์นักศึกษาที่ในปี พ.ศ. 2469 เป็นคนแรกที่ใช้แผนภาพเส้นทางเพื่อแสดงอิทธิพลที่เป็นตัวกลาง ( ตัวกลาง ) และยืนยันว่าการคงตัวกลางไว้จะทำให้เกิดข้อผิดพลาด เธออาจคิดค้นแผนภาพเส้นทางขึ้นเองโดยอิสระ[ 7 ] : 304

ในปี พ.ศ. 2466 เนย์แมนได้นำเสนอแนวคิดเรื่องผลลัพธ์ที่เป็นไปได้ แต่บทความของเขาไม่ได้ถูกแปลจากภาษาโปแลนด์เป็นภาษาอังกฤษจนกระทั่งปี พ.ศ. 2533 [ 7 ] : 271

ในปี พ.ศ. 2491 ค็อกซ์เตือนว่าการควบคุมตัวแปร Z นั้นใช้ได้เฉพาะในกรณีที่ไม่น่าจะได้รับผลกระทบจากตัวแปรอิสระเท่านั้น[ 7 ] : 154

ในช่วงทศวรรษ 1960 Duncan , Blalock , Goldbergerและคนอื่นๆ ได้ค้นพบการวิเคราะห์เส้นทางอีกครั้ง ขณะที่อ่านงานของ Blalock เกี่ยวกับแผนภาพเส้นทาง Duncan นึกถึงการบรรยายของOgburnเมื่อ 20 ปีก่อน ซึ่งกล่าวถึงบทความของ Wright ซึ่งกล่าวถึง Burks อีกที[ 7 ] : 308

เดิมทีนักสังคมวิทยาเรียกแบบจำลองเชิงสาเหตุว่าการสร้างแบบจำลองสมการโครงสร้างแต่เมื่อมันกลายเป็นวิธีการที่ท่องจำ มันก็สูญเสียประโยชน์ใช้สอยไป ทำให้ผู้ปฏิบัติงานบางคนปฏิเสธความสัมพันธ์ใดๆ กับความเป็นเหตุเป็นผล นักเศรษฐศาสตร์นำส่วนพีชคณิตของการวิเคราะห์เส้นทางมาใช้ โดยเรียกมันว่าการสร้างแบบจำลองสมการพร้อมกัน อย่างไรก็ตาม นักเศรษฐศาสตร์ยังคงหลีกเลี่ยงการให้ความหมายเชิงสาเหตุกับสมการของพวกเขา[ 7 ]

หกสิบปีหลังจากบทความแรกของเขา ไรท์ได้ตีพิมพ์บทความที่สรุปบทความนั้นอีกครั้ง โดยอ้างอิงจาก คำวิจารณ์ของ Karlinและคณะ ซึ่งคัดค้านว่าบทความนั้นจัดการเฉพาะความสัมพันธ์เชิงเส้นเท่านั้น และการนำเสนอข้อมูลที่แข็งแกร่งและปราศจากแบบจำลองจะให้ข้อมูลเชิงลึกมากกว่า[ 7 ]

ในปี พ.ศ. 2516 ลูอิสสนับสนุนให้แทนที่ความสัมพันธ์ด้วยสาเหตุเชิงสมมติ (counterfactuals) เขาอ้างถึงความสามารถของมนุษย์ในการจินตนาการถึงโลกทางเลือกที่สาเหตุเกิดขึ้นหรือไม่เกิดขึ้น และผลกระทบปรากฏขึ้นหลังจากสาเหตุเท่านั้น[ 7 ] : 266ในปี พ.ศ. 2517 รูบินได้นำเสนอแนวคิดเรื่อง "ผลลัพธ์ที่เป็นไปได้" เป็นภาษาสำหรับการตั้งคำถามเชิงสาเหตุ[ 7 ] : 269

ในปี พ.ศ. 2526 คาร์ทไรท์เสนอว่าปัจจัยใดๆ ที่ "มีความเกี่ยวข้องเชิงสาเหตุ" กับผลกระทบจะต้องได้รับการกำหนดเงื่อนไข โดยก้าวข้ามความน่าจะเป็นแบบง่ายๆ ที่เป็นแนวทางเพียงอย่างเดียว[ 7 ] : 48

ในปี พ.ศ. 2529 Baron และ Kenny ได้นำเสนอหลักการสำหรับการตรวจจับและประเมินการไกล่เกลี่ยในระบบสมการเชิงเส้นณ ปี พ.ศ. 2557 บทความของพวกเขามีการอ้างอิงมากที่สุดเป็นอันดับที่ 33 ตลอดกาล[ 7 ] : 324ในปีนั้นGreenlandและRobinsได้นำเสนอแนวทาง "การแลกเปลี่ยนได้" ในการจัดการกับตัวแปรแทรกซ้อนโดยพิจารณาถึงสถานการณ์สมมติ พวกเขาเสนอให้ประเมินว่าจะเกิดอะไรขึ้นกับกลุ่มทดลองหากพวกเขาไม่ได้รับการรักษา และเปรียบเทียบผลลัพธ์นั้นกับกลุ่มควบคุม หากตรงกัน ก็กล่าวได้ว่าไม่มีตัวแปรแทรกซ้อน[ 7 ] : 154

ลำดับขั้นของสาเหตุและผลลัพธ์

แบบจำลองเชิงสาเหตุของ Pearl เกี่ยวข้องกับนามธรรมสามระดับที่เขาเรียกว่าบันไดแห่งสาเหตุ ระดับต่ำสุดคือ การเชื่อมโยง (การมองเห็น/การสังเกต) ซึ่งเกี่ยวข้องกับการรับรู้ความสม่ำเสมอหรือรูปแบบในข้อมูลป้อนเข้า ซึ่งแสดงออกมาในรูปของความสัมพันธ์ ระดับกลางคือ การแทรกแซง (การกระทำ) ซึ่งทำนายผลของการกระทำโดยเจตนา ซึ่งแสดงออกมาในรูปของความสัมพันธ์เชิงสาเหตุ ระดับสูงสุดคือการสมมติ (การจินตนาการ) ซึ่งเกี่ยวข้องกับการสร้างทฤษฎีของโลก (บางส่วน) ที่อธิบายว่าเหตุใดการกระทำเฉพาะจึงมีผลกระทบเฉพาะ และจะเกิดอะไรขึ้นหากไม่มีการกระทำดังกล่าว[ 7 ]

สมาคม

วัตถุหนึ่งมีความสัมพันธ์กับอีกวัตถุหนึ่ง หากการสังเกตเห็นวัตถุหนึ่งเปลี่ยนแปลงความน่าจะเป็นของการสังเกตเห็นอีกวัตถุหนึ่ง ตัวอย่างเช่น ผู้ซื้อที่ซื้อยาสีฟันมีแนวโน้มที่จะซื้อไหมขัดฟันด้วยเช่นกัน ในทางคณิตศาสตร์:

หรือความน่าจะเป็นของการ (ซื้อ) ไหมขัดฟันเมื่อ (ซื้อ) ยาสีฟัน ความสัมพันธ์ยังสามารถวัดได้โดยการคำนวณความสัมพันธ์ของเหตุการณ์ทั้งสอง ความสัมพันธ์ไม่มีนัยยะเชิงสาเหตุ เหตุการณ์หนึ่งอาจเป็นสาเหตุของอีกเหตุการณ์หนึ่ง หรือในทางกลับกัน หรือทั้งสองเหตุการณ์อาจเกิดจากเหตุการณ์ที่สาม (เช่น พนักงานสุขอนามัยที่ไม่พอใจตำหนิผู้ซื้อให้ดูแลช่องปากของตนเองให้ดีขึ้น) [ 7 ]

การแทรกแซง

ระดับนี้ยืนยันความสัมพันธ์เชิงสาเหตุที่เฉพาะเจาะจงระหว่างเหตุการณ์ต่างๆ การประเมินความสัมพันธ์เชิงสาเหตุทำได้โดยการทดลองกระทำการบางอย่างที่ส่งผลต่อเหตุการณ์หนึ่ง ตัวอย่างเช่น หลังจากขึ้นราคายาสีฟันเป็นสองเท่า โอกาสในการซื้อยาสีฟันใหม่จะเป็นเท่าใด ไม่สามารถพิสูจน์ความสัมพันธ์เชิงสาเหตุได้โดยการตรวจสอบประวัติ (ของการเปลี่ยนแปลงราคา) เพราะการเปลี่ยนแปลงราคาอาจเกิดจากสาเหตุอื่นที่อาจส่งผลกระทบต่อเหตุการณ์ที่สองได้ (เช่น ภาษีที่ทำให้ราคาสินค้าทั้งสองชนิดสูงขึ้น) ในทางคณิตศาสตร์:

โดยที่doเป็นตัวดำเนินการที่ส่งสัญญาณการแทรกแซงเชิงทดลอง (เพิ่มราคาเป็นสองเท่า) [ 7 ]ตัวดำเนินการนี้บ่งชี้ถึงการดำเนินการเปลี่ยนแปลงขั้นต่ำในโลกที่จำเป็นต่อการสร้างผลที่ต้องการ ซึ่งเป็น "การผ่าตัดขนาดเล็ก" บนแบบจำลองโดยมีการเปลี่ยนแปลงจากความเป็นจริงให้น้อยที่สุดเท่าที่จะเป็นไปได้[ 9 ]

ข้อสมมติฐานที่ตรงกันข้าม

ระดับสูงสุด คือ การพิจารณาสถานการณ์สมมติที่แตกต่างออกไป ซึ่งเกี่ยวข้องกับการพิจารณาเหตุการณ์ในอดีตในรูปแบบอื่น หรือสิ่งที่อาจเกิดขึ้นภายใต้สถานการณ์ที่แตกต่างกันสำหรับหน่วยทดลองเดียวกัน ตัวอย่างเช่น ความน่าจะเป็นที่หากร้านค้าขึ้นราคาไหมขัดฟันเป็นสองเท่า ผู้ซื้อยาสีฟันจะยังคงซื้อไหมขัดฟันอยู่หรือไม่

สถานการณ์สมมติสามารถบ่งชี้ถึงการมีอยู่ของความสัมพันธ์เชิงสาเหตุได้ แบบจำลองที่สามารถตอบคำถามสถานการณ์สมมติได้นั้นช่วยให้สามารถแทรกแซงได้อย่างแม่นยำซึ่งสามารถคาดการณ์ผลลัพธ์ได้ ในกรณีสุดขั้ว แบบจำลองดังกล่าวได้รับการยอมรับว่าเป็นกฎทางฟิสิกส์ (เช่นเดียวกับกฎทางฟิสิกส์ เช่น กฎความเฉื่อย ซึ่งกล่าวว่าหากไม่มีแรงกระทำต่อวัตถุที่อยู่นิ่ง วัตถุนั้นจะไม่เคลื่อนที่) [ 7 ]

ความเป็นเหตุเป็นผล

ความสัมพันธ์เชิงสาเหตุกับความสัมพันธ์เชิงสหสัมพันธ์

สถิติเกี่ยวข้องกับการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรหลายตัว โดยทั่วไป ความสัมพันธ์เหล่านี้จะถูกอธิบายว่าเป็นความสัมพันธ์เชิงสหสัมพันธ์ ซึ่งเป็นการเชื่อมโยงโดยไม่มีความสัมพันธ์เชิงสาเหตุโดยนัย แบบจำลองเชิงสาเหตุพยายามขยายกรอบนี้โดยเพิ่มแนวคิดเรื่องความสัมพันธ์เชิงสาเหตุ ซึ่งการเปลี่ยนแปลงในตัวแปรหนึ่งจะทำให้เกิดการเปลี่ยนแปลงในตัวแปรอื่น[ 2 ]

นิยามของความเป็นเหตุเป็นผล ในศตวรรษที่ 20 อาศัยเพียงความน่าจะเป็น/ความสัมพันธ์เท่านั้น กล่าวกันว่าเหตุการณ์หนึ่ง ( ) ก่อให้เกิดอีกเหตุการณ์หนึ่งหากความน่าจะเป็นของอีกเหตุการณ์หนึ่งเพิ่มขึ้น ( ) ในทางคณิตศาสตร์สามารถแสดงได้ดังนี้:

.

คำจำกัดความดังกล่าวไม่เพียงพอเนื่องจากความสัมพันธ์อื่นๆ (เช่น สาเหตุร่วมกันสำหรับและ) สามารถตอบสนองเงื่อนไขได้ ความเป็นเหตุเป็นผลมีความเกี่ยวข้องกับขั้นบันไดขั้นที่สอง ความสัมพันธ์อยู่ในขั้นแรกและให้หลักฐานเฉพาะกับขั้นหลังเท่านั้น[ 7 ]

นิยามในภายหลังพยายามแก้ไขความกำกวมนี้โดยพิจารณาจากปัจจัยพื้นฐาน ในทางคณิตศาสตร์:

,

โดยที่ชุดตัวแปรพื้นหลังแสดงถึงค่าของตัวแปรเหล่านั้นในบริบทเฉพาะ อย่างไรก็ตาม ชุดตัวแปรพื้นหลังที่ต้องการนั้นไม่สามารถระบุได้ (ชุดหลายชุดอาจเพิ่มความน่าจะเป็น) ตราบใดที่ความน่าจะเป็นเป็นเกณฑ์เดียว[ 7 ]

ความพยายามอื่นๆ ในการกำหนดความเป็นเหตุเป็นผล ได้แก่ความเป็นเหตุเป็นผลแบบ Grangerซึ่งเป็นการทดสอบสมมติฐานทางสถิติที่ ประเมิน ความเป็นเหตุเป็นผล (ในทางเศรษฐศาสตร์ ) โดยการวัดความสามารถในการทำนายค่าในอนาคตของอนุกรมเวลา หนึ่ง โดยใช้ค่าก่อนหน้าของอนุกรมเวลาอื่น[ 7 ]

ประเภท

สาเหตุอาจเป็นสิ่งจำเป็น เพียงพอ มีส่วนสนับสนุนหรือเป็นการผสมผสานกัน[ 10 ]

จำเป็น

เพื่อให้xเป็นสาเหตุที่จำเป็นของyการมีอยู่ของyจะต้องบ่งชี้ถึงการเกิดขึ้นก่อนหน้าของx อย่างไรก็ตาม การมีอยู่ของxไม่ได้หมายความว่าy จะเกิดขึ้น[ 11 ]สาเหตุที่จำเป็นยังเป็นที่รู้จักในชื่อสาเหตุ "แต่ถ้าหาก" เช่นyจะไม่เกิดขึ้นหากปราศจากการเกิดขึ้นของx [ 7 ] : 261

สาเหตุที่เพียงพอ

เพื่อให้xเป็นสาเหตุที่เพียงพอของyการมีอยู่ของxจะต้องบ่งชี้ถึงการเกิดขึ้นของy ในภายหลัง อย่างไรก็ตาม สาเหตุอื่นzอาจทำให้เกิดy ได้โดยอิสระ ดังนั้นการมีอยู่ของyไม่จำเป็นต้องมีการเกิดขึ้นของx มา ก่อน[ 11 ]

สาเหตุที่มีส่วนร่วม

เพื่อให้xเป็นสาเหตุสนับสนุนของyการมีอยู่ของxจะต้องเพิ่มความน่าจะเป็นของyหากความน่าจะเป็นเป็น 100% xจะถูกเรียกว่าเพียงพอแทน สาเหตุสนับสนุนอาจเป็นสิ่งจำเป็นก็ได้[ 12 ]

แบบอย่าง

แผนภาพเชิงสาเหตุ

แผนภาพเชิงสาเหตุคือกราฟแบบมีทิศทางที่แสดง ความสัมพันธ์ เชิงสาเหตุระหว่างตัวแปรในแบบจำลองเชิงสาเหตุ แผนภาพเชิงสาเหตุประกอบด้วยชุดของตัวแปร (หรือโหนด ) แต่ละโหนดเชื่อมต่อด้วยลูกศรไปยังโหนดอื่นตั้งแต่หนึ่งโหนดขึ้นไปซึ่งมีอิทธิพลเชิงสาเหตุต่อกัน หัวลูกศรแสดงทิศทางของความเป็นเหตุเป็นผล เช่น ลูกศรที่เชื่อมต่อตัวแปร x และ y โดยมีหัวลูกศรอยู่ที่ x แสดงว่าการเปลี่ยนแปลงใน x ทำให้เกิดการเปลี่ยนแปลงใน x (โดยมีความน่าจะเป็นที่เกี่ยวข้อง) เส้นทางคือการเดินทางผ่านกราฟระหว่างสองโหนดตามลูกศรเชิงสาเหตุ[ 7 ]

แผนภาพเชิงสาเหตุประกอบด้วยแผนภาพวงวนเชิงสาเหตุกราฟแบบไม่มีวงจรทิศทางและแผนภาพอิชิกาวะ[ 7 ]

แผนภาพเชิงสาเหตุเป็นอิสระจากความน่าจะเป็นเชิงปริมาณที่แจ้งให้ทราบ การเปลี่ยนแปลงความน่าจะเป็นเหล่านั้น (เช่น เนื่องจากการปรับปรุงทางเทคโนโลยี) ไม่จำเป็นต้องเปลี่ยนแปลงแบบจำลอง[ 7 ]

องค์ประกอบของแบบจำลอง

แบบจำลองเชิงสาเหตุมีโครงสร้างที่เป็นทางการพร้อมองค์ประกอบที่มีคุณสมบัติเฉพาะ[ 7 ]

รูปแบบจุดเชื่อมต่อ

การเชื่อมต่อสามประเภทของโหนดสามโหนด ได้แก่ โซ่เชิงเส้น ส้อมแยกสาขา และตัวชนที่รวมกัน[ 7 ]

โซ่

โซ่คือการเชื่อมต่อเส้นตรงที่มีลูกศรชี้จากสาเหตุไปสู่ผล ในแบบจำลองนี้เป็นตัวกลางที่ทำหน้าที่ไกล่เกลี่ยการเปลี่ยนแปลงที่อาจเกิดขึ้นกับ[ 7 ] : 113

ส้อม

ในการแยกสาขา สาเหตุหนึ่งมีผลหลายอย่าง ผลทั้งสองมีสาเหตุร่วมกัน มีความสัมพันธ์ที่ผิดพลาด (ไม่ใช่สาเหตุ) ระหว่างและที่สามารถกำจัดได้โดยการกำหนดเงื่อนไขบน(สำหรับค่าเฉพาะของ) [ 7 ] : 114

"การกำหนดเงื่อนไขโดย" หมายถึง "กำหนดให้" (เช่น กำหนดค่าของ มาให้)

การขยายความของส้อมเป็นปัจจัยที่ทำให้เกิดความสับสน:

ในแบบจำลองดังกล่าวเป็นสาเหตุทั่วไปของและ(ซึ่งก่อให้เกิด ด้วยเช่นกัน) ทำให้เกิดตัวแปรแทรกซ้อน[ 7 ] : 114

เครื่องชน

ในคอลไลเดอร์สาเหตุหลายประการส่งผลต่อผลลัพธ์เดียว การกำหนดเงื่อนไข(สำหรับค่าเฉพาะของ) มักจะเผยให้เห็นความสัมพันธ์เชิงลบที่ไม่ใช่สาเหตุระหว่างและความสัมพันธ์เชิงลบนี้เรียกว่าอคติคอลไลเดอร์และผลกระทบ "อธิบายได้" เนื่องจากอธิบายความสัมพันธ์ระหว่างและ[ 7 ] : 115 ความสัมพันธ์อาจเป็นบวกในกรณีที่การมีส่วนร่วมจากทั้งและจำเป็นต่อการส่งผลต่อ[ 7 ] : 197

ประเภทโหนด

ผู้ไกล่เกลี่ย

โหนดตัวกลางจะปรับเปลี่ยนผลกระทบของสาเหตุอื่นๆ ที่มีต่อผลลัพธ์ (ตรงข้ามกับการส่งผลกระทบต่อผลลัพธ์โดยตรง) [ 7 ] : 113ตัวอย่างเช่น ในตัวอย่างลูกโซ่ข้างต้นเป็นตัวกลาง เพราะมันปรับเปลี่ยนผลกระทบของ(สาเหตุทางอ้อมของ) ที่มีต่อ(ผลลัพธ์)

ตัวแปรแทรกซ้อน

โหนดตัวแปรแทรกซ้อนส่งผลต่อผลลัพธ์หลายอย่าง ทำให้เกิดความสัมพันธ์เชิงบวกระหว่างกัน[ 7 ] : 114

ตัวแปรเครื่องมือ

ตัวแปรเครื่องมือคือตัวแปรที่: [ 7 ] : 246

  • มีเส้นทางไปสู่ผลลัพธ์;
  • ไม่มีเส้นทางอื่นใดที่จะนำไปสู่ตัวแปรเชิงสาเหตุได้
  • ไม่มีอิทธิพลโดยตรงต่อผลลัพธ์

สัมประสิทธิ์การถดถอยสามารถใช้เป็นค่าประมาณของผลกระทบเชิงสาเหตุของตัวแปรเครื่องมือต่อผลลัพธ์ได้ ตราบใดที่ผลกระทบนั้นไม่ถูกรบกวน ด้วยวิธีนี้ ตัวแปรเครื่องมือช่วยให้สามารถวัดปริมาณปัจจัยเชิงสาเหตุได้โดยไม่ต้องมีข้อมูลเกี่ยวกับตัวแปรรบกวน[ 7 ] : 249

ตัวอย่างเช่น เมื่อพิจารณาแบบจำลองดังต่อไปนี้:

เป็นตัวแปรเครื่องมือ เนื่องจากมีเส้นทางไปสู่ผลลัพธ์และไม่มีตัวแปรแทรกซ้อน เช่น ตัวแปรอื่น

ในตัวอย่างข้างต้น ถ้าและรับค่าไบนารี สมมติฐานที่ว่าไม่เกิดขึ้น เรียกว่าความเป็นเอกรูป[ 7 ] : 253

การปรับปรุงเทคนิคนี้รวมถึงการสร้างเครื่องมือโดยการปรับเงื่อนไขตัวแปรอื่นเพื่อปิดกั้นเส้นทางระหว่างเครื่องมือและตัวแปรแทรกซ้อน และการรวมตัวแปรหลายตัวเพื่อสร้างเครื่องมือเดียว[ 7 ] : 257

การสุ่มแบบเมนเดล

คำจำกัดความ: การสุ่มแบบเมนเดลใช้การวัดความแปรผันในยีนที่มีหน้าที่ที่ทราบเพื่อตรวจสอบผลกระทบเชิงสาเหตุของการสัมผัสที่ปรับเปลี่ยนได้ต่อโรคในการศึกษาเชิงสังเกต[ 13 ] [ 14 ]

เนื่องจากยีนมีความแปรผันแบบสุ่มในประชากร การมีอยู่ของยีนจึงมักถือเป็นตัวแปรเครื่องมือ ซึ่งหมายความว่าในหลายกรณี ความเป็นเหตุเป็นผลสามารถวัดปริมาณได้โดยใช้การถดถอยในการศึกษาเชิงสังเกต[ 7 ] : 255

สมาคม

เงื่อนไขความเป็นอิสระ

เงื่อนไขความเป็นอิสระคือหลักเกณฑ์ในการตัดสินว่าตัวแปรสองตัวเป็นอิสระต่อกันหรือไม่ ตัวแปรจะเป็นอิสระต่อกันหากค่าของตัวแปรหนึ่งไม่ส่งผลกระทบโดยตรงต่อค่าของอีกตัวแปรหนึ่ง แบบจำลองเชิงสาเหตุหลายแบบสามารถใช้เงื่อนไขความเป็นอิสระร่วมกันได้ ตัวอย่างเช่น แบบจำลองต่างๆ

และ

ทั้งสองแบบจำลอง มีเงื่อนไขความเป็นอิสระเหมือนกัน เนื่องจากมีการกำหนดเงื่อนไขที่ใบไม้และตัวแปรอิสระ อย่างไรก็ตาม แบบจำลองทั้งสองไม่ได้มีความหมายเหมือนกัน และสามารถพิสูจน์ได้ว่าผิดโดยอาศัยข้อมูล (กล่าวคือ หากข้อมูลจากการสังเกตแสดงให้เห็นความสัมพันธ์ระหว่างตัวแปรและหลังจากกำหนดเงื่อนไขที่ใบไม้แล้ว แบบจำลองทั้งสองก็จะไม่ถูกต้อง) ในทางกลับกัน ข้อมูลไม่สามารถแสดงได้ว่าแบบจำลองใดถูกต้อง เนื่องจากมีเงื่อนไขความเป็นอิสระเหมือนกัน

การกำหนดเงื่อนไขบนตัวแปรเป็นกลไกสำหรับการทำการทดลองสมมติฐาน การกำหนดเงื่อนไขบนตัวแปรเกี่ยวข้องกับการวิเคราะห์ค่าของตัวแปรอื่น ๆ สำหรับค่าที่กำหนดของตัวแปรที่กำหนด ในตัวอย่างแรก การกำหนดเงื่อนไขบนตัวแปรหมายความว่าการสังเกตสำหรับค่าที่กำหนดของตัวแปรควรจะไม่แสดงความสัมพันธ์ระหว่างตัวแปรและตัวแปร หากมีความสัมพันธ์ดังกล่าว แสดงว่าแบบจำลองไม่ถูกต้อง แบบจำลองที่ไม่ใช่เชิงสาเหตุไม่สามารถแยกแยะความแตกต่างดังกล่าวได้ เนื่องจากแบบจำลองเหล่านี้ไม่ได้ยืนยันถึงสาเหตุ[ 7 ] : 129–130

ตัวแปรแทรกซ้อน/ตัวแปรขจัดตัวแปรแทรกซ้อน

องค์ประกอบสำคัญของการออกแบบการศึกษาเชิงสหสัมพันธ์คือการระบุอิทธิพลที่อาจก่อให้เกิดความสับสนต่อตัวแปรที่กำลังศึกษา เช่น ข้อมูลประชากร ตัวแปรเหล่านี้จะถูกควบคุมเพื่อขจัดอิทธิพลเหล่านั้น อย่างไรก็ตาม ไม่สามารถกำหนดรายการตัวแปรที่ก่อให้เกิดความสับสนที่ถูกต้องได้ล่วงหน้าดังนั้นจึงเป็นไปได้ที่การศึกษาอาจควบคุมตัวแปรที่ไม่เกี่ยวข้องหรือแม้กระทั่ง (ทางอ้อม) ตัวแปรที่กำลังศึกษา[ 7 ] : 139

แบบจำลองเชิงสาเหตุเป็นเทคนิคที่มีประสิทธิภาพในการระบุตัวแปรแทรกซ้อนที่เหมาะสม ในทางคณิตศาสตร์ Z ถือเป็นตัวแปรแทรกซ้อนหาก "Y มีความสัมพันธ์กับ Z ผ่านเส้นทางที่ไม่ผ่าน X" ซึ่งมักจะสามารถระบุได้โดยใช้ข้อมูลที่รวบรวมจากงานวิจัยอื่น ๆ ในทางคณิตศาสตร์ ถ้า

X และ Y สับสนกัน (โดยตัวแปรที่ทำให้เกิดความสับสน Z บางตัว) [ 7 ] : 151

ก่อนหน้านี้ คำจำกัดความที่ไม่ถูกต้องของตัวแปรแทรกซ้อน ได้แก่: [ 7 ] : 152

  • "ตัวแปรใดๆ ที่มีความสัมพันธ์กับทั้ง X และ Y"
  • Y มีความสัมพันธ์กับ Z ในกลุ่มที่ไม่ได้รับสารสัมผัส
  • ความไม่สามารถยุบรวมได้: ความแตกต่างระหว่าง " ความเสี่ยงสัมพัทธ์ ดิบ และความเสี่ยงสัมพัทธ์ที่ได้หลังจากปรับค่าสำหรับตัวแปรแทรกซ้อนที่อาจเกิดขึ้น"
  • ระบาดวิทยา: ตัวแปรที่เกี่ยวข้องกับ X ในประชากรโดยรวม และเกี่ยวข้องกับ Y ในกลุ่มคนที่ไม่ได้สัมผัสกับ X

วิธีหลังนั้นมีข้อบกพร่อง เนื่องจากในแบบจำลองนั้น:

Z ตรงกับคำจำกัดความ แต่เป็นตัวแปรสื่อกลาง ไม่ใช่ตัวแปรแทรกซ้อน และเป็นตัวอย่างของการควบคุมผลลัพธ์

ในแบบจำลอง

ตามธรรมเนียมแล้ว B ถือเป็นตัวแปรแทรกซ้อน เนื่องจากมีความสัมพันธ์กับ X และ Y แต่ไม่ได้อยู่บนเส้นทางเชิงสาเหตุหรือเป็นผลลัพธ์จากสิ่งใดๆ บนเส้นทางเชิงสาเหตุ การควบคุม B ทำให้ B กลายเป็นตัวแปรแทรกซ้อน ซึ่งเรียกว่า M-bias [ 7 ] : 161

การปรับแต่งประตูหลัง

สำหรับการวิเคราะห์ผลเชิงสาเหตุของ X ต่อ Y ในแบบจำลองเชิงสาเหตุ ตัวแปรที่ทำให้เกิดความสับสนทั้งหมดจะต้องได้รับการพิจารณา (การกำจัดความสับสน) เพื่อระบุชุดของตัวแปรที่ทำให้เกิดความสับสน (1) เส้นทางที่ไม่ใช่สาเหตุทุกเส้นทางระหว่าง X และ Y จะต้องถูกปิดกั้นโดยชุดนี้ (2) โดยไม่รบกวนเส้นทางเชิงสาเหตุใดๆ และ (3) โดยไม่สร้างเส้นทางปลอมใดๆ[ 7 ] : 158

คำจำกัดความ : เส้นทางลัดจากตัวแปร X ไปยัง Y คือเส้นทางใดๆ จาก X ไปยัง Y ที่เริ่มต้นด้วยลูกศรชี้ไปที่ X [ 7 ] : 158

นิยาม : เมื่อกำหนดคู่ลำดับของตัวแปร (X,Y) ในแบบจำลอง ชุดของตัวแปรแทรกซ้อน Z จะเป็นไปตามเกณฑ์ประตูหลังหาก (1) ไม่มีตัวแปรแทรกซ้อน Z ใดเป็นลูกหลานของ X และ (2) เส้นทางประตูหลังทั้งหมดระหว่าง X และ Y ถูกปิดกั้นโดยชุดของตัวแปรแทรกซ้อน

หากตรงตามเกณฑ์ backdoor สำหรับ (X,Y) X และ Y จะถูกแยกออกจากตัวแปรแทรกซ้อนโดยชุดตัวแปรแทรกซ้อน ไม่จำเป็นต้องควบคุมตัวแปรอื่นใดนอกจากตัวแปรแทรกซ้อน[ 7 ] : 158เกณฑ์ backdoor เป็นเงื่อนไขที่เพียงพอแต่ไม่จำเป็นในการค้นหาชุดตัวแปร Z เพื่อแยกการวิเคราะห์ผลกระทบเชิงสาเหตุของ X ต่อ y ออกจากตัวแปรแทรกซ้อน

เมื่อแบบจำลองเชิงสาเหตุเป็นการแสดงความเป็นจริงที่สมเหตุสมผลและตรงตามเกณฑ์ประตูหลัง สัมประสิทธิ์การถดถอยบางส่วนสามารถใช้เป็นสัมประสิทธิ์เส้นทาง (เชิงสาเหตุ) (สำหรับความสัมพันธ์เชิงเส้น) [ 7 ] : 223 [ 15 ]

[ 7 ] : 227

การปรับแต่งประตูหน้า

หากองค์ประกอบของเส้นทางปิดกั้นทั้งหมดไม่สามารถสังเกตได้ เส้นทางลับจะไม่สามารถคำนวณได้ แต่หากเส้นทางไปข้างหน้าทั้งหมดจากมีองค์ประกอบที่ไม่มีเส้นทางเปิดเชื่อมต่ออยู่แล้วเซตของ ทั้งหมดสามารถวัดได้โดยพื้นฐานแล้ว มีเงื่อนไขที่สามารถทำหน้าที่เป็นตัวแทนของได้

คำจำกัดความ : เส้นทาง frontdoor คือเส้นทางเชิงสาเหตุโดยตรงที่ข้อมูลพร้อมใช้งานสำหรับทุกคน[ 7 ] : 226 สกัดกั้นเส้นทางที่มีทิศทางทั้งหมดไปยังไม่มีเส้นทางที่ไม่ถูกปิดกั้นจากไปยังและเส้นทาง backdoor ทั้งหมดจากไป ยัง ถูกปิดกั้นโดย[ 16 ]

ต่อไปนี้เป็นการแปลงนิพจน์ do ให้เป็นนิพจน์ do-free โดยกำหนดเงื่อนไขตามตัวแปรตามเส้นทางประตูหน้า[ 7 ] : 226

หากสมมติว่ามีข้อมูลสำหรับความน่าจะเป็นที่สังเกตได้เหล่านี้ ความน่าจะเป็นขั้นสุดท้ายสามารถคำนวณได้โดยไม่ต้องทำการทดลอง โดยไม่คำนึงถึงการมีอยู่ของเส้นทางรบกวนอื่นๆ และไม่ต้องปรับแก้แบบ backdoor [ 7 ] : 226

การแทรกแซง

คำถาม

คำถามคือคำถามที่ถามโดยอิงจากแบบจำลองเฉพาะ โดยทั่วไปจะได้รับคำตอบผ่านการทำการทดลอง (การแทรกแซง) การแทรกแซงมีรูปแบบเป็นการกำหนดค่าของตัวแปรหนึ่งในแบบจำลองและสังเกตผลลัพธ์ ในทางคณิตศาสตร์ คำถามดังกล่าวมีรูปแบบดังนี้ (จากตัวอย่าง): [ 7 ] : 8

โดยที่ ตัวดำเนินการ doบ่งชี้ว่าการทดลองได้ปรับเปลี่ยนราคาของยาสีฟันอย่างชัดเจน ในทางกราฟิก สิ่งนี้จะปิดกั้นปัจจัยเชิงสาเหตุใดๆ ที่อาจส่งผลต่อตัวแปรนั้น ในทางแผนภาพ สิ่งนี้จะลบลูกศรเชิงสาเหตุทั้งหมดที่ชี้ไปยังตัวแปรการทดลอง[ 7 ] : 40

สามารถทำการค้นหาข้อมูลที่ซับซ้อนกว่านี้ได้ โดยใช้ตัวดำเนินการ do (โดยกำหนดค่าคงที่) กับตัวแปรหลายตัว

การกระจายแบบแทรกแซง

ทำแคลคูลัส

แคลคูลัส do คือชุดของการดำเนินการที่มีอยู่เพื่อแปลงนิพจน์หนึ่งไปเป็นอีกนิพจน์หนึ่ง โดยมีเป้าหมายทั่วไปคือการแปลงนิพจน์ที่มีตัวดำเนินการ do ไปเป็นนิพจน์ที่ไม่มีตัวดำเนินการ do นิพจน์ที่ไม่มีตัวดำเนินการ do สามารถประมาณได้จากข้อมูลการสังเกตเพียงอย่างเดียว โดยไม่จำเป็นต้องมีการแทรกแซงเชิงทดลอง ซึ่งอาจมีราคาแพง ใช้เวลานาน หรือแม้กระทั่งผิดจริยธรรม (เช่น การขอให้ผู้ถูกทดลองสูบบุหรี่) [ 7 ] : 231ชุดของกฎนั้นสมบูรณ์ (สามารถใช้เพื่ออนุมานข้อความที่เป็นจริงทุกข้อความในระบบนี้ได้) [ 7 ] : 237อัลกอริทึมสามารถกำหนดได้ว่าสำหรับแบบจำลองที่กำหนด วิธีแก้ปัญหาสามารถคำนวณได้ในเวลาพหุนาม หรือ ไม่[ 7 ] : 238

กฎ

แคลคูลัสนี้ประกอบด้วยกฎสามข้อสำหรับการแปลง นิพจน์ ความน่าจะเป็นแบบมีเงื่อนไขที่เกี่ยวข้องกับตัวดำเนินการ do

กฎข้อที่ 1

กฎข้อที่ 1 อนุญาตให้เพิ่มหรือลบข้อสังเกตได้: [ 7 ] : 235

ในกรณีที่ชุดตัวแปร Z บล็อกเส้นทางทั้งหมดจาก W ไปยัง Y และลูกศรทั้งหมดที่นำไปสู่ ​​X ถูกลบออก[ 7 ] : 234

กฎข้อที่ 2

กฎข้อที่ 2 อนุญาตให้เปลี่ยนการแทรกแซงเป็นการสังเกตหรือในทางกลับกัน: [ 7 ] : 235

ในกรณีที่ Z ตรงตามเกณฑ์ประตูหลัง[ 7 ] : 234

กฎข้อที่ 3

กฎข้อที่ 3 อนุญาตให้ลบหรือเพิ่มการแทรกแซงได้: [ 7 ]

ในกรณีที่ไม่มีเส้นทางเชิงสาเหตุเชื่อมโยง X และ Y [ 7 ] : 234 : 235

ส่วนขยาย

กฎไม่ได้หมายความว่าแบบสอบถามใดๆ จะสามารถลบตัวดำเนินการ do ออกได้ ในกรณีเหล่านั้น อาจเป็นไปได้ที่จะแทนที่ตัวแปรที่สามารถเปลี่ยนแปลงได้ (เช่น อาหาร) ด้วยตัวแปรที่ไม่สามารถเปลี่ยนแปลงได้ (เช่น คอเลสเตอรอลในเลือด) จากนั้นจึงแปลงตัวแปรนั้นเพื่อลบตัวดำเนินการ do ออก ตัวอย่าง:

ข้อสมมติฐานที่ตรงกันข้าม

สมมติฐานเชิงสมมติพิจารณาความเป็นไปได้ที่ไม่มีอยู่ในข้อมูล เช่น คนที่ไม่สูบบุหรี่จะป่วยเป็นมะเร็งหรือไม่ หากพวกเขาเป็นผู้สูบบุหรี่จัด สมมติฐานเหล่านี้เป็นขั้นสูงสุดในบันไดแห่งเหตุและผลตามแนวคิดของเพิร์ล

ผลลัพธ์ที่เป็นไปได้

คำจำกัดความ: ผลลัพธ์ที่เป็นไปได้สำหรับตัวแปร Y คือ "ค่า Y ที่จะได้รับสำหรับบุคคลuหาก X ได้รับค่า x" ทางคณิตศาสตร์: [ 7 ] : 270

หรือ.

ผลลัพธ์ที่เป็นไปได้ถูกกำหนดไว้ในระดับของแต่ละบุคคลu [ 7 ] : 270

แนวทางแบบดั้งเดิมสำหรับผลลัพธ์ที่เป็นไปได้นั้นขับเคลื่อนด้วยข้อมูล ไม่ใช่แบบจำลอง ซึ่งจำกัดความสามารถในการแยกแยะความสัมพันธ์เชิงสาเหตุ โดยถือว่าคำถามเชิงสาเหตุเป็นปัญหาของข้อมูลที่ขาดหายไปและให้คำตอบที่ไม่ถูกต้องแม้แต่กับสถานการณ์มาตรฐาน[ 7 ] : 275

การอนุมานเชิงสาเหตุ

ในบริบทของแบบจำลองเชิงสาเหตุ ผลลัพธ์ที่เป็นไปได้จะถูกตีความในเชิงสาเหตุ มากกว่าในเชิงสถิติ

กฎข้อแรกของการอนุมานเชิงสาเหตุระบุว่า ผลลัพธ์ที่เป็นไปได้

สามารถคำนวณได้โดยการปรับเปลี่ยนแบบจำลองเชิงสาเหตุ M (โดยการลบลูกศรเข้าไปใน X) และคำนวณผลลัพธ์สำหรับx บางค่า อย่างเป็นทางการ: [ 7 ] : 280

ดำเนินการวิเคราะห์สถานการณ์สมมติ

การตรวจสอบสมมติฐานย้อนกลับโดยใช้แบบจำลองเชิงสาเหตุประกอบด้วยสามขั้นตอน[ 17 ]วิธีการนี้ใช้ได้ไม่ว่าความสัมพันธ์ของแบบจำลองจะเป็นแบบเชิงเส้นหรือแบบอื่น เมื่อความสัมพันธ์ของแบบจำลองถูกระบุอย่างครบถ้วนแล้ว สามารถคำนวณค่าจุดได้ ในกรณีอื่นๆ (เช่น เมื่อมีเพียงความน่าจะเป็นเท่านั้น) สามารถคำนวณข้อความช่วงความน่าจะเป็นได้ เช่น ผู้ไม่สูบบุหรี่xจะมีโอกาสเป็นมะเร็ง 10-20% [ 7 ] : 279

จากแบบจำลองที่กำหนด:

สามารถใช้ สมการในการคำนวณค่า A และ C ที่ได้จากการวิเคราะห์การถดถอยหรือเทคนิคอื่น โดยแทนที่ค่าที่ทราบจากการสังเกตและกำหนดค่าของตัวแปรอื่น (สมมติฐานย้อนกลับ) [ 7 ] : 278

ลักพาตัว

ใช้ การให้ เหตุผลแบบอุปนัย ( การอนุมานเชิงตรรกะที่ใช้การสังเกตเพื่อหาคำอธิบายที่ง่ายที่สุด/น่าจะเป็นไปได้มากที่สุด) เพื่อประมาณค่าuซึ่งเป็นตัวแทนของตัวแปรที่ไม่สามารถสังเกตได้ในการสังเกตเฉพาะที่สนับสนุนข้อเท็จจริงที่ตรงกันข้าม[ 7 ] : 278คำนวณความน่าจะเป็นของuเมื่อพิจารณาจากหลักฐานเชิงประพจน์

กระทำ

สำหรับการสังเกตเฉพาะ ให้ใช้ตัวดำเนินการ do เพื่อสร้างสมมติฐานย้อนกลับ (เช่นm = 0) โดยปรับเปลี่ยนสมการตามนั้น[ 7 ] : 278

ทำนาย

คำนวณค่าของเอาต์พุต ( y ) โดยใช้สมการที่แก้ไขแล้ว[ 7 ] : 278

การไกล่เกลี่ย

สาเหตุโดยตรงและโดยอ้อม (ผ่านตัวกลาง) สามารถแยกแยะได้โดยการทำสมมติฐานย้อนกลับเท่านั้น[ 7 ] : 301การทำความเข้าใจการไกล่เกลี่ยจำเป็นต้องคงตัวกลางไว้ในขณะที่แทรกแซงสาเหตุโดยตรง ในแบบจำลอง

M เป็นตัวกลางที่ส่งอิทธิพลของ X ต่อ Y ในขณะที่ X ก็มีผลกระทบต่อ Y โดยตรงเช่นกัน ดังนั้น M จึงคงที่ ในขณะที่ do(X) ถูกคำนวณ

ความผิดพลาดในการไกล่เกลี่ย (Mediation Fallacy) เกี่ยวข้องกับการพิจารณาตัวแปรไกล่เกลี่ย หากตัวแปรไกล่เกลี่ยและผลลัพธ์มีความสัมพันธ์กัน ดังเช่นในแบบจำลองข้างต้น

สำหรับแบบจำลองเชิงเส้น ผลกระทบทางอ้อมสามารถคำนวณได้โดยการคูณค่าสัมประสิทธิ์เส้นทางทั้งหมดตามเส้นทางที่เป็นตัวกลาง ผลกระทบทางอ้อมทั้งหมดคำนวณได้จากผลรวมของผลกระทบทางอ้อมแต่ละรายการ สำหรับแบบจำลองเชิงเส้น การระบุการเป็นตัวกลางจะเกิดขึ้นเมื่อค่าสัมประสิทธิ์ของสมการที่เหมาะสมโดยไม่รวมตัวกลางแตกต่างอย่างมีนัยสำคัญจากสมการที่รวมตัวกลางไว้[ 7 ] : 324

ผลกระทบโดยตรง

ในการทดลองเกี่ยวกับแบบจำลองดังกล่าว ผลกระทบโดยตรงที่ควบคุมได้ (CDE) จะถูกคำนวณโดยการบังคับค่าของตัวกลาง M (do(M = 0)) และสุ่มจัดสรรผู้ถูกทดลองบางส่วนให้กับแต่ละค่าของ X (do(X=0), do(X=1), ...) และสังเกตค่า Y ที่ได้[ 7 ] : 317

แต่ละค่าของตัวกลางจะมีค่า CDE ที่สอดคล้องกัน

อย่างไรก็ตาม การทดลองที่ดีกว่าคือการคำนวณผลโดยตรงตามธรรมชาติ (NDE) ซึ่งเป็นผลที่กำหนดโดยการปล่อยให้ความสัมพันธ์ระหว่าง X และ M ไม่เปลี่ยนแปลง ในขณะที่เข้าไปแทรกแซงความสัมพันธ์ระหว่าง X และ Y [ 7 ] : 318

ตัวอย่างเช่น พิจารณาผลโดยตรงของการเพิ่มความถี่ ในการไปพบ ทันตสุขาภิบาล (X) จากทุกๆ สองปี เป็นทุกปี ซึ่งกระตุ้นให้มีการใช้ไหมขัดฟัน (M) เหงือก (Y) จะมีสุขภาพดีขึ้น ไม่ว่าจะเกิดจากทันตสุขาภิบาล (ผลโดยตรง) หรือการใช้ไหมขัดฟัน (ตัวกลาง/ผลทางอ้อม) การทดลองคือการใช้ไหมขัดฟันต่อไปในขณะที่งดการไปพบทันตสุขาภิบาล

ผลกระทบทางอ้อม

ผลกระทบทางอ้อมของ X ต่อ Y คือ "การเพิ่มขึ้นที่เราจะเห็นใน Y ในขณะที่คง X ไว้คงที่และเพิ่ม M ไปจนถึงค่าใดก็ตามที่ M จะได้รับภายใต้การเพิ่มขึ้นหนึ่งหน่วยของ X" [ 7 ] : 328

ผลกระทบทางอ้อมไม่สามารถ "ควบคุม" ได้ เนื่องจากเส้นทางตรงไม่สามารถปิดใช้งานได้โดยการคงตัวแปรอื่นให้คงที่ ผลกระทบทางอ้อมตามธรรมชาติ (NIE) คือผลกระทบต่อสุขภาพเหงือก (Y) จากการใช้ไหมขัดฟัน (M) NIE คำนวณได้จากผลรวมของ (กรณีใช้ไหมขัดฟันและไม่ใช้ไหมขัดฟัน) ของความแตกต่างระหว่างความน่าจะเป็นของการใช้ไหมขัดฟันเมื่อมีผู้ช่วยทันตแพทย์และไม่มีผู้ช่วยทันตแพทย์ หรือ: [ 7 ] : 321

การคำนวณ NDE ข้างต้นรวมถึงตัวห้อยสมมติ ( ) สำหรับแบบจำลองที่ไม่เป็นเชิงเส้น ความเท่าเทียมกันที่ดูเหมือนชัดเจน[ 7 ] : 322

ไม่สามารถนำมาใช้ได้เนื่องจากความผิดปกติ เช่น ผลกระทบจากค่าเกณฑ์และค่าไบนารี อย่างไรก็ตาม

ใช้ได้กับความสัมพันธ์ของแบบจำลองทั้งหมด (เชิงเส้นและไม่เชิงเส้น) ช่วยให้สามารถคำนวณ NDE ได้โดยตรงจากข้อมูลการสังเกต โดยไม่ต้องมีการแทรกแซงหรือใช้ดัชนีสมมติฐาน[ 7 ] : 326

ความสามารถในการขนส่ง

แบบจำลองเชิงสาเหตุเป็นเครื่องมือในการบูรณาการข้อมูลข้ามชุดข้อมูลที่เรียกว่าการขนส่ง แม้ว่าแบบจำลองเชิงสาเหตุ (และข้อมูลที่เกี่ยวข้อง) จะแตกต่างกันก็ตาม ตัวอย่างเช่น ข้อมูลจากการสำรวจสามารถรวมเข้ากับข้อมูลจากการทดลองแบบสุ่มที่มีการควบคุมได้[ 7 ] : 352การขนส่งนำเสนอวิธีแก้ปัญหาสำหรับคำถามเรื่องความถูกต้องภายนอกว่าการศึกษาสามารถนำไปใช้ในบริบทที่แตกต่างกันได้หรือไม่

ในกรณีที่แบบจำลองสองแบบตรงกันในตัวแปรที่เกี่ยวข้องทั้งหมด และข้อมูลจากแบบจำลองหนึ่งเป็นที่ทราบกันว่าไม่มีอคติ ข้อมูลจากประชากรหนึ่งสามารถนำมาใช้เพื่อสรุปเกี่ยวกับประชากรอีกกลุ่มหนึ่งได้ ในกรณีอื่นๆ ที่ทราบว่าข้อมูลมีอคติ การถ่วงน้ำหนักใหม่จะช่วยให้สามารถถ่ายโอนชุดข้อมูลได้ ในกรณีที่สาม สามารถสรุปได้จากชุดข้อมูลที่ไม่สมบูรณ์ ในบางกรณี ข้อมูลจากการศึกษาของประชากรหลายกลุ่มสามารถนำมารวมกันได้ (ผ่านการถ่ายโอน) เพื่อให้สามารถสรุปเกี่ยวกับประชากรที่ไม่ได้วัดได้ ในบางกรณี การรวมค่าประมาณ (เช่น P(W|X)) จากการศึกษาหลายๆ ครั้งสามารถเพิ่มความแม่นยำของข้อสรุปได้[ 7 ] : 355

แคลคูลัสDoให้เกณฑ์ทั่วไปสำหรับการขนส่ง: ตัวแปรเป้าหมายสามารถแปลงเป็นนิพจน์อื่นได้ผ่านชุดของ การดำเนินการ doที่ไม่เกี่ยวข้องกับตัวแปร "ที่ทำให้เกิดความแตกต่าง" (ตัวแปรที่แยกความแตกต่างระหว่างประชากรทั้งสอง) [ 7 ] : 355กฎที่คล้ายกันนี้ใช้กับการศึกษาที่มีผู้เข้าร่วมที่แตกต่างกันอย่างมีนัยสำคัญ [ 7 ] : 356

เครือข่ายเบย์เซียน

แบบจำลองเชิงสาเหตุใดๆ ก็สามารถนำไปใช้เป็นเครือข่ายเบย์เซียนได้ เครือข่ายเบย์เซียนสามารถใช้เพื่อหาความน่าจะเป็นผกผันของเหตุการณ์ (เมื่อกำหนดผลลัพธ์แล้ว ความน่าจะเป็นของสาเหตุเฉพาะเจาะจงคืออะไร) ซึ่งต้องเตรียมตารางความน่าจะเป็นแบบมีเงื่อนไข โดยแสดงอินพุตและผลลัพธ์ที่เป็นไปได้ทั้งหมดพร้อมความน่าจะเป็นที่เกี่ยวข้อง[ 7 ] : 119

ตัวอย่างเช่น เมื่อกำหนดแบบจำลองสองตัวแปรของโรคและการทดสอบ (สำหรับโรค) ตารางความน่าจะเป็นแบบมีเงื่อนไขจะมีรูปแบบดังนี้: [ 7 ] : 117

ความน่าจะเป็นของการตรวจพบผลบวกสำหรับโรคใดโรคหนึ่ง
ทดสอบ
โรค เชิงบวก เชิงลบ
เชิงลบ 12 88
เชิงบวก 73 27

จากตารางนี้ เมื่อผู้ป่วยไม่มีโรค โอกาสที่จะตรวจพบผลบวกคือ 12%

แม้ว่าวิธีนี้จะใช้ได้กับปัญหาเล็กๆ แต่เมื่อจำนวนตัวแปรและสถานะที่เกี่ยวข้องเพิ่มขึ้น ตารางความน่าจะเป็น (และเวลาในการคำนวณที่เกี่ยวข้อง) ก็จะเพิ่มขึ้นแบบทวีคูณ[ 7 ] : 121

เครือข่ายเบย์เซียนถูกนำไปใช้ในเชิงพาณิชย์ในแอปพลิเคชันต่างๆ เช่น การแก้ไขข้อผิดพลาดของข้อมูลไร้สายและการวิเคราะห์ DNA [ 7 ] : 122

ตัวแปรคงที่/บริบท

แนวคิดเรื่องความเป็นเหตุเป็นผลที่แตกต่างออกไปนั้นเกี่ยวข้องกับแนวคิดเรื่องความสัมพันธ์ที่ไม่เปลี่ยนแปลง ในกรณีของการระบุตัวเลขที่เขียนด้วยลายมือ รูปร่างของตัวเลขจะควบคุมความหมาย ดังนั้นรูปร่างและความหมายจึงเป็นตัวแปรที่ไม่เปลี่ยนแปลง การเปลี่ยนรูปร่างจะเปลี่ยนความหมาย คุณสมบัติอื่นๆ จะไม่เปลี่ยนแปลง (เช่น สี) ความไม่เปลี่ยนแปลงนี้ควรคงอยู่ตลอดชุดข้อมูลที่สร้างขึ้นในบริบทที่แตกต่างกัน (คุณสมบัติที่ไม่เปลี่ยนแปลงเป็นตัวกำหนดบริบท) แทนที่จะเรียนรู้ (ประเมินความเป็นเหตุเป็นผล) โดยใช้ชุดข้อมูลที่รวมกัน การเรียนรู้จากชุดข้อมูลหนึ่งและการทดสอบจากอีกชุดข้อมูลหนึ่งสามารถช่วยแยกแยะคุณสมบัติที่เปลี่ยนแปลงได้จากคุณสมบัติที่ไม่เปลี่ยนแปลง[ 18 ]

ดูเพิ่มเติม

แหล่งที่มา

  • เพิร์ล, จูเดีย (14 กันยายน 2552). ความเป็นเหตุเป็นผล . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-1-139-64398-6.
  • Pearl, Judea (2010-02-26). "บทนำสู่การอนุมานเชิงสาเหตุ"วารสารสถิติชีวภาพระหว่างประเทศ 6 ( 2) 7. doi : 10.2202/1557-4679.1203 . ISSN  1557-4679 . PMC  2836213 . PMID  20305706 .
  • การสร้างแบบจำลองเชิงสาเหตุที่PhilPapers
  • ฟอล์ก, แดน (17 มีนาคม 2019). "อัลกอริทึม AI เก่งกาจอย่างน่าตกใจในการทำวิทยาศาสตร์" . Wired . ISSN  1059-1028 . สืบค้นเมื่อ20 มีนาคม 2019 .
  • มอดลิน, ทิม (30 สิงหาคม 2019). "เหตุผลของโลก" . บอสตัน รีวิว. สืบค้นเมื่อ9 กันยายน 2019 .
  • ฮาร์ทเน็ตต์, เควิน (15 พฤษภาคม 2018). "เพื่อสร้างเครื่องจักรที่ชาญฉลาดอย่างแท้จริง จงสอนให้พวกมันรู้จักเหตุและผล"นิตยสารควอนตา. สืบค้นเมื่อ19 กันยายน 2019 .
  • [ 1 ]
  1. ^ การเรียนรู้การนำเสนอโดยใช้ความไม่แปรผันเชิงสาเหตุ , ICLR, กุมภาพันธ์ 2020 , สืบค้นเมื่อ 10 กุมภาพันธ์ 2020
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Causal_model&oldid=1354668258 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แบบจำลองเชิงสาเหตุ

ใน อภิปรัชญา และ สถิติ แบบ จำลองเชิงสาเหตุ (เรียกอีกอย่างว่า แบบจำลองเชิงสาเหตุเชิงโครงสร้าง ) คือ แบบจำลองเชิงแนวคิด ที่แสดงถึง กลไก เชิงสาเหตุ ของ ระบบ [ 2 ]...

คำนิยาม

แบบจำลองเชิงสาเหตุเป็นแบบจำลองทางคณิตศาสตร์ที่แสดงถึงความสัมพันธ์เชิงสาเหตุภายในระบบหรือประชากรแต่ละระบบ แบบจำลองเหล่านี้อำนวยความสะดวกในการอนุมานเกี่ยวกับความสัมพันธ์เชิงสาเหตุจากข้อมูลทางสถิติ แบบจำลองเหล่านี้สามารถสอนเราได้มากเกี่ยวกับญาณวิทยาของสาเหตุ...

ประวัติศาสตร์

อริสโตเติล ได้กำหนดอนุกรมวิธานของสาเหตุ ซึ่งรวมถึงสาเหตุทางวัตถุ รูปแบบ ประสิทธิภาพ และผลลัพธ์ ฮิวจ์ปฏิเสธอนุกรมวิธานของอริสโตเติลและหันมาใช้แนวคิดเรื่อง ผลลัพธ์สมมติ แทน ในบางจุด เขาปฏิเสธว่าวัตถุมี "พลัง" ที่ทำให้วัตถุหนึ่งเป็นสาเหตุและอีกวัตถุหนึ่งเป็นผล...

ลำดับขั้นของสาเหตุและผลลัพธ์

แบบจำลอง เชิงสาเหตุของ Pearl เกี่ยวข้องกับนามธรรมสามระดับที่เขาเรียกว่าบันไดแห่งสาเหตุ ระดับต่ำสุดคือ การเชื่อมโยง (การมองเห็น/การสังเกต) ซึ่งเกี่ยวข้องกับการรับรู้ความสม่ำเสมอหรือรูปแบบในข้อมูลป้อนเข้า ซึ่งแสดงออกมาในรูปของความสัมพันธ์ ระดับกลางคือ...