ปัจจัยรบกวน

ในการอนุมานเชิงสาเหตุตัวแปรแทรกซ้อนเป็นรูปแบบหนึ่งของข้อผิดพลาดที่เป็นระบบ (หรืออคติ) ที่สามารถบิดเบือนการประมาณค่าผลกระทบเชิงสาเหตุในการศึกษาเชิงสังเกตตัวแปรแทรกซ้อนโดยทั่วไปเข้าใจว่าเป็นตัวแปรที่ (1) ทำนายผลลัพธ์ (หรือตัวแปรตาม ) ได้อย่างอิสระ (2) มีความสัมพันธ์กับการสัมผัส (หรือตัวแปรอิสระ) และ (3) ไม่อยู่ในเส้นทางเชิงสาเหตุระหว่างการสัมผัสและผลลัพธ์^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}การไม่ควบคุมตัวแปรแทรกซ้อนส่งผลให้เกิดความสัมพันธ์ที่ผิดพลาดระหว่างการสัมผัสและผลลัพธ์

ตัวแปรแทรกซ้อนเป็น แนวคิด เชิงสาเหตุมากกว่าแนวคิดเชิงสถิติล้วนๆ ดังนั้นจึงไม่สามารถอธิบายได้อย่างครบถ้วนด้วยความสัมพันธ์หรือการเชื่อมโยงเพียงอย่างเดียว^{[ 4 ]}การมีอยู่ของตัวแปรแทรกซ้อนช่วยอธิบายว่าเหตุใดความสัมพันธ์จึงไม่ได้หมายความถึงสาเหตุและเหตุใดการออกแบบการศึกษาและวิธีการวิเคราะห์ที่รอบคอบ (เช่นการสุ่มการปรับทางสถิติ หรือแผนภาพเชิงสาเหตุ) จึงจำเป็นต่อการแยกแยะผลกระทบเชิงสาเหตุออกจากการเชื่อมโยงที่ผิดพลาด

มีการพัฒนา ระบบสัญลักษณ์ และกรอบการทำงานที่เป็นทางการ หลายระบบ เช่นกราฟแบบไม่มีวงจรที่แสดงความสัมพันธ์เชิงสาเหตุ (DAGs)เพื่อใช้ในการแสดงและตรวจจับตัวแปรแทรกซ้อน ทำให้สามารถระบุได้ว่าเมื่อใดที่ต้องควบคุมตัวแปรเพื่อให้ได้ค่าประมาณที่ไม่ลำเอียงของผลกระทบเชิงสาเหตุ

ตัวแปรแทรกซ้อนเป็นภัยคุกคามต่อความถูกต้องภายใน^{[ 5 ]}

คำนิยาม

ตัวแปรแทรกซ้อนถูกนิยามในแง่ของแบบจำลองการสร้างข้อมูล ให้Xเป็นตัวแปรต้น (หรือตัวแปรอิสระ ) และให้Yเป็นตัวแปรตาม (หรือตัวแปรตาม ) ตามธรรมเนียมแล้ว ตัวแปรZจะถูกพิจารณาว่าเป็นตัวแปรแทรกซ้อนในความสัมพันธ์ระหว่างXและYหากZ (1) ทำนายY ได้อย่างอิสระ (2) มีความสัมพันธ์กับXและ (3) ไม่อยู่ในเส้นทางเชิงสาเหตุระหว่างXและY ^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}การไม่ควบคุมZจะทำให้เกิดความสัมพันธ์ที่ผิดพลาดระหว่าง XและY

อย่างไรก็ตาม การพัฒนาหลายประการในการอนุมานเชิงสาเหตุในช่วงหลายทศวรรษที่ผ่านมาแสดงให้เห็นว่าคำจำกัดความของตัวแปรแทรกซ้อนนี้ไม่เพียงพอ^{[ 6 ]}^{[ 7 ]}ทั้งนี้เนื่องจากอาจมีตัวแปรก่อนการสัมผัสที่เกี่ยวข้องกับผลลัพธ์ ซึ่งเมื่อควบคุมแล้วกลับทำให้เกิดอคติแทนที่จะขจัดอคติ

ดังนั้น การอนุมานเชิงสาเหตุสมัยใหม่จึงมักกำหนดตัวแปรแทรกซ้อนในแง่ของ ชุดการปรับค่าที่ เพียงพอขั้นต่ำ^{[ 8 ]}^{[ 1 ]}ในทางทฤษฎี ชุดตัวแปรZเป็นชุดการปรับค่าที่เพียงพอสำหรับผลกระทบของXต่อYถ้าผลลัพธ์ที่เป็นไปได้เป็นอิสระจากX โดยมีเงื่อนไขว่า Zนั่นคือ หลังจากปรับค่าสำหรับZ แล้วกลุ่มที่ได้รับผลกระทบและกลุ่มที่ไม่ได้รับผลกระทบสามารถสลับกันได้ในแง่ของผลลัพธ์ชุดการปรับค่าที่เพียงพอขั้นต่ำคือชุดการปรับค่าZที่สมาชิกทุกตัวของZจำเป็นต้องใช้ในการควบคุมตัวแปรแทรกซ้อน ภายใต้กรอบนี้ ตัวแปรแทรกซ้อนถูกกำหนดให้เป็นสมาชิกของชุดการปรับค่าที่เพียงพอขั้นต่ำ

ในภาษาของกราฟแบบไม่มีวงจรทิศทาง การสับสนจะสอดคล้องกับการมีเส้นทางลับที่เปิดอยู่หนึ่งเส้นทางขึ้นไประหว่าง^{X และ Y [ 9 ]}ชุดตัวแปรZ ^{เป็นชุด}ปรับค่าที่เพียงพอหากเงื่อนไขบนZบล็อกเส้นทางลับทั้งหมดจากXไปยังYชุดนั้นเพียงพอขั้นต่ำหากไม่มีชุดย่อยที่เหมาะสมของZที่ตรงตามคุณสมบัตินี้ การลบตัวแปรใดๆ ออกจากชุดที่เพียงพอขั้นต่ำจะเปิดเส้นทางลับอย่างน้อยหนึ่งเส้นทางอีกครั้ง

ตัวอย่าง

ตัวอย่างง่ายๆ

บริษัทขนส่งแห่งหนึ่งเปรียบเทียบประสิทธิภาพการประหยัดน้ำมันของรถบรรทุกจากสองผู้ผลิต (“A” และ “B”) โดยวัดระยะทางต่อแกลลอน (MPG) ในช่วงหนึ่งเดือน พวกเขาพบว่ารถบรรทุกของผู้ผลิต A ดูเหมือนจะประหยัดน้ำมันมากกว่า อย่างไรก็ตาม รถบรรทุกของผู้ผลิต A มักถูกใช้งานบนเส้นทางทางหลวง ในขณะที่รถบรรทุกของผู้ผลิต B มักถูกใช้งานบนเส้นทางในเมืองมากกว่า ในที่นี้ ยี่ห้อรถบรรทุกเป็นตัวแปรอิสระ ระยะทางต่อแกลลอน (MPG) เป็นตัวแปรตาม และประเภทเส้นทาง (หรือสัดส่วนของการขับในเมือง) เป็นตัวแปรแทรกซ้อน เนื่องจากประเภทเส้นทางส่งผลต่อระยะทางต่อแกลลอน (MPG) และประเภทเส้นทางแตกต่างกันไปตามยี่ห้อรถบรรทุก จึงทำให้การเปรียบเทียบมีความคลาดเคลื่อน ดังนั้น ความแตกต่างที่สังเกตได้จึงน่าจะสะท้อนถึงการขับบนทางหลวงเทียบกับการขับในเมืองมากกว่ายี่ห้อรถบรรทุก

ความสัมพันธ์ระหว่างลำดับการเกิดกับกลุ่มอาการดาวน์

นักวิทยาศาสตร์กำลังศึกษาความสัมพันธ์ระหว่างลำดับการเกิด (ลูกคนแรก ลูกคนที่สอง ฯลฯ) กับการเกิดภาวะดาวน์ซินโดรมในเด็ก อย่างไรก็ตาม เป็นที่ทราบกันดีว่า:

อายุของมารดาที่มากขึ้นมีความสัมพันธ์โดยตรงกับภาวะดาวน์ซินโดรมในเด็ก
อายุของมารดาที่มากขึ้นมีความสัมพันธ์โดยตรงกับภาวะดาวน์ซินโดรม โดยไม่คำนึงถึงลำดับการเกิด (มารดาที่มีบุตรคนแรกหรือคนที่สามเมื่ออายุ 50 ปี มีความเสี่ยงเท่ากัน)
อายุของมารดามีความสัมพันธ์โดยตรงกับลำดับการเกิด (บุตรคนที่สอง ยกเว้นกรณีแฝด จะเกิดเมื่อมารดามีอายุมากกว่าตอนคลอดบุตรคนแรก)
อายุของมารดาไม่ได้เป็นผลมาจากลำดับการเกิด (การมีลูกคนที่สองไม่ได้เปลี่ยนแปลงอายุของมารดา)

ในสถานการณ์นี้ อายุของมารดาเป็นตัวแปรแทรกซ้อน เนื่องจากมีอิทธิพลต่อทั้งตัวแปรอิสระ (ลำดับการเกิด) และตัวแปรตาม (กลุ่มอาการดาวน์)

ความสัมพันธ์ระหว่างการสูบบุหรี่กับโรคปอด

นักวิทยาศาสตร์กำลังศึกษาความสัมพันธ์ระหว่างสถานะการสูบบุหรี่ (ผู้สูบบุหรี่เทียบกับผู้ไม่สูบบุหรี่) และการเกิดโรคปอด อย่างไรก็ตาม เป็นที่ทราบกันดีว่า:

การดื่มแอลกอฮอล์และอาหารการกินมีความสัมพันธ์โดยตรงกับโรคปอดและสุขภาพโดยรวม
การดื่มแอลกอฮอล์และอาหารส่งผลต่อสุขภาพโดยไม่คำนึงถึงสถานะการสูบบุหรี่ (ผู้สูบบุหรี่และผู้ไม่สูบบุหรี่ที่มีการดื่มแอลกอฮอล์และรับประทานอาหารคล้ายคลึงกัน อาจมีความเสี่ยงต่อสุขภาพที่คล้ายคลึงกัน)
การดื่มแอลกอฮอล์และอาหารการกินมีความสัมพันธ์กับสถานะการสูบบุหรี่ (โดยเฉลี่ยแล้ว ผู้สูบบุหรี่มีแนวโน้มที่จะดื่มแอลกอฮอล์หรือมีพฤติกรรมการกินที่ไม่ดีต่อสุขภาพมากกว่าผู้ที่ไม่สูบบุหรี่)
การดื่มแอลกอฮอล์และการรับประทานอาหารไม่ใช่ผลพวงจากการสูบบุหรี่โดยตรง (การสูบบุหรี่ไม่ได้ทำให้ดื่มแอลกอฮอล์มากขึ้นหรือรับประทานอาหารไม่ดีเสมอไป แม้ว่าจะมีความสัมพันธ์กันก็ตาม)

ในสถานการณ์นี้ การดื่มแอลกอฮอล์หรืออาหารเป็นตัวแปรแทรกซ้อน เนื่องจากมีอิทธิพลต่อทั้งตัวแปรอิสระ (สถานะการสูบบุหรี่) และตัวแปรตาม (ผลลัพธ์ด้านสุขภาพ) หากไม่ควบคุมปัจจัยเหล่านี้ ความสัมพันธ์ที่สังเกตได้ระหว่างการสูบบุหรี่กับโรคปอดอาจเกิดจากความแตกต่างในการดื่มแอลกอฮอล์หรืออาหารมากกว่าการสูบบุหรี่เองทั้งหมดหรือบางส่วน

ควบคุม

ลองพิจารณาถึงนักวิจัยที่พยายามประเมินประสิทธิภาพของยาXจากข้อมูลประชากรที่การใช้ยาเป็นทางเลือกของผู้ป่วย ข้อมูลแสดงให้เห็นว่าเพศ ( Z ) มีอิทธิพลต่อการเลือกใช้ยาของผู้ป่วย รวมถึงโอกาสในการฟื้นตัว ( Y ) ในสถานการณ์นี้ เพศZทำให้ความสัมพันธ์ระหว่างX และ Y เกิดความสับสน เนื่องจากZเป็นสาเหตุของทั้งXและY

แผนภาพแสดงความสัมพันธ์เชิงสาเหตุของเพศในฐานะสาเหตุร่วมของการใช้ยาเสพติดและการฟื้นตัว

เรามีสิ่งนั้น

P(y\mid {\text{do}}(x))\neq P(y\mid x)

2

เนื่องจากปริมาณการสังเกตมีข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างXและZในขณะที่ปริมาณการแทรกแซงไม่มี (เนื่องจากXไม่มีความสัมพันธ์กับZในการทดลองแบบสุ่ม) สามารถแสดงได้^{[ 10 ]}ว่าในกรณีที่มีเพียงข้อมูลการสังเกตเท่านั้น การประมาณค่าที่ไม่เอนเอียงของปริมาณที่ต้องการสามารถทำได้โดยการ "ปรับ" สำหรับปัจจัยรบกวนทั้งหมด กล่าวคือ การพิจารณาค่าต่างๆ ของปัจจัยเหล่านั้นและหาค่าเฉลี่ยของผลลัพธ์ ในกรณีที่มีตัวแปรรบกวนเพียงตัวเดียวZจะนำไปสู่ "สูตรการปรับ": $P(y\mid {\text{do}}(x))$

P(y\mid {\text{do}}(x))=\sum _{z}P(y\mid x,z)P(z)

3

ซึ่งให้ค่าประมาณที่ไม่ลำเอียงสำหรับผลกระทบเชิงสาเหตุของXต่อYสูตรการปรับเดียวกันนี้ใช้ได้เมื่อมีตัวแปรแทรกซ้อนหลายตัว ยกเว้นในกรณีนี้ การเลือกชุด ตัวแปร Zที่จะรับประกันค่าประมาณที่ไม่ลำเอียงจะต้องทำด้วยความระมัดระวัง เกณฑ์สำหรับการเลือกตัวแปรที่เหมาะสมเรียกว่า Back-Door ^{[ 10 ]}^{[ 11 ]}และกำหนดให้ชุดZ ที่เลือก "ปิดกั้น" (หรือสกัดกั้น) ทุกเส้นทางระหว่างXและYที่มีลูกศรเข้าไปใน X ชุดดังกล่าวเรียกว่า "Back-Door admissible" และอาจรวมถึงตัวแปรที่ไม่ใช่สาเหตุร่วมกันของXและYแต่เป็นเพียงตัวแทนของสิ่งเหล่านั้น

กลับมาที่ตัวอย่างการใช้ยาเสพติด เนื่องจากZเป็นไปตามข้อกำหนดของ Back-Door (กล่าวคือ มันดักจับเส้นทาง Back-Door เส้นเดียว) ดังนั้นสูตรการปรับ Back-Door จึงใช้ได้: $X\leftarrow Z\rightarrow Y$

{\begin{aligned}P(Y={\text{หายดีแล้ว}}\mid {\text{ทำ}}(x={\text{ให้ยา}}))={}&P(Y={\text{หายดีแล้ว}}\mid X={\text{ให้ยา}},Z={\text{ชาย}})P(Z={\text{ชาย}})\\&{}+P(Y={\text{หายดีแล้ว}}\mid X={\text{ให้ยา}},Z={\text{หญิง}})P(Z={\text{หญิง}})\end{aligned}}

4

ด้วยวิธีนี้ แพทย์สามารถคาดการณ์ผลกระทบที่อาจเกิดขึ้นจากการให้ยาได้จากการศึกษาเชิงสังเกต โดยที่ความน่าจะเป็นแบบมีเงื่อนไขที่ปรากฏทางด้านขวามือของสมการสามารถประมาณได้โดยใช้การวิเคราะห์การถดถอย

^{ตรงกันข้ามกับความ เชื่อ}ทั่วไป การเพิ่มตัวแปรควบคุมลงในชุดปรับค่าZอาจทำให้เกิดอคติได้^{[ 12 ]}ตัวอย่างคัดค้านทั่วไปเกิดขึ้นเมื่อZเป็นผลกระทบร่วมกันของXและY [ ¹³^]ซึ่งเป็นกรณีที่Zไม่ใช่ตัวแปรแทรกซ้อน (กล่าวคือ ชุดว่างสามารถยอมรับได้แบบ Back-door) และการปรับค่าสำหรับZจะสร้างอคติที่เรียกว่า " อคติ คอลไลเดอร์ " หรือ " ปรากฏการณ์ Berkson " ตัวแปรควบคุมที่ไม่ใช่ตัวแปรแทรกซ้อนที่ดีบางครั้งเรียกว่าตัวแปรควบคุมที่ไม่ดี

โดยทั่วไป การควบคุมการรบกวนสามารถทำได้โดยการปรับค่าก็ต่อเมื่อมีชุดตัวแปรที่สังเกตได้ซึ่งตรงตามเงื่อนไข Back-Door เท่านั้น ยิ่งไปกว่านั้น หากZเป็นชุดดังกล่าว สูตรการปรับค่าของสมการ (3) ก็ใช้ได้^{[ 10 ]}^{[ 11 ]}แคลคูลัส do ของ Pearl ให้เงื่อนไขที่เป็นไปได้ทั้งหมดภายใต้ซึ่งสามารถประมาณค่าได้ ไม่จำเป็นต้องเป็นการปรับค่า^[¹⁴^] $P(y\mid {\text{do}}(x))$

ประวัติศาสตร์

ตามที่ Morabia (2011) ^{[ 15 ]} กล่าวไว้ คำว่าconfoundingมาจาก คำกริยา ภาษาละตินยุคกลาง "confundere" ซึ่งหมายถึง "การผสม" และน่าจะถูกเลือกมาเพื่อแสดงถึงความสับสน (จากภาษาละติน: con=กับ + fusus=ผสมหรือหลอมรวมเข้าด้วยกัน) ระหว่างสาเหตุที่ต้องการประเมินกับสาเหตุอื่นๆ ที่อาจส่งผลต่อผลลัพธ์และทำให้เกิดความสับสน หรือขัดขวางการประเมินที่ต้องการ Greenland, Robins และ Pearl ^{[ 16 ]}กล่าวถึงการใช้คำว่า "confounding" ในการอนุมานเชิงสาเหตุในยุคแรกๆ โดย John Stuart Mill ในปี 1843

ฟิชเชอร์ได้แนะนำคำว่า "การรบกวน" ในหนังสือ "การออกแบบการทดลอง" ปี 1935 ของเขา^{[ 17 ]}เพื่ออ้างถึงผลที่ตามมาโดยเฉพาะของการบล็อก (เช่นการแบ่งส่วน ) ชุดของชุดการรักษาในการทดลองแบบแฟกทอเรียลซึ่งปฏิสัมพันธ์บางอย่างอาจ "รบกวนกับบล็อก" สิ่งนี้ทำให้แนวคิดเรื่องการรบกวนในทางสถิติเป็นที่นิยม แม้ว่าฟิชเชอร์จะกังวลเกี่ยวกับการควบคุมความแตกต่างในหน่วยทดลอง ไม่ใช่การอนุมานเชิงสาเหตุ

ตามที่ Vandenbroucke (2004) ^{[ 18 ]} กล่าวไว้ Kish ^{[ 19 ]}เป็นผู้ใช้คำว่า "confounding" ในความหมายของ "ความไม่สามารถเปรียบเทียบกันได้" ของกลุ่มสองกลุ่มขึ้นไป (เช่น กลุ่มที่สัมผัสและกลุ่มที่ไม่สัมผัส) ในการศึกษาเชิงสังเกต เงื่อนไขที่เป็นทางการที่กำหนดว่าอะไรทำให้บางกลุ่ม "เปรียบเทียบกันได้" และบางกลุ่ม "เปรียบเทียบกันไม่ได้" ได้รับการพัฒนาขึ้นในภายหลังในระบาดวิทยาโดย Greenland และ Robins (1986) ^{[ 20 ]}โดยใช้ภาษาเชิงสมมติของNeyman (1935) ^{[ 21 ]}และRubin (1974) ^{[ 22 ]}ต่อมาได้มีการเสริมด้วยเกณฑ์เชิงกราฟิก เช่น เงื่อนไข Back-Door ( Pearl 1993; Greenland, Robins และ Pearl 1999) ^{[ 16 ]}^{[ 10 ]}

เกณฑ์กราฟิกแสดงให้เห็นว่ามีความเทียบเท่าอย่างเป็นทางการกับคำจำกัดความเชิงสมมติ^{[ 23 ]}แต่มีความโปร่งใสมากกว่าสำหรับนักวิจัยที่อาศัยแบบจำลองกระบวนการ

ประเภท

ในการประเมินความเสี่ยงที่ประเมินขนาดและลักษณะของความเสี่ยงต่อสุขภาพ ของมนุษย์ จำเป็นอย่างยิ่งที่จะต้องควบคุมปัจจัยรบกวนเพื่อแยกผลกระทบของอันตรายเฉพาะอย่าง เช่น สารเติมแต่งอาหารยาฆ่าแมลงหรือยาใหม่ สำหรับการศึกษาแบบไปข้างหน้า การคัดเลือกและคัดกรองอาสาสมัครที่มีพื้นฐานเดียวกัน (อายุ อาหาร การศึกษา ภูมิศาสตร์ ฯลฯ) เป็นเรื่องยาก และในการศึกษาแบบย้อนหลังก็อาจมีความแปรปรวนที่คล้ายคลึงกัน เนื่องจากไม่สามารถควบคุมความแปรปรวนของอาสาสมัครและการศึกษาในมนุษย์ได้ ปัจจัยรบกวนจึงเป็นความท้าทายอย่างยิ่ง ด้วยเหตุผลเหล่านี้การทดลองจึงเป็นวิธีที่ช่วยหลีกเลี่ยงปัจจัยรบกวนส่วนใหญ่ได้

ในบางสาขาวิชา ปัจจัยรบกวนจะถูกจัดประเภทเป็นประเภทต่างๆ ในระบาดวิทยาประเภทหนึ่งคือ "ปัจจัยรบกวนจากข้อบ่งชี้" ^{[ 24 ]}ซึ่งเกี่ยวข้องกับปัจจัยรบกวนจากการศึกษาเชิงสังเกตเนื่องจากปัจจัยพยากรณ์อาจมีอิทธิพลต่อการตัดสินใจในการรักษา (และทำให้การประมาณผลของการรักษามีอคติ) การควบคุมปัจจัยพยากรณ์ที่ทราบแล้วอาจช่วยลดปัญหานี้ได้ แต่ก็เป็นไปได้เสมอว่าปัจจัยที่ถูกลืมหรือไม่ทราบไม่ได้ถูกรวมไว้ หรือปัจจัยต่างๆ มีปฏิสัมพันธ์กันอย่างซับซ้อน ปัจจัยรบกวนจากข้อบ่งชี้ได้รับการอธิบายว่าเป็นข้อจำกัดที่สำคัญที่สุดของการศึกษาเชิงสังเกต การทดลองแบบสุ่มจะไม่ได้รับผลกระทบจากปัจจัยรบกวนจากข้อบ่งชี้เนื่องจากการสุ่มจัดสรร

ตัวแปรแทรกซ้อนอาจแบ่งประเภทได้ตามแหล่งที่มา เช่น การเลือกเครื่องมือวัด (ตัวแปรแทรกซ้อนด้านการปฏิบัติงาน) ลักษณะเฉพาะของสถานการณ์ (ตัวแปรแทรกซ้อนด้านกระบวนการ) หรือความแตกต่างระหว่างบุคคล (ตัวแปรแทรกซ้อนด้านบุคคล)

การรบกวนในการดำเนินงานสามารถเกิดขึ้นได้ทั้งใน การออกแบบการวิจัย เชิงทดลองและไม่ใช่เชิงทดลอง การรบกวนประเภทนี้เกิดขึ้นเมื่อการวัดที่ออกแบบมาเพื่อประเมินโครงสร้างเฉพาะเจาะจงวัดสิ่งอื่นโดยไม่ได้ตั้งใจด้วย^{[ 25 ]}
การรบกวนเชิงกระบวนการสามารถเกิดขึ้นได้ในการทดลองในห้องปฏิบัติการหรือการทดลองแบบกึ่งทดลองการรบกวนประเภทนี้เกิดขึ้นเมื่อนักวิจัยปล่อยให้ตัวแปรอื่นเปลี่ยนแปลงไปพร้อมกับตัวแปรอิสระที่ถูกควบคุมโดยไม่ได้ตั้งใจ^{[ 25 ]}
การสับสนของบุคคลเกิดขึ้นเมื่อมีการวิเคราะห์กลุ่มหน่วยสองกลุ่มขึ้นไปร่วมกัน (เช่น คนงานจากอาชีพที่แตกต่างกัน) แม้ว่าจะแตกต่างกันไปตามลักษณะอื่น ๆ อย่างน้อยหนึ่งอย่าง (ที่สังเกตได้หรือสังเกตไม่ได้) (เช่น เพศ) ^{[ 26 ]}

ลดโอกาสการเกิดความสับสน

การลดโอกาสการเกิดและผลกระทบของปัจจัยรบกวนสามารถทำได้โดยการเพิ่มประเภทและจำนวนของการเปรียบเทียบที่ดำเนินการในการวิเคราะห์ หากการวัดหรือการจัดการตัวแปรหลักมีปัจจัยรบกวน (เช่น มีปัจจัยรบกวนเชิงปฏิบัติการหรือเชิงกระบวนการ) การวิเคราะห์กลุ่มย่อยอาจไม่เปิดเผยปัญหาในการวิเคราะห์ นอกจากนี้ การเพิ่มจำนวนการเปรียบเทียบอาจสร้างปัญหาอื่นๆ ได้ (ดูการเปรียบเทียบหลายรายการ )

การทบทวนโดยผู้ทรงคุณวุฒิเป็นกระบวนการที่ช่วยลดโอกาสการเกิดความคลาดเคลื่อนได้ ทั้งก่อนการดำเนินงานวิจัยหรือหลังการวิเคราะห์ข้อมูล การทบทวนโดยผู้ทรงคุณวุฒิอาศัยความเชี่ยวชาญร่วมกันในสาขาวิชาเพื่อระบุจุดอ่อนที่อาจเกิดขึ้นในการออกแบบและการวิเคราะห์งานวิจัย รวมถึงวิธีที่ผลลัพธ์อาจขึ้นอยู่กับความคลาดเคลื่อน ในทำนองเดียวกันการทำซ้ำสามารถทดสอบความน่าเชื่อถือของผลการศึกษาหนึ่งภายใต้เงื่อนไขการศึกษาอื่นหรือการวิเคราะห์อื่น (เช่น การควบคุมความคลาดเคลื่อนที่อาจไม่พบในงานวิจัยเริ่มต้น)

ผลกระทบที่ทำให้เกิดความสับสนอาจมีโอกาสเกิดขึ้นน้อยลงและมีลักษณะคล้ายคลึงกันในหลายช่วงเวลาและสถานที่ ในการเลือกสถานที่ศึกษา สภาพแวดล้อมสามารถระบุรายละเอียดได้ในสถานที่ศึกษาเพื่อให้แน่ใจว่าสถานที่เหล่านั้นมีความคล้ายคลึงกันทางนิเวศวิทยาและจึงมีโอกาสน้อยที่จะมีตัวแปรที่ทำให้เกิดความสับสน สุดท้าย ความสัมพันธ์ระหว่างตัวแปรสิ่งแวดล้อมที่อาจทำให้เกิดความสับสนในการวิเคราะห์และพารามิเตอร์ที่วัดได้สามารถศึกษาได้ จากนั้นข้อมูลที่เกี่ยวข้องกับตัวแปรสิ่งแวดล้อมสามารถนำไปใช้ในแบบจำลองเฉพาะสถานที่เพื่อระบุความแปรปรวนที่เหลืออยู่ซึ่งอาจเกิดจากผลกระทบที่แท้จริง^{[ 27 ]}

ขึ้นอยู่กับประเภทของการออกแบบการศึกษาที่มีอยู่ มีหลายวิธีในการปรับเปลี่ยนการออกแบบนั้นเพื่อแยกหรือควบคุมตัวแปรแทรกซ้อนอย่างมีประสิทธิภาพ: ^{[ 28 ]}

การศึกษาแบบกรณีควบคุมจะกำหนดตัวแปรแทรกซ้อนให้กับทั้งสองกลุ่ม คือ กลุ่มผู้ป่วยและกลุ่มควบคุม อย่างเท่าเทียมกัน ตัวอย่างเช่น หากใครต้องการศึกษาถึงสาเหตุของโรคกล้ามเนื้อหัวใจตาย และคิดว่าอายุเป็นตัวแปรแทรกซ้อนที่น่าจะเป็นไปได้ ผู้ป่วยโรคกล้ามเนื้อหัวใจตายอายุ 67 ปีแต่ละรายจะถูกจับคู่กับบุคคล "ควบคุม" ที่มีสุขภาพดีอายุ 67 ปี ในการศึกษาแบบกรณีควบคุม ตัวแปรที่จับคู่กันส่วนใหญ่มักจะเป็นอายุและเพศ ข้อเสีย: การศึกษาแบบกรณีควบคุมทำได้ก็ต่อเมื่อหาผู้ควบคุมได้ง่าย กล่าวคือบุคคลที่มีสถานะเกี่ยวกับปัจจัยแทรกซ้อนที่อาจเกิดขึ้นทั้งหมดเหมือนกับผู้ป่วยในกรณีนั้นๆ สมมติว่าการศึกษาแบบกรณีควบคุมพยายามหาสาเหตุของโรคในบุคคลที่มีคุณสมบัติ 1) อายุ 45 ปี 2) เป็นชาวแอฟริกันอเมริกัน 3) มาจากรัฐอะแลสกา 4) เป็นนักฟุตบอลตัวยง 5) เป็นมังสวิรัติ และ 6) ทำงานด้านการศึกษา ในทางทฤษฎีแล้ว กลุ่มควบคุมที่สมบูรณ์แบบคือบุคคลที่นอกจากจะไม่เป็นโรคที่กำลังตรวจสอบแล้ว ยังมีลักษณะตรงตามที่กล่าวมาทั้งหมด และไม่มีโรคอื่นใดที่ผู้ป่วยไม่มีด้วย แต่การหาบุคคลควบคุมเช่นนั้นเป็นงานที่ยากมาก
การศึกษาแบบกลุ่มตัวอย่าง (Cohort studies ): การจับคู่ในระดับหนึ่งก็เป็นไปได้เช่นกัน และมักทำโดยการคัดเลือกเฉพาะกลุ่มอายุหรือเพศที่กำหนดเข้าสู่ประชากรศึกษา เพื่อสร้างกลุ่มตัวอย่างที่มีลักษณะคล้ายคลึงกัน และทำให้กลุ่มตัวอย่างทั้งหมดสามารถเปรียบเทียบกันได้ในแง่ของตัวแปรแทรกซ้อนที่อาจเกิดขึ้นได้ ตัวอย่างเช่น หากคิดว่าอายุและเพศเป็นตัวแปรแทรกซ้อน การศึกษาแบบกลุ่มตัวอย่างที่จะประเมินความเสี่ยงของภาวะกล้ามเนื้อหัวใจตายในกลุ่มตัวอย่างที่ออกกำลังกายหรือไม่ออกกำลังกาย จะคัดเลือกเฉพาะผู้ชายอายุ 40-50 ปีเท่านั้น ข้อเสีย: ในการศึกษาแบบกลุ่มตัวอย่าง การคัดเลือกข้อมูลนำเข้ามากเกินไปอาจทำให้ผู้วิจัยกำหนดกลุ่มบุคคลที่มีลักษณะคล้ายคลึงกันซึ่งพวกเขาอ้างว่าการศึกษาจะมีประโยชน์นั้นแคบเกินไป จนทำให้บุคคลอื่น ๆ ที่มีความสัมพันธ์เชิงสาเหตุที่แท้จริงอาจพลาดโอกาสที่จะได้รับประโยชน์จากคำแนะนำของการศึกษา ในทำนองเดียวกัน การแบ่งชั้นข้อมูลป้อนเข้ามากเกินไปในการศึกษาอาจลดขนาดตัวอย่างในชั้นใดชั้นหนึ่งจนถึงจุดที่การสรุปผลโดยพิจารณาจากสมาชิกในชั้นนั้นเพียงอย่างเดียวไม่มีนัยสำคัญทางสถิติ
การทดลอง แบบปกปิดสองทาง (Double blinding ): ปกปิดไม่ให้ผู้เข้าร่วมการทดลองและผู้สังเกตการณ์ทราบว่าผู้เข้าร่วมการทดลองอยู่ในกลุ่มทดลองใด การป้องกันไม่ให้ผู้เข้าร่วมการทดลองรู้ว่าตนเองได้รับการรักษาหรือไม่ จะทำให้ ผลของยาหลอก (placebo effect)เท่ากันทั้งในกลุ่มควบคุมและกลุ่มทดลอง และการป้องกันไม่ให้ผู้สังเกตการณ์ทราบว่าผู้เข้าร่วมการทดลองอยู่ในกลุ่มใด จะช่วยป้องกันอคติจากนักวิจัยที่ปฏิบัติต่อกลุ่มทดลองแตกต่างกัน หรือตีความผลลัพธ์แตกต่างกัน
การทดลองแบบสุ่มควบคุม : เป็นวิธีการที่แบ่งประชากรในการศึกษาออกเป็นกลุ่มๆ อย่างสุ่ม เพื่อลดโอกาสการเลือกกลุ่มด้วยตนเองของผู้เข้าร่วม หรืออคติจากผู้ออกแบบการศึกษา ก่อนเริ่มการทดลอง ผู้ทดสอบจะกำหนดกลุ่มให้กับสมาชิกในกลุ่มผู้เข้าร่วม (กลุ่มควบคุม กลุ่มทดลอง กลุ่มคู่ขนาน) โดยใช้กระบวนการสุ่ม เช่น การใช้เครื่องกำเนิดตัวเลขสุ่ม ตัวอย่างเช่น ในการศึกษาเกี่ยวกับผลของการออกกำลังกาย ข้อสรุปจะมีความน่าเชื่อถือน้อยลงหากผู้เข้าร่วมได้รับทางเลือกในการเข้าร่วมกลุ่มควบคุมซึ่งจะไม่ออกกำลังกาย หรือกลุ่มทดลองซึ่งยินดีเข้าร่วมโปรแกรมการออกกำลังกาย การศึกษาจะเก็บรวบรวมตัวแปรอื่นๆ นอกเหนือจากการออกกำลังกาย เช่น ระดับสุขภาพก่อนการทดลอง และแรงจูงใจในการทำกิจกรรมเพื่อสุขภาพ จากมุมมองของผู้สังเกตการณ์ ผู้ทำการทดลองอาจเลือกผู้สมัครที่มีแนวโน้มที่จะแสดงผลลัพธ์ที่การศึกษาต้องการเห็น หรืออาจตีความผลลัพธ์เชิงอัตวิสัย (เช่น มีพลังงานมากขึ้น มีทัศนคติเชิงบวก) ในลักษณะที่เอื้อต่อความต้องการของตนเอง
การแบ่งกลุ่มข้อมูล : ดังตัวอย่างข้างต้น การออกกำลังกายถือเป็นพฤติกรรมที่ช่วยป้องกันภาวะกล้ามเนื้อหัวใจขาดเลือด และอายุถือเป็นตัวแปรแทรกซ้อน ข้อมูลที่เก็บรวบรวมจึงถูกแบ่งกลุ่มตามกลุ่มอายุ ซึ่งหมายความว่าความสัมพันธ์ระหว่างการออกกำลังกายและภาวะกล้ามเนื้อหัวใจขาดเลือดจะถูกวิเคราะห์ในแต่ละกลุ่มอายุ หากกลุ่มอายุต่างๆ (หรือช่วงอายุ) ให้ค่าอัตราส่วนความเสี่ยง ที่แตกต่างกันมาก อายุจะต้องถูกมองว่าเป็นตัวแปรแทรกซ้อน มีเครื่องมือทางสถิติหลายอย่าง เช่น วิธี Mantel–Haenszel ที่คำนึงถึงการแบ่งกลุ่มข้อมูล
การควบคุมตัวแปรแทรกซ้อนโดยการวัดตัวแปรแทรกซ้อนที่ทราบแล้วและรวมตัวแปร เหล่านั้นเป็นตัวแปรควบคุมร่วม คือการวิเคราะห์แบบหลายตัวแปรเช่นการวิเคราะห์ การถดถอย การวิเคราะห์แบบหลายตัวแปรให้ข้อมูลเกี่ยวกับ ความแรงหรือขั้วของตัวแปรแทรกซ้อนน้อย กว่าวิธีการแบ่งกลุ่ม ตัวอย่างเช่น หากการวิเคราะห์แบบหลายตัวแปรควบคุม ยาต้านซึมเศร้าและไม่ได้แบ่งกลุ่มยาต้านซึมเศร้าเป็นTCAและSSRIก็จะละเลยข้อเท็จจริงที่ว่ายาต้านซึมเศร้าทั้งสองกลุ่มนี้มี ผล ตรงกันข้ามต่อภาวะกล้ามเนื้อหัวใจตาย และกลุ่มหนึ่งมีฤทธิ์แรงกว่าอีกกลุ่มหนึ่ง มาก

วิธีการเหล่านี้ล้วนมีข้อเสีย:

วิธีป้องกันที่ดีที่สุดจากความเป็นไปได้ที่จะเกิดผลลัพธ์ที่ผิดพลาดเนื่องจากตัวแปรแทรกซ้อน คือการละเว้นความพยายามในการแบ่งกลุ่มย่อย และทำการศึกษาแบบสุ่มกับ กลุ่มตัวอย่าง ขนาดใหญ่พอสมควรโดยรวม เพื่อให้ตัวแปรแทรกซ้อนที่อาจเกิดขึ้นทั้งหมด (ทั้งที่ทราบและไม่ทราบ) กระจายตัวอย่างสุ่มไปทั่วทุกกลุ่มการศึกษา และดังนั้นจึงไม่มีความสัมพันธ์กับตัวแปรไบนารีสำหรับการรวม/การยกเว้นในกลุ่มใด ๆ
ข้อควรพิจารณาทางจริยธรรม: ในการทดลองแบบควบคุมแบบสุ่มและแบบปกปิดสองทาง ผู้เข้าร่วมไม่ทราบว่าตนเองได้รับการรักษาแบบหลอกและอาจถูกปฏิเสธการรักษาที่มีประสิทธิภาพ^{[ 29 ]} มีความเป็นไปได้ที่ผู้ป่วยจะยินยอมเข้ารับการผ่าตัดแบบรุกราน (ซึ่งมีความเสี่ยงทางการแพทย์ที่แท้จริง) โดยเข้าใจว่าตนเองกำลังได้รับการรักษา แม้ว่านี่จะเป็นข้อกังวลทางจริยธรรม แต่มันก็ไม่ใช่ภาพรวมทั้งหมดของสถานการณ์ สำหรับการผ่าตัดที่กำลังดำเนินการอยู่เป็นประจำ แต่ไม่มีหลักฐานที่แน่ชัดถึงผลกระทบที่แท้จริง อาจมีปัญหาทางจริยธรรมในการดำเนินการผ่าตัดดังกล่าวต่อไป ในสถานการณ์เช่นนี้ ผู้คนจำนวนมากต้องเผชิญกับความเสี่ยงที่แท้จริงของการผ่าตัด แต่การรักษาเหล่านี้อาจไม่มีประโยชน์ที่เห็นได้ชัด การควบคุมด้วยการผ่าตัดแบบหลอกเป็นวิธีการที่อาจช่วยให้วิทยาศาสตร์การแพทย์สามารถพิจารณาได้ว่าขั้นตอนการผ่าตัดมีประสิทธิภาพหรือไม่ เมื่อพิจารณาว่ามีความเสี่ยงที่ทราบกันดีอยู่แล้วที่เกี่ยวข้องกับการผ่าตัดทางการแพทย์ การอนุญาตให้มีการผ่าตัดที่ยังไม่ได้รับการตรวจสอบต่อไปในอนาคตจึงเป็นเรื่องที่น่าสงสัยทางจริยธรรม

การวิจารณ์

มีข้อกังวลว่าการรบกวนในการวิจัยทางการแพทย์อาจทำให้เกิดผลลัพธ์ที่เป็นศูนย์เท็จเนื่องจากความน่าเชื่อถือของการสัมผัสที่ลดลงและความสัมพันธ์ระหว่างพี่น้องที่เพิ่มขึ้น^{[ 30 ]}^{[ 31 ]}

สิ่งประดิษฐ์

สิ่งประดิษฐ์คือตัวแปรที่ควรมีการเปลี่ยนแปลงอย่างเป็นระบบ ไม่ว่าจะภายในหรือระหว่างการศึกษา แต่ถูกทำให้คงที่โดยไม่ได้ตั้งใจ ดังนั้นสิ่งประดิษฐ์จึงเป็นภัยคุกคามต่อความถูกต้องภายนอกสิ่งประดิษฐ์คือปัจจัยที่แปรผันร่วมกับการรักษาและผลลัพธ์ Campbell และ Stanley ^{[ 32 ]}ระบุสิ่งประดิษฐ์หลายประการ ภัยคุกคามหลักต่อความถูกต้องภายใน ได้แก่ ประวัติ การเจริญเติบโต การทดสอบ เครื่องมือการถดถอยทางสถิติ การคัดเลือก การเสียชีวิตจากการทดลอง และปฏิสัมพันธ์ระหว่างการคัดเลือกและประวัติ

วิธีหนึ่งในการลดอิทธิพลของสิ่งประดิษฐ์คือการใช้ การออกแบบ กลุ่มควบคุม แบบทดสอบก่อนและหลัง การทดสอบ ในการออกแบบนี้ “กลุ่มคนที่เริ่มต้นมีความเท่าเทียมกัน (ในระยะก่อนการทดสอบ) จะถูกสุ่มให้ได้รับการรักษาแบบทดลองหรือเงื่อนไขควบคุม จากนั้นจึงประเมินอีกครั้งหลังจากประสบการณ์ที่แตกต่างกันนี้ (ระยะหลังการทดสอบ)” ^{[ 33 ]}ดังนั้น ผลกระทบของสิ่งประดิษฐ์จึง (ในอุดมคติ) กระจายอย่างเท่าเทียมกันในผู้เข้าร่วมทั้งในเงื่อนไขการรักษาและเงื่อนไขควบคุม

ดูเพิ่มเติม

ความผิดพลาดในการตีความจากการสังเกต
หลักฐานจากคำบอกเล่า – หลักฐานที่อาศัยคำให้การส่วนบุคคล
การอนุมานเชิงสาเหตุ – สาขาหนึ่งของสถิติ
วิธีการทางระบาดวิทยา – วิธีการทางวิทยาศาสตร์ในสาขาเฉพาะด้าน
ปรากฏการณ์ซิมป์สัน – ข้อผิดพลาดในการให้เหตุผลทางสถิติเกี่ยวกับกลุ่ม
อคติจากตัวแปรที่ถูกละเว้น

อ่านเพิ่มเติม

Pearl, J. (มกราคม 1998). "เหตุใดจึงไม่มีการทดสอบทางสถิติสำหรับตัวแปรแทรกซ้อน เหตุใดหลายคนจึงคิดว่ามี และเหตุใดพวกเขาจึงเกือบถูกต้อง" (PDF) . ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยแคลิฟอร์เนีย ลอสแอนเจลิส รายงานทางเทคนิค R- 256
Montgomery, DC (2001). "การปิดกั้นและการรบกวนในแบบแผนการทดลองเชิงแฟคทอเรียล" การออกแบบและการวิเคราะห์การทดลอง (ฉบับที่ 5). Wiley. หน้า 287–302 . ตำราเล่มนี้ให้ภาพรวมของปัจจัยรบกวนและวิธีการพิจารณาปัจจัยเหล่านั้นในการออกแบบการทดลอง $2^{k}$ {{cite book}}: CS1 maint: postscript ( link )
Brewer, MB (2000). "การออกแบบการวิจัยและประเด็นเรื่องความถูกต้อง" ใน Reis, HT; Judd, CM (บรรณาธิการ). คู่มือการวิจัย . นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ . หน้า 3–16 . ISBN 9780521551281.
Smith, ER (2000). "การออกแบบการวิจัย". ใน Reis, HT; Judd, CM (บรรณาธิการ). คู่มือวิธีการวิจัยในจิตวิทยาสังคมและบุคลิกภาพ . นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. หน้า 17–39 . ISBN 9780521551281.

ลิงก์ภายนอก

บทเรียน: ตัวแปรแทรกซ้อนและการปรับเปลี่ยนการวัดผล (คณะสาธารณสุขศาสตร์ มหาวิทยาลัยบอสตัน)
การถดถอยเชิงเส้น (มหาวิทยาลัยเยล)
คู่มือจากมหาวิทยาลัยนิวอิงแลนด์

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

X และ Y [ 9 ]

[ 10 ]

[ 11 ]

ตรงกันข้ามกับความ เชื่อ

[ 12 ]

[

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]