การถดถอยโลจิสติกแบบมีเงื่อนไข

Q: พื้นหลัง

การศึกษาเชิงสังเกตการณ์ใช้ การแบ่งกลุ่ม หรือ การจับคู่ เป็นวิธีในการควบคุมปัจจัย รบกวน

การถดถอยโลจิสติกแบบมีเงื่อนไขเป็นส่วนขยายของการถดถอยโลจิสติกที่ช่วยให้สามารถพิจารณาการแบ่งชั้นและการจับ คู่ได้ ขอบเขตการใช้งานหลักคือการศึกษาเชิงสังเกตและโดยเฉพาะอย่างยิ่งระบาดวิทยา ได้รับการคิดค้นขึ้นในปี 1978 โดยNorman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prenticeและ C. Sabai ^{[ 1 ]}เป็นกระบวนการที่มีความยืดหยุ่นและทั่วไปมากที่สุดสำหรับข้อมูลที่จับคู่กัน

พื้นหลัง

การศึกษาเชิงสังเกตการณ์ใช้การแบ่งกลุ่มหรือการจับคู่เป็นวิธีในการควบคุมปัจจัย รบกวน

การถดถอยโลจิสติกสามารถอธิบายการแบ่งชั้นได้โดยใช้ค่าคงที่ที่ แตกต่างกัน สำหรับแต่ละชั้น ให้เรากำหนดป้ายกำกับ (เช่น สถานะกรณี) ของการสังเกตที่ i ในชั้นที่ i และค่าของตัวทำนายที่สอดคล้องกัน จากนั้นเรากำหนดความน่าจะเป็นของการสังเกตหนึ่งๆ เป็น $Y_{i\ell }\in \{0,1\}$ $\ell$ $i$ $X_{i\ell }\in \mathbb {R} ^{p}$

\mathbb {P} (Y_{i\ell }=1|X_{i\ell })={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}}

โดยที่เป็นค่าคงที่สำหรับชั้นที่ th พารามิเตอร์ในแบบจำลองนี้สามารถประมาณได้โดยใช้การ ประมาณค่าความน่าจะเป็นสูงสุด $\alpha _{i}$ $i$

ตัวอย่างเช่น ลองพิจารณาการประเมินผลกระทบของการออกกำลังกายต่อความเสี่ยงของโรคหัวใจและหลอดเลือด หากคนที่ออกกำลังกายมากกว่ามีอายุน้อยกว่า เข้าถึงการดูแลสุขภาพได้ดีกว่า หรือมีความแตกต่างอื่นๆ ที่ช่วยส่งเสริมสุขภาพของพวกเขา การวิเคราะห์การถดถอยโลจิสติกส์ของอุบัติการณ์ของโรคหัวใจและหลอดเลือดกับจำนวนนาทีที่ใช้ในการออกกำลังกายอาจประเมินผลกระทบของการออกกำลังกายต่อสุขภาพสูงเกินไป เพื่อแก้ไขปัญหานี้ เราสามารถจัดกลุ่มผู้คนตามลักษณะทางประชากรศาสตร์ เช่น อายุและรหัสไปรษณีย์ของที่อยู่อาศัย แต่ละกลุ่มย่อยคือกลุ่มคนที่มีลักษณะทางประชากรศาสตร์คล้ายคลึงกัน เวกเตอร์ประกอบด้วยข้อมูลเกี่ยวกับตัวแปรที่สนใจ (ในกรณีนี้คือจำนวนนาทีที่ใช้ในการออกกำลังกาย) สำหรับแต่ละบุคคลในกลุ่มย่อย ค่าคือผลกระทบของลักษณะทางประชากรศาสตร์ต่ออุบัติการณ์ของโรคหัวใจและหลอดเลือดซึ่งถือว่าเหมือนกันสำหรับทุกคนในกลุ่มย่อย เวกเตอร์(ซึ่งในตัวอย่างนี้เป็นเพียงค่าสเกลาร์) คือปริมาณที่สนใจ นั่นคือผลกระทบของการออกกำลังกายต่อโรคหัวใจและหลอดเลือด เรายังสามารถรวมตัวแปรควบคุมไว้ภายในได้ด้วย $i$ $X_{i\ell }$ $\ell$ $i$ $\alpha _{i}$ $Y_{i\ell }$ ${\boldสัญลักษณ์ {\beta }}$ $X_{i\ell }$

แรงจูงใจ

การถดถอยโลจิสติกส์ดังที่อธิบายไว้ข้างต้นนั้นใช้ได้ผลดีเมื่อจำนวนชั้นข้อมูลมีน้อยเมื่อเทียบกับปริมาณข้อมูล หากเราคงจำนวนชั้นข้อมูลให้คงที่และเพิ่มปริมาณข้อมูล ค่าประมาณของพารามิเตอร์ของแบบจำลอง ( สำหรับแต่ละชั้นข้อมูลและเวกเตอร์) จะลู่เข้าสู่ค่าที่แท้จริง $\alpha _{i}$ ${\boldสัญลักษณ์ {\beta }}$

อย่างไรก็ตาม พฤติกรรมที่ผิดปกติเกิดขึ้นเมื่อเรามีชั้นย่อยจำนวนมาก เนื่องจากจำนวนพารามิเตอร์จะเพิ่มขึ้นตามปริมาณข้อมูล ตัวอย่างเช่น หากแต่ละชั้นย่อยมีข้อมูลสองจุด จำนวนพารามิเตอร์ในแบบจำลองที่มีข้อมูลสองจุดจะเป็นดังนั้นจำนวนพารามิเตอร์จึงอยู่ในลำดับเดียวกับจำนวนข้อมูล ในสถานการณ์เหล่านี้ เมื่อเราเพิ่มปริมาณข้อมูล ผลลัพธ์เชิงอะซิมโทติกซึ่งเป็นพื้นฐานของการประมาณค่าความน่าจะเป็นสูงสุดจะไม่ถูกต้อง และค่าประมาณที่ได้จะมีความลำเอียง การถดถอยโลจิสติกแบบมีเงื่อนไขช่วยแก้ไขปัญหานี้ได้ ในความเป็นจริง สามารถแสดงได้ว่าการวิเคราะห์แบบไม่มีเงื่อนไขของข้อมูลคู่ที่จับคู่กันส่งผลให้ได้ค่าประมาณของอัตราส่วนความน่าจะ เป็น ซึ่งเป็นกำลังสองของค่าที่ถูกต้องตามเงื่อนไข^[²^] $N$ $N/2+p$

นอกเหนือจากการทดสอบโดยใช้การถดถอยโลจิสติกแล้ว ยังมีการทดสอบอื่นๆ อีกหลายวิธีที่ใช้มาก่อนการถดถอยโลจิสติกแบบมีเงื่อนไขสำหรับข้อมูลที่จับคู่กัน ดังแสดงใน การทดสอบที่เกี่ยวข้องอย่างไรก็ตาม การทดสอบเหล่านั้นไม่สามารถวิเคราะห์ตัวแปรทำนายแบบต่อเนื่องที่มีขนาดชั้นตามอำเภอใจได้ และขั้นตอนทั้งหมดเหล่านั้นยังขาดความยืดหยุ่นของการถดถอยโลจิสติกแบบมีเงื่อนไข โดยเฉพาะอย่างยิ่งความสามารถในการควบคุมตัวแปรควบคุม

ความน่าจะเป็นแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไขใช้แนวทางความน่าจะเป็นแบบมีเงื่อนไข ซึ่งจัดการกับพฤติกรรมที่ผิดปกติข้างต้นโดยพิจารณาจากจำนวนกรณีในแต่ละชั้น ทำให้ไม่จำเป็นต้องประมาณค่าพารามิเตอร์ของแต่ละชั้น

เมื่อชั้นข้อมูลเป็นคู่ โดยการสังเกตครั้งแรกเป็นกรณีศึกษาและการสังเกตครั้งที่สองเป็นกลุ่มควบคุม สามารถมองได้ดังนี้

{\begin{aligned}&\mathbb {P} (Y_{i1}=1,Y_{i2}=0|X_{i1},X_{i2},Y_{i1}+Y_{i2}=1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}{{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta }}^{\top }X_{i1})}{\exp({\boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta }}^{\top }X_{i2})}}.\\[6pt]\end{aligned}}

ด้วยการคำนวณที่คล้ายกัน ความน่าจะเป็นแบบมีเงื่อนไขของชั้นที่มีขนาดโดยที่การสังเกตการณ์ครั้งแรกเป็นกรณีต่างๆ คือ $m$ $k$

\mathbb {P} (Y_{ij}=1{\text{ for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\sum _{j=1}^{m}Y_{ij}=k)={\frac {\exp(\sum _{j=1}^{k}{\boldsymbol {\beta }}^{\top }X_{ij})}{\sum _{J\in {\mathcal {C}}_{k}^{m}}\exp(\sum _{j\in J}{\boldsymbol {\beta }}^{\top }X_{ij})}},

โดยที่คือ เซตของเซตย่อยทั้งหมดที่มีขนาดเท่ากับเซต ${\mathcal {C}}_{k}^{m}$ $k$ $\{1,...,m\}$

ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขทั้งหมดจึงเป็นเพียงผลรวมของค่าความน่าจะเป็นล็อกสำหรับแต่ละชั้น จากนั้นตัวประมาณค่าจะถูกกำหนดให้เป็นค่าที่ทำให้ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขมีค่าสูงสุด $\beta$

การดำเนินการ

การถดถอยโลจิสติกแบบมีเงื่อนไขมีให้ใช้งานใน R ในรูปแบบฟังก์ชันclogitในsurvivalแพ็กเกจ เนื่องจากมีอยู่ในsurvivalแพ็กเกจเพราะค่าลอการิทึมความน่าจะเป็นของแบบจำลองโลจิสติกแบบมีเงื่อนไขจะเหมือนกับค่าลอการิทึมความน่าจะเป็นของแบบจำลอง Cox ที่มีโครงสร้างข้อมูลเฉพาะ^{[ 3 ]}

นอกจากนี้ยังสามารถใช้งานได้ใน Python ผ่านstatsmodelsแพ็กเกจตั้งแต่เวอร์ชัน 0.14 เป็นต้นไป^{[ 4 ]}

การทดสอบที่เกี่ยวข้อง

การทดสอบความแตกต่างแบบจับคู่สามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบต่อเนื่อง โดยคำนึงถึงการจับคู่ด้วย
การทดสอบ Cochran-Mantel-Haenszelสามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบไบนารีโดยคำนึงถึงการแบ่งชั้นด้วยขนาดชั้นตามอำเภอใจ เมื่อเงื่อนไขการใช้งานได้รับการตรวจสอบแล้ว จะเหมือนกับการทดสอบคะแนนการถดถอยโลจิสติกแบบมีเงื่อนไข^{[ 5 ]}

หมายเหตุ

^ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). "การประมาณค่าฟังก์ชันความเสี่ยงสัมพัทธ์หลายตัวในการศึกษากรณีควบคุมแบบจับคู่" Am J Epidemiol . 108 (4): 299– 307. doi : 10.1093/oxfordjournals.aje.a112623 . PMID 727199 .
^ Breslow, NE; Day, NE (1980). วิธีการทางสถิติในการวิจัยโรคมะเร็ง เล่ม 1 - การวิเคราะห์การศึกษาแบบกรณีควบคุมลียง ประเทศฝรั่งเศส: IARC หน้า 249–251เก็บถาวรจากต้นฉบับเมื่อ 2016-12-26 สืบค้นเมื่อ2016-11-04
^ Lumley, Thomas. "เอกสารประกอบ R การถดถอยโลจิสติกแบบมีเงื่อนไข" . สืบค้นเมื่อ3 พฤศจิกายน 2016 .
^ "statsmodels.discrete.conditional_models.ConditionalLogit" . สืบค้นเมื่อ25 มีนาคม 2023 .
^ Day, NE, Byar, DP (1979). "การทดสอบสมมติฐานในการศึกษาแบบกรณีควบคุม - ความเท่าเทียมกันของสถิติ Mantel-Haenszel และการทดสอบคะแนน logit" Biometrics . 35 (3): 623– 630. doi : 10.2307/2530253 . JSTOR 2530253 . PMID 497345 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[pmid727199-1] Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). "การประมาณค่าฟังก์ชันความเสี่ยงสัมพัทธ์หลายตัวในการศึกษากรณีควบคุมแบบจับคู่" Am J Epidemiol . 108 (4): 299– 307. doi : 10.1093/oxfordjournals.aje.a112623 . PMID 727199 .

[2] Breslow, NE; Day, NE (1980). วิธีการทางสถิติในการวิจัยโรคมะเร็ง เล่ม 1 - การวิเคราะห์การศึกษาแบบกรณีควบคุมลียง ประเทศฝรั่งเศส: IARC หน้า 249–251เก็บถาวรจากต้นฉบับเมื่อ 2016-12-26 สืบค้นเมื่อ2016-11-04

[3] Lumley, Thomas. "เอกสารประกอบ R การถดถอยโลจิสติกแบบมีเงื่อนไข" . สืบค้นเมื่อ3 พฤศจิกายน 2016 .

[4] "statsmodels.discrete.conditional_models.ConditionalLogit" . สืบค้นเมื่อ25 มีนาคม 2023 .

[5] Day, NE, Byar, DP (1979). "การทดสอบสมมติฐานในการศึกษาแบบกรณีควบคุม - ความเท่าเทียมกันของสถิติ Mantel-Haenszel และการทดสอบคะแนน logit" Biometrics . 35 (3): 623– 630. doi : 10.2307/2530253 . JSTOR 2530253 . PMID 497345 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[ 1 ]

[

[ 3 ]

[ 4 ]

[ 5 ]