อ่าน 5 นาที
การถดถอยโลจิสติกแบบมีเงื่อนไข
การถดถอยโลจิสติกแบบมีเงื่อนไข เป็นส่วนขยายของ การถดถอยโลจิสติก ที่ช่วยให้สามารถพิจารณา การแบ่งชั้น และ การจับ คู่ได้ ขอบเขตการใช้งานหลักคือ การศึกษาเชิงสังเกต และโดยเฉพาะอย่างยิ่ง...
การถดถอยโลจิสติกแบบมีเงื่อนไข
การถดถอยโลจิสติกแบบมีเงื่อนไขเป็นส่วนขยายของการถดถอยโลจิสติกที่ช่วยให้สามารถพิจารณาการแบ่งชั้นและการจับ คู่ได้ ขอบเขตการใช้งานหลักคือการศึกษาเชิงสังเกตและโดยเฉพาะอย่างยิ่งระบาดวิทยา ได้รับการคิดค้นขึ้นในปี 1978 โดยNorman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prenticeและ C. Sabai [ 1 ]เป็นกระบวนการที่มีความยืดหยุ่นและทั่วไปมากที่สุดสำหรับข้อมูลที่จับคู่กัน
พื้นหลัง
การศึกษาเชิงสังเกตการณ์ใช้การแบ่งกลุ่มหรือการจับคู่เป็นวิธีในการควบคุมปัจจัย รบกวน
การถดถอยโลจิสติกสามารถอธิบายการแบ่งชั้นได้โดยใช้ค่าคงที่ที่ แตกต่างกัน สำหรับแต่ละชั้น ให้เรากำหนดป้ายกำกับ (เช่น สถานะกรณี) ของการสังเกตที่ i ในชั้นที่ i และค่าของตัวทำนายที่สอดคล้องกัน จากนั้นเรากำหนดความน่าจะเป็นของการสังเกตหนึ่งๆ เป็น
โดยที่เป็นค่าคงที่สำหรับชั้นที่ th พารามิเตอร์ในแบบจำลองนี้สามารถประมาณได้โดยใช้การ ประมาณค่าความน่าจะเป็นสูงสุด
ตัวอย่างเช่น ลองพิจารณาการประเมินผลกระทบของการออกกำลังกายต่อความเสี่ยงของโรคหัวใจและหลอดเลือด หากคนที่ออกกำลังกายมากกว่ามีอายุน้อยกว่า เข้าถึงการดูแลสุขภาพได้ดีกว่า หรือมีความแตกต่างอื่นๆ ที่ช่วยส่งเสริมสุขภาพของพวกเขา การวิเคราะห์การถดถอยโลจิสติกส์ของอุบัติการณ์ของโรคหัวใจและหลอดเลือดกับจำนวนนาทีที่ใช้ในการออกกำลังกายอาจประเมินผลกระทบของการออกกำลังกายต่อสุขภาพสูงเกินไป เพื่อแก้ไขปัญหานี้ เราสามารถจัดกลุ่มผู้คนตามลักษณะทางประชากรศาสตร์ เช่น อายุและรหัสไปรษณีย์ของที่อยู่อาศัย แต่ละกลุ่มย่อยคือกลุ่มคนที่มีลักษณะทางประชากรศาสตร์คล้ายคลึงกัน เวกเตอร์ประกอบด้วยข้อมูลเกี่ยวกับตัวแปรที่สนใจ (ในกรณีนี้คือจำนวนนาทีที่ใช้ในการออกกำลังกาย) สำหรับแต่ละบุคคลในกลุ่มย่อย ค่าคือผลกระทบของลักษณะทางประชากรศาสตร์ต่ออุบัติการณ์ของโรคหัวใจและหลอดเลือดซึ่งถือว่าเหมือนกันสำหรับทุกคนในกลุ่มย่อย เวกเตอร์(ซึ่งในตัวอย่างนี้เป็นเพียงค่าสเกลาร์) คือปริมาณที่สนใจ นั่นคือผลกระทบของการออกกำลังกายต่อโรคหัวใจและหลอดเลือด เรายังสามารถรวมตัวแปรควบคุมไว้ภายในได้ด้วย
แรงจูงใจ
การถดถอยโลจิสติกส์ดังที่อธิบายไว้ข้างต้นนั้นใช้ได้ผลดีเมื่อจำนวนชั้นข้อมูลมีน้อยเมื่อเทียบกับปริมาณข้อมูล หากเราคงจำนวนชั้นข้อมูลให้คงที่และเพิ่มปริมาณข้อมูล ค่าประมาณของพารามิเตอร์ของแบบจำลอง ( สำหรับแต่ละชั้นข้อมูลและเวกเตอร์) จะลู่เข้าสู่ค่าที่แท้จริง
อย่างไรก็ตาม พฤติกรรมที่ผิดปกติเกิดขึ้นเมื่อเรามีชั้นย่อยจำนวนมาก เนื่องจากจำนวนพารามิเตอร์จะเพิ่มขึ้นตามปริมาณข้อมูล ตัวอย่างเช่น หากแต่ละชั้นย่อยมีข้อมูลสองจุด จำนวนพารามิเตอร์ในแบบจำลองที่มีข้อมูลสองจุดจะเป็นดังนั้นจำนวนพารามิเตอร์จึงอยู่ในลำดับเดียวกับจำนวนข้อมูล ในสถานการณ์เหล่านี้ เมื่อเราเพิ่มปริมาณข้อมูล ผลลัพธ์เชิงอะซิมโทติกซึ่งเป็นพื้นฐานของการประมาณค่าความน่าจะเป็นสูงสุดจะไม่ถูกต้อง และค่าประมาณที่ได้จะมีความลำเอียง การถดถอยโลจิสติกแบบมีเงื่อนไขช่วยแก้ไขปัญหานี้ได้ ในความเป็นจริง สามารถแสดงได้ว่าการวิเคราะห์แบบไม่มีเงื่อนไขของข้อมูลคู่ที่จับคู่กันส่งผลให้ได้ค่าประมาณของอัตราส่วนความน่าจะ เป็น ซึ่งเป็นกำลังสองของค่าที่ถูกต้องตามเงื่อนไข[ 2 ]
นอกเหนือจากการทดสอบโดยใช้การถดถอยโลจิสติกแล้ว ยังมีการทดสอบอื่นๆ อีกหลายวิธีที่ใช้มาก่อนการถดถอยโลจิสติกแบบมีเงื่อนไขสำหรับข้อมูลที่จับคู่กัน ดังแสดงใน การทดสอบที่เกี่ยวข้องอย่างไรก็ตาม การทดสอบเหล่านั้นไม่สามารถวิเคราะห์ตัวแปรทำนายแบบต่อเนื่องที่มีขนาดชั้นตามอำเภอใจได้ และขั้นตอนทั้งหมดเหล่านั้นยังขาดความยืดหยุ่นของการถดถอยโลจิสติกแบบมีเงื่อนไข โดยเฉพาะอย่างยิ่งความสามารถในการควบคุมตัวแปรควบคุม
ความน่าจะเป็นแบบมีเงื่อนไข
การถดถอยโลจิสติกแบบมีเงื่อนไขใช้แนวทางความน่าจะเป็นแบบมีเงื่อนไข ซึ่งจัดการกับพฤติกรรมที่ผิดปกติข้างต้นโดยพิจารณาจากจำนวนกรณีในแต่ละชั้น ทำให้ไม่จำเป็นต้องประมาณค่าพารามิเตอร์ของแต่ละชั้น
เมื่อชั้นข้อมูลเป็นคู่ โดยการสังเกตครั้งแรกเป็นกรณีศึกษาและการสังเกตครั้งที่สองเป็นกลุ่มควบคุม สามารถมองได้ดังนี้
ด้วยการคำนวณที่คล้ายกัน ความน่าจะเป็นแบบมีเงื่อนไขของชั้นที่มีขนาดโดยที่การสังเกตการณ์ครั้งแรกเป็นกรณีต่างๆ คือ
โดยที่คือ เซตของเซตย่อยทั้งหมดที่มีขนาดเท่ากับเซต
ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขทั้งหมดจึงเป็นเพียงผลรวมของค่าความน่าจะเป็นล็อกสำหรับแต่ละชั้น จากนั้นตัวประมาณค่าจะถูกกำหนดให้เป็นค่าที่ทำให้ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขมีค่าสูงสุด
การดำเนินการ
การถดถอยโลจิสติกแบบมีเงื่อนไขมีให้ใช้งานใน R ในรูปแบบฟังก์ชันclogitในsurvivalแพ็กเกจ เนื่องจากมีอยู่ในsurvivalแพ็กเกจเพราะค่าลอการิทึมความน่าจะเป็นของแบบจำลองโลจิสติกแบบมีเงื่อนไขจะเหมือนกับค่าลอการิทึมความน่าจะเป็นของแบบจำลอง Cox ที่มีโครงสร้างข้อมูลเฉพาะ[ 3 ]
นอกจากนี้ยังสามารถใช้งานได้ใน Python ผ่านstatsmodelsแพ็กเกจตั้งแต่เวอร์ชัน 0.14 เป็นต้นไป[ 4 ]
การทดสอบที่เกี่ยวข้อง
- การทดสอบความแตกต่างแบบจับคู่สามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบต่อเนื่อง โดยคำนึงถึงการจับคู่ด้วย
- การทดสอบ Cochran-Mantel-Haenszelสามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบไบนารีโดยคำนึงถึงการแบ่งชั้นด้วยขนาดชั้นตามอำเภอใจ เมื่อเงื่อนไขการใช้งานได้รับการตรวจสอบแล้ว จะเหมือนกับการทดสอบคะแนนการถดถอยโลจิสติกแบบมีเงื่อนไข[ 5 ]
หมายเหตุ
- ^ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). "การประมาณค่าฟังก์ชันความเสี่ยงสัมพัทธ์หลายตัวในการศึกษากรณีควบคุมแบบจับคู่" Am J Epidemiol . 108 (4): 299– 307. doi : 10.1093/oxfordjournals.aje.a112623 . PMID 727199 .
- ^ Breslow, NE; Day, NE (1980). วิธีการทางสถิติในการวิจัยโรคมะเร็ง เล่ม 1 - การวิเคราะห์การศึกษาแบบกรณีควบคุมลียง ประเทศฝรั่งเศส: IARC หน้า 249–251เก็บถาวรจากต้นฉบับเมื่อ 2016-12-26 สืบค้นเมื่อ2016-11-04
- ^ Lumley, Thomas. "เอกสารประกอบ R การถดถอยโลจิสติกแบบมีเงื่อนไข" . สืบค้นเมื่อ3 พฤศจิกายน 2016 .
- ^ "statsmodels.discrete.conditional_models.ConditionalLogit" . สืบค้นเมื่อ25 มีนาคม 2023 .
- ^ Day, NE, Byar, DP (1979). "การทดสอบสมมติฐานในการศึกษาแบบกรณีควบคุม - ความเท่าเทียมกันของสถิติ Mantel-Haenszel และการทดสอบคะแนน logit" Biometrics . 35 (3): 623– 630. doi : 10.2307/2530253 . JSTOR 2530253 . PMID 497345 .
{{cite journal}}: CS1 maint: multiple names: authors list (link)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การถดถอยโลจิสติกแบบมีเงื่อนไข
การถดถอยโลจิสติกแบบมีเงื่อนไข เป็นส่วนขยายของ การถดถอยโลจิสติก ที่ช่วยให้สามารถพิจารณา การแบ่งชั้น และ การจับ คู่ได้ ขอบเขตการใช้งานหลักคือ การศึกษาเชิงสังเกต และโดยเฉพาะอย่างยิ่ง...
พื้นหลัง
การศึกษาเชิงสังเกตการณ์ใช้ การแบ่งกลุ่ม หรือ การจับคู่ เป็นวิธีในการควบคุมปัจจัย รบกวน
แรงจูงใจ
การถดถอยโลจิสติกส์ดังที่อธิบายไว้ข้างต้นนั้นใช้ได้ผลดีเมื่อจำนวนชั้นข้อมูลมีน้อยเมื่อเทียบกับปริมาณข้อมูล หากเราคงจำนวนชั้นข้อมูลให้คงที่และเพิ่มปริมาณข้อมูล ค่าประมาณของพารามิเตอร์ของแบบจำลอง ( สำหรับแต่ละชั้นข้อมูลและเวกเตอร์) จะลู่เข้าสู่ค่าที่แท้จริง α...
ความน่าจะเป็นแบบมีเงื่อนไข
การถดถอยโลจิสติกแบบมีเงื่อนไขใช้แนวทางความน่าจะเป็นแบบมีเงื่อนไข ซึ่งจัดการกับพฤติกรรมที่ผิดปกติข้างต้นโดยพิจารณาจากจำนวนกรณีในแต่ละชั้น ทำให้ไม่จำเป็นต้องประมาณค่าพารามิเตอร์ของแต่ละชั้น