กลับไปหน้าบทความ

อ่าน 5 นาที

การถดถอยโลจิสติกแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไข เป็นส่วนขยายของ การถดถอยโลจิสติก ที่ช่วยให้สามารถพิจารณา การแบ่งชั้น และ การจับ คู่ได้ ขอบเขตการใช้งานหลักคือ การศึกษาเชิงสังเกต และโดยเฉพาะอย่างยิ่ง...

การถดถอยโลจิสติกแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไขเป็นส่วนขยายของการถดถอยโลจิสติกที่ช่วยให้สามารถพิจารณาการแบ่งชั้นและการจับ คู่ได้ ขอบเขตการใช้งานหลักคือการศึกษาเชิงสังเกตและโดยเฉพาะอย่างยิ่งระบาดวิทยา ได้รับการคิดค้นขึ้นในปี 1978 โดยNorman Breslow , Nicholas Day , Katherine Halvorsen , Ross L. Prenticeและ C. Sabai [ 1 ]เป็นกระบวนการที่มีความยืดหยุ่นและทั่วไปมากที่สุดสำหรับข้อมูลที่จับคู่กัน

พื้นหลัง

การศึกษาเชิงสังเกตการณ์ใช้การแบ่งกลุ่มหรือการจับคู่เป็นวิธีในการควบคุมปัจจัย รบกวน

การถดถอยโลจิสติกสามารถอธิบายการแบ่งชั้นได้โดยใช้ค่าคงที่ที่ แตกต่างกัน สำหรับแต่ละชั้น ให้เรากำหนดป้ายกำกับ (เช่น สถานะกรณี) ของการสังเกตที่ i ในชั้นที่ i และค่าของตัวทำนายที่สอดคล้องกัน จากนั้นเรากำหนดความน่าจะเป็นของการสังเกตหนึ่งๆ เป็น

โดยที่เป็นค่าคงที่สำหรับชั้นที่ th พารามิเตอร์ในแบบจำลองนี้สามารถประมาณได้โดยใช้การ ประมาณค่าความน่าจะเป็นสูงสุด

ตัวอย่างเช่น ลองพิจารณาการประเมินผลกระทบของการออกกำลังกายต่อความเสี่ยงของโรคหัวใจและหลอดเลือด หากคนที่ออกกำลังกายมากกว่ามีอายุน้อยกว่า เข้าถึงการดูแลสุขภาพได้ดีกว่า หรือมีความแตกต่างอื่นๆ ที่ช่วยส่งเสริมสุขภาพของพวกเขา การวิเคราะห์การถดถอยโลจิสติกส์ของอุบัติการณ์ของโรคหัวใจและหลอดเลือดกับจำนวนนาทีที่ใช้ในการออกกำลังกายอาจประเมินผลกระทบของการออกกำลังกายต่อสุขภาพสูงเกินไป เพื่อแก้ไขปัญหานี้ เราสามารถจัดกลุ่มผู้คนตามลักษณะทางประชากรศาสตร์ เช่น อายุและรหัสไปรษณีย์ของที่อยู่อาศัย แต่ละกลุ่มย่อยคือกลุ่มคนที่มีลักษณะทางประชากรศาสตร์คล้ายคลึงกัน เวกเตอร์ประกอบด้วยข้อมูลเกี่ยวกับตัวแปรที่สนใจ (ในกรณีนี้คือจำนวนนาทีที่ใช้ในการออกกำลังกาย) สำหรับแต่ละบุคคลในกลุ่มย่อย ค่าคือผลกระทบของลักษณะทางประชากรศาสตร์ต่ออุบัติการณ์ของโรคหัวใจและหลอดเลือดซึ่งถือว่าเหมือนกันสำหรับทุกคนในกลุ่มย่อย เวกเตอร์(ซึ่งในตัวอย่างนี้เป็นเพียงค่าสเกลาร์) คือปริมาณที่สนใจ นั่นคือผลกระทบของการออกกำลังกายต่อโรคหัวใจและหลอดเลือด เรายังสามารถรวมตัวแปรควบคุมไว้ภายในได้ด้วย

แรงจูงใจ

การถดถอยโลจิสติกส์ดังที่อธิบายไว้ข้างต้นนั้นใช้ได้ผลดีเมื่อจำนวนชั้นข้อมูลมีน้อยเมื่อเทียบกับปริมาณข้อมูล หากเราคงจำนวนชั้นข้อมูลให้คงที่และเพิ่มปริมาณข้อมูล ค่าประมาณของพารามิเตอร์ของแบบจำลอง ( สำหรับแต่ละชั้นข้อมูลและเวกเตอร์) จะลู่เข้าสู่ค่าที่แท้จริง

อย่างไรก็ตาม พฤติกรรมที่ผิดปกติเกิดขึ้นเมื่อเรามีชั้นย่อยจำนวนมาก เนื่องจากจำนวนพารามิเตอร์จะเพิ่มขึ้นตามปริมาณข้อมูล ตัวอย่างเช่น หากแต่ละชั้นย่อยมีข้อมูลสองจุด จำนวนพารามิเตอร์ในแบบจำลองที่มีข้อมูลสองจุดจะเป็นดังนั้นจำนวนพารามิเตอร์จึงอยู่ในลำดับเดียวกับจำนวนข้อมูล ในสถานการณ์เหล่านี้ เมื่อเราเพิ่มปริมาณข้อมูล ผลลัพธ์เชิงอะซิมโทติกซึ่งเป็นพื้นฐานของการประมาณค่าความน่าจะเป็นสูงสุดจะไม่ถูกต้อง และค่าประมาณที่ได้จะมีความลำเอียง การถดถอยโลจิสติกแบบมีเงื่อนไขช่วยแก้ไขปัญหานี้ได้ ในความเป็นจริง สามารถแสดงได้ว่าการวิเคราะห์แบบไม่มีเงื่อนไขของข้อมูลคู่ที่จับคู่กันส่งผลให้ได้ค่าประมาณของอัตราส่วนความน่าจะ เป็น ซึ่งเป็นกำลังสองของค่าที่ถูกต้องตามเงื่อนไข[ 2 ]

นอกเหนือจากการทดสอบโดยใช้การถดถอยโลจิสติกแล้ว ยังมีการทดสอบอื่นๆ อีกหลายวิธีที่ใช้มาก่อนการถดถอยโลจิสติกแบบมีเงื่อนไขสำหรับข้อมูลที่จับคู่กัน ดังแสดงใน การทดสอบที่เกี่ยวข้องอย่างไรก็ตาม การทดสอบเหล่านั้นไม่สามารถวิเคราะห์ตัวแปรทำนายแบบต่อเนื่องที่มีขนาดชั้นตามอำเภอใจได้ และขั้นตอนทั้งหมดเหล่านั้นยังขาดความยืดหยุ่นของการถดถอยโลจิสติกแบบมีเงื่อนไข โดยเฉพาะอย่างยิ่งความสามารถในการควบคุมตัวแปรควบคุม

ความน่าจะเป็นแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไขใช้แนวทางความน่าจะเป็นแบบมีเงื่อนไข ซึ่งจัดการกับพฤติกรรมที่ผิดปกติข้างต้นโดยพิจารณาจากจำนวนกรณีในแต่ละชั้น ทำให้ไม่จำเป็นต้องประมาณค่าพารามิเตอร์ของแต่ละชั้น

เมื่อชั้นข้อมูลเป็นคู่ โดยการสังเกตครั้งแรกเป็นกรณีศึกษาและการสังเกตครั้งที่สองเป็นกลุ่มควบคุม สามารถมองได้ดังนี้

ด้วยการคำนวณที่คล้ายกัน ความน่าจะเป็นแบบมีเงื่อนไขของชั้นที่มีขนาดโดยที่การสังเกตการณ์ครั้งแรกเป็นกรณีต่างๆ คือ

โดยที่คือ เซตของเซตย่อยทั้งหมดที่มีขนาดเท่ากับเซต

ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขทั้งหมดจึงเป็นเพียงผลรวมของค่าความน่าจะเป็นล็อกสำหรับแต่ละชั้น จากนั้นตัวประมาณค่าจะถูกกำหนดให้เป็นค่าที่ทำให้ค่าความน่าจะเป็นล็อกแบบมีเงื่อนไขมีค่าสูงสุด

การดำเนินการ

การถดถอยโลจิสติกแบบมีเงื่อนไขมีให้ใช้งานใน R ในรูปแบบฟังก์ชันclogitในsurvivalแพ็กเกจ เนื่องจากมีอยู่ในsurvivalแพ็กเกจเพราะค่าลอการิทึมความน่าจะเป็นของแบบจำลองโลจิสติกแบบมีเงื่อนไขจะเหมือนกับค่าลอการิทึมความน่าจะเป็นของแบบจำลอง Cox ที่มีโครงสร้างข้อมูลเฉพาะ[ 3 ]

นอกจากนี้ยังสามารถใช้งานได้ใน Python ผ่านstatsmodelsแพ็กเกจตั้งแต่เวอร์ชัน 0.14 เป็นต้นไป[ 4 ]

  • การทดสอบความแตกต่างแบบจับคู่สามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบต่อเนื่อง โดยคำนึงถึงการจับคู่ด้วย
  • การทดสอบ Cochran-Mantel-Haenszelสามารถทดสอบความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีและตัวทำนายแบบไบนารีโดยคำนึงถึงการแบ่งชั้นด้วยขนาดชั้นตามอำเภอใจ เมื่อเงื่อนไขการใช้งานได้รับการตรวจสอบแล้ว จะเหมือนกับการทดสอบคะแนนการถดถอยโลจิสติกแบบมีเงื่อนไข[ 5 ]

หมายเหตุ

  1. ^ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). "การประมาณค่าฟังก์ชันความเสี่ยงสัมพัทธ์หลายตัวในการศึกษากรณีควบคุมแบบจับคู่" Am J Epidemiol . 108 (4): 299– 307. doi : 10.1093/oxfordjournals.aje.a112623 . PMID  727199 .
  2. ^ Breslow, NE; Day, NE (1980). วิธีการทางสถิติในการวิจัยโรคมะเร็ง เล่ม 1 - การวิเคราะห์การศึกษาแบบกรณีควบคุมลียง ประเทศฝรั่งเศส: IARC หน้า  249–251เก็บถาวรจากต้นฉบับเมื่อ 2016-12-26 สืบค้นเมื่อ2016-11-04
  3. ^ Lumley, Thomas. "เอกสารประกอบ R การถดถอยโลจิสติกแบบมีเงื่อนไข" . สืบค้นเมื่อ3 พฤศจิกายน 2016 .
  4. ^ "statsmodels.discrete.conditional_models.ConditionalLogit" . สืบค้นเมื่อ25 มีนาคม 2023 .
  5. ^ Day, NE, Byar, DP (1979). "การทดสอบสมมติฐานในการศึกษาแบบกรณีควบคุม - ความเท่าเทียมกันของสถิติ Mantel-Haenszel และการทดสอบคะแนน logit" Biometrics . 35 (3): 623– 630. doi : 10.2307/2530253 . JSTOR 2530253 . PMID 497345 .  {{cite journal}}: CS1 maint: multiple names: authors list (link)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Conditional_logistic_regression&oldid=1324445693 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การถดถอยโลจิสติกแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไข เป็นส่วนขยายของ การถดถอยโลจิสติก ที่ช่วยให้สามารถพิจารณา การแบ่งชั้น และ การจับ คู่ได้ ขอบเขตการใช้งานหลักคือ การศึกษาเชิงสังเกต และโดยเฉพาะอย่างยิ่ง...

พื้นหลัง

การศึกษาเชิงสังเกตการณ์ใช้ การแบ่งกลุ่ม หรือ การจับคู่ เป็นวิธีในการควบคุมปัจจัย รบกวน

แรงจูงใจ

การถดถอยโลจิสติกส์ดังที่อธิบายไว้ข้างต้นนั้นใช้ได้ผลดีเมื่อจำนวนชั้นข้อมูลมีน้อยเมื่อเทียบกับปริมาณข้อมูล หากเราคงจำนวนชั้นข้อมูลให้คงที่และเพิ่มปริมาณข้อมูล ค่าประมาณของพารามิเตอร์ของแบบจำลอง ( สำหรับแต่ละชั้นข้อมูลและเวกเตอร์) จะลู่เข้าสู่ค่าที่แท้จริง α...

ความน่าจะเป็นแบบมีเงื่อนไข

การถดถอยโลจิสติกแบบมีเงื่อนไขใช้แนวทางความน่าจะเป็นแบบมีเงื่อนไข ซึ่งจัดการกับพฤติกรรมที่ผิดปกติข้างต้นโดยพิจารณาจากจำนวนกรณีในแต่ละชั้น ทำให้ไม่จำเป็นต้องประมาณค่าพารามิเตอร์ของแต่ละชั้น