การถดถอยแบบทวินาม

ในทางสถิติการถดถอยแบบทวินามเป็น เทคนิค การวิเคราะห์การถดถอยที่การตอบสนอง (มักเรียกว่าY ) มีการกระจายแบบทวินาม : คือจำนวนความสำเร็จในชุดของการทดลองแบบเบอร์นูลลีอิสระโดย $n$ แต่ละการทดลองมีความน่าจะเป็นของความสำเร็จ[ ¹ ] ^ใน การถดถอยแบบทวินาม ความน่าจะเป็นของความสำเร็จ มีความสัมพันธ์กับตัวแปรอธิบาย : แนวคิดที่สอดคล้องกันในการถดถอยแบบธรรมดาคือการเชื่อมโยงค่าเฉลี่ยของ ^การตอบสนองที่ไม่สามารถสังเกตได้กับตัวแปรอธิบาย $p$

การถดถอยแบบทวินามมีความเกี่ยวข้องอย่างใกล้ชิดกับการถดถอยแบบไบนารี : การถดถอยแบบไบนารีสามารถพิจารณาได้ว่าเป็นการถดถอยแบบทวินามที่มีหรือเป็นการถดถอยบน ข้อมูลไบนารี ที่ไม่ได้จัด กลุ่ม ในขณะที่การถดถอยแบบทวินามสามารถพิจารณาได้ว่าเป็นการถดถอยบน ข้อมูลไบนารี ที่จัดกลุ่มแล้ว (ดูการเปรียบเทียบ ) ^[²^]แบบจำลองการถดถอยแบบทวินามโดยพื้นฐานแล้วเหมือนกับแบบจำลองการเลือกแบบไบนารี ซึ่งเป็นแบบจำลอง การเลือกแบบไม่ต่อเนื่องประเภทหนึ่งความแตกต่างหลักอยู่ที่แรงจูงใจทางทฤษฎี (ดูการเปรียบเทียบ ) ในการเรียนรู้ของเครื่องการถดถอยแบบทวินามถือเป็นกรณีพิเศษของการจำแนกประเภทความน่าจะเป็นและดังนั้นจึงเป็นการวางนัยทั่วไปของการจำแนกประเภทแบบไบนารี $n=1$

ตัวอย่างการใช้งาน

ในตัวอย่างที่ตีพิมพ์ของการประยุกต์ใช้การถดถอยแบบทวินาม^{[ 3 ]}รายละเอียดมีดังนี้ ตัวแปรผลลัพธ์ที่สังเกตได้คือว่าเกิดข้อผิดพลาดในกระบวนการอุตสาหกรรมหรือไม่ มีตัวแปรอธิบายสองตัว ตัวแรกเป็นปัจจัยแบบสองกรณีง่ายๆ ที่แสดงว่ามีการใช้กระบวนการเวอร์ชันที่แก้ไขแล้วหรือไม่ และตัวที่สองเป็นตัวแปรเชิงปริมาณทั่วไปที่วัดความบริสุทธิ์ของวัสดุที่จัดหาให้กับกระบวนการ

รายละเอียดของรุ่น

ตัวแปรตอบสนองYถือว่ามีการแจกแจงแบบทวินามโดยมีเงื่อนไขจากตัวแปรอธิบายXจำนวนครั้งของการทดลองnเป็นที่ทราบ และความน่าจะเป็นของความสำเร็จในแต่ละครั้งpถูกกำหนดเป็นฟังก์ชันθ(X)ซึ่งหมายความว่าค่าคาดหวังแบบมีเงื่อนไขและความแปรปรวนแบบมีเงื่อนไขของสัดส่วนความสำเร็จที่สังเกตได้Y/nคือ

E(Y/n\mid X)=\theta (X)

\operatorname {Var} (Y/n\mid X)=\theta (X)(1-\theta (X))/n

เป้าหมายของการถดถอยแบบทวินามคือการประมาณฟังก์ชันθ(X)โดยทั่วไปนักสถิติจะสมมติสำหรับฟังก์ชันm ที่ทราบ และประมาณค่าβตัวเลือกทั่วไปสำหรับmได้แก่ฟังก์ชันโลจิสติก^[¹^] $\theta (X)=m(\beta ^{\mathrm {T} }X)$

โดยทั่วไป ข้อมูลจะถูกปรับให้เข้ากับแบบจำลองเชิงเส้นทั่วไปโดยที่ค่าที่ทำนายได้ μ คือความน่าจะเป็นที่เหตุการณ์แต่ละอย่างจะประสบความสำเร็จความน่าจะเป็นของการทำนายจะกำหนดโดย

L({\boldsymbol {\mu }}\mid Y)=\prod _{i=1}^{n}\left(1_{y_{i}=1}(\mu _{i})+1_{y_{i}=0}(1-\mu _{i})\right),\,\!

โดยที่1 _Aคือฟังก์ชันตัวบ่งชี้ซึ่งมีค่าเป็นหนึ่งเมื่อเหตุการณ์Aเกิดขึ้น และเป็นศูนย์ในกรณีอื่น ๆ: ในสูตรนี้ สำหรับการสังเกตy _i ใด ๆ จะมีเพียงหนึ่งในสองเทอมภายในผลคูณเท่านั้นที่มีส่วนร่วม ขึ้นอยู่กับว่าy _i =0 หรือ 1 ฟังก์ชันความน่าจะเป็นจะถูกระบุอย่างสมบูรณ์มากขึ้นโดยการกำหนดพารามิเตอร์อย่างเป็นทางการμ _iเป็นฟังก์ชันพารามิเตอร์ของตัวแปรอธิบาย: ซึ่งจะกำหนดความน่าจะเป็นในแง่ของจำนวนพารามิเตอร์ที่ลดลงมาก การปรับแบบจำลองมักทำได้โดยใช้วิธีความน่าจะเป็นสูงสุดเพื่อกำหนดพารามิเตอร์เหล่านี้ ในทางปฏิบัติ การใช้สูตรเป็นแบบจำลองเชิงเส้นทั่วไปช่วยให้สามารถใช้ประโยชน์จากแนวคิดเชิงอัลกอริทึมบางอย่างซึ่งสามารถนำไปใช้ได้กับแบบจำลองทั่วไปทั้งหมด แต่ไม่สามารถใช้ได้กับปัญหาความน่าจะเป็นสูงสุดทั้งหมด

แบบจำลองที่ใช้ในการถดถอยแบบทวินามมักสามารถขยายไปใช้กับข้อมูลแบบพหุนามได้

มีหลายวิธีในการสร้างค่าของμอย่างเป็นระบบ ซึ่งช่วยให้สามารถตีความแบบจำลองได้ วิธีเหล่านั้นจะกล่าวถึงต่อไปนี้

ฟังก์ชันการเชื่อมโยง

มีข้อกำหนดว่าแบบจำลองที่เชื่อมโยงความน่าจะเป็น μ กับตัวแปรอธิบายจะต้องอยู่ในรูปแบบที่ให้ค่าอยู่ในช่วง 0 ถึง 1 เท่านั้น แบบจำลองหลายแบบสามารถปรับให้เข้ากับรูปแบบนี้ได้

{\boldสัญลักษณ์ {\mu }}=g({\boldสัญลักษณ์ {\eta }})\,.

ในที่นี้ηเป็นตัวแปรตัวกลางที่แสดงถึงการรวมเชิงเส้น ซึ่งประกอบด้วยพารามิเตอร์การถดถอยของตัวแปรอธิบาย ฟังก์ชัน gคือฟังก์ชันการกระจายสะสม (cdf) ของการกระจายความน่าจะเป็น บางอย่าง โดยปกติการกระจายความน่าจะเป็นนี้จะมีช่วงตั้งแต่ลบอนันต์ถึงบวกอนันต์ ดังนั้นค่าη ใดๆ ที่มีค่าจำกัด จะถูกแปลงโดยฟังก์ชันgให้เป็นค่าภายในช่วง 0 ถึง 1

ในกรณีของการถดถอยโลจิสติกฟังก์ชันเชื่อมโยงคือลog ของอัตราส่วนความน่าจะเป็นหรือฟังก์ชันโลจิสติกในกรณีของโพรบิตฟังก์ชันเชื่อมโยงคือฟังก์ชันการกระจายสะสม (cdf) ของการแจกแจงปกติ แบบจำลองความน่าจะเป็นเชิงเส้นไม่ใช่แบบจำลองการถดถอยทวินามที่เหมาะสม เนื่องจากค่าที่ทำนายไม่จำเป็นต้องอยู่ในช่วงศูนย์ถึงหนึ่ง บางครั้งก็ใช้กับข้อมูลประเภทนี้เมื่อพื้นที่ความน่าจะเป็นเป็นจุดที่เกิดการตีความ หรือเมื่อนักวิเคราะห์ขาดความเชี่ยวชาญเพียงพอที่จะปรับหรือคำนวณค่าประมาณเชิงเส้นของความน่าจะเป็นเพื่อการตีความ

เปรียบเทียบกับการถดถอยแบบไบนารี

การถดถอยแบบทวินามมีความเชื่อมโยงอย่างใกล้ชิดกับการถดถอยแบบไบนารี หากการตอบสนองเป็นตัวแปรไบนารี (ผลลัพธ์ที่เป็นไปได้สองอย่าง) ทางเลือกเหล่านี้สามารถเข้ารหัสเป็น 0 หรือ 1 ได้ โดยพิจารณาผลลัพธ์หนึ่งเป็น "ความสำเร็จ" และอีกผลลัพธ์หนึ่งเป็น "ความล้มเหลว" และพิจารณาสิ่งเหล่านี้เป็นข้อมูลนับ : "ความสำเร็จ" คือ 1 ความสำเร็จจาก 1 การทดลอง ในขณะที่ "ความล้มเหลว" คือ 0 ความสำเร็จจาก 1 การทดลอง ตอนนี้สามารถพิจารณาได้ว่าเป็นการกระจายแบบทวินามที่มีการทดลอง ดังนั้นการถดถอยแบบไบนารีจึงเป็นกรณีพิเศษของการถดถอยแบบทวินาม หากข้อมูลเหล่านี้ถูกจัดกลุ่ม (โดยการบวกจำนวนนับ) ข้อมูลเหล่านั้นจะไม่ใช่ข้อมูลไบนารีอีกต่อไป แต่เป็นข้อมูลนับสำหรับแต่ละกลุ่ม และยังคงสามารถสร้างแบบจำลองได้โดยการถดถอยแบบทวินาม ผลลัพธ์ไบนารีแต่ละรายการจะถูกเรียกว่า "ข้อมูลที่ไม่ได้จัดกลุ่ม" ข้อดีของการทำงานกับข้อมูลที่จัดกลุ่มคือสามารถทดสอบความเหมาะสมของแบบจำลองได้^[²^]ตัวอย่างเช่น ข้อมูลที่จัดกลุ่มอาจแสดงการกระจายเกินเมื่อเทียบกับความแปรปรวนที่ประมาณจากข้อมูลที่ไม่ได้จัดกลุ่ม $n=1$

การเปรียบเทียบกับแบบจำลองการเลือกแบบไบนารี

แบบจำลองการเลือกแบบไบนารีสมมติว่ามีตัวแปรแฝงU _nซึ่งเป็นอรรถประโยชน์ (หรือผลประโยชน์สุทธิ) ที่บุคคลnได้รับจากการกระทำ (ตรงข้ามกับการไม่กระทำ) อรรถประโยชน์ที่บุคคลได้รับจากการกระทำนั้นขึ้นอยู่กับลักษณะเฉพาะของบุคคล ซึ่งบางส่วนนักวิจัยสามารถสังเกตได้ และบางส่วนนักวิจัยไม่สามารถสังเกตได้:

U_{n}={\boldสัญลักษณ์ {\beta }}\cdot \mathbf {s_{n}} +\varepsilon _{n}

โดยที่คือเซตของสัมประสิทธิ์การถดถอยและคือเซตของตัวแปรอิสระ (หรือที่เรียกว่า "คุณลักษณะ") ที่อธิบายบุคคลnซึ่งอาจเป็นตัวแปรดัมมี่แบบไม่ ต่อเนื่อง หรือตัวแปรต่อเนื่องปกติก็ได้ คือตัวแปรสุ่มที่ระบุ "สัญญาณรบกวน" หรือ "ข้อผิดพลาด" ในการทำนาย โดยถือว่ามีการกระจายตามการแจกแจงบางอย่าง โดยปกติแล้ว หากมีค่าเฉลี่ยหรือค่าความแปรปรวนในพารามิเตอร์ของการแจกแจง จะไม่สามารถระบุได้ดังนั้นพารามิเตอร์จึงถูกตั้งค่าเป็นค่าที่สะดวก — ตามธรรมเนียมแล้วมักจะเป็นค่าเฉลี่ย 0 และความแปรปรวน 1 ${\boldสัญลักษณ์ {\beta }}$ $\mathbf {s_{n}}$ $\varepsilon _{n}$

บุคคลนั้นจะดำเนินการy _n = 1ถ้าU _n > 0 โดยถือว่าพจน์ที่ไม่สามารถสังเกตได้ε _nมีการกระจายแบบโลจิสติก

ข้อกำหนดดังกล่าวเขียนไว้อย่างกระชับดังนี้:

- U _n = βs _n + ε _n
- $Y_{n}={\begin{cases}1,&{\text{ถ้า }}U_{n}>0,\\0,&{\text{ถ้า }}U_{n}\leq 0\end{cases}}$
- ε ∼ โลจิสติก , การ แจกแจงปกติ มาตรฐาน ฯลฯ

ลองเขียนใหม่อีกแบบดู:

- U _n = βs _n − e _n
- $Y_{n}={\begin{cases}1,&{\text{ถ้า }}U_{n}>0,\\0,&{\text{ถ้า }}U_{n}\leq 0\end{cases}}$
- e ∼ โลจิสติก , การแจกแจง ปกติ มาตรฐาน ฯลฯ

ในที่นี้เราได้ทำการแทนที่e _n = − ε _nซึ่งจะเปลี่ยนตัวแปรสุ่มไปเป็นตัวแปรสุ่มที่แตกต่างออกไปเล็กน้อย โดยกำหนดไว้ในโดเมนที่เป็นค่าลบ และโดยทั่วไปแล้ว การแจกแจงความคลาดเคลื่อนที่เราพิจารณา (เช่นการแจกแจงโลจิสติก การแจกแจงปกติมาตรฐานการแจกแจง t ของนักเรียนมาตรฐานเป็นต้น) จะสมมาตรเกี่ยวกับ 0 ดังนั้น การแจกแจงของe _nจึงเหมือนกับการแจกแจงของ ε _n

ให้ แทนฟังก์ชันการกระจายสะสม (CDF) ของและแทนฟังก์ชันควอนไทล์ (CDF ผกผัน) ของ $e$ $F_{e},$ $e$ $F_{e}^{-1}.$

โปรดทราบว่า

{\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\\[6pt]&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} -e_{n}>0)\\[6pt]&=\Pr(-e_{n}>-{\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\[6pt]&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\[6pt]&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\end{aligned}}

เนื่องจากเป็นการทดลองแบบเบอร์นูลลีซึ่งเรามี $Y_{n}$ $\mathbb {E} [Y_{n}]=\Pr(Y_{n}=1),$

\mathbb {E} [Y_{n}]=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )

หรือเทียบเท่า

F_{e}^{-1}(\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} .

โปรดทราบว่านี่เทียบเท่ากับแบบจำลองการถดถอยทวินามที่แสดงในรูปแบบของแบบจำลองเชิงเส้นทั่วไปอย่าง แท้จริง

ถ้าie มีการกระจายตัวแบบการแจกแจงปกติมาตรฐานแล้ว $e_{n}\sim {\mathcal {N}}(0,1),$

\Phi ^{-1}(\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}

ซึ่งก็คือแบบจำลองโพรบิตนั่นเอง

ถ้าie มีการกระจายแบบการแจกแจงโลจิสติก มาตรฐาน ที่มีค่าเฉลี่ย 0 และพารามิเตอร์มาตราส่วน 1 แล้วฟังก์ชันควอนไทล์ ที่สอดคล้องกัน คือฟังก์ชัน logitและ $e_{n}\sim \operatorname {Logistic} (0,1),$

\operatorname {logit} (\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}

ซึ่งก็คือแบบจำลองโลจิตนั่นเอง

โปรดทราบว่ารูปแบบทางคณิตศาสตร์สองแบบที่แตกต่างกัน ได้แก่แบบจำลองเชิงเส้นทั่วไป (GLM) และ แบบจำลอง การเลือกแบบไม่ต่อเนื่องนั้น เทียบเท่ากันในกรณีของแบบจำลองการเลือกแบบไบนารีอย่างง่าย แต่สามารถขยายได้ในรูปแบบที่แตกต่างกัน:

แบบจำลองเชิงเส้นทั่วไป ( GLM) สามารถจัดการกับตัวแปรตอบ สนอง ( ตัวแปรตาม ) ที่มีการกระจายแบบใดก็ได้ได้อย่างง่ายดาย ไม่ใช่แค่ตัวแปรเชิงหมวดหมู่หรือตัวแปรเชิงลำดับเท่านั้น ซึ่งแบบจำลองการเลือกแบบไม่ต่อเนื่องถูกจำกัดไว้โดยธรรมชาติ นอกจากนี้ GLM ยังไม่จำกัดอยู่แค่ฟังก์ชันเชื่อมโยงที่เป็นฟังก์ชันควอนไทล์ของการกระจายแบบใดแบบหนึ่ง ซึ่งแตกต่างจากการใช้ตัวแปรความคลาดเคลื่อนซึ่งตามสมมติฐานจะต้องมีการกระจายความน่าจะเป็น
ในทางกลับกัน เนื่องจากแบบจำลองการเลือกแบบไม่ต่อเนื่องถูกอธิบายว่าเป็นแบบจำลองเชิงกำเนิด ประเภท หนึ่ง จึงทำให้การขยายแบบจำลองเหล่านี้ไปสู่สถานการณ์ที่ซับซ้อนกว่า ซึ่งมีตัวเลือกหลายอย่างที่อาจมีความสัมพันธ์กันสำหรับแต่ละบุคคล หรือรูปแบบอื่นๆ ทำได้ง่ายกว่าในเชิงแนวคิด

การตีความ/การหาค่าตัวแปรแฝง

สามารถสร้างแบบจำลองตัวแปรแฝงที่เกี่ยวข้องกับตัวแปรสังเกตแบบทวินาม Y ได้ โดยที่Y มีความสัมพันธ์กับตัวแปรแฝงY*ผ่านทาง

Y={\begin{cases}0,&{\mbox{if }}Y^{*}>0\\1,&{\mbox{if }}Y^{*}<0.\end{cases}}

ตัวแปรแฝงY*จะมีความสัมพันธ์กับชุดของตัวแปรถดถอยXโดยแบบจำลอง

Y^{*}=X\beta +\epsilon \ .

ผลลัพธ์ที่ได้คือแบบจำลองการถดถอยแบบทวินาม

ไม่สามารถระบุ ค่าความแปรปรวนของϵได้ และเมื่อไม่สนใจค่าความแปรปรวน มักจะถือว่ามีค่าเท่ากับหนึ่ง ถ้าϵมีการกระจายแบบปกติ โมเดล probit จะเหมาะสม และถ้าϵมี การกระจายแบบ log-Weibullโมเดล logit จะเหมาะสม ถ้าϵมีการกระจายแบบเอกรูป โมเดลความน่าจะเป็นเชิงเส้นจะเหมาะสม

ดูเพิ่มเติม

หมายเหตุ

^ ^a ^b Sanford Weisberg (2005). "การถดถอยแบบทวินาม" การถดถอยเชิงเส้นประยุกต์ Wiley-IEEE หน้า 253 –254 ISBN 0-471-66379-4.
^ ^a ^b Rodríguez 2007 , บทที่ 3, หน้า 5.
^ Cox & Snell (1981), ตัวอย่าง H,หน้า 91

อ่านเพิ่มเติม

Dean, CB (1992). "การทดสอบความแปรปรวนเกินในแบบจำลองการถดถอยปัวซงและทวินาม" วารสารสมาคมสถิติอเมริกัน87 (418). Informa UK Limited: 451– 457. doi : 10.1080/01621459.1992.10475225 . ISSN 0162-1459 . JSTOR 2290276 .

[Weisberg-1] Sanford Weisberg (2005). "การถดถอยแบบทวินาม" การถดถอยเชิงเส้นประยุกต์ Wiley-IEEE หน้า 253 –254 ISBN 0-471-66379-4.

[FOOTNOTERodríguez2007Chapter_3,_p._5-2] Rodríguez 2007 , บทที่ 3, หน้า 5.

[3] Cox & Snell (1981), ตัวอย่าง H,หน้า 91

1

[

[ 3 ]