กลับไปหน้าบทความ

อ่าน 9 นาที

การถดถอยปัวซง

ในทาง สถิติ การถดถอยปัวซง เป็นรูปแบบ การวิเคราะห์การถดถอย เชิงเส้นทั่วไป ที่ใช้ในการสร้างแบบจำลอง ข้อมูล การ นับ และ ตารางความสัมพันธ์ [ 1 ] การถดถอยปัวซงถือว่าตัวแปรตอบสนอง Y มี...

การถดถอยปัวซง

ในทางสถิติการถดถอยปัวซงเป็นรูปแบบการวิเคราะห์การถดถอยเชิงเส้นทั่วไปที่ใช้ในการสร้างแบบจำลอง ข้อมูล การนับและตารางความสัมพันธ์[ 1 ]การถดถอยปัวซงถือว่าตัวแปรตอบสนองYมีการกระจายแบบปัวซงและถือว่าลอการิทึมของค่าที่คาดหวังสามารถสร้างแบบจำลองได้โดยการรวมกันเชิงเส้นของพารามิเตอร์ ที่ไม่ทราบค่า แบบจำลองการถดถอยปัวซงบางครั้งเรียกว่าแบบจำลองลอการิทึมเชิงเส้นโดยเฉพาะอย่างยิ่งเมื่อใช้ในการสร้างแบบจำลองตารางความสัมพันธ์

การถดถอยแบบทวินามเชิงลบเป็นการขยายผลของการถดถอยแบบปัวซงที่ได้รับความนิยม เนื่องจากช่วยลดข้อสมมติที่เข้มงวดมากที่ว่าความแปรปรวนเท่ากับค่าเฉลี่ยของแบบจำลองปัวซง แบบจำลองการถดถอยแบบทวินามเชิงลบแบบดั้งเดิมนั้นอิงตามการแจกแจงแบบผสมปัวซง-แกมมา แบบจำลองนี้ได้รับความนิยมเพราะสามารถจำลองความไม่สม่ำเสมอของปัวซงด้วยการแจกแจงแบบแกมมาได้

แบบจำลองการถดถอยปัวซงเป็นแบบจำลองเชิงเส้นทั่วไปที่มีลอการิทึมเป็นฟังก์ชันเชื่อมโยง (แบบมาตรฐาน) และ ฟังก์ชัน การแจกแจงปัวซงเป็นฟังก์ชันความน่าจะเป็นที่สมมติขึ้นของตัวแปรตอบสนอง

แบบจำลองการถดถอย

ถ้าเป็นเวกเตอร์ของตัวแปรอิสระโมเดลจะมีรูปแบบดังนี้

โดยที่และ. บางครั้งอาจเขียนให้กระชับกว่านี้ได้ว่า

โดยที่ เป็นเวกเตอร์มิติ ( n  + 1) ที่ประกอบด้วย ตัวแปรอิสระ nตัวที่ต่อท้ายกับเลขหนึ่ง ในที่นี้จะถูกต่อท้ายกับเท่านั้น

ดังนั้น เมื่อกำหนดแบบจำลองการถดถอยปัวซงและเวกเตอร์อินพุตแล้ว ค่าเฉลี่ยที่ทำนายได้ของการแจกแจงปัวซงที่เกี่ยวข้องจะกำหนดโดย

ถ้าเป็นการสังเกตที่เป็นอิสระต่อกัน โดยมีค่าที่สอดคล้องกัน ของตัวแปรทำนาย ก็สามารถประมาณค่าได้โดยวิธีความน่าจะเป็นสูงสุดอย่างไรก็ตาม การประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุดนั้นไม่มีสูตรสำเร็จรูปและต้องหาได้โดยวิธีการเชิงตัวเลข พื้นผิวความน่าจะเป็นสำหรับการถดถอยปัวซงแบบความน่าจะเป็นสูงสุดนั้นเว้าเสมอ ทำให้วิธีนิวตัน-ราฟสันหรือวิธีการอื่นๆ ที่ใช้การไล่ระดับความชันเป็นเทคนิคการประมาณค่าที่เหมาะสม

การตีความค่าสัมประสิทธิ์

สมมติว่าเรามีแบบจำลองที่มีตัวแปรทำนายเพียงตัวเดียว นั่นคือ:

สมมติว่าเราคำนวณค่าที่คาดการณ์ไว้ที่จุดและ:

โดยการลบค่าแรกออกจากค่าที่สอง:

สมมติว่าตอนนี้เราจะได้:

ดังนั้น ค่าสัมประสิทธิ์ของแบบจำลองจึงควรตีความว่าเป็นการเพิ่มขึ้นของล logarithm ของจำนวนตัวแปรผลลัพธ์เมื่อตัวแปรอิสระเพิ่มขึ้น 1 หน่วย

โดยการใช้กฎของลอการิทึม:

กล่าวคือ เมื่อตัวแปรอิสระเพิ่มขึ้น 1 ค่าของตัวแปรผลลัพธ์จะถูกคูณด้วยสัมประสิทธิ์ยกกำลัง

สัมประสิทธิ์ที่ยกกำลังแล้วเรียกอีกอย่างว่าอัตราส่วนการเกิดเหตุการณ์

ผลกระทบส่วนเฉลี่ย

บ่อยครั้ง วัตถุที่น่าสนใจคือผลกระทบส่วนเฉลี่ยหรือผลกระทบส่วนขอบเฉลี่ยซึ่งตีความได้ว่าเป็นการเปลี่ยนแปลงในผลลัพธ์สำหรับการเปลี่ยนแปลงหนึ่งหน่วยในตัวแปรอิสระผลกระทบส่วนเฉลี่ยในแบบจำลองปัวซงสำหรับตัวแปรต่อเนื่องสามารถแสดงได้ดังนี้: [ 2 ]

สามารถประมาณค่านี้ได้โดยใช้ค่าสัมประสิทธิ์ที่ได้จากแบบจำลองปัวซงร่วมกับค่าที่สังเกตได้ของ

การประมาณค่าพารามิเตอร์โดยใช้ความน่าจะเป็นสูงสุด

เมื่อกำหนดชุดพารามิเตอร์θและเวกเตอร์อินพุตxแล้ว ค่าเฉลี่ยของการแจกแจงปัวซง ที่ทำนายได้ ดังที่กล่าวไว้ข้างต้น จะได้จากสูตร

ดังนั้นฟังก์ชันความน่าจะเป็นมวล ของการแจกแจงปัวซง จึงกำหนดโดย

สมมติว่าเรามีชุดข้อมูลที่ประกอบด้วยเวกเตอร์m ตัวพร้อมกับชุดค่าm ค่า แล้วสำหรับชุดพารามิเตอร์θ ที่กำหนด ความน่าจะเป็นที่จะได้ชุดข้อมูลเฉพาะนี้จะกำหนดโดย

โดยใช้วิธีความน่าจะเป็นสูงสุดเราต้องการหาชุดพารามิเตอร์θที่ทำให้ความน่าจะเป็นนี้มีค่ามากที่สุดเท่าที่จะเป็นไปได้ ในการทำเช่นนี้ ขั้นแรกให้เขียนสมการใหม่เป็นฟังก์ชันความน่าจะเป็นในรูปของθ :

โปรดสังเกตว่านิพจน์ทางด้านขวามือยังคงเหมือนเดิม สูตรในรูปแบบนี้มักใช้งานยาก ดังนั้นจึงนิยมใช้ค่าลอการิทึม ความน่าจะเป็นแทน

โปรดสังเกตว่าพารามิเตอร์θปรากฏเฉพาะในสองพจน์แรกของแต่ละพจน์ในการบวกเท่านั้น ดังนั้น เนื่องจากเราสนใจเฉพาะการหาค่าที่ดีที่สุดสำหรับθเราจึงสามารถตัดy i ! ออกและเขียนเพียงแค่ y i ! ก็ได้

ในการหาค่าสูงสุด เราจำเป็นต้องแก้สมการที่ไม่มีคำตอบในรูปแบบปิด อย่างไรก็ตาม ค่าลบของลอการิทึมความน่าจะเป็น ( ) เป็นฟังก์ชันนูน ดังนั้นจึง สามารถใช้เทคนิค การหาค่าเหมาะสมที่สุดแบบนูน มาตรฐาน เช่นการไล่ระดับความชันเพื่อหาค่าที่เหมาะสมที่สุดของθได้

การถดถอยปัวซงในทางปฏิบัติ

การถดถอยแบบปัวซงอาจเหมาะสมเมื่อตัวแปรตามเป็นจำนวนนับ เช่นเหตุการณ์ต่างๆเช่น การรับสายโทรศัพท์ที่ศูนย์บริการลูกค้า[ 3 ]เหตุการณ์ต้องเป็นอิสระต่อกันในแง่ที่ว่าการรับสายหนึ่งจะไม่ทำให้การรับสายอื่นมีโอกาสมากขึ้นหรือน้อยลง แต่ความน่าจะเป็นต่อหน่วยเวลาของเหตุการณ์นั้นเข้าใจว่าเกี่ยวข้องกับตัวแปรเสริม เช่น เวลาของวัน

"การเปิดรับแสง" และการชดเชย

การถดถอยปัวซงอาจเหมาะสมสำหรับข้อมูลอัตราด้วยเช่นกัน โดยที่อัตราคือจำนวนเหตุการณ์หารด้วยการวัดการสัมผัส ของหน่วยนั้น (หน่วยการสังเกตเฉพาะ) [ 4 ]ตัวอย่างเช่น นักชีววิทยาอาจนับจำนวนชนิดของต้นไม้ในป่า: เหตุการณ์จะเป็นการสังเกตต้นไม้ การสัมผัสจะเป็นพื้นที่หน่วย และอัตราจะเป็นจำนวนชนิดต่อพื้นที่หน่วย นักประชากรศาสตร์อาจสร้างแบบจำลองอัตราการตายในพื้นที่ทางภูมิศาสตร์โดยนับจำนวนการตายหารด้วยจำนวนปีของบุคคล โดยทั่วไป อัตราเหตุการณ์สามารถคำนวณได้เป็นเหตุการณ์ต่อหน่วยเวลา ซึ่งช่วยให้หน้าต่างการสังเกตแตกต่างกันสำหรับแต่ละหน่วย ในตัวอย่างเหล่านี้ การสัมผัสคือพื้นที่หน่วย จำนวนปีของบุคคล และหน่วยเวลา ตามลำดับ ในการถดถอยปัวซง สิ่งนี้จะถูกจัดการเป็นค่าชดเชยหากอัตราคือจำนวน/การสัมผัส การคูณทั้งสองข้างของสมการด้วยการสัมผัสจะย้ายไปทางด้านขวาของสมการ เมื่อทั้งสองข้างของสมการถูกลอการิทึมแล้ว แบบจำลองสุดท้ายจะมี log(การสัมผัส) เป็นเทอมที่เพิ่มเข้าไปในสัมประสิทธิ์การถดถอย ตัวแปรที่บันทึกไว้ log(exposure) นี้เรียกว่าตัวแปรชดเชย และจะปรากฏทางด้านขวามือของสมการ โดยมีค่าประมาณพารามิเตอร์ (สำหรับ log(exposure)) ที่ถูกจำกัดไว้ที่ 1

ซึ่งหมายความว่า

ในกรณีของGLMในR การกำหนดค่าชดเชย สามารถทำได้โดยใช้offset()ฟังก์ชัน:

glm ( y ~ offset ( log ( exposure )) + x , family = poisson ( link = log ) )

การกระจายตัวเกินและเงินเฟ้อเป็นศูนย์

ลักษณะเฉพาะของการแจกแจงปัวซงคือค่าเฉลี่ยเท่ากับความแปรปรวน ในบางสถานการณ์ จะพบว่าความแปรปรวน ที่สังเกตได้ มากกว่าค่าเฉลี่ย ซึ่งเรียกว่าภาวะ ความแปรปรวนเกิน (overdispersion ) และบ่งชี้ว่าแบบจำลองไม่เหมาะสม สาเหตุทั่วไปคือการละเว้นตัวแปรอธิบายที่เกี่ยวข้อง หรือการสังเกตที่ขึ้นอยู่กัน ในบางสถานการณ์ ปัญหาของภาวะความแปรปรวนเกินสามารถแก้ไขได้โดยใช้ การประมาณค่าแบบ กึ่งความน่าจะเป็นหรือการแจกแจงทวินามเชิงลบแทน[ 5 ] [ 6 ]

Ver Hoef และ Boveng อธิบายความแตกต่างระหว่าง quasi-Poisson (หรือเรียกว่า overdispersion with quasi-likelihood) และ negative binomial (เทียบเท่ากับ gamma-Poisson) ดังนี้: ถ้าE ( Y ) = μแบบจำลอง quasi-Poisson จะถือว่า var( Y ) = θμในขณะที่ gamma-Poisson จะถือว่า var( Y ) = μ (1 +  κμ ) โดยที่θคือพารามิเตอร์ overdispersion ของ quasi-Poisson และκคือพารามิเตอร์รูปร่างของการแจกแจง negative binomialสำหรับทั้งสองแบบจำลอง พารามิเตอร์จะถูกประมาณโดยใช้การถ่วงน้ำหนักกำลังสองน้อยที่สุดแบบวนซ้ำสำหรับ quasi-Poisson น้ำหนักคือμ / θสำหรับ negative binomial น้ำหนักคือμ /(1 +  κμ ) เมื่อμ มีค่ามากและมีความแปรปรวน extra-Poisson มาก น้ำหนักของ negative binomial จะถูกจำกัด ไว้ที่ 1/ κ Ver Hoef และ Boveng ได้อภิปรายตัวอย่างที่พวกเขาเลือกระหว่างสองตัวเลือกโดยการพล็อตค่าความคลาดเคลื่อนกำลังสองเฉลี่ยเทียบกับค่าเฉลี่ย[ 7 ]

ปัญหาทั่วไปอีกอย่างหนึ่งของการถดถอยแบบปัวซงคือจำนวนศูนย์ที่มากเกินไป: หากมีกระบวนการสองอย่างที่ทำงานอยู่ กระบวนการหนึ่งกำหนดว่าจะมีเหตุการณ์เป็นศูนย์หรือมีเหตุการณ์ใด ๆ และกระบวนการปัวซงกำหนดว่ามีเหตุการณ์เกิดขึ้นกี่เหตุการณ์ จะมีจำนวนศูนย์มากกว่าที่การถดถอยแบบปัวซงคาดการณ์ไว้ ตัวอย่างเช่น การกระจายของจำนวนบุหรี่ที่สูบในหนึ่งชั่วโมงโดยสมาชิกของกลุ่มที่มีบางคนไม่สูบบุหรี่

แบบจำลองเชิงเส้นทั่วไปอื่นๆเช่น แบบจำลอง ทวินามเชิง ลบ หรือแบบจำลองที่มีค่าศูนย์มากเกินไปอาจทำงานได้ดีกว่าในกรณีเหล่านี้

ในทางตรงกันข้าม การกระจายตัวที่น้อยเกินไปอาจก่อให้เกิดปัญหาในการประมาณค่าพารามิเตอร์[ 8 ]

ใช้ในการวิเคราะห์การอยู่รอด

การถดถอยแบบปัวซงสร้างแบบจำลองอัตราความเสี่ยงตามสัดส่วน ซึ่งเป็นรูปแบบหนึ่งของการวิเคราะห์การอยู่รอด : ดูแบบจำลองอัตราความเสี่ยงตามสัดส่วนสำหรับคำอธิบายของแบบจำลองค็อกซ์

ส่วนขยาย

การถดถอยปัวซงแบบปรับปรุง

เมื่อประมาณค่าพารามิเตอร์สำหรับการถดถอยแบบปัวซง โดยทั่วไปแล้วจะพยายามหาค่าθที่ทำให้ความน่าจะเป็นของนิพจน์ในรูปแบบ มีค่าสูงสุด

โดยที่mคือจำนวนตัวอย่างในชุดข้อมูล และคือฟังก์ชันมวลความน่าจะเป็นของการแจกแจงปัวซงที่มีค่าเฉลี่ยตั้งไว้ที่. สามารถเพิ่มการปรับค่าปกติให้กับปัญหาการเพิ่มประสิทธิภาพนี้ได้โดยการเพิ่มค่าสูงสุดแทน[ 9 ]

สำหรับค่าคงที่บวกบางค่าเทคนิคนี้คล้ายกับการถดถอยแบบริดจ์ซึ่งสามารถลดปัญหาการโอเวอร์ฟิตติ้งได้

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Cameron, AC; Trivedi, PK (1998). การวิเคราะห์การถดถอยของข้อมูลการนับ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-63201-0.
  • Christensen, Ronald (1997). แบบจำลองเชิงเส้นลอการิทึมและการถดถอยโลจิสติก . Springer Texts in Statistics (ฉบับที่สอง). นิวยอร์ก: Springer-Verlag. ISBN 978-0-387-98247-2MR 1633357 ​
  • Gouriéroux, Christian ( 2000). "เศรษฐศาสตร์เชิงปริมาณของตัวแปรบวกแบบไม่ต่อเนื่อง: แบบจำลองปัวซง"เศรษฐศาสตร์เชิงปริมาณของตัวแปรตามเชิงคุณภาพนิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ หน้า  270–283 ISBN 978-0-521-58985-7.
  • กรีน, วิลเลียม เอช. (2008). "แบบจำลองสำหรับการนับเหตุการณ์และระยะเวลา" การวิเคราะห์ทางเศรษฐศาสตร์ (ฉบับที่ 8). อัปเปอร์ แซดเดิล ริเวอร์: เพรนทิส ฮอลล์. หน้า  906–944 . ISBN 978-0-13-600383-0.
  • Hilbe, JM (2007). การถดถอยแบบทวินามเชิงลบ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-85772-7.
  • Jones, Andrew M. และคณะ (2013). "แบบจำลองสำหรับข้อมูลการนับ" เศรษฐศาสตร์สุขภาพประยุกต์ลอนดอน: Routledge. หน้า  295–341 . ISBN 978-0-415-67682-3.
  • Myers, Raymond H. และคณะ (2010). "แบบจำลองการถดถอยโลจิสติกและปัวซง" แบบจำลองเชิงเส้นทั่วไปพร้อมการประยุกต์ใช้ในวิศวกรรมและวิทยาศาสตร์ (ฉบับที่สอง). นิวเจอร์ซีย์: ไวลีย์. หน้า  176–183 . ISBN 978-0-470-45463-3.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Poisson_regression&oldid=1307700255 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การถดถอยปัวซง

ในทาง สถิติ การถดถอยปัวซง เป็นรูปแบบ การวิเคราะห์การถดถอย เชิงเส้นทั่วไป ที่ใช้ในการสร้างแบบจำลอง ข้อมูล การ นับ และ ตารางความสัมพันธ์ [ 1 ] การถดถอยปัวซงถือว่าตัวแปรตอบสนอง Y มี...

แบบจำลองการถดถอย

ถ้าเป็นเวกเตอร์ของ ตัวแปรอิสระ โมเดลจะมีรูปแบบดังนี้ x ∈ อาร์ n {\displaystyle \mathbf {x} \in \mathbb {R} ^{n}}

การตีความค่าสัมประสิทธิ์

สมมติว่าเรามีแบบจำลองที่มีตัวแปรทำนายเพียงตัวเดียว นั่นคือ: n = 1 {\displaystyle n=1}

ผลกระทบส่วนเฉลี่ย

บ่อยครั้ง วัตถุที่น่าสนใจคือผลกระทบส่วนเฉลี่ยหรือผลกระทบส่วนขอบเฉลี่ยซึ่งตีความได้ว่าเป็นการเปลี่ยนแปลงในผลลัพธ์สำหรับการเปลี่ยนแปลงหนึ่งหน่วยในตัวแปรอิสระผลกระทบส่วนเฉลี่ยในแบบจำลองปัวซงสำหรับตัวแปรต่อเนื่องสามารถแสดงได้ดังนี้: [ 2 ] ∂ อี ( วาย | x ) ∂ x...