อ่าน 10 นาที
การแจกแจงแบบปัวซงทวินาม
ใน ทฤษฎีความน่าจะเป็น และ สถิติ การ แจกแจงแบบปัวซงทวินาม คือ การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง ของผลรวมของ การทดลองแบบเบอร์นูลลี อิสระ ที่ไม่จำเป็นต้องมีการกระจายแบบเดียวกัน...
การแจกแจงแบบปัวซงทวินาม
| ปัวซง ทวินาม | |||
|---|---|---|---|
| พารามิเตอร์ | — ความน่าจะเป็นของความสำเร็จสำหรับ การทดลองแต่ละครั้งจากทั้งหมดn ครั้ง | ||
| สนับสนุน | k ∈ { 0, …, n } | ||
| พีเอ็มเอฟ | |||
| ซีดีเอฟ | |||
| หมายถึง | |||
| ค่ามัธยฐาน | ไม่มีรูปแบบปิดที่เรียบง่าย | ||
| โหมด | |||
| ความแปรปรวน | |||
| ความเบี่ยงเบน | |||
| ความโค้งส่วนเกิน | |||
| เอ็มจีเอฟ | |||
| ซีเอฟ | |||
| พีจีเอฟ | |||
ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงแบบปัวซงทวินาม คือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของผลรวมของการทดลองแบบเบอร์นูลลีอิสระ ที่ไม่จำเป็นต้องมีการกระจายแบบเดียวกัน แนวคิดนี้ตั้งชื่อตามซีเมออน เดนิส ปัวซง
กล่าวอีกนัยหนึ่งคือ เป็นการแจกแจงความน่าจะเป็นของจำนวนความสำเร็จในชุดการทดลองใช่/ไม่ใช่ที่เป็นอิสระต่อกัน จำนวน n ครั้ง โดย มีความน่า จะเป็นของความสำเร็จ การแจกแจงทวินามแบบธรรมดาเป็นกรณีพิเศษของการแจกแจงทวินามแบบปัวซง เมื่อความน่าจะเป็นของความสำเร็จทั้งหมดเท่ากัน นั่นคือ
คำจำกัดความ
ฟังก์ชันมวลความน่าจะเป็น
ความน่าจะเป็นที่จะมี การทดลองที่ประสบความสำเร็จ kครั้งจากทั้งหมดn ครั้ง สามารถเขียนเป็นผลรวม [ 1 ]
โดยที่คือเซตของเซตย่อยทั้งหมดของ จำนวนเต็ม kตัวที่สามารถเลือกได้จากตัวอย่างเช่น ถ้าn = 3 แล้วคือส่วนเติมเต็มของนั่นคือ
จะมีองค์ประกอบที่การคำนวณผลรวมในทางปฏิบัติทำได้ยาก เว้นแต่จำนวนครั้งในการทดลองnจะมีขนาดเล็ก (เช่น ถ้าn = 30 จะมีองค์ประกอบมากกว่า10²⁰ตัว) อย่างไรก็ตาม มีวิธีอื่นที่มีประสิทธิภาพมากกว่าในการคำนวณ
ตราบใดที่ความน่าจะเป็นของความสำเร็จไม่เท่ากับหนึ่ง เราสามารถคำนวณความน่าจะเป็นของ ความสำเร็จ kครั้งโดยใช้สูตรเวียนเกิด [ 2 ] [ 3 ]
ที่ไหน
สูตรเวียนเกิดนี้ไม่เสถียรทางตัวเลขและควรหลีกเลี่ยงหากมีค่ามากกว่าประมาณ 20
อีกทางเลือกหนึ่งคือการใช้อัลกอริทึมแบบแบ่งและพิชิต : ถ้าเราสมมติว่าเป็นกำลังของสอง โดยให้ เป็นพหุนามปัวซงของและเป็น ตัวดำเนินการ คอนโวลูชันเราจะได้
โดยทั่วไปแล้ว ฟังก์ชันความน่าจะเป็นมวลของพหุนามปัวซงสามารถแสดงได้ในรูปของการสังเคราะห์เวกเตอร์โดยที่ข้อสังเกตนี้ทำให้เกิดอัลกอริทึมการสังเคราะห์โดยตรง (DC) สำหรับการคำนวณผ่าน:
// PMF และ nextPMF เริ่มต้นที่ดัชนี 0 ฟังก์ชัน DC( ) คือ ประกาศอาร์เรย์ PMF ใหม่ขนาด 1 PMF[0] = [1] สำหรับ i = 1 เพื่อทำ ประกาศอาร์เรย์ nextPMF ใหม่ขนาด i + 1 nextPMF[0] = (1 - ) * PMF[0] nextPMF[i] = * PMF[i - 1] สำหรับ k = 1 ถึง i - 1 ทำ nextPMF[k] = * PMF[k - 1] + (1 - ) * PMF[k] ทำซ้ำ PMF = PMF ถัดไป ฟังก์ชัน PMF สิ้นสุด การส่งคืนซ้ำ
จะพบได้ใน PMF[k] DC มีเสถียรภาพเชิงตัวเลข แม่นยำ และเมื่อนำไปใช้เป็นรูทีนซอฟต์แวร์จะเร็วเป็นพิเศษสำหรับ นอกจากนี้ยังค่อนข้างเร็วสำหรับค่าที่มากขึ้น ขึ้นอยู่กับการกระจายของ[ 4 ]
อีกความเป็นไปได้หนึ่งคือการใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง[ 5 ]
ที่ไหนและ.
ยังมีวิธีการอื่น ๆ ที่อธิบายไว้ใน "การประยุกต์ใช้ทางสถิติของการแจกแจงปัวซง-ทวินามและการแจกแจงเบอร์นูลีแบบมีเงื่อนไข" โดย Chen และ Liu [ 6 ]และใน "วิธีการที่ง่ายและรวดเร็วสำหรับการคำนวณฟังก์ชันการแจกแจงปัวซง-ทวินาม" โดย Biscarri et al. [ 4 ]
ฟังก์ชันการกระจายสะสม
ฟังก์ชันการกระจายสะสม (CDF) สามารถแสดงได้ดังนี้:
โดยที่คือเซตของเซตย่อยทั้งหมดที่มีขนาดที่สามารถเลือกได้จาก
สามารถคำนวณได้โดยการเรียกใช้ฟังก์ชัน DC ด้านบน แล้วบวกองค์ประกอบต่างๆเข้ากับอาร์เรย์ PMF ที่ส่งคืนมา
คุณสมบัติ
ค่าเฉลี่ยและความแปรปรวน
เนื่องจากตัวแปรที่มีการแจกแจงแบบปัวซงทวินามเป็นผลรวมของ ตัวแปรอิสระที่มีการแจกแจงแบบเบอร์นูลลีจำนวน nตัว ดังนั้นค่าเฉลี่ยและความแปรปรวนของตัวแปรดังกล่าวจะเป็นผลรวมของค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบเบอร์นูลลี ทั้ง n ตัว นั้น
เอนโทรปี
ไม่มีสูตรง่ายๆ สำหรับเอนโทรปีของการแจกแจงแบบปัวซงทวินาม แต่เอนโทรปีจะมีค่าสูงสุดจำกัดโดยเอนโทรปีของการแจกแจงแบบทวินามที่มีพารามิเตอร์จำนวนเดียวกันและค่าเฉลี่ยเดียวกัน ดังนั้น เอนโทรปีจึงมีค่าสูงสุดจำกัดโดยเอนโทรปีของการแจกแจงแบบปัวซงที่มีค่าเฉลี่ยเดียวกันด้วย[ 7 ]
ข้อสันนิษฐานเรื่องความเว้าของ Shepp–Olkin ซึ่งเสนอโดยLawrence SheppและIngram Olkinในปี 1981 ระบุว่าเอนโทรปีของการแจกแจงแบบ Poisson binomial เป็นฟังก์ชันเว้าของความน่าจะเป็นของความสำเร็จ[ 8 ] ข้อสันนิษฐานนี้ได้รับการพิสูจน์โดย Erwan Hillion และ Oliver Johnson ในปี 2015 [ 9 ]ข้อสันนิษฐานเรื่องความเป็นเอกภาคของ Shepp–Olkin ซึ่งมาจากเอกสารเดียวกันในปี 1981 ระบุว่าเอนโทรปีจะเพิ่มขึ้นแบบเอกภาคในถ้าทุกค่าข้อสันนิษฐานนี้ได้รับการพิสูจน์โดย Hillion และ Johnson ในปี 2019 เช่นกัน[ 10 ]
มุ่งหน้าสู่เชอร์นอฟ
ความน่าจะเป็นที่การแจกแจงแบบปัวซงทวินามจะมีค่ามาก สามารถจำกัดได้โดยใช้ฟังก์ชันสร้างโมเมนต์ดังต่อไปนี้ (ใช้ได้เมื่อและสำหรับค่าใดๆ):
โดยที่เราใช้ค่านี้ ซึ่งคล้ายกับขอบเขตส่วนหางของการแจกแจงแบบทวินาม
การกระจายที่เกี่ยวข้อง
การประมาณค่าโดยการแจกแจงทวินาม
การแจกแจงปัวซงแบบทวินามสามารถประมาณได้ด้วยการแจกแจงทวินามโดยที่คือค่าเฉลี่ยของและ คือความน่าจะเป็นของความสำเร็จความแปรปรวนของและมีความสัมพันธ์กันตามสูตร
ดังที่เห็นได้ ยิ่งค่าเข้า ใกล้มากเท่าไร นั่นคือยิ่งมีแนวโน้มเป็นเนื้อเดียวกัน มากเท่าไร ความแปรปรวนของค่าก็จะยิ่งมากขึ้นเท่านั้น เมื่อค่าทั้งหมดเท่ากับค่าจะกลายเป็นและความแปรปรวนจะมีค่าสูงสุด[ 1 ]
Ehm ได้กำหนดขอบเขตสำหรับระยะทางความแปรผันรวมของและซึ่งในทางปฏิบัติแล้วเป็นการกำหนดขอบเขตของข้อผิดพลาดที่เกิดขึ้นเมื่อประมาณค่าด้วยให้และเป็นระยะทางความแปรผันรวมของและแล้ว
ที่ไหน.
มีแนวโน้มเข้าใกล้ 0 ก็ต่อเมื่อมีแนวโน้มเข้าใกล้ 1 [ 11 ]
การประมาณค่าโดยการแจกแจงปัวซง
การแจกแจงแบบปัวซงทวินามสามารถประมาณได้ด้วยการแจกแจงแบบปัวซงที่มีค่าเฉลี่ยบาร์เบอร์และฮอลล์ได้แสดงให้เห็นว่า
โดยที่ระยะห่างการเปลี่ยนแปลงทั้งหมดของและ[ 12 ] จะเห็นได้ว่ายิ่ง มีค่าน้อยลงเท่าใดก็ยิ่งประมาณค่า ได้ดีขึ้น เท่านั้น
เนื่องจากและ; ดังนั้น ความแปรปรวนของการแจกแจงแบบปัวซงทวินามจึงถูกจำกัดไว้ด้านบนโดยการแจกแจงแบบปัวซงที่มี และยิ่ง มีค่าน้อยลงเท่าใด ก็ยิ่งเข้าใกล้ มากขึ้นเท่านั้น
วิธีการคำนวณ
เอกสารอ้างอิง[ 13 ]กล่าวถึงเทคนิคการประเมินฟังก์ชันมวลความน่าจะเป็นของการแจกแจงแบบปัวซงทวินาม การใช้งานซอฟต์แวร์ต่อไปนี้มีพื้นฐานมาจากเอกสารดังกล่าว:
- แพ็กเกจ R poibinได้รับการจัดเตรียมไว้พร้อมกับเอกสาร[ 13 ]ซึ่งสามารถใช้ในการคำนวณ cdf, pmf, ฟังก์ชันควอนไทล์ และการสร้างตัวเลขสุ่มของการแจกแจงแบบปัวซงไบโนเมียล สำหรับการคำนวณ PMF สามารถระบุอัลกอริทึม DFT หรืออัลกอริทึมแบบเรียกซ้ำเพื่อคำนวณ PMF ที่แน่นอนได้ และยังสามารถระบุวิธีการประมาณโดยใช้การแจกแจงแบบปกติและปัวซงได้อีกด้วย
- poibinซึ่งเป็นการใช้งานในภาษา Pythonสามารถคำนวณ PMF และ CDF ได้ โดยใช้วิธี DFT ตามที่อธิบายไว้ในบทความวิจัย
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การแจกแจงแบบปัวซงทวินาม
ใน ทฤษฎีความน่าจะเป็น และ สถิติ การ แจกแจงแบบปัวซงทวินาม คือ การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง ของผลรวมของ การทดลองแบบเบอร์นูลลี อิสระ ที่ไม่จำเป็นต้องมีการกระจายแบบเดียวกัน...
ฟังก์ชันมวลความน่าจะเป็น
ความน่าจะเป็นที่จะมี การทดลองที่ประสบความสำเร็จ k ครั้งจากทั้งหมด n ครั้ง สามารถเขียนเป็นผลรวม [ 1 ]
ฟังก์ชันการกระจายสะสม
ฟังก์ชัน การกระจายสะสม (CDF) สามารถแสดงได้ดังนี้:
ค่าเฉลี่ยและความแปรปรวน
เนื่องจากตัวแปรที่มีการแจกแจงแบบปัวซงทวินามเป็นผลรวมของ ตัวแปรอิสระที่มีการแจกแจงแบบเบอร์นูลลีจำนวน n ตัว ดังนั้นค่าเฉลี่ยและความแปรปรวนของตัวแปรดังกล่าวจะเป็นผลรวมของค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบเบอร์นูลลี ทั้ง n ตัว นั้น