การแจกแจงแบบปัวซงทวินาม

Q: ฟังก์ชันมวลความน่าจะเป็น

ความน่าจะเป็นที่จะมี การทดลองที่ประสบความสำเร็จ k ครั้งจากทั้งหมด n ครั้ง สามารถเขียนเป็นผลรวม [ 1 ]

Q: ฟังก์ชันการกระจายสะสม

ฟังก์ชัน การกระจายสะสม (CDF) สามารถแสดงได้ดังนี้:

ปัวซง ทวินาม
ปัวซง ทวินาม
พารามิเตอร์	— ความน่าจะเป็นของความสำเร็จสำหรับ การทดลองแต่ละครั้งจากทั้งหมดn ครั้ง
สนับสนุน	k ∈ { 0, …, n }
พีเอ็มเอฟ
ซีดีเอฟ
หมายถึง
ค่ามัธยฐาน	ไม่มีรูปแบบปิดที่เรียบง่าย
โหมด
ความแปรปรวน
ความเบี่ยงเบน
ความโค้งส่วนเกิน
เอ็มจีเอฟ
ซีเอฟ
พีจีเอฟ

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงแบบปัวซงทวินาม คือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของผลรวมของการทดลองแบบเบอร์นูลลี อิสระ ที่ไม่จำเป็นต้องมีการกระจายแบบเดียวกัน แนวคิดนี้ตั้งชื่อตามซีเมออน เดนิส ปัวซง

กล่าวอีกนัยหนึ่งคือ เป็นการแจกแจงความน่าจะเป็นของจำนวนความสำเร็จในชุดการทดลองใช่/ไม่ใช่ที่เป็นอิสระต่อกัน จำนวน n ครั้ง โดย มีความน่า จะเป็นของความสำเร็จ การแจกแจงทวินามแบบธรรมดาเป็นกรณีพิเศษของการแจกแจงทวินามแบบปัวซง เมื่อความน่าจะเป็นของความสำเร็จทั้งหมดเท่ากัน นั่นคือ $p_{1},p_{2},\dots ,p_{n}$ $p_{1}=p_{2}=\cdots =p_{n}$

คำจำกัดความ

ฟังก์ชันมวลความน่าจะเป็น

ความน่าจะเป็นที่จะมี การทดลองที่ประสบความสำเร็จ kครั้งจากทั้งหมดn ครั้ง สามารถเขียนเป็นผลรวม ^{[ 1 ]}

\Pr(K=k)=\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})

โดยที่คือเซตของเซตย่อยทั้งหมดของ จำนวนเต็ม kตัวที่สามารถเลือกได้จากตัวอย่างเช่น ถ้าn = 3 แล้วคือส่วนเติมเต็มของนั่นคือ $F_{k}$ $\{1,2,3,...,n\}$ $F_{2}=\left\{\{1,2\},\{1,3\},\{2,3\}\right\}$ $A^{c}$ $A$ $A^{c}=\{1,2,3,\dots ,n\}\smallsetminus A$

$F_{k}$ จะมีองค์ประกอบที่การคำนวณผลรวมในทางปฏิบัติทำได้ยาก เว้นแต่จำนวนครั้งในการทดลองnจะมีขนาดเล็ก (เช่น ถ้าn = 30 จะมีองค์ประกอบมากกว่า^10²⁰ตัว) อย่างไรก็ตาม มีวิธีอื่นที่มีประสิทธิภาพมากกว่าในการคำนวณ $n!/((nk)!k!)$ $F_{15}$ $\Pr(K=k)$

ตราบใดที่ความน่าจะเป็นของความสำเร็จไม่เท่ากับหนึ่ง เราสามารถคำนวณความน่าจะเป็นของ ความสำเร็จ kครั้งโดยใช้สูตรเวียนเกิด ^{[ 2 ]}^{[ 3 ]}

\Pr(K=k)={\begin{cases}\prod \limits _{i=1}^{n}(1-p_{i})&k=0\\{\frac {1}{k}}\sum \limits _{i=1}^{k}(-1)^{i-1}\Pr(K=ki)T(i)&k>0\\\end{cases}}

ที่ไหน

T(i)=\sum \limits _{j=1}^{n}\left({\frac {p_{j}}{1-p_{j}}}\right)^{i}.

สูตรเวียนเกิดนี้ไม่เสถียรทางตัวเลขและควรหลีกเลี่ยงหากมีค่ามากกว่าประมาณ 20 $n$

อีกทางเลือกหนึ่งคือการใช้อัลกอริทึมแบบแบ่งและพิชิต : ถ้าเราสมมติว่าเป็นกำลังของสอง โดยให้ เป็นพหุนามปัวซงของและเป็น ตัวดำเนินการ คอนโวลูชันเราจะได้ $n=2^{b}$ $f(p_{i:j})$ $p_{i},\dots ,p_{j}$ $*$ $f(p_{1:2^{b}})=f(p_{1:2^{b-1}})*f(p_{2^{b-1}+1:2^{b}})$

โดยทั่วไปแล้ว ฟังก์ชันความน่าจะเป็นมวลของพหุนามปัวซงสามารถแสดงได้ในรูปของการสังเคราะห์เวกเตอร์โดยที่ข้อสังเกตนี้ทำให้เกิดอัลกอริทึมการสังเคราะห์โดยตรง (DC) สำหรับการคำนวณผ่าน: $P_{1},\dots ,P_{n}$ $P_{i}=[1-p_{i},p_{i}]$ $\Pr(K=0)$ $\Pr(K=n)$

// PMF และ nextPMF เริ่มต้นที่ดัชนี 0 ฟังก์ชัน DC( ) คือ $p_{1},\dots ,p_{n}$  ประกาศอาร์เรย์ PMF ใหม่ขนาด 1 PMF[0] = [1] สำหรับ i = 1 เพื่อทำ $n$  ประกาศอาร์เรย์ nextPMF ใหม่ขนาด i + 1 nextPMF[0] = (1 - ) * PMF[0] $p_{i}$  nextPMF[i] = * PMF[i - 1] สำหรับ k = 1 ถึง i - 1 ทำ nextPMF[k] = * PMF[k - 1] + (1 - ) * PMF[k] ทำซ้ำ $p_{i}$  $p_{i}$  $p_{i}$  PMF = PMF ถัดไป ฟังก์ชัน PMF สิ้นสุด การส่งคืนซ้ำ

$\Pr(K=k)$ จะพบได้ใน PMF[k] DC มีเสถียรภาพเชิงตัวเลข แม่นยำ และเมื่อนำไปใช้เป็นรูทีนซอฟต์แวร์จะเร็วเป็นพิเศษสำหรับ นอกจากนี้ยังค่อนข้างเร็วสำหรับค่าที่มากขึ้น ขึ้นอยู่กับการกระจายของ^[⁴^] $n\leq 2000$ $n$ $p_{i}$

อีกความเป็นไปได้หนึ่งคือการใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง^{[ 5 ]}

\Pr(K=k)={\frac {1}{n+1}}\sum _{\ell =0}^{n}C^{-lk}\prod _{m=1}^{n}\left(1+(C^{\ell }-1)p_{m}\right)

ที่ไหนและ. $C=\exp \left({\frac {2i\pi }{n+1}}\right)$ $i={\sqrt {-1}}$

ยังมีวิธีการอื่น ๆ ที่อธิบายไว้ใน "การประยุกต์ใช้ทางสถิติของการแจกแจงปัวซง-ทวินามและการแจกแจงเบอร์นูลีแบบมีเงื่อนไข" โดย Chen และ Liu ^{[ 6 ]}และใน "วิธีการที่ง่ายและรวดเร็วสำหรับการคำนวณฟังก์ชันการแจกแจงปัวซง-ทวินาม" โดย Biscarri et al. ^{[ 4 ]}

ฟังก์ชันการกระจายสะสม

ฟังก์ชันการกระจายสะสม (CDF) สามารถแสดงได้ดังนี้:

\Pr(K\leq k)=\sum _{\ell =0}^{k}\sum _{A\in F_{\ell }}\prod _{i\in A}p_{i}\prod _{j\in A^{c}}(1-p_{j}),

โดยที่คือเซตของเซตย่อยทั้งหมดที่มีขนาดที่สามารถเลือกได้จาก $F_{\ell }$ $\ell$ $\{1,2,3,\ldots ,n\}$

สามารถคำนวณได้โดยการเรียกใช้ฟังก์ชัน DC ด้านบน แล้วบวกองค์ประกอบต่างๆเข้ากับอาร์เรย์ PMF ที่ส่งคืนมา $0$ $k$

คุณสมบัติ

ค่าเฉลี่ยและความแปรปรวน

เนื่องจากตัวแปรที่มีการแจกแจงแบบปัวซงทวินามเป็นผลรวมของ ตัวแปรอิสระที่มีการแจกแจงแบบเบอร์นูลลีจำนวน nตัว ดังนั้นค่าเฉลี่ยและความแปรปรวนของตัวแปรดังกล่าวจะเป็นผลรวมของค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบเบอร์นูลลี ทั้ง n ตัว นั้น

\mu =\sum \limits _{i=1}^{n}p_{i}

\sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}

เอนโทรปี

ไม่มีสูตรง่ายๆ สำหรับเอนโทรปีของการแจกแจงแบบปัวซงทวินาม แต่เอนโทรปีจะมีค่าสูงสุดจำกัดโดยเอนโทรปีของการแจกแจงแบบทวินามที่มีพารามิเตอร์จำนวนเดียวกันและค่าเฉลี่ยเดียวกัน ดังนั้น เอนโทรปีจึงมีค่าสูงสุดจำกัดโดยเอนโทรปีของการแจกแจงแบบปัวซงที่มีค่าเฉลี่ยเดียวกันด้วย^{[ 7 ]}

ข้อสันนิษฐานเรื่องความเว้าของ Shepp–Olkin ซึ่งเสนอโดยLawrence SheppและIngram Olkinในปี 1981 ระบุว่าเอนโทรปีของการแจกแจงแบบ Poisson binomial เป็นฟังก์ชันเว้าของความน่าจะเป็นของความสำเร็จ[ ⁸^]^ข้อสันนิษฐานนี้ได้รับการพิสูจน์โดย Erwan Hillion และ Oliver Johnson ในปี 2015 ^[⁹^]ข้อสันนิษฐานเรื่องความเป็นเอกภาคของ Shepp–Olkin ซึ่งมาจากเอกสารเดียวกันในปี 1981 ระบุว่าเอนโทรปีจะเพิ่มขึ้นแบบเอกภาคในถ้าทุกค่าข้อสันนิษฐานนี้ได้รับการพิสูจน์โดย Hillion และ Johnson ในปี 2019 เช่นกัน^[¹⁰^] $p_{1},p_{2},\dots ,p_{n}$ $p_{i}$ $p_{i}\leq 1/2$

มุ่งหน้าสู่เชอร์นอฟ

ความน่าจะเป็นที่การแจกแจงแบบปัวซงทวินามจะมีค่ามาก สามารถจำกัดได้โดยใช้ฟังก์ชันสร้างโมเมนต์ดังต่อไปนี้ (ใช้ได้เมื่อและสำหรับค่าใดๆ): $s\geq \mu$ $t>0$

{\begin{aligned}\Pr[S\geq s]&\leq \exp(-st)\operatorname {E} \left[\exp \left[t\sum _{i}X_{i}\right]\right]\\&=\exp(-st)\prod _{i}(1-p_{i}+e^{t}p_{i})\\&=\exp \left(-st+\sum _{i}\log \left(p_{i}(e^{t}-1)+1\right)\right)\\&\leq \exp \left(-st+\sum _{i}\log \left(\exp(p_{i}(e^{t}-1))\right)\right)\\&=\exp \left(-st+\sum _{i}p_{i}(e^{t}-1)\right)\\&=\exp \left(s-\mu -s\log {\frac {s}{\mu }}\right),\end{aligned}}

โดยที่เราใช้ค่านี้ ซึ่งคล้ายกับขอบเขตส่วนหางของการแจกแจงแบบทวินาม ${\textstyle t=\log \left(s/\mu \right)}$

การกระจายที่เกี่ยวข้อง

การประมาณค่าโดยการแจกแจงทวินาม

การแจกแจงปัวซงแบบทวินามสามารถประมาณได้ด้วยการแจกแจงทวินามโดยที่คือค่าเฉลี่ยของและ คือความน่าจะเป็นของความสำเร็จความแปรปรวนของและมีความสัมพันธ์กันตามสูตร $PB$ $B$ $\mu$ $p_{i}$ $B$ $PB$ $B$

\operatorname {Var} (PB)=\operatorname {Var} (B)-\sum _{i=1}^{n}(p_{i}-\mu )^{2}

ดังที่เห็นได้ ยิ่งค่าเข้า ใกล้มากเท่าไร นั่นคือยิ่งมีแนวโน้มเป็นเนื้อเดียวกัน มากเท่าไร ความแปรปรวนของค่าก็จะยิ่งมากขึ้นเท่านั้น เมื่อค่าทั้งหมดเท่ากับค่าจะกลายเป็นและความแปรปรวนจะมีค่าสูงสุด^[¹^] $p_{i}$ $\mu$ $p_{i}$ $PB$ $p_{i}$ $\mu$ $PB$ $B$ $\operatorname {Var} (PB)=\operatorname {Var} (B)$

Ehm ได้กำหนดขอบเขตสำหรับระยะทางความแปรผันรวมของและซึ่งในทางปฏิบัติแล้วเป็นการกำหนดขอบเขตของข้อผิดพลาดที่เกิดขึ้นเมื่อประมาณค่าด้วยให้และเป็นระยะทางความแปรผันรวมของและแล้ว $PB$ $B$ $PB$ $B$ $\nu =1-\mu$ $d(PB,B)$ $PB$ $B$

d(PB,B)\leq (1-\mu ^{n+1}-\nu ^{n+1}){\frac {\sum _{i=1}^{n}(p_{i}-\mu )^{2}}{((n+1)\mu \nu )}}

d(PB,B)\geq C\min \left\{\,1,{\frac {1}{n\mu \nu }}\,\right\}\sum _{i=1}^{n}(p_{i}-\mu )^{2}

ที่ไหน. $C\geq {\frac {1}{124}}$

$d(PB,B)$ มีแนวโน้มเข้าใกล้ 0 ก็ต่อเมื่อมีแนวโน้มเข้าใกล้ 1 ^[¹¹^] $\operatorname {Var} (PB)/\operatorname {Var} (B)$

การประมาณค่าโดยการแจกแจงปัวซง

การแจกแจงแบบปัวซงทวินามสามารถประมาณได้ด้วยการแจกแจงแบบปัวซงที่มีค่าเฉลี่ยบาร์เบอร์และฮอลล์ได้แสดงให้เห็นว่า $PB$ $Po$ $\lambda =\sum _{i=1}^{n}p_{i}$

{\frac {1}{32}}\min \left\{\,{\frac {1}{\lambda }},1\,\right\}\sum _{i=1}^{n}p_{i}^{2}\leq d(PB,Po)\leq {\frac {1-e^{-\lambda }}{\lambda }}\sum _{i=1}^{n}p_{i}^{2}

โดยที่ระยะห่างการเปลี่ยนแปลงทั้งหมดของและ[ ¹²^]^จะเห็นได้ว่ายิ่ง มีค่าน้อยลงเท่าใดก็ยิ่งประมาณค่า ได้ดีขึ้น เท่านั้น $d(PB,B)$ $PB$ $Po$ $p_{i}$ $Po$ $PB$

เนื่องจากและ; ดังนั้น ความแปรปรวนของการแจกแจงแบบปัวซงทวินามจึงถูกจำกัดไว้ด้านบนโดยการแจกแจงแบบปัวซงที่มี และยิ่ง มีค่าน้อยลงเท่าใด ก็ยิ่งเข้าใกล้ มากขึ้นเท่านั้น $\operatorname {Var} (Po)=\lambda =\sum _{i=1}^{n}p_{i}$ $\operatorname {Var} (PB)=\sum \limits _{i=1}^{n}p_{i}-\sum \limits _{i=1}^{n}p_{i}^{2}$ $\operatorname {Var} (Po)\operatorname {Var} (PB)$ $\lambda =\sum _{i=1}^{n}p_{i}$ $p_{i}$ $\operatorname {Var} (Po)$ $\operatorname {Var} (PB)$

วิธีการคำนวณ

เอกสารอ้างอิง^{[ 13 ]}กล่าวถึงเทคนิคการประเมินฟังก์ชันมวลความน่าจะเป็นของการแจกแจงแบบปัวซงทวินาม การใช้งานซอฟต์แวร์ต่อไปนี้มีพื้นฐานมาจากเอกสารดังกล่าว:

แพ็กเกจ R poibinได้รับการจัดเตรียมไว้พร้อมกับเอกสาร^{[ 13 ]}ซึ่งสามารถใช้ในการคำนวณ cdf, pmf, ฟังก์ชันควอนไทล์ และการสร้างตัวเลขสุ่มของการแจกแจงแบบปัวซงไบโนเมียล สำหรับการคำนวณ PMF สามารถระบุอัลกอริทึม DFT หรืออัลกอริทึมแบบเรียกซ้ำเพื่อคำนวณ PMF ที่แน่นอนได้ และยังสามารถระบุวิธีการประมาณโดยใช้การแจกแจงแบบปกติและปัวซงได้อีกด้วย
poibinซึ่งเป็นการใช้งานในภาษา Pythonสามารถคำนวณ PMF และ CDF ได้ โดยใช้วิธี DFT ตามที่อธิบายไว้ในบทความวิจัย

ดูเพิ่มเติม

ทฤษฎีบทของเลอแคม

[ 2 ]

[ 3 ]

[ 5 ]

[ 6 ]

[ 7 ]

8

[

[

[

12

[ 13 ]

ปัวซง ทวินาม
พารามิเตอร์	$\mathbf {p} \in [0,1]^{n}$ — ความน่าจะเป็นของความสำเร็จสำหรับ การทดลองแต่ละครั้งจากทั้งหมดn ครั้ง
สนับสนุน	k ∈ { 0, …, n }
พีเอ็มเอฟ	$\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})$
ซีดีเอฟ	$\sum \limits _{l=0}^{k}\sum \limits _{A\in F_{l}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})$
หมายถึง	$\sum \limits _{i=1}^{n}p_{i}$
ค่ามัธยฐาน	ไม่มีรูปแบบปิดที่เรียบง่าย
โหมด	$m={\begin{cases}k&{\text{ถ้า }}k\leq \mu <k+{\frac {1}{k+2}}\\k{\text{ หรือ }}k+1&{\text{ถ้า }}k+{\frac {1}{k+2}}\leq \mu \leq k+1-{\frac {1}{n-k+1}}\\k+1&{\text{ถ้า }}k+1-{\frac {1}{n-k+1}}\leq \mu \leq k+1\end{cases}}$
ความแปรปรวน	$\sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}$
ความเบี่ยงเบน	${\frac {1}{\sigma ^{3}}}\sum \limits _{i=1}^{n}(1-2p_{i})(1-p_{i})p_{i}$
ความโค้งส่วนเกิน	${\frac {1}{\sigma ^{4}}}\sum \limits _{i=1}^{n}(1-6(1-p_{i})p_{i})(1-p_{i})p_{i}$
เอ็มจีเอฟ	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{t})$
ซีเอฟ	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{it})$
พีจีเอฟ	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}z)$