การแจกแจงทวินาม

Q: ตัวอย่าง

สมมติว่า เหรียญเอียง ออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ f ( 4 , 6 , 0.3 ) = ( 6 4 ) 0.3 4 ( 1 − 0.3 ) 6 − 4 = 0.059535. {\displaystyle f(4,6,0.3)={\binom {6}{4}}0.3^{4}(1-0.3)^{6-4}=0.059535.}

การแจกแจงทวินาม
การแจกแจงทวินาม
	ฟังก์ชันมวลความน่าจะเป็น
	ฟังก์ชันการกระจายสะสม
สัญกรณ์
พารามิเตอร์	– จำนวนครั้งของการทดลอง– ความน่าจะเป็นของความสำเร็จในแต่ละครั้งของการทดลอง
สนับสนุน	– จำนวนความสำเร็จ
พีเอ็มเอฟ
ซีดีเอฟ	( ฟังก์ชันเบต้าไม่สมบูรณ์แบบปรับค่า )
หมายถึง
ค่ามัธยฐาน	หรือ
โหมด	หรือ
ความแปรปรวน
ความเบี่ยงเบน
ความโค้งส่วนเกิน
เอนโทรปี	ในหน่วยแชนนอนสำหรับค่าธรรมชาติให้ใช้ลอการิทึมธรรมชาติในลอการิทึม
เอ็มจีเอฟ
ซีเอฟ
พีจีเอฟ
ข้อมูลของฟิชเชอร์	(สำหรับค่าคงที่)

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์ $n$ และ $p$ คือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลอง อิสระ $n$ ครั้ง โดยแต่ละครั้งถามคำถามใช่-ไม่ใช่ และแต่ละครั้งมี ผลลัพธ์ที่มีค่าบูลีนของตัวเองคือความสำเร็จ (ด้วยความน่าจะเป็น $p$ ) หรือความล้มเหลว (ด้วยความน่าจะเป็น $q$ $= 1 -$ $p$ ) การทดลองความสำเร็จ/ความล้มเหลวเพียงครั้งเดียวเรียกว่าการทดลองเบอร์นูลลีหรือการทดลองเบอร์นูลลี และลำดับของผลลัพธ์เรียกว่ากระบวนการเบอร์นูลลีสำหรับการทดลองเพียงครั้งเดียว นั่นคือเมื่อ $n$ $= 1$ การแจกแจงทวินามคือการแจกแจงเบอร์นูลลีการแจกแจงทวินามเป็นพื้นฐานสำหรับการทดสอบทวินามของ นัยสำคัญ ทางสถิติ^[¹^]

การแจกแจงทวินามมักใช้เป็นแบบจำลองจำนวนความสำเร็จในตัวอย่างขนาด $n$ ที่สุ่มมาแบบสุ่มซ้ำจากประชากรขนาด $N$ หากการสุ่มตัวอย่างทำโดยไม่สุ่มซ้ำ การสุ่มจะไม่เป็นอิสระต่อกัน ดังนั้นการแจกแจงที่ได้จะเป็นการแจกแจงไฮเปอร์จีโอเมตริก ไม่ใช่การแจกแจงทวินาม อย่างไรก็ตาม สำหรับ $N$ ที่ใหญ่กว่า $n$ มาก การแจกแจงทวินามยังคงเป็นการประมาณที่ดีและใช้กันอย่างแพร่หลาย

คำจำกัดความ

ฟังก์ชันมวลความน่าจะเป็น

ถ้าตัวแปรสุ่ม $X$ เป็นไปตามการแจกแจงแบบทวินามที่มีพารามิเตอร์( จำนวนธรรมชาติ ) และ $p$ $\in$ $[0, 1]$ เราจะเขียน $X$ $~ B($ $n$ $,$ $p$ $)$ ความน่าจะเป็นที่จะได้ ผลลัพธ์ที่สำเร็จ $k$ ครั้งพอดี ใน การทดลองแบบเบอร์นูลลีอิสระ $n ครั้ง$ (ด้วยอัตรา $p$ เท่ากัน ) จะกำหนดโดยฟังก์ชันความน่าจะเป็นมวล : สำหรับ $k$ $= 0, 1, 2, ...,$ $n$ โดยที่ คือสัมประสิทธิ์ทวินามสูตรนี้สามารถเข้าใจได้ดังนี้: $p$ $k$ $q$ $n$ $-$ $k$ คือความน่าจะเป็นที่จะได้ลำดับของการทดลองแบบเบอร์นูลลีอิสระ $n ครั้ง โดยที่$ $k ครั้งเป็นการ "สำเร็จ" และ$ $n$ $-$ $k$ ครั้ง ที่เหลือเป็นการ "ล้มเหลว" เนื่องจากการทดลองเป็นอิสระต่อกันโดยมีความน่าจะเป็นคงที่ระหว่างกัน ลำดับของการทดลอง $n ครั้งใดๆ ที่มี$ $k$ ครั้งที่สำเร็จ (และ $n$ $-$ $k$ ครั้งที่ล้มเหลว) จะมีความน่าจะเป็นที่จะเกิดขึ้นเท่ากัน (โดยไม่คำนึงถึงตำแหน่งของความสำเร็จภายในลำดับ) มีลำดับดังกล่าวอยู่ เนื่องจากสัมประสิทธิ์ทวินามนับจำนวนวิธีในการเลือกตำแหน่งของ ความสำเร็จ $k$ ครั้งจาก การทดลอง $n$ ครั้ง การแจกแจงทวินามเกี่ยวข้องกับความน่าจะเป็นของการได้รับ ลำดับ ใดลำดับหนึ่งเหล่านี้ ซึ่งหมายความว่าความน่าจะเป็นของการได้รับลำดับใดลำดับหนึ่ง ( $p$ $k$ $q$ $n$ $-$ $k$ ) จะต้องถูกบวกเข้าด้วยกันหลายครั้ง ดังนั้น⁠ ⁠ . $n\in \mathbb {N}$ $f(k,n,p)=\Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$ ${\binom {n}{k}}={\frac {n!}{k!(n-k)!}}$ ${\textstyle {\binom {n}{k}}}$ ${\textstyle {\binom {n}{k}}}$ ${\textstyle {\binom {n}{k}}}$ $\textstyle \Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$

ในการสร้างตารางอ้างอิงสำหรับความน่าจะเป็นของการแจกแจงทวินาม โดยปกติแล้ว ตารางจะถูกเติมข้อมูลจนถึง ค่า ⁠ ⁠ $\textstyle {\tfrac {n}{2}}$ ค่า เนื่องจากสำหรับ⁠ ⁠ $\textstyle k>{\tfrac {n}{2}}$ ค่า ความน่าจะเป็นสามารถคำนวณได้จากค่าส่วนเติมเต็มของมันดังนี้ $f(k,n,p)=f(n-k,n,1-p).$

เมื่อพิจารณานิพจน์ $f (k, n, p)$ เป็นฟังก์ชันของ $k$ จะมี ค่า $k$ ที่ทำให้ค่านี้สูงสุด ค่า $k$ นี้ สามารถหาได้โดยการคำนวณ และเปรียบเทียบกับ 1 จะมีจำนวนเต็ม $M$ เสมอ ที่สอดคล้องกับ^[²^] ${\frac {f(k+1,n,p)}{f(k,n,p)}}={\frac {(n-k)p}{(k+1)(1-p)}}$ $(n+1)p-1\leq M<(n+1)p.$

$f (k, n, p)$ เป็นฟังก์ชันเพิ่มขึ้นแบบโมโนโทนสำหรับ $k < M$ และเป็นฟังก์ชันลดลงแบบโมโนโทนสำหรับ $k > M$ ยกเว้นกรณีที่ $(n + 1) p$ เป็นจำนวนเต็ม ในกรณีนี้จะมีสองค่าที่ทำให้ $f$ มีค่าสูงสุด คือ $(n + 1) p$ และ $(n + 1) p - 1$ โดยที่ $M$ คือ ผลลัพธ์ ที่มีโอกาสเกิดขึ้นมากที่สุด (กล่าวคือ มีโอกาสมากที่สุด แม้ว่าโดยรวมแล้วอาจยังไม่น่าเป็นไปได้) ของการทดลอง แบบ เบอร์นูลลี และเรียกว่าโหมด

ตัวอย่าง

สมมติว่าเหรียญเอียงออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ $f(4,6,0.3)={\binom {6}{4}}0.3^{4}(1-0.3)^{6-4}=0.059535.$

ฟังก์ชันการกระจายสะสม

ฟังก์ชันการกระจายสะสมสามารถแสดงได้ดังนี้: โดย ที่คือ "ค่าต่ำสุด" ภายใต้ $k$ นั่นคือจำนวนเต็มที่มากที่สุดที่น้อยกว่าหรือเท่ากับ $k$ $F(k;n,p)=\Pr(X\leq k)=\sum _{i=0}^{\lfloor k\rfloor }{n \choose i}p^{i}(1-p)^{n-i},$ $\lfloor k\rfloor$

นอกจากนี้ยังสามารถแสดงได้ในรูปของฟังก์ชันเบต้าที่ไม่สมบูรณ์แบบปกติดังนี้: ^{[ 3 ]} ซึ่งเทียบเท่ากับ ฟังก์ชันการกระจายสะสมของการกระจายเบต้าและการกระจาย $F$ : ^[⁴^] ${\begin{aligned}F(k;n,p)&=\Pr(X\leq k)\\&=I_{1-p}(n-k,k+1)\\&=(n-k){n \choose k}\int _{0}^{1-p}t^{n-k-1}(1-t)^{k}\,dt,\end{aligned}}$ $F(k;n,p)=F_{\text{beta-distribution}}\left(x=1-p;\alpha =n-k,\beta =k+1\right)$ $F(k;n,p)=F_{F{\text{-distribution}}}\left(x={\frac {1-p}{p}}{\frac {k+1}{n-k}};d_{1}=2(n-k),d_{2}=2(k+1)\right).$

ขอบเขตในรูปแบบปิดบางส่วนสำหรับฟังก์ชันการกระจายสะสมแสดงไว้ด้านล่าง

คุณสมบัติ

ค่าที่คาดหวังและความแปรปรวน

ถ้า $X ~ B(n, p)$ นั่นคือ $X$ เป็นตัวแปรสุ่มที่มีการแจกแจงแบบทวินาม โดย ที่ $n$ คือจำนวนการทดลองทั้งหมด และ $p$ คือความน่าจะเป็นที่การทดลองแต่ละครั้งจะให้ผลลัพธ์ที่ประสบความสำเร็จค่าที่คาดหวังของ $X$ คือ: ^{[ 5 ]} $\operatorname {E} [X]=np.$

สิ่งนี้เป็นผลมาจากความเป็นเชิงเส้นของค่าคาดหวัง ประกอบกับข้อเท็จจริงที่ว่า $X$ เป็นผลรวมของตัวแปรสุ่มเบอร์นูลลีที่เหมือนกัน $n ตัว โดยแต่ละตัวมีค่าคาดหวัง$ $p$ กล่าวอีกนัยหนึ่ง ถ้าเป็นตัวแปรสุ่มเบอร์นูลลีที่เหมือนกัน (และเป็นอิสระต่อกัน) โดยมีพารามิเตอร์ $p$ แล้ว $X$ $=$ $X$ $1$ $+ ... +$ $X$ $n$ และ $X_{1},\ldots ,X_{n}$ $\operatorname {E} [X]=\operatorname {E} [X_{1}+\cdots +X_{n}]=\operatorname {E} [X_{1}]+\cdots +\operatorname {E} [X_{n}]=p+\cdots +p=np.$

ค่าความแปรปรวนคือ: $\operatorname {Var} (X)=npq=np(1-p).$

ข้อสรุปนี้ก็สอดคล้องกับข้อเท็จจริงที่ว่า ความแปรปรวนของผลรวมของตัวแปรสุ่มอิสระนั้นเท่ากับผลรวมของความแปรปรวนของตัวแปรเหล่านั้น

ช่วงเวลาที่สูงกว่า

โมเมนต์กลาง 6 โมเมนต์แรกซึ่งกำหนดโดย นั้นกำหนดโดย $\mu _{c}=\operatorname {E} \left[(X-\operatorname {E} [X])^{c}\right]$ ${\begin{aligned}\mu _{1}&=0,\\\mu _{2}&=np\left(1-p\right),\\\mu _{3}&=np\left(1-p\right)\left(1-2p\right),\\\mu _{4}&=np\left(1-p\right)\left[1+\left(3n-6\right)p\left(1-p\right)\right],\\\mu _{5}&=np\left(1-p\right)\left(1-2p\right)\left[1+\left(10n-12\right)p\left(1-p\right)\right],\\\mu _{6}&=np\left(1-p\right)\left[1-30p\left(1-p\right)\left[1-4p(1-p)\right]+5np\left(1-p\right)\left[5-26p\left(1-p\right)\right]+15n^{2}p^{2}\left(1-p\right)^{2}\right].\end{aligned}}$

โมเมนต์ที่ไม่ใช่ศูนย์กลางเป็นไปตามเงื่อนไข และโดยทั่วไป^[⁶^]^[⁷^] โดยที่คือจำนวนสเตอร์ลิงชนิดที่สองและคือกำลังลดลงลำดับที่ของขอบเขตง่ายๆ ^[⁸^]ได้มาจากการจำกัดโมเมนต์ทวินามผ่านโมเมนต์ปัวซงที่สูงกว่า : ซึ่งแสดงให้เห็นว่าถ้าแล้วจะอยู่ห่างจาก อย่างมากที่สุดเพียงปัจจัยคงที่ ${\begin{aligned}\operatorname {E} [X]&=np,\\\operatorname {E} [X^{2}]&=np(1-p)+n^{2}p^{2},\end{aligned}}$ $\operatorname {E} [X^{c}]=\sum _{k=0}^{c}\left\{{c \atop k}\right\}n^{\underline {k}}p^{k},$ ${\textstyle \left\{{c \atop k}\right\}}$ $n^{\underline {k}}=n(n-1)\cdots (n-k+1)$ $k$ $n$ $\operatorname {E} [X^{c}]\leq \left[{\frac {c}{\ln \left(1+{\frac {c}{np}}\right)}}\right]^{c}\leq (np)^{c}\exp \left({\frac {c^{2}}{2np}}\right).$ $c=O({\sqrt {np}})$ $\operatorname {E} [X^{c}]$ $\operatorname {E} [X]^{c}$

ฟังก์ชันสร้างโมเมนต์คือ. $M_{X}(t)=\mathbb {E} [e^{tX}]=(1-p+pe^{t})^{n}$

โหมด

โดยปกติแล้วค่าฐานนิยมของการแจกแจงทวินาม $B(n, p)$ จะเท่ากับโดยที่คือฟังก์ชันปัดเศษลงอย่างไรก็ตาม เมื่อ $($ $n$ $+ 1)$ $p$ เป็นจำนวนเต็มและ $p$ ไม่ใช่ทั้ง 0 หรือ 1 การแจกแจงจะมีค่าฐานนิยมสองค่า คือ $($ $n$ $+ 1)$ $p$ และ $($ $n$ $+ 1)$ $p$ $- 1$ เมื่อ $p$ เท่ากับ 0 หรือ 1 ค่าฐานนิยมจะเป็น 0 และ $n$ ตามลำดับ กรณีเหล่านี้สามารถสรุปได้ดังนี้: $\lfloor (n+1)p\rfloor$ $\lfloor \cdot \rfloor$ ${\text{mode}}={\begin{cases}\lfloor (n+1)\,p\rfloor &{\text{if }}(n+1)p{\text{ is 0 or a noninteger}},\\(n+1)\,p\ {\text{ and }}\ (n+1)\,p-1&{\text{if }}(n+1)p\in \{1,\dots ,n\},\\n&{\text{if }}(n+1)p=n+1.\end{cases}}$

พิสูจน์:ให้ $f(k)={\binom {n}{k}}p^{k}q^{n-k}.$

สำหรับค่าที่ไม่เป็นศูนย์จะมีค่าเฉพาะเมื่อ เท่านั้นสำหรับค่าเราพบว่าและสำหรับค่า ซึ่งพิสูจน์ได้ว่าค่าฐานนิยมคือ 0 สำหรับค่าและสำหรับค่า $p=0$ $f(0)$ $f(0)=1$ $p=1$ $f(n)=1$ $f(k)=0$ $k\neq n$ $p=0$ $n$ $p=1$

ให้. เราพบว่า $0<p<1$ ${\frac {f(k+1)}{f(k)}}={\frac {(n-k)p}{(k+1)(1-p)}}.$

จากนี้ไปจึง ${\begin{aligned}k>(n+1)p-1\Rightarrow f(k+1)<f(k)\\k=(n+1)p-1\Rightarrow f(k+1)=f(k)\\k<(n+1)p-1\Rightarrow f(k+1)>f(k)\end{aligned}}$

ดังนั้นเมื่อเป็นจำนวนเต็ม แล้วและเป็นโหมด ในกรณีที่ แล้ว จะเป็นโหมดเท่านั้น^[⁹^] $(n+1)p-1$ $(n+1)p-1$ $(n+1)p$ $(n+1)p-1\notin \mathbb {Z}$ $\lfloor (n+1)p-1\rfloor +1=\lfloor (n+1)p\rfloor$

ค่ามัธยฐาน

โดยทั่วไปแล้ว ไม่มีสูตรตายตัวในการหาค่ามัธยฐานสำหรับการแจกแจงแบบทวินาม และค่ามัธยฐานอาจไม่ใช่ค่าเดียว อย่างไรก็ตาม มีผลลัพธ์พิเศษบางประการที่ได้รับการพิสูจน์แล้ว:

ถ้า $np$ เป็นจำนวนเต็ม ค่าเฉลี่ย มัธยฐาน และฐานนิยมจะตรงกันและเท่ากับ $np$ ^{[ 10 ]}^{[ 11 ]}
^ค่ามัธยฐาน $m$ ใดๆ จะต้องอยู่ในช่วง[ ¹²^] $\lfloor np\rfloor \leq m\leq \lceil np\rceil$
ค่ามัธยฐาน $m$ ไม่ควรอยู่ห่างจากค่าเฉลี่ยมากเกินไป: . ^[¹³^] $|m-np|\leq \min\{{\ln 2},\max\{p,1-p\}\}$
ค่ามัธยฐานมีเอกลักษณ์และเท่ากับ $m = round (np)$ เมื่อ $| m - np | \leq min{p, 1 - p}$ (ยกเว้นกรณีที่ $p = 1/2$ และ $n$ เป็นเลขคี่) ^{[ 12 ]}
เมื่อ $p$ เป็นจำนวนตรรกยะ (ยกเว้น $p = 1/2$ และ $n$ เป็นจำนวนคี่) ค่ามัธยฐานจะมีค่าเดียว^{[ 14 ]}
เมื่อn เป็นจำนวนคี่ จำนวน $m$ ใดๆ ในช่วงนั้น จะเป็นค่ามัธยฐานของการแจกแจงทวินาม ถ้าn เป็นจำนวนคู่ แล้ว m $จะ$ $เป็น$ ค่ามัธยฐานเพียงค่าเดียว ${\textstyle p={\tfrac {1}{2}}}$ ${\textstyle {\frac {1}{2}}\left(n-1\right)\leq m\leq {\frac {1}{2}}\left(n+1\right)}$ ${\textstyle p={\tfrac {1}{2}}}$ ${\textstyle m={\tfrac {n}{2}}}$

หางกระเพื่อม

สำหรับ $k \leq np$ ขอบเขตบนสามารถหาได้สำหรับส่วนหางล่างของฟังก์ชันการกระจายสะสมซึ่งก็คือความน่าจะเป็นที่จะมีจำนวนความสำเร็จไม่เกิน $k$ ครั้ง เนื่องจากขอบเขตเหล่านี้จึงสามารถมองได้ว่าเป็นขอบเขตบนสำหรับส่วนหางบนของฟังก์ชันการกระจายสะสมสำหรับ $k$ $\geq$ $np$ ด้วย เช่น กัน $F(k;n,p)=\Pr(X\leq k)$ $\Pr(X\geq k)=F(n-k;n,1-p)$

อสมการของ Hoeffdingให้ขอบเขต ที่เรียบง่าย แต่ก็ไม่แน่นหนานัก โดยเฉพาะอย่างยิ่ง สำหรับ $p$ $= 1$ เราจะได้ว่า $F$ $($ $k$ $;$ $n$ $,$ $p$ $) = 0$ (สำหรับ $k$ , $n$ ที่กำหนดไว้ โดยที่ $k$ $<$ $n$ ) แต่ขอบเขตของ Hoeffding มีค่าเป็นค่าคงที่บวก $F(k;n,p)\leq \exp \left(-2n\left(p-{\frac {k}{n}}\right)^{2}\right),\!$

ขอบเขตที่แม่นยำยิ่งขึ้นสามารถได้รับจากขอบเขตของ Chernoff : ^{[ 15 ]} โดยที่ $D$ $($ $a$ $∥$ $p$ $)$ คือเอนโทรปีสัมพัทธ์ (หรือความแตกต่าง Kullback-Leibler)ระหว่าง เหรียญ $a$ และ เหรียญ $p$ (นั่นคือ ระหว่าง การแจกแจง $Bernoulli($ $a$ $)$ และ $Bernoulli($ $p$ $)$ ) $F(k;n,p)\leq \exp \left(-nD{\left({\frac {k}{n}}\parallel p\right)}\right)$ $D(a\parallel p)=(a)\ln {\frac {a}{p}}+(1-a)\ln {\frac {1-a}{1-p}}.\!$

ในทางอนุกรมวิธาน ขอบเขตนี้ค่อนข้างแน่น ดูรายละเอียดได้ที่ ^{[ 15 ]}

นอกจากนี้ยังสามารถหา ขอบเขต ล่างของหาง $F (k; n, p)$ ซึ่งเรียกว่าขอบเขตต่อต้านความเข้มข้นได้อีกด้วย โดยการประมาณค่าสัมประสิทธิ์ทวินามด้วยสูตรของสเตอร์ลิงจะสามารถแสดงได้ว่า^{[ 16 ]} ซึ่งหมายถึงขอบเขตที่ง่ายกว่าแต่หลวมกว่า $F(k;n,p)\geq {\frac {1}{\sqrt {8n{\tfrac {k}{n}}(1-{\tfrac {k}{n}})}}}\exp \left(-nD{\left({\frac {k}{n}}\parallel p\right)}\right),$ $F(k;n,p)\geq {\frac {1}{\sqrt {2n}}}\exp \left(-nD\left({\frac {k}{n}}\parallel p\right)\right).$

สำหรับ $p = 1/2$ และ $k \geq 3 n /8$ สำหรับ $n$ คู่ สามารถทำให้ตัวส่วนคงที่ได้: ^{[ 17 ]} $F(k;n,{\tfrac {1}{2}})\geq {\frac {1}{15}}\exp \left(-16n\left({\frac {1}{2}}-{\frac {k}{n}}\right)^{2}\right).\!$

การอนุมานทางสถิติ

การประมาณค่าพารามิเตอร์

เมื่อทราบค่า $n แล้ว สามารถประมาณค่าพารามิเตอร์$ $p$ ได้โดยใช้สัดส่วนของความสำเร็จ: ตัวประมาณค่านี้ได้มาจากการใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด (maximum likelihood estimator)และวิธีโมเมนต์ (method of moments ) ตัวประมาณค่านี้ไม่เอนเอียงและมีความแปรปรวนต่ำสุด อย่างสม่ำเสมอ ซึ่งได้รับการพิสูจน์โดยใช้ทฤษฎีบทของ Lehmann–Schefféเนื่องจากมันขึ้นอยู่กับ สถิติที่เพียงพอ และสมบูรณ์ขั้นต่ำ (นั่นคือ $x$ ) นอกจากนี้ยังมีความสอดคล้องทั้งในเชิงความน่าจะเป็นและในMSEสถิตินี้เป็นแบบปกติ เชิงอะซิมโทติก (asymptotically normal) ด้วยทฤษฎีบทขีดจำกัดกลาง (central limit theorem ) เพราะมันเหมือนกับการหาค่าเฉลี่ยของตัวอย่าง Bernoulli มันมีความแปรปรวนเท่ากับซึ่งเป็นคุณสมบัติที่ใช้ในหลายวิธี เช่น ใน ช่วงความเชื่อมั่น ของ Wald ${\widehat {p}}={\frac {x}{n}}.$ $\operatorname {Var} ({\hat {p}})={\frac {p(1-p)}{n}}$

ตัวประมาณค่าแบบเบย์สในรูปแบบปิดสำหรับ $p$ ยังมีอยู่เมื่อใช้การแจกแจงเบต้าเป็นการแจกแจงก่อนหน้า แบบคอนจูเกต เมื่อใช้ทั่วไปเป็นการแจกแจงก่อนหน้าตัวประมาณค่าเฉลี่ยภายหลังคือ: ตัวประมาณค่าแบบเบย์สมีประสิทธิภาพเชิงอะซิมโทติกและเมื่อขนาดตัวอย่างเข้าใกล้อนันต์ ( $n$ $\to \infty$ ) มันจะเข้าใกล้คำตอบMLE ^[¹⁸^]ตัวประมาณค่าแบบเบย์สมีอคติ (มากน้อยแค่ไหนขึ้นอยู่กับการแจกแจงก่อนหน้า) ยอมรับได้และสอดคล้องกันในความน่าจะเป็น การใช้ตัวประมาณค่าแบบเบย์สกับการแจกแจงเบต้าสามารถใช้กับการสุ่มตัวอย่างแบบทอมป์สันได้ $\operatorname {Beta} (\alpha ,\beta )$ ${\widehat {p}}_{b}={\frac {x+\alpha }{n+\alpha +\beta }}.$

สำหรับกรณีพิเศษของการใช้การแจกแจงเอกรูปมาตรฐานเป็น ค่าประมาณเบื้องต้น ที่ไม่ให้ข้อมูล ตัวประมาณค่าเฉลี่ยภายหลังจะเป็นดังนี้: ( ค่าฐานนิยมภายหลังควรนำไปสู่ตัวประมาณมาตรฐาน) วิธีนี้เรียกว่ากฎแห่งการสืบทอดซึ่งริเริ่มโดยปิแอร์-ไซมอน ลาปลาซ ในศตวรรษที่ 18 $\operatorname {Beta} (\alpha {=}1,\,\beta {=}1)=U(0,1)$ ${\widehat {p}}_{b}={\frac {x+1}{n+2}}.$

เมื่ออาศัยJeffreys prior ค่า prior คือ[ ¹⁹^]^ซึ่งนำไปสู่ตัวประมาณค่า: ${\textstyle \operatorname {Beta} (\alpha {=}{\tfrac {1}{2}},\,\beta {=}{\tfrac {1}{2}})}$ ${\widehat {p}}_{\mathrm {Jeffreys} }={\frac {x+{\frac {1}{2}}}{n+1}}.$

เมื่อประมาณค่า $p$ ด้วยเหตุการณ์ที่เกิดขึ้นน้อยมากและ $n$ ขนาดเล็ก (เช่น ถ้า $x = 0$ ) การใช้ตัวประมาณค่ามาตรฐานจะนำไปสู่ซึ่งบางครั้งอาจไม่สมจริงและไม่พึงประสงค์ ในกรณีเช่นนี้มีตัวประมาณค่าทางเลือกต่างๆ^[²⁰^]วิธีหนึ่งคือการใช้ตัวประมาณค่าแบบเบย์ซึ่งนำไปสู่: อีกวิธีหนึ่งคือการใช้ขอบเขตบนของช่วงความเชื่อมั่นที่ได้จากการใช้กฎสามประการ : ${\widehat {p}}=0,$ ${\widehat {p}}_{b}$ ${\widehat {p}}_{b}={\frac {1}{n+2}}.$ ${\widehat {p}}_{\text{rule of 3}}={\frac {3}{n}}.$

ช่วงความเชื่อมั่นสำหรับพารามิเตอร์ p

แม้แต่สำหรับค่า $n$ ที่ค่อนข้างมาก การกระจายจริงของค่าเฉลี่ยก็ยังไม่เป็นไปตามปกติอย่างมีนัยสำคัญ^{[ 21 ]}เนื่องจากปัญหานี้ จึงมีการเสนอวิธีการประมาณช่วงความเชื่อมั่นหลายวิธี

ในสมการช่วงความเชื่อมั่นด้านล่าง ตัวแปรต่างๆ มีความหมายดังต่อไปนี้:

$n 1$ คือจำนวนครั้งที่สำเร็จจากทั้งหมด $n$ ซึ่งเป็นจำนวนครั้งของการทดลองทั้งหมด
${\widehat {p\,}}={\frac {n_{1}}{n}}$ คือสัดส่วนของความสำเร็จ
$z$ คือค่าควอนไทล์ของการแจกแจงปกติมาตรฐาน (นั่นคือโพรบิต ) ที่สอดคล้องกับอัตราความผิดพลาดเป้าหมายตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ความผิดพลาดคือดังนั้นและ $1-{\tfrac {1}{2}}\alpha$ $\alpha$ $\alpha =0.05$ $1-{\tfrac {1}{2}}\alpha =0.975$ $z=1.96$

วิธี Wald

${\widehat {p\,}}\pm z{\sqrt {\frac {{\widehat {p\,}}(1-{\widehat {p\,}})}{n}}}.$

อาจเพิ่ม ค่าแก้ไขความต่อเนื่อง 0.5 $/ n เข้าไปได้$

วิธี Agresti–Coull

^{[ 22 ]} ${\tilde {p}}\pm z{\sqrt {\frac {{\tilde {p}}(1-{\tilde {p}})}{n+z^{2}}}}$

ในที่นี้ค่าประมาณของ $p$ จะถูกปรับเปลี่ยนเป็น ${\tilde {p}}={\frac {n_{1}+{\frac {1}{2}}z^{2}}{n+z^{2}}}$

วิธีนี้ใช้ได้ผลดีสำหรับ $n > 10$ ^และ n $1 \neq 0, n$ ^{[ 23} ] ดูที่นี่สำหรับ[ ²⁴^]^{สำหรับ} n $1$ $=$ $0,$ $n$ ให้ใช้วิธี Wilson (คะแนน) ด้านล่าง $n\leq 10$

วิธีอาร์คไซน์

^{[ 25 ]} $\sin ^{2}\left(\arcsin \left({\sqrt {\hat {p}}}\right)\pm {\frac {z}{2{\sqrt {n}}}}\right).$

วิธีวิลสัน (คะแนน)

สัญลักษณ์ในสูตรด้านล่างแตกต่างจากสูตรก่อนหน้าในสองประเด็น: ^{[ 26 ]}

ประการแรก $z x$ มีความหมายที่แตกต่างออกไปเล็กน้อยในสูตรด้านล่าง: มันมีความหมายตามปกติคือ ' ควอนไทล์ที่ $x$ ของการแจกแจงปกติมาตรฐาน' ไม่ใช่ตัวย่อของ ' ควอนไทล์ที่ $(1 - x)$ '
ประการที่สอง สูตรนี้ไม่ได้ใช้เครื่องหมายบวก-ลบเพื่อกำหนดขอบเขตทั้งสอง แต่เราสามารถใช้เพื่อหาขอบเขตล่าง หรือใช้เพื่อหาขอบเขตบนได้ ตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ค่าความคลาดเคลื่อนดังนั้นเราจะได้ขอบเขตล่างโดยใช้และเราจะได้ขอบเขตบนโดยใช้ $z=z_{\alpha /2}$ $z=z_{1-\alpha /2}$ $\alpha =0.05$ $z=z_{\alpha /2}=z_{0.025}=-1.96$ $z=z_{1-\alpha /2}=z_{0.975}=1.96$

${\frac {{\hat {p}}+{\frac {z^{2}}{2n}}+z{\sqrt {{\frac {{\hat {p}}\left(1-{\hat {p}}\right)}{n}}+{\frac {z^{2}}{4n^{2}}}}}}{1+{\frac {z^{2}}{n}}}}$ ^{[ 27 ]}

การเปรียบเทียบ

วิธี ที่เรียกว่า "แม่นยำ" ( Clopper–Pearson ) เป็นวิธีที่อนุรักษ์นิยมที่สุด^{[ 21 ]} ( แม่นยำไม่ได้หมายความว่าถูกต้องสมบูรณ์แบบ แต่หมายความว่าค่าประมาณจะไม่ต่ำกว่าค่าที่แท้จริง)

วิธีการของวอลด์ แม้ว่าจะแนะนำกันทั่วไปในตำราเรียน แต่ก็เป็นวิธีการที่มีอคติมากที่สุด

การแจกแจงที่เกี่ยวข้อง

ผลรวมของทวินาม

ถ้า $X ~ B(n, p)$ และ $Y ~ B(m, p)$ เป็นตัวแปรทวินามอิสระที่มีความน่าจะเป็น $p$ เท่ากัน แล้ว $X + Y$ ก็เป็นตัวแปรทวินามเช่นกัน การแจกแจงของมันคือ $Z = X + Y ~ B(n + m, p)$ : ^{[ 28 ]} ${\begin{aligned}\operatorname {P} (Z=k)&=\sum _{i=0}^{k}\left[{\binom {n}{i}}p^{i}(1-p)^{n-i}\right]\left[{\binom {m}{k-i}}p^{k-i}(1-p)^{m-k+i}\right]\\&={\binom {n+m}{k}}p^{k}(1-p)^{n+m-k}\end{aligned}}$

ตัวแปรสุ่มที่มีการแจกแจงแบบทวินาม $X ~ B(n, p)$ สามารถพิจารณาได้ว่าเป็นผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลี จำนวน $n ตัว ดังนั้น ผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบทวินามสองตัว$ $X ~ B(n, p)$ และ $Y ~ B(m, p)$ จึงเทียบเท่ากับผลรวมของ ตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลีจำนวน $n + m ตัว$ ซึ่งหมายความว่า $Z = X + Y ~ B(n + m, p)$ สามารถพิสูจน์ได้โดยตรงโดยใช้กฎการบวกเช่นกัน

อย่างไรก็ตาม หาก $X$ และ $Y$ ไม่มีโอกาสเกิดเท่ากัน คือ $p$ ความแปรปรวนของผลรวมจะน้อยกว่าความแปรปรวนของตัวแปรทวินามที่มีการแจกแจงแบบB $(n + m, p)$

การแจกแจงแบบปัวซงทวินาม

การแจกแจงทวินามเป็นกรณีพิเศษของการแจกแจงทวินามปัวซงซึ่งเป็นการแจกแจงผลรวมของการทดลองเบอร์นูลีอิสระที่ไม่เหมือนกัน $n$ ครั้ง $B($ $p$ $i$ $)$ ^[²⁹^]

อัตราส่วนของการแจกแจงทวินามสองแบบ

ผลลัพธ์นี้ได้รับการพิสูจน์ครั้งแรกโดย Katz และผู้ร่วมเขียนในปี พ.ศ. 2521 ^{[ 30 ]}

ให้ $X ~ B(n, p 1)$ และ $Y ~ B(m, p 2)$ เป็นอิสระต่อกัน ให้ $T = (X / n) / (Y / m)$ .

จากนั้น $log(T)$ จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ย $log(p 1 / p 2)$ และความแปรปรวน $((1/ p 1) - 1)/ n + ((1/ p 2) - 1)/ m$ .

ทวินามแบบมีเงื่อนไข

ถ้า $X ~ B(n, p)$ และ $Y | X ~ B(X, q)$ (การแจกแจงแบบมีเงื่อนไขของ $Y$ เมื่อกำหนด $X$ แล้ว ) แล้ว $Y$ เป็นตัวแปรสุ่มทวินามแบบง่ายที่มีการแจกแจง $Y ~ B$ ( $n$ $,$ $pq$ $)$

ยกตัวอย่างเช่น ลองนึกภาพว่าเราโยน ลูกบอล $n$ ลูกลงในตะกร้า $UX แล้ว$ นำลูกบอลที่ตกลงไปในตะกร้านั้นไปโยนลงในตะกร้าอีกใบ $YU$ $ถ้า$ p $คือ$ ความน่าจะเป็นที่จะตกลงไปใน $ตะกร้า$ $UX$ แล้ว $X ~ B(n, p)$ คือจำนวนลูกบอลที่ตกลงไปใน $ตะกร้า UX$ ถ้า $q$ คือความน่าจะเป็นที่จะตกลงไปในตะกร้า $YU แล้ว$ จำนวนลูกบอลที่ตกลงไปใน $ตะกร้า YU$ คือ $Y ~ B(X, q)$ และดังนั้น $Y ~ B(n, pq)$

[การพิสูจน์]

เนื่องจากและตามกฎความน่าจะเป็นรวม เนื่องจากสมการข้างต้นสามารถแสดงได้เป็น การแยกตัวประกอบและดึงพจน์ทั้งหมดที่ไม่ขึ้นอยู่กับออกจากผลรวมจะได้ หลังจากแทน ค่าลง ในนิพจน์ข้างต้น เราจะได้ สังเกตว่าผลรวม (ในวงเล็บ) ข้างต้นเท่ากับตามทฤษฎีบททวินามการแทนค่านี้ลงใน ในที่สุดจะได้ และเป็นไปตามที่ต้องการ $X\sim \mathrm {B} (n,p)$ $Y\sim \mathrm {B} (X,q)$ ${\begin{aligned}\Pr[Y=m]&=\sum _{k=m}^{n}\Pr[Y=m\mid X=k]\Pr[X=k]\\[2pt]&=\sum _{k=m}^{n}{\binom {n}{k}}{\binom {k}{m}}p^{k}q^{m}(1-p)^{n-k}(1-q)^{k-m}\end{aligned}}$ ${\tbinom {n}{k}}{\tbinom {k}{m}}={\tbinom {n}{m}}{\tbinom {n-m}{k-m}},$ $\Pr[Y=m]=\sum _{k=m}^{n}{\binom {n}{m}}{\binom {n-m}{k-m}}p^{k}q^{m}(1-p)^{n-k}(1-q)^{k-m}$ $p^{k}=p^{m}p^{k-m}$ $k$ ${\begin{aligned}\Pr[Y=m]&={\binom {n}{m}}p^{m}q^{m}\left(\sum _{k=m}^{n}{\binom {n-m}{k-m}}p^{k-m}(1-p)^{n-k}(1-q)^{k-m}\right)\\[2pt]&={\binom {n}{m}}(pq)^{m}\left(\sum _{k=m}^{n}{\binom {n-m}{k-m}}\left(p(1-q)\right)^{k-m}(1-p)^{n-k}\right)\end{aligned}}$ $i=k-m$ $\Pr[Y=m]={\binom {n}{m}}(pq)^{m}\left(\sum _{i=0}^{n-m}{\binom {n-m}{i}}(p-pq)^{i}(1-p)^{n-m-i}\right)$ $(p-pq+1-p)^{n-m}$ ${\begin{aligned}\Pr[Y=m]&={\binom {n}{m}}(pq)^{m}(p-pq+1-p)^{n-m}\\[4pt]&={\binom {n}{m}}(pq)^{m}(1-pq)^{n-m}\end{aligned}}$ $Y\sim \mathrm {B} (n,pq)$

การแจกแจงแบบเบอร์นูลลี

การแจกแจงเบอร์นูลลีเป็นกรณีพิเศษของการแจกแจงทวินาม โดยที่ $n = 1$ ในเชิงสัญลักษณ์ $X ~ B(1, p)$ มีความหมายเหมือนกับ $X ~ Bernoulli(p)$ ในทางกลับกัน การแจกแจงทวินามใดๆ $B(n, p)$ คือการแจกแจงของผลรวมของการทดลองเบอร์นูลลีอิสระn $ครั้ง$ $Bernoulli($ $p$ $)$ โดยแต่ละครั้งมีความน่าจะ เป็น $p$ เท่ากัน^[³¹^]

การประมาณค่าปกติ

ถ้า $n$ มีขนาดใหญ่พอ ความเบี่ยงเบนของการกระจายจะไม่มากเกินไป ในกรณีนี้ การประมาณค่า $B(n, p)$ ที่เหมาะสม จะได้รับจากการกระจายแบบปกติ และการประมาณค่าพื้นฐานนี้สามารถปรับปรุงได้ด้วยวิธีง่ายๆ โดยใช้การแก้ไขความต่อเนื่อง ที่เหมาะสม การประมาณค่าพื้นฐานโดยทั่วไปจะดีขึ้นเมื่อ $n$ เพิ่มขึ้น (อย่างน้อย 20) และจะดีขึ้นเมื่อ $p$ ไม่ใกล้เคียงกับ 0 หรือ 1 ^[³²^]สามารถใช้กฎทั่วไปต่างๆ เพื่อตัดสินใจว่า $n$ มีขนาดใหญ่พอหรือไม่ และ $p$ อยู่ห่างจากค่าสุดขั้วของศูนย์หรือหนึ่งมากพอหรือไม่: ${\mathcal {N}}(np,\,np(1-p)),$

กฎข้อหนึ่ง^{[ 32 ]}คือสำหรับ $n > 5$ การประมาณค่าปกติถือว่าเพียงพอหากค่าสัมบูรณ์ของความเบี่ยงเบนน้อยกว่า 0.3 อย่างเคร่งครัด นั่นคือ ถ้า ${\frac {|1-2p|}{\sqrt {np(1-p)}}}={\frac {1}{\sqrt {n}}}\left|{\sqrt {\frac {1-p}{p}}}-{\sqrt {\frac {p}{1-p}}}\,\right|<0.3.$

สามารถระบุรายละเอียดให้ชัดเจนยิ่งขึ้นได้โดยใช้ทฤษฎีบทเบอร์รี-เอสซีน

กฎที่เข้มงวดกว่าระบุว่า การประมาณค่าด้วยค่าเฉลี่ยปกติจะเหมาะสมก็ต่อเมื่อทุกสิ่งที่อยู่ภายในระยะ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยอยู่ในช่วงของค่าที่เป็นไปได้ กล่าวคือ ก็ต่อเมื่อ $\mu \pm 3\sigma =np\pm 3{\sqrt {np(1-p)}}\in (0,n).$

กฎ 3 ส่วนเบี่ยงเบนมาตรฐานนี้เทียบเท่ากับเงื่อนไขต่อไปนี้ ซึ่งหมายความถึงกฎข้อแรกข้างต้นด้วยเช่นกัน

n>9\left({\frac {1-p}{p}}\right)\quad {\text{and}}\quad n>9\left({\frac {p}{1-p}}\right).

[การพิสูจน์]

กฎนี้เทียบเท่ากับการร้องขอว่า การย้ายพจน์ไปมาจะได้ผลลัพธ์ดังนี้: เนื่องจากเราสามารถใช้เลขยกกำลังสองและหารด้วยตัวประกอบและ ตามลำดับ เพื่อให้ได้เงื่อนไขที่ต้องการ: โปรดสังเกตว่าเงื่อนไขเหล่านี้บ่งบอกโดยอัตโนมัติว่าในทางกลับกัน ให้ใช้รากที่สองอีกครั้งและหารด้วย 3 การลบชุดอสมการที่สองออกจากชุดแรกจะได้ผลลัพธ์ดังนี้: ดังนั้น กฎข้อแรกที่ต้องการจึงเป็นไปตามที่กำหนด $np\pm 3{\sqrt {np(1-p)}}\in (0,n)$ $np-3{\sqrt {np(1-p)}}>0\quad {\text{and}}\quad np+3{\sqrt {np(1-p)}}<n.$ $np>3{\sqrt {np(1-p)}}\quad {\text{and}}\quad n(1-p)>3{\sqrt {np(1-p)}}.$ $0<p<1$ $np^{2}$ $n(1-p)^{2}$ $n>9\left({\frac {1-p}{p}}\right)\quad {\text{and}}\quad n>9\left({\frac {p}{1-p}}\right).$ $n>9$ ${\frac {\sqrt {n}}{3}}>{\sqrt {\frac {1-p}{p}}}>0\quad {\text{and}}\quad {\frac {\sqrt {n}}{3}}>{\sqrt {\frac {p}{1-p}}}>0.$ ${\frac {\sqrt {n}}{3}}>{\sqrt {\frac {1-p}{p}}}-{\sqrt {\frac {p}{1-p}}}>-{\frac {\sqrt {n}}{3}};$ $\left|{\sqrt {\frac {1-p}{p}}}-{\sqrt {\frac {p}{1-p}}}\,\right|<{\frac {\sqrt {n}}{3}}.$

กฎที่ใช้กันทั่วไปอีกข้อหนึ่งคือค่า $np$ และ $n (1 - p)$ ทั้งสองค่า ต้องมากกว่า^{[ 33 ]}^{[ 34 ]}หรือเท่ากับ 5 อย่างไรก็ตาม ตัวเลขที่เฉพาะเจาะจงจะแตกต่างกันไปตามแหล่งที่มา และขึ้นอยู่กับว่าต้องการการประมาณที่ดีเพียงใด โดยเฉพาะอย่างยิ่ง หากใช้ 9 แทน 5 กฎนี้จะหมายถึงผลลัพธ์ที่ระบุไว้ในย่อหน้าก่อนหน้า

[การพิสูจน์]

สมมติว่าทั้งค่าและมีค่ามากกว่า 9 เนื่องจากเราจึงได้ว่า ตอนนี้เราเพียงแค่หารด้วยตัวประกอบและตามลำดับ เพื่อหาแบบฟอร์มทางเลือกของกฎ 3 ส่วนเบี่ยงเบนมาตรฐาน: $np$ $n(1-p)$ $0<p<1$ $np\geq 9>9(1-p)\quad {\text{and}}\quad n(1-p)\geq 9>9p.$ $p$ $1-p$ $n>9\left({\frac {1-p}{p}}\right)\quad {\text{and}}\quad n>9\left({\frac {p}{1-p}}\right).$

ต่อไปนี้เป็นตัวอย่างของการประยุกต์ใช้การแก้ไขความต่อเนื่องสมมติว่าเราต้องการคำนวณ $Pr(X \leq 8)$ สำหรับตัวแปรสุ่มทวินาม $X$ ถ้า $Y$ มีการแจกแจงตามการประมาณค่าแบบปกติแล้ว $Pr(X \leq 8)$ จะถูกประมาณโดย $Pr(Y \leq 8.5)$ การเพิ่ม 0.5 คือการแก้ไขความต่อเนื่อง การประมาณค่าแบบปกติที่ไม่ได้แก้ไขจะให้ผลลัพธ์ที่แม่นยำน้อยกว่ามาก

การประมาณค่านี้ ซึ่งรู้จักกันในชื่อทฤษฎีบทเดอ มัวร์-ลาปลาซ ช่วยประหยัดเวลาได้อย่างมากเมื่อทำการคำนวณด้วยมือ (การคำนวณที่แม่นยำด้วย $n$ ขนาดใหญ่ เป็นเรื่องที่ยุ่งยากมาก) ในทางประวัติศาสตร์ ถือเป็นการใช้การแจกแจงปกติครั้งแรก ซึ่งนำเสนอใน หนังสือ The Doctrine of Chancesของอับราฮัม เดอ มัวร์ในปี 1738 ปัจจุบัน สามารถมองได้ว่าเป็นผลสืบเนื่องมาจากทฤษฎีบทขีดจำกัดกลางเนื่องจาก $B($ $n$ $,$ $p$ $)$ เป็นผลรวมของตัวแปรเบอร์นูลีอิสระที่มีการแจกแจงเหมือนกัน จำนวน $n ตัว$ โดยมีพารามิเตอร์ $p$ ข้อเท็จจริงนี้เป็นพื้นฐานของการทดสอบสมมติฐาน "การทดสอบสัดส่วน z" สำหรับค่าของ^p $โดย$ ใช้ $x$ $/$ $n$ ซึ่งเป็นสัดส่วนตัวอย่างและตัวประมาณค่าของ $p$ ในสถิติการทดสอบทั่วไป [ ³⁵^]

ตัวอย่างเช่น สมมติว่าเราสุ่มเลือก คน $n$ คนจากประชากรขนาดใหญ่ และถามพวกเขาว่าเห็นด้วยกับข้อความหนึ่งหรือไม่ สัดส่วนของคนที่เห็นด้วยย่อมขึ้นอยู่กับกลุ่มตัวอย่าง หากสุ่มเลือกกลุ่มคน $n$ คนซ้ำๆ กันอย่างแท้จริง สัดส่วนก็จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ยเท่ากับสัดส่วนที่แท้จริง $p$ ของการเห็นด้วยในประชากร และมีส่วนเบี่ยงเบนมาตรฐานเท่ากับ σ $\sigma ={\sqrt {\frac {p(1-p)}{n}}}$

การประมาณค่าปัวซง

การแจกแจงทวินามจะลู่เข้าสู่การแจกแจงปัวซงเมื่อจำนวนการทดลองเข้าสู่ค่าอนันต์ ในขณะที่ผลคูณ $np$ จะลู่เข้าสู่ค่าจำกัด ดังนั้น การแจกแจงปัวซงที่มีพารามิเตอร์ $λ = np$ สามารถใช้เป็นค่าประมาณของ $B(n, p)$ ของการแจกแจงทวินามได้ หาก $n$ มีค่ามากพอและ $p$ มีค่าน้อยมากพอ ตามหลักการทั่วไป ค่าประมาณนี้จะดีหาก $n \geq 20$ และ $p \leq 0.05$ ^{[ 36 ]}โดยที่ $np \leq 1$ หรือหาก $n$ ^> $50$ และ $p < 0.1$ โดยที่ $np < 5$ [ ^{37 ]}หรือหาก $n \geq 100$ และ $np \leq$ 10 ^{[ 38 ]}^[³⁹^]

สำหรับความแม่นยำของการประมาณค่าปัวซง โปรดดู Novak ^{[ 40 ]}บทที่ 4 และเอกสารอ้างอิงในนั้น

การแจกแจงแบบจำกัด

ทฤษฎีบทขีดจำกัดปัวซง : เมื่อ $n$ เข้าใกล้ $\infty$ และ $p$ เข้าใกล้ 0 โดยที่ผลคูณ $np$ คงที่ $การแจกแจง แบบทวินาม(n, p)$ จะเข้าใกล้^{การแจกแจง แบบ}ปัวซงที่มีค่าเฉลี่ย $λ = np$ [^{38 ]}
ทฤษฎีบทเดอ มัวร์-ลาปลาซ : เมื่อ $n$ เข้าใกล้ $\infty$ ในขณะที่ $p$ คงที่ การแจกแจงของ Xจะเข้าใกล้การแจกแจงปกติที่มีค่าเฉลี่ย 0 และความแปรปรวน 1 ผลลัพธ์นี้บางครั้งกล่าวอย่างคร่าวๆ ว่า การแจกแจงของ $X$ เป็นการแจกแจงปกติเชิงอะซิมโทติกที่มีค่าเฉลี่ย 0 และความแปรปรวน 1 ผลลัพธ์นี้เป็นกรณีเฉพาะของทฤษฎีบทลิมิตกลาง ${\frac {X-np}{\sqrt {np(1-p)}}}$

การแจกแจงเบต้า

การแจกแจงทวินามและการแจกแจงเบตาเป็นมุมมองที่แตกต่างกันของแบบจำลองเดียวกันของการทดลองแบบเบอร์นูลลีซ้ำๆ การแจกแจงทวินามคือฟังก์ชัน ความน่าจะเป็น ของ ความสำเร็จ $k$ ครั้ง เมื่อกำหนด เหตุการณ์อิสระ $n$ เหตุการณ์ โดยแต่ละเหตุการณ์มีความน่าจะ เป็นของความสำเร็จ $p$ ในทางคณิตศาสตร์ เมื่อ $α = k + 1$ และ $β = n - k + 1$ การแจกแจงเบตาและการแจกแจงทวินามจะมีความสัมพันธ์กันด้วยตัวประกอบ $n + 1$ : $\operatorname {Beta} (p;\alpha ;\beta )=(n+1)\mathrm {B} (k;n;p)$

การแจกแจงเบต้ายังให้ตระกูลของการแจกแจงความน่าจะเป็นก่อนหน้าสำหรับการแจกแจงทวินามในการอนุมานแบบเบย์เซียนด้วย: ^{[ 41 ]} เมื่อกำหนดความน่าจะเป็นก่อนหน้าแบบสม่ำเสมอ การแจกแจงภายหลังสำหรับความน่าจะเป็นของความสำเร็จ $p$ เมื่อกำหนดเหตุการณ์อิสระ $n เหตุการณ์ที่มีความสำเร็จที่สังเกตได้$ $k ครั้ง$ คือการแจกแจงเบต้า^[⁴²^] $P(p;\alpha ,\beta )={\frac {p^{\alpha -1}(1-p)^{\beta -1}}{\operatorname {Beta} (\alpha ,\beta )}}.$

วิธีการคำนวณ

การสร้างเลขสุ่ม

วิธีการสร้างตัวเลขสุ่มโดยที่การแจกแจงแบบมาร์จินัลเป็นการแจกแจงแบบทวินามนั้นเป็นที่ยอมรับกันดี^{[ 43 ]}^{[ 44 ]} วิธีหนึ่งในการสร้าง ตัวอย่าง ตัวแปรสุ่มจากการแจกแจงแบบทวินามคือการใช้อัลกอริธึมผกผัน ในการทำเช่นนั้น จะต้องคำนวณความน่าจะเป็นที่ $Pr(X = k) สำหรับค่า$ $k$ ทั้งหมดตั้งแต่ $0$ ถึง $n$ (ผลรวมของความน่าจะเป็นเหล่านี้ควรมีค่าใกล้เคียงกับหนึ่ง เพื่อให้ครอบคลุมพื้นที่ตัวอย่างทั้งหมด) จากนั้นโดยใช้ตัวสร้างตัวเลขสุ่มเทียมเพื่อสร้างตัวอย่างอย่างสม่ำเสมอระหว่าง 0 และ 1 เราสามารถแปลงตัวอย่างที่คำนวณได้เป็นตัวเลขแบบไม่ต่อเนื่องโดยใช้ความน่าจะเป็นที่คำนวณได้ในขั้นตอนแรก

ประวัติศาสตร์

การแจกแจงนี้ได้มาจากJacob Bernoulliเขาพิจารณากรณีที่ $p = r /(r + s)$ โดยที่ $p$ คือความน่าจะเป็นของความสำเร็จ และ $r$ และ $s$ เป็นจำนวนเต็มบวกBlaise Pascalเคยพิจารณากรณีที่ $p = 1/2$ มาก่อน โดย จัดทำตารางสัมประสิทธิ์ทวินามที่สอดคล้องกันในสิ่งที่ปัจจุบันรู้จักกันในชื่อสามเหลี่ยมของ Pascal ^{[ 45 ]}

ดูเพิ่มเติม

การถดถอยโลจิสติก
การแจกแจงแบบพหุนาม
การแจกแจงทวินามเชิงลบ
การแจกแจงเบตา-ไบโนเมียล
การวัดแบบทวินาม ตัวอย่างของการวัด แบบมัลติแฟรกทั ล^[⁴⁶^]
กลศาสตร์เชิงสถิติ
ทฤษฎีบท การสะสม (Piling-up lemma)คือ ความน่าจะเป็นที่ได้จากการนำตัวแปรบูลีนอิสระมาทำการXOR กัน

หมายเหตุ

อ่านเพิ่มเติม

Hirsch, Werner Z. (1957). "การแจกแจงแบบทวินาม—ความสำเร็จหรือความล้มเหลว มีโอกาสมากน้อยเพียงใด?" . บทนำสู่สถิติสมัยใหม่ . นิวยอร์ก: MacMillan. หน้า 140–153 .
เนเทอร์, จอห์น; วาสเซอร์แมน, วิลเลียม; วิตมอร์, จอร์เจีย (1988) สถิติประยุกต์ (ฉบับที่สาม). บอสตัน: อัลลินและเบคอน หน้า 185– 192. ไอเอสบีเอ็น 0-205-10328-6.

ลิงก์ภายนอก

กราฟิกเชิงโต้ตอบ: ความสัมพันธ์ของการแจกแจงแบบตัวแปรเดียว
ผลต่างของตัวแปรทวิภาคสองตัว: XYหรือ|XY|
การสอบถามการแจกแจงความน่าจะเป็นแบบทวินามใน WolframAlpha
ช่วงความเชื่อมั่น (ช่วงความน่าเชื่อถือ) สำหรับความน่าจะเป็นแบบทวินาม p: สามารถใช้ เครื่องคำนวณออนไลน์ได้ที่causaScientia.org

[

[

[ 3 ]

[

[ 5 ]

[

[

[

[

[ 10 ]

[ 11 ]

ค่า

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[

19

[

[ 21 ]

[ 22 ]

และ

[ 23

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[

[ 30 ]

[

[

[ 33 ]

[ 34 ]

p

[ 36 ]

>

37 ]

[ 38 ]

[ 40 ]

[ 41 ]

[

[ 43 ]

[ 44 ]

[

การแจกแจงทวินาม

คำจำกัดความ

ฟังก์ชันมวลความน่าจะเป็น

ตัวอย่าง

ฟังก์ชันการกระจายสะสม

คุณสมบัติ

ค่าที่คาดหวังและความแปรปรวน

ช่วงเวลาที่สูงกว่า

โหมด

ค่ามัธยฐาน

หางกระเพื่อม

การอนุมานทางสถิติ

การประมาณค่าพารามิเตอร์

ช่วงความเชื่อมั่นสำหรับพารามิเตอร์ p

วิธี Wald

วิธี Agresti–Coull

วิธีอาร์คไซน์

วิธีวิลสัน (คะแนน)

การเปรียบเทียบ

การแจกแจงที่เกี่ยวข้อง

ผลรวมของทวินาม

การแจกแจงแบบปัวซงทวินาม

อัตราส่วนของการแจกแจงทวินามสองแบบ

ทวินามแบบมีเงื่อนไข

การแจกแจงแบบเบอร์นูลลี

การประมาณค่าปกติ

การประมาณค่าปัวซง

การแจกแจงแบบจำกัด

การแจกแจงเบต้า

วิธีการคำนวณ

การสร้างเลขสุ่ม

ประวัติศาสตร์

ดูเพิ่มเติม

หมายเหตุ

อ่านเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ