อ่าน 28 นาที
การแจกแจงทวินาม
ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง...
การแจกแจงทวินาม
| การแจกแจงทวินาม | |||
|---|---|---|---|
ฟังก์ชันมวลความน่าจะเป็น | |||
ฟังก์ชันการกระจายสะสม | |||
| สัญกรณ์ | |||
| พารามิเตอร์ | – จำนวนครั้งของการทดลอง– ความน่าจะเป็นของความสำเร็จในแต่ละครั้งของการทดลอง | ||
| สนับสนุน | – จำนวนความสำเร็จ | ||
| พีเอ็มเอฟ | |||
| ซีดีเอฟ | ( ฟังก์ชันเบต้าไม่สมบูรณ์แบบปรับค่า ) | ||
| หมายถึง | |||
| ค่ามัธยฐาน | หรือ | ||
| โหมด | หรือ | ||
| ความแปรปรวน | |||
| ความเบี่ยงเบน | |||
| ความโค้งส่วนเกิน | |||
| เอนโทรปี | ในหน่วยแชนนอนสำหรับค่าธรรมชาติให้ใช้ลอการิทึมธรรมชาติในลอการิทึม | ||
| เอ็มจีเอฟ | |||
| ซีเอฟ | |||
| พีจีเอฟ | |||
| ข้อมูลของฟิชเชอร์ | (สำหรับค่าคงที่) | ||
| ส่วนหนึ่งของชุดบทความเกี่ยวกับสถิติ |
| ทฤษฎีความน่าจะเป็น |
|---|

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง โดยแต่ละครั้งถามคำถามใช่-ไม่ใช่ และแต่ละครั้งมี ผลลัพธ์ที่มีค่าบูลีนของตัวเองคือความสำเร็จ (ด้วยความน่าจะเป็นp ) หรือความล้มเหลว (ด้วยความน่าจะเป็นq = 1 − p ) การทดลองความสำเร็จ/ความล้มเหลวเพียงครั้งเดียวเรียกว่าการทดลองเบอร์นูลลีหรือการทดลองเบอร์นูลลี และลำดับของผลลัพธ์เรียกว่ากระบวนการเบอร์นูลลีสำหรับการทดลองเพียงครั้งเดียว นั่นคือเมื่อn = 1การแจกแจงทวินามคือการแจกแจงเบอร์นูลลีการแจกแจงทวินามเป็นพื้นฐานสำหรับการทดสอบทวินามของ นัยสำคัญ ทางสถิติ[ 1 ]
การแจกแจงทวินามมักใช้เป็นแบบจำลองจำนวนความสำเร็จในตัวอย่างขนาดnที่สุ่มมาแบบสุ่มซ้ำจากประชากรขนาดNหากการสุ่มตัวอย่างทำโดยไม่สุ่มซ้ำ การสุ่มจะไม่เป็นอิสระต่อกัน ดังนั้นการแจกแจงที่ได้จะเป็นการแจกแจงไฮเปอร์จีโอเมตริก ไม่ใช่การแจกแจงทวินาม อย่างไรก็ตาม สำหรับNที่ใหญ่กว่าn มาก การแจกแจงทวินามยังคงเป็นการประมาณที่ดีและใช้กันอย่างแพร่หลาย
คำจำกัดความ
ฟังก์ชันมวลความน่าจะเป็น
ถ้าตัวแปรสุ่มXเป็นไปตามการแจกแจงแบบทวินามที่มีพารามิเตอร์( จำนวนธรรมชาติ ) และp ∈ [0, 1]เราจะเขียนX ~ B( n , p )ความน่าจะเป็นที่จะได้ ผลลัพธ์ที่สำเร็จ k ครั้งพอดี ใน การทดลองแบบเบอร์นูลลีอิสระ n ครั้ง (ด้วยอัตราp เท่ากัน ) จะกำหนดโดยฟังก์ชันความน่าจะเป็นมวล : สำหรับk = 0, 1, 2, ..., nโดยที่ คือสัมประสิทธิ์ทวินามสูตรนี้สามารถเข้าใจได้ดังนี้: p k q n − kคือความน่าจะเป็นที่จะได้ลำดับของการทดลองแบบเบอร์นูลลีอิสระn ครั้ง โดยที่ k ครั้งเป็นการ "สำเร็จ" และ n − k ครั้ง ที่เหลือเป็นการ "ล้มเหลว" เนื่องจากการทดลองเป็นอิสระต่อกันโดยมีความน่าจะเป็นคงที่ระหว่างกัน ลำดับของการทดลองn ครั้งใดๆ ที่มี kครั้งที่สำเร็จ (และn − kครั้งที่ล้มเหลว) จะมีความน่าจะเป็นที่จะเกิดขึ้นเท่ากัน (โดยไม่คำนึงถึงตำแหน่งของความสำเร็จภายในลำดับ) มีลำดับดังกล่าวอยู่ เนื่องจากสัมประสิทธิ์ทวินามนับจำนวนวิธีในการเลือกตำแหน่งของ ความสำเร็จ kครั้งจาก การทดลอง n ครั้ง การแจกแจงทวินามเกี่ยวข้องกับความน่าจะเป็นของการได้รับ ลำดับ ใดลำดับหนึ่งเหล่านี้ ซึ่งหมายความว่าความน่าจะเป็นของการได้รับลำดับใดลำดับหนึ่ง ( p k q n − k ) จะต้องถูกบวกเข้าด้วยกันหลายครั้ง ดังนั้น .
ในการสร้างตารางอ้างอิงสำหรับความน่าจะเป็นของการแจกแจงทวินาม โดยปกติแล้ว ตารางจะถูกเติมข้อมูลจนถึง ค่า ค่า เนื่องจากสำหรับ ค่า ความน่าจะเป็นสามารถคำนวณได้จากค่าส่วนเติมเต็มของมันดังนี้
เมื่อพิจารณานิพจน์f ( k , n , p )เป็นฟังก์ชันของkจะมี ค่า kที่ทำให้ค่านี้สูงสุด ค่า k นี้ สามารถหาได้โดยการคำนวณ และเปรียบเทียบกับ 1 จะมีจำนวนเต็มM เสมอ ที่สอดคล้องกับ[ 2 ]
f ( k , n , p )เป็นฟังก์ชันเพิ่มขึ้นแบบโมโนโทนสำหรับ k < Mและเป็นฟังก์ชันลดลงแบบโมโนโทนสำหรับ k > Mยกเว้นกรณีที่ ( n + 1) pเป็นจำนวนเต็ม ในกรณีนี้จะมีสองค่าที่ทำให้ fมีค่าสูงสุด คือ ( n + 1) pและ ( n + 1) p − 1โดยที่ Mคือ ผลลัพธ์ ที่มีโอกาสเกิดขึ้นมากที่สุด (กล่าวคือ มีโอกาสมากที่สุด แม้ว่าโดยรวมแล้วอาจยังไม่น่าเป็นไปได้) ของการทดลอง แบบ เบอร์นูลลี และเรียกว่าโหมด
ตัวอย่าง
สมมติว่าเหรียญเอียงออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ
ฟังก์ชันการกระจายสะสม
ฟังก์ชันการกระจายสะสมสามารถแสดงได้ดังนี้: โดย ที่คือ "ค่าต่ำสุด" ภายใต้kนั่นคือจำนวนเต็มที่มากที่สุดที่น้อยกว่าหรือเท่ากับk
นอกจากนี้ยังสามารถแสดงได้ในรูปของฟังก์ชันเบต้าที่ไม่สมบูรณ์แบบปกติดังนี้: [ 3 ] ซึ่งเทียบเท่ากับ ฟังก์ชันการกระจายสะสมของการกระจายเบต้าและการกระจายF : [ 4 ]
ขอบเขตในรูปแบบปิดบางส่วนสำหรับฟังก์ชันการกระจายสะสมแสดงไว้ด้านล่าง
คุณสมบัติ
ค่าที่คาดหวังและความแปรปรวน
ถ้าX ~ B( n , p )นั่นคือXเป็นตัวแปรสุ่มที่มีการแจกแจงแบบทวินาม โดย ที่ nคือจำนวนการทดลองทั้งหมด และpคือความน่าจะเป็นที่การทดลองแต่ละครั้งจะให้ผลลัพธ์ที่ประสบความสำเร็จค่าที่คาดหวังของXคือ: [ 5 ]
สิ่งนี้เป็นผลมาจากความเป็นเชิงเส้นของค่าคาดหวัง ประกอบกับข้อเท็จจริงที่ว่าXเป็นผลรวมของตัวแปรสุ่มเบอร์นูลลีที่เหมือนกันn ตัว โดยแต่ละตัวมีค่าคาดหวัง pกล่าวอีกนัยหนึ่ง ถ้าเป็นตัวแปรสุ่มเบอร์นูลลีที่เหมือนกัน (และเป็นอิสระต่อกัน) โดยมีพารามิเตอร์pแล้วX = X 1 + ... + X nและ
ค่าความแปรปรวนคือ:
ข้อสรุปนี้ก็สอดคล้องกับข้อเท็จจริงที่ว่า ความแปรปรวนของผลรวมของตัวแปรสุ่มอิสระนั้นเท่ากับผลรวมของความแปรปรวนของตัวแปรเหล่านั้น
ช่วงเวลาที่สูงกว่า
โมเมนต์กลาง 6 โมเมนต์แรกซึ่งกำหนดโดย นั้นกำหนดโดย
โมเมนต์ที่ไม่ใช่ศูนย์กลางเป็นไปตามเงื่อนไข และโดยทั่วไป[ 6 ] [ 7 ] โดยที่คือจำนวนสเตอร์ลิงชนิดที่สองและคือกำลังลดลงลำดับที่ของขอบเขตง่ายๆ [ 8 ]ได้มาจากการจำกัดโมเมนต์ทวินามผ่านโมเมนต์ปัวซงที่สูงกว่า : ซึ่งแสดงให้เห็นว่าถ้าแล้วจะอยู่ห่างจาก อย่างมากที่สุดเพียงปัจจัยคงที่
ฟังก์ชันสร้างโมเมนต์คือ.
โหมด
โดยปกติแล้วค่าฐานนิยมของการแจกแจงทวินามB( n , p )จะเท่ากับโดยที่คือฟังก์ชันปัดเศษลงอย่างไรก็ตาม เมื่อ( n + 1) pเป็นจำนวนเต็มและpไม่ใช่ทั้ง 0 หรือ 1 การแจกแจงจะมีค่าฐานนิยมสองค่า คือ( n + 1) pและ( n + 1) p − 1เมื่อpเท่ากับ 0 หรือ 1 ค่าฐานนิยมจะเป็น 0 และnตามลำดับ กรณีเหล่านี้สามารถสรุปได้ดังนี้:
พิสูจน์:ให้
สำหรับค่าที่ไม่เป็นศูนย์จะมีค่าเฉพาะเมื่อ เท่านั้นสำหรับค่าเราพบว่าและสำหรับค่า ซึ่งพิสูจน์ได้ว่าค่าฐานนิยมคือ 0 สำหรับค่าและสำหรับค่า
ให้. เราพบว่า
จากนี้ไปจึง
ดังนั้นเมื่อเป็นจำนวนเต็ม แล้วและเป็นโหมด ในกรณีที่ แล้ว จะเป็นโหมดเท่านั้น[ 9 ]
ค่ามัธยฐาน
โดยทั่วไปแล้ว ไม่มีสูตรตายตัวในการหาค่ามัธยฐานสำหรับการแจกแจงแบบทวินาม และค่ามัธยฐานอาจไม่ใช่ค่าเดียว อย่างไรก็ตาม มีผลลัพธ์พิเศษบางประการที่ได้รับการพิสูจน์แล้ว:
- ถ้าnpเป็นจำนวนเต็ม ค่าเฉลี่ย มัธยฐาน และฐานนิยมจะตรงกันและเท่ากับnp [ 10 ] [ 11 ]
- ค่ามัธยฐานm ใดๆ จะต้องอยู่ในช่วง[ 12 ]
- ค่ามัธยฐานmไม่ควรอยู่ห่างจากค่าเฉลี่ยมากเกินไป: . [ 13 ]
- ค่ามัธยฐานมีเอกลักษณ์และเท่ากับm = round ( np )เมื่อ| m − np | ≤ min{ p , 1 − p } (ยกเว้นกรณีที่p = 1/2และnเป็นเลขคี่) [ 12 ]
- เมื่อpเป็นจำนวนตรรกยะ (ยกเว้นp = 1/2และnเป็นจำนวนคี่) ค่ามัธยฐานจะมีค่าเดียว[ 14 ]
- เมื่อn เป็นจำนวนคี่ จำนวนm ใดๆ ในช่วงนั้น จะเป็นค่ามัธยฐานของการแจกแจงทวินาม ถ้าn เป็นจำนวนคู่ แล้ว m จะเป็นค่ามัธยฐานเพียงค่าเดียว
หางกระเพื่อม
สำหรับk ≤ npขอบเขตบนสามารถหาได้สำหรับส่วนหางล่างของฟังก์ชันการกระจายสะสมซึ่งก็คือความน่าจะเป็นที่จะมีจำนวนความสำเร็จไม่เกินk ครั้ง เนื่องจากขอบเขตเหล่านี้จึงสามารถมองได้ว่าเป็นขอบเขตบนสำหรับส่วนหางบนของฟังก์ชันการกระจายสะสมสำหรับk ≥ np ด้วย เช่น กัน
อสมการของ Hoeffdingให้ขอบเขต ที่เรียบง่าย แต่ก็ไม่แน่นหนานัก โดยเฉพาะอย่างยิ่ง สำหรับp = 1เราจะได้ว่าF ( k ; n , p ) = 0 (สำหรับk , n ที่กำหนดไว้ โดยที่k < n ) แต่ขอบเขตของ Hoeffding มีค่าเป็นค่าคงที่บวก
ขอบเขตที่แม่นยำยิ่งขึ้นสามารถได้รับจากขอบเขตของ Chernoff : [ 15 ] โดยที่D ( a ∥ p )คือเอนโทรปีสัมพัทธ์ (หรือความแตกต่าง Kullback-Leibler)ระหว่าง เหรียญ aและ เหรียญ p (นั่นคือ ระหว่าง การแจกแจง Bernoulli( a )และBernoulli( p ) )
ในทางอนุกรมวิธาน ขอบเขตนี้ค่อนข้างแน่น ดูรายละเอียดได้ที่ [ 15 ]
นอกจากนี้ยังสามารถหา ขอบเขต ล่างของหางF ( k ; n , p )ซึ่งเรียกว่าขอบเขตต่อต้านความเข้มข้นได้อีกด้วย โดยการประมาณค่าสัมประสิทธิ์ทวินามด้วยสูตรของสเตอร์ลิงจะสามารถแสดงได้ว่า[ 16 ] ซึ่งหมายถึงขอบเขตที่ง่ายกว่าแต่หลวมกว่า
สำหรับp = 1/2และk ≥ 3 n /8สำหรับn คู่ สามารถทำให้ตัวส่วนคงที่ได้: [ 17 ]
การอนุมานทางสถิติ
การประมาณค่าพารามิเตอร์
เมื่อทราบค่าn แล้ว สามารถประมาณค่าพารามิเตอร์ pได้โดยใช้สัดส่วนของความสำเร็จ: ตัวประมาณค่านี้ได้มาจากการใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด (maximum likelihood estimator)และวิธีโมเมนต์ (method of moments ) ตัวประมาณค่านี้ไม่เอนเอียงและมีความแปรปรวนต่ำสุด อย่างสม่ำเสมอ ซึ่งได้รับการพิสูจน์โดยใช้ทฤษฎีบทของ Lehmann–Schefféเนื่องจากมันขึ้นอยู่กับ สถิติที่เพียงพอ และสมบูรณ์ขั้นต่ำ (นั่นคือx ) นอกจากนี้ยังมีความสอดคล้องทั้งในเชิงความน่าจะเป็นและในMSEสถิตินี้เป็นแบบปกติ เชิงอะซิมโทติก (asymptotically normal) ด้วยทฤษฎีบทขีดจำกัดกลาง (central limit theorem ) เพราะมันเหมือนกับการหาค่าเฉลี่ยของตัวอย่าง Bernoulli มันมีความแปรปรวนเท่ากับซึ่งเป็นคุณสมบัติที่ใช้ในหลายวิธี เช่น ใน ช่วงความเชื่อมั่น ของ Wald
ตัวประมาณค่าแบบเบย์สในรูปแบบปิดสำหรับpยังมีอยู่เมื่อใช้การแจกแจงเบต้าเป็นการแจกแจงก่อนหน้าแบบคอนจูเกต เมื่อใช้ทั่วไปเป็นการแจกแจงก่อนหน้าตัวประมาณค่าเฉลี่ยภายหลังคือ: ตัวประมาณค่าแบบเบย์สมีประสิทธิภาพเชิงอะซิมโทติกและเมื่อขนาดตัวอย่างเข้าใกล้อนันต์ ( n → ∞ ) มันจะเข้าใกล้คำตอบMLE [ 18 ]ตัวประมาณค่าแบบเบย์สมีอคติ (มากน้อยแค่ไหนขึ้นอยู่กับการแจกแจงก่อนหน้า) ยอมรับได้และสอดคล้องกันในความน่าจะเป็น การใช้ตัวประมาณค่าแบบเบย์สกับการแจกแจงเบต้าสามารถใช้กับการสุ่มตัวอย่างแบบทอมป์สันได้
สำหรับกรณีพิเศษของการใช้การแจกแจงเอกรูปมาตรฐานเป็น ค่าประมาณเบื้องต้น ที่ไม่ให้ข้อมูล ตัวประมาณค่าเฉลี่ยภายหลังจะเป็นดังนี้: ( ค่าฐานนิยมภายหลังควรนำไปสู่ตัวประมาณมาตรฐาน) วิธีนี้เรียกว่ากฎแห่งการสืบทอดซึ่งริเริ่มโดยปิแอร์-ไซมอน ลาปลาซ ในศตวรรษที่ 18
เมื่ออาศัยJeffreys prior ค่า prior คือ[ 19 ] ซึ่งนำไปสู่ตัวประมาณค่า:
เมื่อประมาณค่าpด้วยเหตุการณ์ที่เกิดขึ้นน้อยมากและn ขนาดเล็ก (เช่น ถ้าx = 0 ) การใช้ตัวประมาณค่ามาตรฐานจะนำไปสู่ซึ่งบางครั้งอาจไม่สมจริงและไม่พึงประสงค์ ในกรณีเช่นนี้มีตัวประมาณค่าทางเลือกต่างๆ[ 20 ]วิธีหนึ่งคือการใช้ตัวประมาณค่าแบบเบย์ซึ่งนำไปสู่: อีกวิธีหนึ่งคือการใช้ขอบเขตบนของช่วงความเชื่อมั่นที่ได้จากการใช้กฎสามประการ :
ช่วงความเชื่อมั่นสำหรับพารามิเตอร์ p
แม้แต่สำหรับค่าn ที่ค่อนข้างมาก การกระจายจริงของค่าเฉลี่ยก็ยังไม่เป็นไปตามปกติอย่างมีนัยสำคัญ[ 21 ]เนื่องจากปัญหานี้ จึงมีการเสนอวิธีการประมาณช่วงความเชื่อมั่นหลายวิธี
ในสมการช่วงความเชื่อมั่นด้านล่าง ตัวแปรต่างๆ มีความหมายดังต่อไปนี้:
- n 1คือจำนวนครั้งที่สำเร็จจากทั้งหมด nซึ่งเป็นจำนวนครั้งของการทดลองทั้งหมด
- คือสัดส่วนของความสำเร็จ
- คือค่าควอนไทล์ของการแจกแจงปกติมาตรฐาน (นั่นคือโพรบิต ) ที่สอดคล้องกับอัตราความผิดพลาดเป้าหมายตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ความผิดพลาดคือดังนั้นและ
วิธี Wald
อาจเพิ่ม ค่าแก้ไขความต่อเนื่อง 0.5 / n เข้าไปได้
วิธี Agresti–Coull
ในที่นี้ค่าประมาณของpจะถูกปรับเปลี่ยนเป็น
วิธีนี้ใช้ได้ผลดีสำหรับn > 10 และ n 1 ≠ 0, n [ 23 ] ดูที่นี่สำหรับ[ 24 ] สำหรับ n 1 = 0, nให้ใช้วิธี Wilson (คะแนน) ด้านล่าง
วิธีอาร์คไซน์
วิธีวิลสัน (คะแนน)
สัญลักษณ์ในสูตรด้านล่างแตกต่างจากสูตรก่อนหน้าในสองประเด็น: [ 26 ]
- ประการแรกz xมีความหมายที่แตกต่างออกไปเล็กน้อยในสูตรด้านล่าง: มันมีความหมายตามปกติคือ ' ควอนไทล์ที่ xของการแจกแจงปกติมาตรฐาน' ไม่ใช่ตัวย่อของ ' ควอนไทล์ที่ (1 − x ) '
- ประการที่สอง สูตรนี้ไม่ได้ใช้เครื่องหมายบวก-ลบเพื่อกำหนดขอบเขตทั้งสอง แต่เราสามารถใช้เพื่อหาขอบเขตล่าง หรือใช้เพื่อหาขอบเขตบนได้ ตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ค่าความคลาดเคลื่อนดังนั้นเราจะได้ขอบเขตล่างโดยใช้และเราจะได้ขอบเขตบนโดยใช้
การเปรียบเทียบ
วิธี ที่เรียกว่า "แม่นยำ" ( Clopper–Pearson ) เป็นวิธีที่อนุรักษ์นิยมที่สุด[ 21 ] ( แม่นยำไม่ได้หมายความว่าถูกต้องสมบูรณ์แบบ แต่หมายความว่าค่าประมาณจะไม่ต่ำกว่าค่าที่แท้จริง)
วิธีการของวอลด์ แม้ว่าจะแนะนำกันทั่วไปในตำราเรียน แต่ก็เป็นวิธีการที่มีอคติมากที่สุด
การแจกแจงที่เกี่ยวข้อง
ผลรวมของทวินาม
ถ้าX ~ B( n , p )และY ~ B( m , p )เป็นตัวแปรทวินามอิสระที่มีความน่าจะเป็นp เท่ากัน แล้วX + Yก็เป็นตัวแปรทวินามเช่นกัน การแจกแจงของมันคือZ = X + Y ~ B( n + m , p ) : [ 28 ]
ตัวแปรสุ่มที่มีการแจกแจงแบบทวินามX ~ B( n , p )สามารถพิจารณาได้ว่าเป็นผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลี จำนวน n ตัว ดังนั้น ผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบทวินามสองตัว X ~ B( n , p )และY ~ B( m , p )จึงเทียบเท่ากับผลรวมของ ตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลีจำนวน n + m ตัวซึ่งหมายความว่าZ = X + Y ~ B( n + m , p )สามารถพิสูจน์ได้โดยตรงโดยใช้กฎการบวกเช่นกัน
อย่างไรก็ตาม หากXและYไม่มีโอกาสเกิดเท่ากัน คือ pความแปรปรวนของผลรวมจะน้อยกว่าความแปรปรวนของตัวแปรทวินามที่มีการแจกแจงแบบB ( n + m , p )
การแจกแจงแบบปัวซงทวินาม
การแจกแจงทวินามเป็นกรณีพิเศษของการแจกแจงทวินามปัวซงซึ่งเป็นการแจกแจงผลรวมของการทดลองเบอร์นูลีอิสระที่ไม่เหมือนกันnครั้งB( p i ) [ 29 ]
อัตราส่วนของการแจกแจงทวินามสองแบบ
ผลลัพธ์นี้ได้รับการพิสูจน์ครั้งแรกโดย Katz และผู้ร่วมเขียนในปี พ.ศ. 2521 [ 30 ]
ให้X ~ B( n , p 1 )และY ~ B( m , p 2 )เป็นอิสระต่อกัน ให้T = ( X / n ) / ( Y / m ) .
จากนั้นlog( T )จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ยlog( p 1 / p 2 )และความแปรปรวน((1/ p 1 ) − 1)/ n + ((1/ p 2 ) − 1)/ m .
ทวินามแบบมีเงื่อนไข
ถ้าX ~ B( n , p )และY | X ~ B( X , q ) (การแจกแจงแบบมีเงื่อนไขของYเมื่อกำหนด X แล้ว ) แล้วYเป็นตัวแปรสุ่มทวินามแบบง่ายที่มีการแจกแจงY ~ B ( n , pq )
ยกตัวอย่างเช่น ลองนึกภาพว่าเราโยน ลูกบอล nลูกลงในตะกร้าUX แล้วนำลูกบอลที่ตกลงไปในตะกร้านั้นไปโยนลงในตะกร้าอีกใบYUถ้า p คือความน่าจะเป็นที่จะตกลงไปในตะกร้า UXแล้วX ~ B( n , p )คือจำนวนลูกบอลที่ตกลงไปในตะกร้าUXถ้าqคือความน่าจะเป็นที่จะตกลงไปในตะกร้า YU แล้วจำนวนลูกบอลที่ตกลงไปในตะกร้าYUคือY ~ B( X , q )และดังนั้นY ~ B( n , pq )
เนื่องจากและตามกฎความน่าจะเป็นรวม เนื่องจากสมการข้างต้นสามารถแสดงได้เป็น การแยกตัวประกอบและดึงพจน์ทั้งหมดที่ไม่ขึ้นอยู่กับออกจากผลรวมจะได้ หลังจากแทน ค่าลง ในนิพจน์ข้างต้น เราจะได้ สังเกตว่าผลรวม (ในวงเล็บ) ข้างต้นเท่ากับตามทฤษฎีบททวินามการแทนค่านี้ลงใน ในที่สุดจะได้ และเป็นไปตามที่ต้องการ
การแจกแจงแบบเบอร์นูลลี
การแจกแจงเบอร์นูลลีเป็นกรณีพิเศษของการแจกแจงทวินาม โดยที่n = 1ในเชิงสัญลักษณ์X ~ B(1, p )มีความหมายเหมือนกับX ~ Bernoulli( p )ในทางกลับกัน การแจกแจงทวินามใดๆB( n , p )คือการแจกแจงของผลรวมของการทดลองเบอร์นูลลีอิสระn ครั้งBernoulli( p ) โดยแต่ละครั้งมีความน่าจะ เป็นpเท่ากัน[ 31 ]
การประมาณค่าปกติ

ถ้าnมีขนาดใหญ่พอ ความเบี่ยงเบนของการกระจายจะไม่มากเกินไป ในกรณีนี้ การประมาณค่าB( n , p ) ที่เหมาะสม จะได้รับจากการกระจายแบบปกติ และการประมาณค่าพื้นฐานนี้สามารถปรับปรุงได้ด้วยวิธีง่ายๆ โดยใช้การแก้ไขความต่อเนื่อง ที่เหมาะสม การประมาณค่าพื้นฐานโดยทั่วไปจะดีขึ้นเมื่อnเพิ่มขึ้น (อย่างน้อย 20) และจะดีขึ้นเมื่อpไม่ใกล้เคียงกับ 0 หรือ 1 [ 32 ]สามารถใช้กฎทั่วไปต่างๆ เพื่อตัดสินใจว่า nมีขนาดใหญ่พอหรือไม่ และpอยู่ห่างจากค่าสุดขั้วของศูนย์หรือหนึ่งมากพอหรือไม่:
- กฎข้อหนึ่ง[ 32 ]คือสำหรับn > 5การประมาณค่าปกติถือว่าเพียงพอหากค่าสัมบูรณ์ของความเบี่ยงเบนน้อยกว่า 0.3 อย่างเคร่งครัด นั่นคือ ถ้า
สามารถระบุรายละเอียดให้ชัดเจนยิ่งขึ้นได้โดยใช้ทฤษฎีบทเบอร์รี-เอสซีน
- กฎที่เข้มงวดกว่าระบุว่า การประมาณค่าด้วยค่าเฉลี่ยปกติจะเหมาะสมก็ต่อเมื่อทุกสิ่งที่อยู่ภายในระยะ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยอยู่ในช่วงของค่าที่เป็นไปได้ กล่าวคือ ก็ต่อเมื่อ
- กฎ 3 ส่วนเบี่ยงเบนมาตรฐานนี้เทียบเท่ากับเงื่อนไขต่อไปนี้ ซึ่งหมายความถึงกฎข้อแรกข้างต้นด้วยเช่นกัน
กฎนี้เทียบเท่ากับการร้องขอว่า การย้ายพจน์ไปมาจะได้ผลลัพธ์ดังนี้: เนื่องจากเราสามารถใช้เลขยกกำลังสองและหารด้วยตัวประกอบและ ตามลำดับ เพื่อให้ได้เงื่อนไขที่ต้องการ: โปรดสังเกตว่าเงื่อนไขเหล่านี้บ่งบอกโดยอัตโนมัติว่าในทางกลับกัน ให้ใช้รากที่สองอีกครั้งและหารด้วย 3 การลบชุดอสมการที่สองออกจากชุดแรกจะได้ผลลัพธ์ดังนี้: ดังนั้น กฎข้อแรกที่ต้องการจึงเป็นไปตามที่กำหนด
- กฎที่ใช้กันทั่วไปอีกข้อหนึ่งคือค่าnpและn (1 − p ) ทั้งสองค่า ต้องมากกว่า[ 33 ] [ 34 ]หรือเท่ากับ 5 อย่างไรก็ตาม ตัวเลขที่เฉพาะเจาะจงจะแตกต่างกันไปตามแหล่งที่มา และขึ้นอยู่กับว่าต้องการการประมาณที่ดีเพียงใด โดยเฉพาะอย่างยิ่ง หากใช้ 9 แทน 5 กฎนี้จะหมายถึงผลลัพธ์ที่ระบุไว้ในย่อหน้าก่อนหน้า
สมมติว่าทั้งค่าและมีค่ามากกว่า 9 เนื่องจากเราจึงได้ว่า ตอนนี้เราเพียงแค่หารด้วยตัวประกอบและตามลำดับ เพื่อหาแบบฟอร์มทางเลือกของกฎ 3 ส่วนเบี่ยงเบนมาตรฐาน:
ต่อไปนี้เป็นตัวอย่างของการประยุกต์ใช้การแก้ไขความต่อเนื่องสมมติว่าเราต้องการคำนวณPr( X ≤ 8)สำหรับตัวแปรสุ่มทวินามXถ้าYมีการแจกแจงตามการประมาณค่าแบบปกติแล้วPr( X ≤ 8)จะถูกประมาณโดยPr( Y ≤ 8.5)การเพิ่ม 0.5 คือการแก้ไขความต่อเนื่อง การประมาณค่าแบบปกติที่ไม่ได้แก้ไขจะให้ผลลัพธ์ที่แม่นยำน้อยกว่ามาก
การประมาณค่านี้ ซึ่งรู้จักกันในชื่อทฤษฎีบทเดอ มัวร์-ลาปลาซ ช่วยประหยัดเวลาได้อย่างมากเมื่อทำการคำนวณด้วยมือ (การคำนวณที่แม่นยำด้วยn ขนาดใหญ่ เป็นเรื่องที่ยุ่งยากมาก) ในทางประวัติศาสตร์ ถือเป็นการใช้การแจกแจงปกติครั้งแรก ซึ่งนำเสนอใน หนังสือ The Doctrine of Chancesของอับราฮัม เดอ มัวร์ในปี 1738 ปัจจุบัน สามารถมองได้ว่าเป็นผลสืบเนื่องมาจากทฤษฎีบทขีดจำกัดกลางเนื่องจากB( n , p )เป็นผลรวมของตัวแปรเบอร์นูลีอิสระที่มีการแจกแจงเหมือนกัน จำนวน n ตัวโดยมีพารามิเตอร์ pข้อเท็จจริงนี้เป็นพื้นฐานของการทดสอบสมมติฐาน "การทดสอบสัดส่วน z" สำหรับค่าของpโดยใช้x / nซึ่งเป็นสัดส่วนตัวอย่างและตัวประมาณค่าของpในสถิติการทดสอบทั่วไป [ 35 ]
ตัวอย่างเช่น สมมติว่าเราสุ่มเลือก คน nคนจากประชากรขนาดใหญ่ และถามพวกเขาว่าเห็นด้วยกับข้อความหนึ่งหรือไม่ สัดส่วนของคนที่เห็นด้วยย่อมขึ้นอยู่กับกลุ่มตัวอย่าง หากสุ่มเลือกกลุ่มคนnคนซ้ำๆ กันอย่างแท้จริง สัดส่วนก็จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ยเท่ากับสัดส่วนที่แท้จริงpของการเห็นด้วยในประชากร และมีส่วนเบี่ยงเบนมาตรฐานเท่ากับ σ
การประมาณค่าปัวซง
การแจกแจงทวินามจะลู่เข้าสู่การแจกแจงปัวซงเมื่อจำนวนการทดลองเข้าสู่ค่าอนันต์ ในขณะที่ผลคูณnpจะลู่เข้าสู่ค่าจำกัด ดังนั้น การแจกแจงปัวซงที่มีพารามิเตอร์λ = npสามารถใช้เป็นค่าประมาณของB( n , p )ของการแจกแจงทวินามได้ หากnมีค่ามากพอและpมีค่าน้อยมากพอ ตามหลักการทั่วไป ค่าประมาณนี้จะดีหากn ≥ 20และp ≤ 0.05 [ 36 ]โดยที่np ≤ 1หรือหากn > 50และp < 0.1โดยที่np < 5 [ 37 ]หรือหากn ≥ 100และnp ≤ 10 [ 38 ] [ 39 ]
สำหรับความแม่นยำของการประมาณค่าปัวซง โปรดดู Novak [ 40 ]บทที่ 4 และเอกสารอ้างอิงในนั้น
การแจกแจงแบบจำกัด
- ทฤษฎีบทขีดจำกัดปัวซง : เมื่อ nเข้าใกล้ ∞และ pเข้าใกล้ 0 โดยที่ผลคูณ npคงที่ การแจกแจง แบบทวินาม( n , p )จะเข้าใกล้ การแจกแจง แบบปัวซงที่มีค่าเฉลี่ยλ = np [ 38 ]
- ทฤษฎีบทเดอ มัวร์-ลาปลาซ : เมื่อ nเข้าใกล้ ∞ในขณะที่ pคงที่ การแจกแจงของ Xจะเข้าใกล้การแจกแจงปกติที่มีค่าเฉลี่ย 0 และความแปรปรวน 1 ผลลัพธ์นี้บางครั้งกล่าวอย่างคร่าวๆ ว่า การแจกแจงของ Xเป็นการแจกแจงปกติเชิงอะซิมโทติกที่มีค่าเฉลี่ย 0 และความแปรปรวน 1 ผลลัพธ์นี้เป็นกรณีเฉพาะของทฤษฎีบทลิมิตกลาง
การแจกแจงเบต้า
การแจกแจงทวินามและการแจกแจงเบตาเป็นมุมมองที่แตกต่างกันของแบบจำลองเดียวกันของการทดลองแบบเบอร์นูลลีซ้ำๆ การแจกแจงทวินามคือฟังก์ชัน ความน่าจะเป็น ของ ความสำเร็จ k ครั้ง เมื่อกำหนด เหตุการณ์อิสระ nเหตุการณ์ โดยแต่ละเหตุการณ์มีความน่าจะ เป็นของความสำเร็จ pในทางคณิตศาสตร์ เมื่อα = k + 1และβ = n − k + 1การแจกแจงเบตาและการแจกแจงทวินามจะมีความสัมพันธ์กันด้วยตัวประกอบn + 1 :
การแจกแจงเบต้ายังให้ตระกูลของการแจกแจงความน่าจะเป็นก่อนหน้าสำหรับการแจกแจงทวินามในการอนุมานแบบเบย์เซียนด้วย: [ 41 ] เมื่อกำหนดความน่าจะเป็นก่อนหน้าแบบสม่ำเสมอ การแจกแจงภายหลังสำหรับความน่าจะเป็นของความสำเร็จpเมื่อกำหนดเหตุการณ์อิสระn เหตุการณ์ที่มีความสำเร็จที่สังเกตได้ k ครั้งคือการแจกแจงเบต้า[ 42 ]
วิธีการคำนวณ
การสร้างเลขสุ่ม
วิธีการสร้างตัวเลขสุ่มโดยที่การแจกแจงแบบมาร์จินัลเป็นการแจกแจงแบบทวินามนั้นเป็นที่ยอมรับกันดี[ 43 ] [ 44 ] วิธีหนึ่งในการสร้าง ตัวอย่าง ตัวแปรสุ่มจากการแจกแจงแบบทวินามคือการใช้อัลกอริธึมผกผัน ในการทำเช่นนั้น จะต้องคำนวณความน่าจะเป็นที่Pr( X = k ) สำหรับค่า kทั้งหมดตั้งแต่0ถึงn (ผลรวมของความน่าจะเป็นเหล่านี้ควรมีค่าใกล้เคียงกับหนึ่ง เพื่อให้ครอบคลุมพื้นที่ตัวอย่างทั้งหมด) จากนั้นโดยใช้ตัวสร้างตัวเลขสุ่มเทียมเพื่อสร้างตัวอย่างอย่างสม่ำเสมอระหว่าง 0 และ 1 เราสามารถแปลงตัวอย่างที่คำนวณได้เป็นตัวเลขแบบไม่ต่อเนื่องโดยใช้ความน่าจะเป็นที่คำนวณได้ในขั้นตอนแรก
ประวัติศาสตร์
การแจกแจงนี้ได้มาจากJacob Bernoulliเขาพิจารณากรณีที่p = r /( r + s )โดยที่pคือความน่าจะเป็นของความสำเร็จ และrและsเป็นจำนวนเต็มบวกBlaise Pascalเคยพิจารณากรณีที่p = 1/2 มาก่อน โดย จัดทำตารางสัมประสิทธิ์ทวินามที่สอดคล้องกันในสิ่งที่ปัจจุบันรู้จักกันในชื่อสามเหลี่ยมของ Pascal [ 45 ]
ดูเพิ่มเติม
- การถดถอยโลจิสติก
- การแจกแจงแบบพหุนาม
- การแจกแจงทวินามเชิงลบ
- การแจกแจงเบตา-ไบโนเมียล
- การวัดแบบทวินาม ตัวอย่างของการวัดแบบมัลติแฟรกทั ล[ 46 ]
- กลศาสตร์เชิงสถิติ
- ทฤษฎีบท การสะสม (Piling-up lemma)คือ ความน่าจะเป็นที่ได้จากการนำตัวแปรบูลีนอิสระมาทำการXOR กัน
หมายเหตุ
อ่านเพิ่มเติม
- Hirsch, Werner Z. (1957). "การแจกแจงแบบทวินาม—ความสำเร็จหรือความล้มเหลว มีโอกาสมากน้อยเพียงใด?" . บทนำสู่สถิติสมัยใหม่ . นิวยอร์ก: MacMillan. หน้า 140–153 .
- เนเทอร์, จอห์น; วาสเซอร์แมน, วิลเลียม; วิตมอร์, จอร์เจีย (1988) สถิติประยุกต์ (ฉบับที่สาม). บอสตัน: อัลลินและเบคอน หน้า 185– 192. ไอเอสบีเอ็น 0-205-10328-6.
ลิงก์ภายนอก
- กราฟิกเชิงโต้ตอบ: ความสัมพันธ์ของการแจกแจงแบบตัวแปรเดียว
- ผลต่างของตัวแปรทวิภาคสองตัว: XYหรือ|XY|
- การสอบถามการแจกแจงความน่าจะเป็นแบบทวินามใน WolframAlpha
- ช่วงความเชื่อมั่น (ช่วงความน่าเชื่อถือ) สำหรับความน่าจะเป็นแบบทวินาม p: สามารถใช้ เครื่องคำนวณออนไลน์ได้ที่causaScientia.org
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การแจกแจงทวินาม
ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง...
ฟังก์ชันมวลความน่าจะเป็น
ถ้า ตัวแปรสุ่ม X เป็นไปตามการแจกแจงแบบทวินามที่มีพารามิเตอร์( จำนวนธรรมชาติ ) และ p ∈ [0, 1] เราจะเขียน X ~ B( n , p ) ความน่าจะเป็นที่จะได้ ผลลัพธ์ที่สำเร็จ k ครั้งพอดี ใน การทดลองแบบเบอร์นูลลีอิสระ n ครั้ง (ด้วยอัตรา p เท่ากัน ) จะกำหนดโดย...
ตัวอย่าง
สมมติว่า เหรียญเอียง ออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ f ( 4 , 6 , 0.3 ) = ( 6 4 ) 0.3 4 ( 1 − 0.3 ) 6 − 4 = 0.059535. {\displaystyle f(4,6,0.3)={\binom {6}{4}}0.3^{4}(1-0.3)^{6-4}=0.059535.}
ฟังก์ชันการกระจายสะสม
ฟังก์ชัน การกระจายสะสม สามารถแสดงได้ดังนี้: โดย ที่คือ "ค่าต่ำสุด" ภายใต้ k นั่นคือ จำนวนเต็มที่มากที่สุด ที่น้อยกว่าหรือเท่ากับ k F ( k ; n , p ) = Pr ( X ≤ k ) = ∑ i = 0 ⌊ k ⌋ ( n i ) p i ( 1 − p ) n − i , {\displaystyle F(k;n,p)=\Pr(X\leq k)=\sum...