กลับไปหน้าบทความ

อ่าน 28 นาที

การแจกแจงทวินาม

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง...

การแจกแจงทวินาม

การแจกแจงทวินาม
ฟังก์ชันมวลความน่าจะเป็น
ฟังก์ชันความน่าจะเป็นมวลสำหรับการแจกแจงทวินาม
ฟังก์ชันการกระจายสะสม
ฟังก์ชันการกระจายสะสมสำหรับการกระจายทวินาม
สัญกรณ์
พารามิเตอร์– จำนวนครั้งของการทดลอง– ความน่าจะเป็นของความสำเร็จในแต่ละครั้งของการทดลอง
สนับสนุน– จำนวนความสำเร็จ
พีเอ็มเอฟ
ซีดีเอฟ( ฟังก์ชันเบต้าไม่สมบูรณ์แบบปรับค่า )
หมายถึง
ค่ามัธยฐานหรือ
โหมดหรือ
ความแปรปรวน
ความเบี่ยงเบน
ความโค้งส่วนเกิน
เอนโทรปีในหน่วยแชนนอนสำหรับค่าธรรมชาติให้ใช้ลอการิทึมธรรมชาติในลอการิทึม
เอ็มจีเอฟ
ซีเอฟ
พีจีเอฟ
ข้อมูลของฟิชเชอร์(สำหรับค่าคงที่)
การแจกแจงทวินามสำหรับp = 0.5โดยที่nและkเป็นไปตามสามเหลี่ยมของปาสคาลความน่าจะเป็นที่ลูกบอลในกล่องกัลตันที่มี 8 ชั้น ( n = 8 ) จะตกลงไปในช่องตรงกลาง ( k = 4 ) คือ70/256

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง โดยแต่ละครั้งถามคำถามใช่-ไม่ใช่ และแต่ละครั้งมี ผลลัพธ์ที่มีค่าบูลีนของตัวเองคือความสำเร็จ (ด้วยความน่าจะเป็นp ) หรือความล้มเหลว (ด้วยความน่าจะเป็นq = 1 − p ) การทดลองความสำเร็จ/ความล้มเหลวเพียงครั้งเดียวเรียกว่าการทดลองเบอร์นูลลีหรือการทดลองเบอร์นูลลี และลำดับของผลลัพธ์เรียกว่ากระบวนการเบอร์นูลลีสำหรับการทดลองเพียงครั้งเดียว นั่นคือเมื่อn = 1การแจกแจงทวินามคือการแจกแจงเบอร์นูลลีการแจกแจงทวินามเป็นพื้นฐานสำหรับการทดสอบทวินามของ นัยสำคัญ ทางสถิติ[ 1 ]

การแจกแจงทวินามมักใช้เป็นแบบจำลองจำนวนความสำเร็จในตัวอย่างขนาดnที่สุ่มมาแบบสุ่มซ้ำจากประชากรขนาดNหากการสุ่มตัวอย่างทำโดยไม่สุ่มซ้ำ การสุ่มจะไม่เป็นอิสระต่อกัน ดังนั้นการแจกแจงที่ได้จะเป็นการแจกแจงไฮเปอร์จีโอเมตริก ไม่ใช่การแจกแจงทวินาม อย่างไรก็ตาม สำหรับNที่ใหญ่กว่าn มาก การแจกแจงทวินามยังคงเป็นการประมาณที่ดีและใช้กันอย่างแพร่หลาย

คำจำกัดความ

ฟังก์ชันมวลความน่าจะเป็น

ถ้าตัวแปรสุ่มXเป็นไปตามการแจกแจงแบบทวินามที่มีพารามิเตอร์( จำนวนธรรมชาติ ) และp[0, 1]เราจะเขียนX ~ B( n , p )ความน่าจะเป็นที่จะได้ ผลลัพธ์ที่สำเร็จ k ครั้งพอดี ใน การทดลองแบบเบอร์นูลลีอิสระ n ครั้ง (ด้วยอัตราp เท่ากัน ) จะกำหนดโดยฟังก์ชันความน่าจะเป็นมวล : สำหรับk = 0, 1, 2, ..., nโดยที่ คือสัมประสิทธิ์ทวินามสูตรนี้สามารถเข้าใจได้ดังนี้: p k q nkคือความน่าจะเป็นที่จะได้ลำดับของการทดลองแบบเบอร์นูลลีอิสระn ครั้ง โดยที่ k ครั้งเป็นการ "สำเร็จ" และ nk ครั้ง ที่เหลือเป็นการ "ล้มเหลว" เนื่องจากการทดลองเป็นอิสระต่อกันโดยมีความน่าจะเป็นคงที่ระหว่างกัน ลำดับของการทดลองn ครั้งใดๆ ที่มี kครั้งที่สำเร็จ (และnkครั้งที่ล้มเหลว) จะมีความน่าจะเป็นที่จะเกิดขึ้นเท่ากัน (โดยไม่คำนึงถึงตำแหน่งของความสำเร็จภายในลำดับ) มีลำดับดังกล่าวอยู่ เนื่องจากสัมประสิทธิ์ทวินามนับจำนวนวิธีในการเลือกตำแหน่งของ ความสำเร็จ kครั้งจาก การทดลอง n ครั้ง การแจกแจงทวินามเกี่ยวข้องกับความน่าจะเป็นของการได้รับ ลำดับ ใดลำดับหนึ่งเหล่านี้ ซึ่งหมายความว่าความน่าจะเป็นของการได้รับลำดับใดลำดับหนึ่ง ( p k q nk ) จะต้องถูกบวกเข้าด้วยกันหลายครั้ง ดังนั้น .

ในการสร้างตารางอ้างอิงสำหรับความน่าจะเป็นของการแจกแจงทวินาม โดยปกติแล้ว ตารางจะถูกเติมข้อมูลจนถึง ค่า ⁠ ⁠ค่า เนื่องจากสำหรับ⁠ ⁠ค่า ความน่าจะเป็นสามารถคำนวณได้จากค่าส่วนเติมเต็มของมันดังนี้

เมื่อพิจารณานิพจน์f ( k , n , p )เป็นฟังก์ชันของkจะมี ค่า kที่ทำให้ค่านี้สูงสุด ค่า k นี้ สามารถหาได้โดยการคำนวณ และเปรียบเทียบกับ 1 จะมีจำนวนเต็มM เสมอ ที่สอดคล้องกับ[ 2 ]

f ( k , n , p )เป็นฟังก์ชันเพิ่มขึ้นแบบโมโนโทนสำหรับ k < Mและเป็นฟังก์ชันลดลงแบบโมโนโทนสำหรับ k > Mยกเว้นกรณีที่ ( n + 1) pเป็นจำนวนเต็ม ในกรณีนี้จะมีสองค่าที่ทำให้ fมีค่าสูงสุด คือ ( n + 1) pและ ( n + 1) p − 1โดยที่ Mคือ ผลลัพธ์ ที่มีโอกาสเกิดขึ้นมากที่สุด (กล่าวคือ มีโอกาสมากที่สุด แม้ว่าโดยรวมแล้วอาจยังไม่น่าเป็นไปได้) ของการทดลอง แบบ เบอร์นูลลี และเรียกว่าโหมด

ตัวอย่าง

สมมติว่าเหรียญเอียงออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ

ฟังก์ชันการกระจายสะสม

ฟังก์ชันการกระจายสะสมสามารถแสดงได้ดังนี้: โดย ที่คือ "ค่าต่ำสุด" ภายใต้kนั่นคือจำนวนเต็มที่มากที่สุดที่น้อยกว่าหรือเท่ากับk

นอกจากนี้ยังสามารถแสดงได้ในรูปของฟังก์ชันเบต้าที่ไม่สมบูรณ์แบบปกติดังนี้: [ 3 ] ซึ่งเทียบเท่ากับ ฟังก์ชันการกระจายสะสมของการกระจายเบต้าและการกระจายF : [ 4 ]

ขอบเขตในรูปแบบปิดบางส่วนสำหรับฟังก์ชันการกระจายสะสมแสดงไว้ด้านล่าง

คุณสมบัติ

ค่าที่คาดหวังและความแปรปรวน

ถ้าX ~ B( n , p )นั่นคือXเป็นตัวแปรสุ่มที่มีการแจกแจงแบบทวินาม โดย ที่ nคือจำนวนการทดลองทั้งหมด และpคือความน่าจะเป็นที่การทดลองแต่ละครั้งจะให้ผลลัพธ์ที่ประสบความสำเร็จค่าที่คาดหวังของXคือ: [ 5 ]

สิ่งนี้เป็นผลมาจากความเป็นเชิงเส้นของค่าคาดหวัง ประกอบกับข้อเท็จจริงที่ว่าXเป็นผลรวมของตัวแปรสุ่มเบอร์นูลลีที่เหมือนกันn ตัว โดยแต่ละตัวมีค่าคาดหวัง pกล่าวอีกนัยหนึ่ง ถ้าเป็นตัวแปรสุ่มเบอร์นูลลีที่เหมือนกัน (และเป็นอิสระต่อกัน) โดยมีพารามิเตอร์pแล้วX = X 1 + ... + X nและ

ค่าความแปรปรวนคือ:

ข้อสรุปนี้ก็สอดคล้องกับข้อเท็จจริงที่ว่า ความแปรปรวนของผลรวมของตัวแปรสุ่มอิสระนั้นเท่ากับผลรวมของความแปรปรวนของตัวแปรเหล่านั้น

ช่วงเวลาที่สูงกว่า

โมเมนต์กลาง 6 โมเมนต์แรกซึ่งกำหนดโดย นั้นกำหนดโดย

โมเมนต์ที่ไม่ใช่ศูนย์กลางเป็นไปตามเงื่อนไข และโดยทั่วไป[ 6 ] [ 7 ] โดยที่คือจำนวนสเตอร์ลิงชนิดที่สองและคือกำลังลดลงลำดับที่ของขอบเขตง่ายๆ [ 8 ]ได้มาจากการจำกัดโมเมนต์ทวินามผ่านโมเมนต์ปัวซงที่สูงกว่า : ซึ่งแสดงให้เห็นว่าถ้าแล้วจะอยู่ห่างจาก อย่างมากที่สุดเพียงปัจจัยคงที่

ฟังก์ชันสร้างโมเมนต์คือ.

โหมด

โดยปกติแล้วค่าฐานนิยมของการแจกแจงทวินามB( n , p )จะเท่ากับโดยที่คือฟังก์ชันปัดเศษลงอย่างไรก็ตาม เมื่อ( n + 1) pเป็นจำนวนเต็มและpไม่ใช่ทั้ง 0 หรือ 1 การแจกแจงจะมีค่าฐานนิยมสองค่า คือ( n + 1) pและ( n + 1) p − 1เมื่อpเท่ากับ 0 หรือ 1 ค่าฐานนิยมจะเป็น 0 และnตามลำดับ กรณีเหล่านี้สามารถสรุปได้ดังนี้:

พิสูจน์:ให้

สำหรับค่าที่ไม่เป็นศูนย์จะมีค่าเฉพาะเมื่อ เท่านั้นสำหรับค่าเราพบว่าและสำหรับค่า ซึ่งพิสูจน์ได้ว่าค่าฐานนิยมคือ 0 สำหรับค่าและสำหรับค่า

ให้. เราพบว่า

จากนี้ไปจึง

ดังนั้นเมื่อเป็นจำนวนเต็ม แล้วและเป็นโหมด ในกรณีที่ แล้ว จะเป็นโหมดเท่านั้น[ 9 ]

ค่ามัธยฐาน

โดยทั่วไปแล้ว ไม่มีสูตรตายตัวในการหาค่ามัธยฐานสำหรับการแจกแจงแบบทวินาม และค่ามัธยฐานอาจไม่ใช่ค่าเดียว อย่างไรก็ตาม มีผลลัพธ์พิเศษบางประการที่ได้รับการพิสูจน์แล้ว:

  • ถ้าnpเป็นจำนวนเต็ม ค่าเฉลี่ย มัธยฐาน และฐานนิยมจะตรงกันและเท่ากับnp [ 10 ] [ 11 ]
  • ค่ามัธยฐานm ใดๆ จะต้องอยู่ในช่วง[ 12 ]
  • ค่ามัธยฐานmไม่ควรอยู่ห่างจากค่าเฉลี่ยมากเกินไป: . [ 13 ]
  • ค่ามัธยฐานมีเอกลักษณ์และเท่ากับm = round ( np )เมื่อ| mnp | ≤ min{ p , 1 − p } (ยกเว้นกรณีที่p = 1/2และnเป็นเลขคี่) [ 12 ]
  • เมื่อpเป็นจำนวนตรรกยะ (ยกเว้นp = 1/2และnเป็นจำนวนคี่) ค่ามัธยฐานจะมีค่าเดียว[ 14 ]
  • เมื่อn เป็นจำนวนคี่ จำนวนm ใดๆ ในช่วงนั้น จะเป็นค่ามัธยฐานของการแจกแจงทวินาม ถ้าn เป็นจำนวนคู่ แล้ว m จะเป็นค่ามัธยฐานเพียงค่าเดียว

หางกระเพื่อม

สำหรับknpขอบเขตบนสามารถหาได้สำหรับส่วนหางล่างของฟังก์ชันการกระจายสะสมซึ่งก็คือความน่าจะเป็นที่จะมีจำนวนความสำเร็จไม่เกินk ครั้ง เนื่องจากขอบเขตเหล่านี้จึงสามารถมองได้ว่าเป็นขอบเขตบนสำหรับส่วนหางบนของฟังก์ชันการกระจายสะสมสำหรับknp ด้วย เช่น กัน

อสมการของ Hoeffdingให้ขอบเขต ที่เรียบง่าย แต่ก็ไม่แน่นหนานัก โดยเฉพาะอย่างยิ่ง สำหรับp = 1เราจะได้ว่าF ( k ; n , p ) = 0 (สำหรับk , n ที่กำหนดไว้ โดยที่k < n ) แต่ขอบเขตของ Hoeffding มีค่าเป็นค่าคงที่บวก

ขอบเขตที่แม่นยำยิ่งขึ้นสามารถได้รับจากขอบเขตของ Chernoff : [ 15 ] โดยที่D ( ap )คือเอนโทรปีสัมพัทธ์ (หรือความแตกต่าง Kullback-Leibler)ระหว่าง เหรียญ aและ เหรียญ p (นั่นคือ ระหว่าง การแจกแจง Bernoulli( a )และBernoulli( p ) )

ในทางอนุกรมวิธาน ขอบเขตนี้ค่อนข้างแน่น ดูรายละเอียดได้ที่ [ 15 ]

นอกจากนี้ยังสามารถหา ขอบเขต ล่างของหางF ( k ; n , p )ซึ่งเรียกว่าขอบเขตต่อต้านความเข้มข้นได้อีกด้วย โดยการประมาณค่าสัมประสิทธิ์ทวินามด้วยสูตรของสเตอร์ลิงจะสามารถแสดงได้ว่า[ 16 ] ซึ่งหมายถึงขอบเขตที่ง่ายกว่าแต่หลวมกว่า

สำหรับp = 1/2และk ≥ 3 n /8สำหรับn คู่ สามารถทำให้ตัวส่วนคงที่ได้: [ 17 ]

การอนุมานทางสถิติ

การประมาณค่าพารามิเตอร์

เมื่อทราบค่าn แล้ว สามารถประมาณค่าพารามิเตอร์ pได้โดยใช้สัดส่วนของความสำเร็จ: ตัวประมาณค่านี้ได้มาจากการใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด (maximum likelihood estimator)และวิธีโมเมนต์ (method of moments ) ตัวประมาณค่านี้ไม่เอนเอียงและมีความแปรปรวนต่ำสุด อย่างสม่ำเสมอ ซึ่งได้รับการพิสูจน์โดยใช้ทฤษฎีบทของ Lehmann–Schefféเนื่องจากมันขึ้นอยู่กับ สถิติที่เพียงพอ และสมบูรณ์ขั้นต่ำ (นั่นคือx ) นอกจากนี้ยังมีความสอดคล้องทั้งในเชิงความน่าจะเป็นและในMSEสถิตินี้เป็นแบบปกติ เชิงอะซิมโทติก (asymptotically normal) ด้วยทฤษฎีบทขีดจำกัดกลาง (central limit theorem ) เพราะมันเหมือนกับการหาค่าเฉลี่ยของตัวอย่าง Bernoulli มันมีความแปรปรวนเท่ากับซึ่งเป็นคุณสมบัติที่ใช้ในหลายวิธี เช่น ใน ช่วงความเชื่อมั่น ของ Wald

ตัวประมาณค่าแบบเบย์สในรูปแบบปิดสำหรับpยังมีอยู่เมื่อใช้การแจกแจงเบต้าเป็นการแจกแจงก่อนหน้าแบบคอนจูเกต เมื่อใช้ทั่วไปเป็นการแจกแจงก่อนหน้าตัวประมาณค่าเฉลี่ยภายหลังคือ: ตัวประมาณค่าแบบเบย์สมีประสิทธิภาพเชิงอะซิมโทติกและเมื่อขนาดตัวอย่างเข้าใกล้อนันต์ ( n → ∞ ) มันจะเข้าใกล้คำตอบMLE [ 18 ]ตัวประมาณค่าแบบเบย์สมีอคติ (มากน้อยแค่ไหนขึ้นอยู่กับการแจกแจงก่อนหน้า) ยอมรับได้และสอดคล้องกันในความน่าจะเป็น การใช้ตัวประมาณค่าแบบเบย์สกับการแจกแจงเบต้าสามารถใช้กับการสุ่มตัวอย่างแบบทอมป์สันได้

สำหรับกรณีพิเศษของการใช้การแจกแจงเอกรูปมาตรฐานเป็น ค่าประมาณเบื้องต้น ที่ไม่ให้ข้อมูล ตัวประมาณค่าเฉลี่ยภายหลังจะเป็นดังนี้: ( ค่าฐานนิยมภายหลังควรนำไปสู่ตัวประมาณมาตรฐาน) วิธีนี้เรียกว่ากฎแห่งการสืบทอดซึ่งริเริ่มโดยปิแอร์-ไซมอน ลาปลาซ ในศตวรรษที่ 18

เมื่ออาศัยJeffreys prior ค่า prior คือ[ 19 ] ซึ่งนำไปสู่ตัวประมาณค่า:

เมื่อประมาณค่าpด้วยเหตุการณ์ที่เกิดขึ้นน้อยมากและn ขนาดเล็ก (เช่น ถ้าx = 0 ) การใช้ตัวประมาณค่ามาตรฐานจะนำไปสู่​​ซึ่งบางครั้งอาจไม่สมจริงและไม่พึงประสงค์ ในกรณีเช่นนี้มีตัวประมาณค่าทางเลือกต่างๆ[ 20 ]วิธีหนึ่งคือการใช้ตัวประมาณค่าแบบเบย์ซึ่งนำไปสู่: อีกวิธีหนึ่งคือการใช้ขอบเขตบนของช่วงความเชื่อมั่นที่ได้จากการใช้กฎสามประการ :

ช่วงความเชื่อมั่นสำหรับพารามิเตอร์ p

แม้แต่สำหรับค่าn ที่ค่อนข้างมาก การกระจายจริงของค่าเฉลี่ยก็ยังไม่เป็นไปตามปกติอย่างมีนัยสำคัญ[ 21 ]เนื่องจากปัญหานี้ จึงมีการเสนอวิธีการประมาณช่วงความเชื่อมั่นหลายวิธี

ในสมการช่วงความเชื่อมั่นด้านล่าง ตัวแปรต่างๆ มีความหมายดังต่อไปนี้:

  • n 1คือจำนวนครั้งที่สำเร็จจากทั้งหมด nซึ่งเป็นจำนวนครั้งของการทดลองทั้งหมด
  • คือสัดส่วนของความสำเร็จ
  • คือค่าควอนไทล์ของการแจกแจงปกติมาตรฐาน (นั่นคือโพรบิต ) ที่สอดคล้องกับอัตราความผิดพลาดเป้าหมายตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ความผิดพลาดคือดังนั้นและ

วิธี Wald

อาจเพิ่ม ค่าแก้ไขความต่อเนื่อง 0.5 / n เข้าไปได้

วิธี Agresti–Coull

[ 22 ]

ในที่นี้ค่าประมาณของpจะถูกปรับเปลี่ยนเป็น

วิธีนี้ใช้ได้ผลดีสำหรับn > 10 และ n 1 0, n [ 23 ] ดูที่นี่สำหรับ[ 24 ] สำหรับ n 1 = 0, nให้ใช้วิธี Wilson (คะแนน) ด้านล่าง

วิธีอาร์คไซน์

[ 25 ]

วิธีวิลสัน (คะแนน)

สัญลักษณ์ในสูตรด้านล่างแตกต่างจากสูตรก่อนหน้าในสองประเด็น: [ 26 ]

  • ประการแรกz xมีความหมายที่แตกต่างออกไปเล็กน้อยในสูตรด้านล่าง: มันมีความหมายตามปกติคือ ' ควอนไทล์ที่ xของการแจกแจงปกติมาตรฐาน' ไม่ใช่ตัวย่อของ ' ควอนไทล์ที่ (1 − x ) '
  • ประการที่สอง สูตรนี้ไม่ได้ใช้เครื่องหมายบวก-ลบเพื่อกำหนดขอบเขตทั้งสอง แต่เราสามารถใช้เพื่อหาขอบเขตล่าง หรือใช้เพื่อหาขอบเขตบนได้ ตัวอย่างเช่น สำหรับระดับความเชื่อมั่น 95% ค่าความคลาดเคลื่อนดังนั้นเราจะได้ขอบเขตล่างโดยใช้และเราจะได้ขอบเขตบนโดยใช้

[ 27 ]

การเปรียบเทียบ

วิธี ที่เรียกว่า "แม่นยำ" ( Clopper–Pearson ) เป็นวิธีที่อนุรักษ์นิยมที่สุด[ 21 ] ( แม่นยำไม่ได้หมายความว่าถูกต้องสมบูรณ์แบบ แต่หมายความว่าค่าประมาณจะไม่ต่ำกว่าค่าที่แท้จริง)

วิธีการของวอลด์ แม้ว่าจะแนะนำกันทั่วไปในตำราเรียน แต่ก็เป็นวิธีการที่มีอคติมากที่สุด

ผลรวมของทวินาม

ถ้าX ~ B( n , p )และY ~ B( m , p )เป็นตัวแปรทวินามอิสระที่มีความน่าจะเป็นp เท่ากัน แล้วX + Yก็เป็นตัวแปรทวินามเช่นกัน การแจกแจงของมันคือZ = X + Y ~ B( n + m , p ) : [ 28 ]

ตัวแปรสุ่มที่มีการแจกแจงแบบทวินามX ~ B( n , p )สามารถพิจารณาได้ว่าเป็นผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลี จำนวน n ตัว ดังนั้น ผลรวมของตัวแปรสุ่มที่มีการแจกแจงแบบทวินามสองตัว X ~ B( n , p )และY ~ B( m , p )จึงเทียบเท่ากับผลรวมของ ตัวแปรสุ่มที่มีการแจกแจงแบบเบอร์นูลลีจำนวน n + m ตัวซึ่งหมายความว่าZ = X + Y ~ B( n + m , p )สามารถพิสูจน์ได้โดยตรงโดยใช้กฎการบวกเช่นกัน

อย่างไรก็ตาม หากXและYไม่มีโอกาสเกิดเท่ากัน คือ pความแปรปรวนของผลรวมจะน้อยกว่าความแปรปรวนของตัวแปรทวินามที่มีการแจกแจงแบบB ( n + m , p )

การแจกแจงแบบปัวซงทวินาม

การแจกแจงทวินามเป็นกรณีพิเศษของการแจกแจงทวินามปัวซงซึ่งเป็นการแจกแจงผลรวมของการทดลองเบอร์นูลีอิสระที่ไม่เหมือนกันnครั้งB( p i ) [ 29 ]

อัตราส่วนของการแจกแจงทวินามสองแบบ

ผลลัพธ์นี้ได้รับการพิสูจน์ครั้งแรกโดย Katz และผู้ร่วมเขียนในปี พ.ศ. 2521 [ 30 ]

ให้X ~ B( n , p 1 )และY ~ B( m , p 2 )เป็นอิสระต่อกัน ให้T = ( X / n ) / ( Y / m ) .

จากนั้นlog( T )จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ยlog( p 1 / p 2 )และความแปรปรวน((1/ p 1 ) − 1)/ n + ((1/ p 2 ) − 1)/ m .

ทวินามแบบมีเงื่อนไข

ถ้าX ~ B( n , p )และY | X ~ B( X , q ) (การแจกแจงแบบมีเงื่อนไขของYเมื่อกำหนด  X แล้ว ) แล้วYเป็นตัวแปรสุ่มทวินามแบบง่ายที่มีการแจกแจงY ~ B ( n , pq )

ยกตัวอย่างเช่น ลองนึกภาพว่าเราโยน ลูกบอล nลูกลงในตะกร้าUX แล้วนำลูกบอลที่ตกลงไปในตะกร้านั้นไปโยนลงในตะกร้าอีกใบYUถ้า p คือความน่าจะเป็นที่จะตกลงไปในตะกร้า UXแล้วX ~ B( n , p )คือจำนวนลูกบอลที่ตกลงไปในตะกร้าUXถ้าqคือความน่าจะเป็นที่จะตกลงไปในตะกร้า YU แล้วจำนวนลูกบอลที่ตกลงไปในตะกร้าYUคือY ~ B( X , q )และดังนั้นY ~ B( n , pq )

[การพิสูจน์]

เนื่องจากและตามกฎความน่าจะเป็นรวม เนื่องจากสมการข้างต้นสามารถแสดงได้เป็น การแยกตัวประกอบและดึงพจน์ทั้งหมดที่ไม่ขึ้นอยู่กับออกจากผลรวมจะได้ หลังจากแทน ค่าลง ในนิพจน์ข้างต้น เราจะได้ สังเกตว่าผลรวม (ในวงเล็บ) ข้างต้นเท่ากับตามทฤษฎีบททวินามการแทนค่านี้ลงใน ในที่สุดจะได้ และเป็นไปตามที่ต้องการ

การแจกแจงแบบเบอร์นูลลี

การแจกแจงเบอร์นูลลีเป็นกรณีพิเศษของการแจกแจงทวินาม โดยที่n = 1ในเชิงสัญลักษณ์X ~ B(1, p )มีความหมายเหมือนกับX ~ Bernoulli( p )ในทางกลับกัน การแจกแจงทวินามใดๆB( n , p )คือการแจกแจงของผลรวมของการทดลองเบอร์นูลลีอิสระn ครั้งBernoulli( p ) โดยแต่ละครั้งมีความน่าจะ เป็นpเท่ากัน[ 31 ]

การประมาณค่าปกติ

การประมาณ ฟังก์ชันมวลความน่าจะเป็นแบบทวินามและฟังก์ชันความหนาแน่นความน่าจะเป็น แบบปกติ สำหรับn = 6และp = 0.5

ถ้าnมีขนาดใหญ่พอ ความเบี่ยงเบนของการกระจายจะไม่มากเกินไป ในกรณีนี้ การประมาณค่าB( n , p ) ที่เหมาะสม จะได้รับจากการกระจายแบบปกติ และการประมาณค่าพื้นฐานนี้สามารถปรับปรุงได้ด้วยวิธีง่ายๆ โดยใช้การแก้ไขความต่อเนื่อง ที่เหมาะสม การประมาณค่าพื้นฐานโดยทั่วไปจะดีขึ้นเมื่อnเพิ่มขึ้น (อย่างน้อย 20) และจะดีขึ้นเมื่อpไม่ใกล้เคียงกับ 0 หรือ 1 [ 32 ]สามารถใช้กฎทั่วไปต่างๆ เพื่อตัดสินใจว่า nมีขนาดใหญ่พอหรือไม่ และpอยู่ห่างจากค่าสุดขั้วของศูนย์หรือหนึ่งมากพอหรือไม่:

  • กฎข้อหนึ่ง[ 32 ]คือสำหรับn > 5การประมาณค่าปกติถือว่าเพียงพอหากค่าสัมบูรณ์ของความเบี่ยงเบนน้อยกว่า 0.3 อย่างเคร่งครัด นั่นคือ ถ้า

สามารถระบุรายละเอียดให้ชัดเจนยิ่งขึ้นได้โดยใช้ทฤษฎีบทเบอร์รี-เอสซีน

  • กฎที่เข้มงวดกว่าระบุว่า การประมาณค่าด้วยค่าเฉลี่ยปกติจะเหมาะสมก็ต่อเมื่อทุกสิ่งที่อยู่ภายในระยะ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยอยู่ในช่วงของค่าที่เป็นไปได้ กล่าวคือ ก็ต่อเมื่อ
กฎ 3 ส่วนเบี่ยงเบนมาตรฐานนี้เทียบเท่ากับเงื่อนไขต่อไปนี้ ซึ่งหมายความถึงกฎข้อแรกข้างต้นด้วยเช่นกัน
[การพิสูจน์]

กฎนี้เทียบเท่ากับการร้องขอว่า การย้ายพจน์ไปมาจะได้ผลลัพธ์ดังนี้: เนื่องจากเราสามารถใช้เลขยกกำลังสองและหารด้วยตัวประกอบและ ตามลำดับ เพื่อให้ได้เงื่อนไขที่ต้องการ: โปรดสังเกตว่าเงื่อนไขเหล่านี้บ่งบอกโดยอัตโนมัติว่าในทางกลับกัน ให้ใช้รากที่สองอีกครั้งและหารด้วย 3 การลบชุดอสมการที่สองออกจากชุดแรกจะได้ผลลัพธ์ดังนี้: ดังนั้น กฎข้อแรกที่ต้องการจึงเป็นไปตามที่กำหนด

  • กฎที่ใช้กันทั่วไปอีกข้อหนึ่งคือค่าnpและn (1 − p ) ทั้งสองค่า ต้องมากกว่า[ 33 ] [ 34 ]หรือเท่ากับ 5 อย่างไรก็ตาม ตัวเลขที่เฉพาะเจาะจงจะแตกต่างกันไปตามแหล่งที่มา และขึ้นอยู่กับว่าต้องการการประมาณที่ดีเพียงใด โดยเฉพาะอย่างยิ่ง หากใช้ 9 แทน 5 กฎนี้จะหมายถึงผลลัพธ์ที่ระบุไว้ในย่อหน้าก่อนหน้า
[การพิสูจน์]

สมมติว่าทั้งค่าและมีค่ามากกว่า 9 เนื่องจากเราจึงได้ว่า ตอนนี้เราเพียงแค่หารด้วยตัวประกอบและตามลำดับ เพื่อหาแบบฟอร์มทางเลือกของกฎ 3 ส่วนเบี่ยงเบนมาตรฐาน:

ต่อไปนี้เป็นตัวอย่างของการประยุกต์ใช้การแก้ไขความต่อเนื่องสมมติว่าเราต้องการคำนวณPr( X ≤ 8)สำหรับตัวแปรสุ่มทวินามXถ้าYมีการแจกแจงตามการประมาณค่าแบบปกติแล้วPr( X ≤ 8)จะถูกประมาณโดยPr( Y ≤ 8.5)การเพิ่ม 0.5 คือการแก้ไขความต่อเนื่อง การประมาณค่าแบบปกติที่ไม่ได้แก้ไขจะให้ผลลัพธ์ที่แม่นยำน้อยกว่ามาก

การประมาณค่านี้ ซึ่งรู้จักกันในชื่อทฤษฎีบทเดอ มัวร์-ลาปลาซ ช่วยประหยัดเวลาได้อย่างมากเมื่อทำการคำนวณด้วยมือ (การคำนวณที่แม่นยำด้วยn ขนาดใหญ่ เป็นเรื่องที่ยุ่งยากมาก) ในทางประวัติศาสตร์ ถือเป็นการใช้การแจกแจงปกติครั้งแรก ซึ่งนำเสนอใน หนังสือ The Doctrine of Chancesของอับราฮัม เดอ มัวร์ในปี 1738 ปัจจุบัน สามารถมองได้ว่าเป็นผลสืบเนื่องมาจากทฤษฎีบทขีดจำกัดกลางเนื่องจากB( n , p )เป็นผลรวมของตัวแปรเบอร์นูลีอิสระที่มีการแจกแจงเหมือนกัน จำนวน n ตัวโดยมีพารามิเตอร์  pข้อเท็จจริงนี้เป็นพื้นฐานของการทดสอบสมมติฐาน "การทดสอบสัดส่วน z" สำหรับค่าของpโดยใช้x / nซึ่งเป็นสัดส่วนตัวอย่างและตัวประมาณค่าของpในสถิติการทดสอบทั่วไป [ 35 ]

ตัวอย่างเช่น สมมติว่าเราสุ่มเลือก คน nคนจากประชากรขนาดใหญ่ และถามพวกเขาว่าเห็นด้วยกับข้อความหนึ่งหรือไม่ สัดส่วนของคนที่เห็นด้วยย่อมขึ้นอยู่กับกลุ่มตัวอย่าง หากสุ่มเลือกกลุ่มคนnคนซ้ำๆ กันอย่างแท้จริง สัดส่วนก็จะมีการกระจายแบบปกติโดยประมาณ โดยมีค่าเฉลี่ยเท่ากับสัดส่วนที่แท้จริงpของการเห็นด้วยในประชากร และมีส่วนเบี่ยงเบนมาตรฐานเท่ากับ σ

การประมาณค่าปัวซง

การแจกแจงทวินามจะลู่เข้าสู่การแจกแจงปัวซงเมื่อจำนวนการทดลองเข้าสู่ค่าอนันต์ ในขณะที่ผลคูณnpจะลู่เข้าสู่ค่าจำกัด ดังนั้น การแจกแจงปัวซงที่มีพารามิเตอร์λ = npสามารถใช้เป็นค่าประมาณของB( n , p )ของการแจกแจงทวินามได้ หากnมีค่ามากพอและpมีค่าน้อยมากพอ ตามหลักการทั่วไป ค่าประมาณนี้จะดีหากn ≥ 20และp ≤ 0.05 [ 36 ]โดยที่np ≤ 1หรือหากn > 50และp < 0.1โดยที่np < 5 [ 37 ]หรือหากn ≥ 100และnp 10 [ 38 ] [ 39 ]

สำหรับความแม่นยำของการประมาณค่าปัวซง โปรดดู Novak [ 40 ]บทที่ 4 และเอกสารอ้างอิงในนั้น

การแจกแจงแบบจำกัด

การแจกแจงเบต้า

การแจกแจงทวินามและการแจกแจงเบตาเป็นมุมมองที่แตกต่างกันของแบบจำลองเดียวกันของการทดลองแบบเบอร์นูลลีซ้ำๆ การแจกแจงทวินามคือฟังก์ชัน ความน่าจะเป็น ของ ความสำเร็จ k ครั้ง เมื่อกำหนด เหตุการณ์อิสระ nเหตุการณ์ โดยแต่ละเหตุการณ์มีความน่าจะ เป็นของความสำเร็จ pในทางคณิตศาสตร์ เมื่อα = k + 1และβ = nk + 1การแจกแจงเบตาและการแจกแจงทวินามจะมีความสัมพันธ์กันด้วยตัวประกอบn + 1 :

การแจกแจงเบต้ายังให้ตระกูลของการแจกแจงความน่าจะเป็นก่อนหน้าสำหรับการแจกแจงทวินามในการอนุมานแบบเบย์เซียนด้วย: [ 41 ] เมื่อกำหนดความน่าจะเป็นก่อนหน้าแบบสม่ำเสมอ การแจกแจงภายหลังสำหรับความน่าจะเป็นของความสำเร็จpเมื่อกำหนดเหตุการณ์อิสระn เหตุการณ์ที่มีความสำเร็จที่สังเกตได้ k ครั้งคือการแจกแจงเบต้า[ 42 ]

วิธีการคำนวณ

การสร้างเลขสุ่ม

วิธีการสร้างตัวเลขสุ่มโดยที่การแจกแจงแบบมาร์จินัลเป็นการแจกแจงแบบทวินามนั้นเป็นที่ยอมรับกันดี[ 43 ] [ 44 ] วิธีหนึ่งในการสร้าง ตัวอย่าง ตัวแปรสุ่มจากการแจกแจงแบบทวินามคือการใช้อัลกอริธึมผกผัน ในการทำเช่นนั้น จะต้องคำนวณความน่าจะเป็นที่Pr( X = k ) สำหรับค่า kทั้งหมดตั้งแต่0ถึงn (ผลรวมของความน่าจะเป็นเหล่านี้ควรมีค่าใกล้เคียงกับหนึ่ง เพื่อให้ครอบคลุมพื้นที่ตัวอย่างทั้งหมด) จากนั้นโดยใช้ตัวสร้างตัวเลขสุ่มเทียมเพื่อสร้างตัวอย่างอย่างสม่ำเสมอระหว่าง 0 และ 1 เราสามารถแปลงตัวอย่างที่คำนวณได้เป็นตัวเลขแบบไม่ต่อเนื่องโดยใช้ความน่าจะเป็นที่คำนวณได้ในขั้นตอนแรก

ประวัติศาสตร์

การแจกแจงนี้ได้มาจากJacob Bernoulliเขาพิจารณากรณีที่p = r /( r + s )โดยที่pคือความน่าจะเป็นของความสำเร็จ และrและsเป็นจำนวนเต็มบวกBlaise Pascalเคยพิจารณากรณีที่p = 1/2 มาก่อน โดย จัดทำตารางสัมประสิทธิ์ทวินามที่สอดคล้องกันในสิ่งที่ปัจจุบันรู้จักกันในชื่อสามเหลี่ยมของ Pascal [ 45 ]

ดูเพิ่มเติม

หมายเหตุ

อ่านเพิ่มเติม

  • Hirsch, Werner Z. (1957). "การแจกแจงแบบทวินาม—ความสำเร็จหรือความล้มเหลว มีโอกาสมากน้อยเพียงใด?" . บทนำสู่สถิติสมัยใหม่ . นิวยอร์ก: MacMillan. หน้า  140–153 .
  • เนเทอร์, จอห์น; วาสเซอร์แมน, วิลเลียม; วิตมอร์, จอร์เจีย (1988) สถิติประยุกต์ (ฉบับที่สาม). บอสตัน: อัลลินและเบคอน หน้า  185– 192. ไอเอสบีเอ็น 0-205-10328-6.
  • กราฟิกเชิงโต้ตอบ: ความสัมพันธ์ของการแจกแจงแบบตัวแปรเดียว
  • ผลต่างของตัวแปรทวิภาคสองตัว: XYหรือ|XY|
  • การสอบถามการแจกแจงความน่าจะเป็นแบบทวินามใน WolframAlpha
  • ช่วงความเชื่อมั่น (ช่วงความน่าเชื่อถือ) สำหรับความน่าจะเป็นแบบทวินาม p: สามารถใช้ เครื่องคำนวณออนไลน์ได้ที่causaScientia.org
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Binomial_distribution&oldid=1359203125 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การแจกแจงทวินาม

ในทฤษฎีความน่าจะเป็นและสถิติการแจกแจงทวินามที่มีพารามิเตอร์nและpคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องของจำนวนความสำเร็จในลำดับของการทดลองอิสระn ครั้ง...

ฟังก์ชันมวลความน่าจะเป็น

ถ้า ตัวแปรสุ่ม X เป็นไปตามการแจกแจงแบบทวินามที่มีพารามิเตอร์( จำนวนธรรมชาติ ) และ p ∈ [0, 1] เราจะเขียน X ~ B( n , p ) ความน่าจะเป็นที่จะได้ ผลลัพธ์ที่สำเร็จ k ครั้งพอดี ใน การทดลองแบบเบอร์นูลลีอิสระ n ครั้ง (ด้วยอัตรา p เท่ากัน ) จะกำหนดโดย...

ตัวอย่าง

สมมติว่า เหรียญเอียง ออกหัวด้วยความน่าจะเป็น 0.3 เมื่อโยน ความน่าจะเป็นที่จะได้หัว 4 ครั้งพอดีในการโยน 6 ครั้งคือ f ( 4 , 6 , 0.3 ) = ( 6 4 ) 0.3 4 ( 1 − 0.3 ) 6 − 4 = 0.059535. {\displaystyle f(4,6,0.3)={\binom {6}{4}}0.3^{4}(1-0.3)^{6-4}=0.059535.}

ฟังก์ชันการกระจายสะสม

ฟังก์ชัน การกระจายสะสม สามารถแสดงได้ดังนี้: โดย ที่คือ "ค่าต่ำสุด" ภายใต้ k นั่นคือ จำนวนเต็มที่มากที่สุด ที่น้อยกว่าหรือเท่ากับ k F ( k ; n , p ) = Pr ( X ≤ k ) = ∑ i = 0 ⌊ k ⌋ ( n i ) p i ( 1 − p ) n − i , {\displaystyle F(k;n,p)=\Pr(X\leq k)=\sum...