กลับไปหน้าบทความ

อ่าน 2 นาที

การกระจายตัวเกิน

ใน ทางสถิติ ภาวะ ความ แปรปรวน เกิน (overdispersion) หมายถึง การที่ชุดข้อมูล มีความแปรปรวน ( การกระจายทางสถิติ ) มากกว่าที่คาดการณ์ไว้ตาม แบบจำลองทางสถิติ ที่กำหนด ไว้

การกระจายตัวเกิน

ในทางสถิติ ภาวะความแปรปรวนเกิน (overdispersion) หมายถึง การที่ชุดข้อมูล มีความแปรปรวน ( การกระจายทางสถิติ ) มากกว่าที่คาดการณ์ไว้ตาม แบบจำลองทางสถิติ ที่กำหนด ไว้

งานทั่วไปในสถิติ ประยุกต์ คือการเลือกแบบจำลองพาราเมตริกเพื่อให้เข้ากับชุดข้อมูลเชิงประจักษ์ที่กำหนด ซึ่งจำเป็นต้องมีการประเมินความเหมาะสมของแบบจำลองที่เลือก โดยปกติแล้วสามารถเลือกพารามิเตอร์ของแบบจำลองได้ในลักษณะที่ค่าเฉลี่ยประชากร เชิงทฤษฎี ของแบบจำลองนั้นใกล้เคียงกับค่าเฉลี่ยของตัวอย่างอย่างไรก็ตาม โดยเฉพาะอย่างยิ่งสำหรับแบบจำลองง่ายๆ ที่มีพารามิเตอร์น้อย การทำนายเชิงทฤษฎีอาจไม่ตรงกับข้อมูลเชิงประจักษ์สำหรับค่าโมเมนต์ ที่สูงกว่า เมื่อความแปรปรวน ที่สังเกตได้ สูงกว่าความแปรปรวนของแบบจำลองเชิงทฤษฎี แสดง ว่า เกิด ภาวะ ความแปรปรวนเกิน (overdispersion ) ในทางกลับกัน ภาวะความแปรปรวนต่ำกว่า (underdispersion)หมายความว่ามีความแปรปรวนในข้อมูลน้อยกว่าที่ทำนายไว้ ภาวะความแปรปรวนเกินเป็นลักษณะที่พบได้บ่อยมากในการวิเคราะห์ข้อมูลประยุกต์ เนื่องจากในทางปฏิบัติ ประชากรมักมีความไม่สม่ำเสมอ (ไม่เป็นเอกรูป) ซึ่งขัดแย้งกับสมมติฐานที่แฝงอยู่ในแบบจำลองพาราเมตริกง่ายๆ ที่ใช้กันอย่างแพร่หลาย

ตัวอย่าง

ปัวซง

การกระจายตัวเกิน (Overdispersion) มักพบได้บ่อยเมื่อทำการปรับแบบจำลองพาราเมตริกที่ง่ายมาก เช่น แบบจำลองที่อิงตามการแจกแจงปัวซง (Poisson distribution ) การแจกแจงปัวซงมีพารามิเตอร์อิสระเพียงตัวเดียว และไม่อนุญาตให้ปรับค่าความแปรปรวนโดยอิสระจากค่าเฉลี่ย การเลือกใช้การแจกแจงจากตระกูลปัวซงมักขึ้นอยู่กับลักษณะของข้อมูลเชิงประจักษ์ ตัวอย่างเช่น การวิเคราะห์ การถดถอยปัวซง (Poisson regression analysis) มักใช้ในการสร้างแบบจำลองข้อมูลการนับหากการกระจายตัวเกินเป็นลักษณะเด่น แบบจำลองทางเลือกที่มีพารามิเตอร์อิสระเพิ่มเติมอาจให้ความเหมาะสมที่ดีกว่า ในกรณีของข้อมูลการนับ อาจเสนอ แบบจำลองผสม ปัวซง (Poisson mixture model) เช่นการแจกแจงทวินามเชิงลบ (negative binomial distribution)แทน ซึ่งค่าเฉลี่ยของการแจกแจงปัวซงนั้นสามารถคิดได้ว่าเป็นตัวแปรสุ่มที่ดึงมาจาก – ในกรณีนี้ – การแจกแจงแกมมา (gamma distribution)ซึ่งเป็นการแนะนำพารามิเตอร์อิสระเพิ่มเติม (โปรดทราบว่าการแจกแจงทวินามเชิงลบที่ได้นั้นมีลักษณะเฉพาะโดยพารามิเตอร์สองตัวอย่างสมบูรณ์)

ทวินาม

ตัวอย่างที่ชัดเจนยิ่งขึ้นคือ พบว่าจำนวนเด็กชายที่เกิดในครอบครัวไม่ได้สอดคล้องกับการแจกแจงแบบทวินามอย่างที่คาดไว้[ 1 ]แต่สัดส่วนเพศของครอบครัวดูเหมือนจะเอนเอียงไปทางเด็กชายหรือเด็กหญิง (ดูตัวอย่างเช่นสมมติฐาน Trivers–Willardสำหรับคำอธิบายที่เป็นไปได้ประการหนึ่ง) กล่าวคือ มีครอบครัวที่มีแต่เด็กชายมากกว่า ครอบครัวที่มีแต่เด็กหญิงมากกว่า และมีครอบครัวที่ใกล้เคียงกับค่าเฉลี่ยสัดส่วนเด็กชายต่อเด็กหญิง 51:49 ของประชากรน้อยกว่าที่คาดไว้จากการแจกแจงแบบทวินาม และความแปรปรวนเชิงประจักษ์ที่ได้นั้นมีขนาดใหญ่กว่าที่ระบุไว้ในแบบจำลองทวินาม

ในกรณีนี้ การแจกแจง แบบเบตา-ไบโนเมียลเป็นแบบจำลองทางเลือกที่ได้รับความนิยมและสามารถวิเคราะห์ได้ง่ายกว่าการแจกแจงแบบไบโนเมียล เนื่องจากให้ความเหมาะสมกับข้อมูลที่สังเกตได้ดีกว่า[ 2 ]เพื่อจับความแตกต่างของครอบครัว เราสามารถคิดว่าพารามิเตอร์ความน่าจะเป็นของแบบจำลองไบโนเมียล (เช่น ความน่าจะเป็นที่จะเป็นเด็กผู้ชาย) เป็นตัวแปรสุ่ม (เช่นแบบจำลองผลกระทบแบบสุ่ม ) ที่ดึงมาจากแต่ละครอบครัวจากการแจกแจงแบบเบตาเป็นการแจกแจงแบบผสมการแจกแจงแบบผสม ที่ได้ (เบตา-ไบโนเมียล) มีพารามิเตอร์อิสระเพิ่มเติม

อีกหนึ่งแบบจำลองที่ใช้กันทั่วไปสำหรับภาวะความแปรปรวนเกิน (overdispersion) ซึ่งเกิดขึ้นเมื่อข้อมูลบางส่วนไม่ได้ มีการแจกแจงแบบเบอร์ นูลลี (Bernoulli ) คือการนำตัวแปรสุ่มแบบปกติ มาใช้ ในแบบจำลองโลจิสติก (Logistic model) มีซอฟต์แวร์มากมายที่สามารถใช้ในการปรับ แบบจำลองหลายระดับประเภทนี้ได้ในกรณีนี้ หากความแปรปรวนของตัวแปรปกติเป็นศูนย์ แบบจำลองจะลดลงเหลือเพียงการถดถอยโลจิ สติกแบบมาตรฐาน (ที่ไม่เกิดความแปรปรวน) แบบจำลองนี้มีพารามิเตอร์อิสระเพิ่มเติมอีกหนึ่งตัว คือ ความแปรปรวนของตัวแปรปกติ

สำหรับตัวแปรสุ่มแบบทวินาม แนวคิดเรื่องการกระจายตัวเกิน (overdispersion) จะมีความหมายก็ต่อเมื่อ n>1 เท่านั้น (กล่าวคือ การกระจายตัวเกินไม่มีความหมายสำหรับตัวแปรสุ่มแบบเบอร์นูลลี)

การกระจายแบบปกติ

เนื่องจากการแจกแจงแบบปกติ (เกาส์เซียน) มีค่าความแปรปรวนเป็นพารามิเตอร์ ดังนั้นข้อมูลใดๆ ที่มีค่าความแปรปรวนจำกัด (รวมถึงข้อมูลที่มีค่าจำกัด) สามารถจำลองได้ด้วยการแจกแจงแบบปกติที่มีค่าความแปรปรวนที่แน่นอน – การแจกแจงแบบปกติเป็นแบบจำลองสองพารามิเตอร์ คือ ค่าเฉลี่ยและค่าความแปรปรวน ดังนั้น ในกรณีที่ไม่มีแบบจำลองพื้นฐาน จึงไม่มีแนวคิดว่าข้อมูลมีการกระจายตัวมากเกินไปเมื่อเทียบกับแบบจำลองปกติ แม้ว่าความเหมาะสมอาจไม่ดีในด้านอื่นๆ (เช่น โมเมนต์ที่สูงกว่าของความเบี่ยงเบนความโค้งฯลฯ) อย่างไรก็ตาม ในกรณีที่ข้อมูลถูกจำลองโดยการแจกแจงแบบปกติที่มีความแปรปรวนที่คาดหวัง ข้อมูลอาจมีการกระจายตัวมากเกินไปหรือน้อยเกินไปเมื่อเทียบกับการคาดการณ์นั้น

ตัวอย่างเช่น ในการสำรวจทางสถิติค่าความคลาดเคลื่อนมาตรฐาน (กำหนดโดยขนาดของกลุ่มตัวอย่าง) จะทำนายความคลาดเคลื่อนในการสุ่มตัวอย่างและด้วยเหตุนี้จึงทำนายการกระจายตัวของผลลัพธ์ในการสำรวจซ้ำ หากทำการวิเคราะห์เชิงเมตาของการสำรวจซ้ำในประชากรคงที่ (เช่น ด้วยขนาดกลุ่มตัวอย่างที่กำหนด ดังนั้นค่าความคลาดเคลื่อนมาตรฐานจึงเท่ากัน) คาดว่าผลลัพธ์จะกระจายตัวแบบปกติ โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับค่าความคลาดเคลื่อนมาตรฐาน อย่างไรก็ตาม ในกรณีที่มีความแตกต่างกันระหว่างการศึกษาซึ่งการศึกษาแต่ละแห่งมีอคติในการสุ่มตัวอย่าง ที่แตกต่างกัน การกระจายตัวจะเป็นการกระจายตัวแบบผสมและจะมีการกระจายตัวเกินกว่าที่คาดการณ์ไว้ ตัวอย่างเช่น หากมีการสำรวจความคิดเห็น ซ้ำหลายครั้ง โดยแต่ละครั้งมีค่าความคลาดเคลื่อนมาตรฐาน 3% แต่ดำเนินการโดยองค์กรสำรวจที่แตกต่างกัน คาดว่าผลลัพธ์จะมีค่าเบี่ยงเบนมาตรฐานมากกว่า 3% เนื่องจากอคติของผู้สำรวจจากวิธีการที่แตกต่างกัน

ความแตกต่างในด้านคำศัพท์ระหว่างสาขาวิชาต่างๆ

คำว่า "การกระจายตัวเกิน" และ "การกระจายตัวต่ำกว่า" เป็นคำที่ถูกนำมาใช้ในสาขาวิทยาศาสตร์ชีวภาพในด้านปรสิตวิทยาคำว่า "การกระจายตัวเกิน" โดยทั่วไปจะใช้ตามความหมายที่กำหนดไว้ในที่นี้ ซึ่งหมายถึงการกระจายตัวที่มีความแปรปรวนสูงกว่าที่คาดไว้

อย่างไรก็ตาม ในบางสาขาของนิเวศวิทยาความหมายได้ถูกสลับกัน ทำให้คำว่า "การกระจายตัวเกิน" ถูกนำมาใช้ในความหมายที่สม่ำเสมอกว่า (ความแปรปรวนต่ำกว่า) ที่คาดไว้ ความสับสนนี้ทำให้ผู้เชี่ยวชาญด้านนิเวศวิทยาบางคนเสนอแนะว่าควรใช้คำว่า "รวมกลุ่ม" หรือ "แพร่กระจาย" ในนิเวศวิทยาแทนคำว่า "กระจายตัวเกิน" [ 3 ]ความชอบเช่นนี้กำลังแพร่หลายเข้าสู่สาขาปรสิตวิทยาด้วย[ 4 ​​]โดยทั่วไปแล้วข้อเสนอแนะนี้ไม่ได้รับการนำไปปฏิบัติ และความสับสนยังคงมีอยู่ในเอกสารทางวิชาการ

นอกจากนี้ ในด้านประชากรศาสตร์การกระจายตัวที่มากเกินไปมักปรากฏให้เห็นในการวิเคราะห์ข้อมูลจำนวนผู้เสียชีวิต แต่ผู้เชี่ยวชาญด้านประชากรศาสตร์นิยมใช้คำว่า ' ความแตกต่างที่ไม่สามารถสังเกตได้ ' แทน

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Overdispersion&oldid=1301159771 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การกระจายตัวเกิน

ใน ทางสถิติ ภาวะ ความ แปรปรวน เกิน (overdispersion) หมายถึง การที่ชุดข้อมูล มีความแปรปรวน ( การกระจายทางสถิติ ) มากกว่าที่คาดการณ์ไว้ตาม แบบจำลองทางสถิติ ที่กำหนด ไว้

ปัวซง

การกระจายตัวเกิน (Overdispersion) มักพบได้บ่อยเมื่อทำการปรับแบบจำลองพาราเมตริกที่ง่ายมาก เช่น แบบจำลองที่อิงตาม การแจกแจงปัวซง (Poisson distribution ) การแจกแจงปัวซงมีพารามิเตอร์อิสระเพียงตัวเดียว และไม่อนุญาตให้ปรับค่าความแปรปรวนโดยอิสระจากค่าเฉลี่ย...

ทวินาม

ตัวอย่างที่ชัดเจนยิ่งขึ้นคือ พบว่าจำนวนเด็กชายที่เกิดในครอบครัวไม่ได้สอดคล้องกับ การแจกแจงแบบทวินาม อย่างที่คาดไว้ [ 1 ] แต่สัดส่วนเพศของครอบครัวดูเหมือนจะเอนเอียงไปทางเด็กชายหรือเด็กหญิง (ดูตัวอย่างเช่น สมมติฐาน Trivers–Willard...

การกระจายแบบปกติ

เนื่องจากการ แจกแจงแบบปกติ (เกาส์เซียน) มีค่าความแปรปรวนเป็นพารามิเตอร์ ดังนั้นข้อมูลใดๆ ที่มีค่าความแปรปรวนจำกัด (รวมถึงข้อมูลที่มีค่าจำกัด) สามารถจำลองได้ด้วยการแจกแจงแบบปกติที่มีค่าความแปรปรวนที่แน่นอน – การแจกแจงแบบปกติเป็นแบบจำลองสองพารามิเตอร์ คือ...