กลับไปหน้าบทความ

อ่าน 4 นาที

การสุ่มตัวอย่างแบบแบ่งชั้น

ในทางสถิติการสุ่มตัวอย่างแบบแบ่งชั้นคือวิธีการสุ่มตัวอย่างจากประชากรที่สามารถแบ่งออกเป็นประชากรย่อยได้

การสุ่มตัวอย่างแบบแบ่งชั้น

ในทางสถิติการสุ่มตัวอย่างแบบแบ่งชั้นคือวิธีการสุ่มตัวอย่างจากประชากรที่สามารถแบ่งออกเป็นประชากรย่อยได้

ตัวอย่างการสุ่มตัวอย่างแบบแบ่งชั้น

ในการสำรวจทางสถิติ เมื่อกลุ่มย่อยภายในประชากรโดยรวมมีความแตกต่างกัน การสุ่มตัวอย่างแต่ละกลุ่มย่อย ( ชั้น ) อย่างอิสระ อาจเป็นประโยชน์

การแบ่งชั้นประชากรคือกระบวนการแบ่งสมาชิกของประชากรออกเป็นกลุ่มย่อยที่เหมือนกันก่อนการสุ่มตัวอย่าง ชั้นประชากรควรเป็นการแบ่งส่วนของประชากร กล่าวคือ ควรครอบคลุมทั้งหมดและไม่ซ้ำซ้อนกันกล่าวคือ ทุกองค์ประกอบในประชากรจะต้องถูกกำหนดให้อยู่ในชั้นประชากรเพียงชั้นเดียวเท่านั้น จากนั้นจึงทำการสุ่มตัวอย่างในแต่ละชั้นประชากร เช่นการสุ่มตัวอย่างแบบสุ่มอย่างง่ายจุดประสงค์คือเพื่อเพิ่มความแม่นยำของตัวอย่างโดยการลดข้อผิดพลาดในการสุ่มตัวอย่างซึ่งสามารถสร้างค่าเฉลี่ยถ่วงน้ำหนักที่มีความแปรปรวนน้อยกว่าค่าเฉลี่ยเลขคณิตของตัวอย่างสุ่มอย่างง่ายจากประชากรได้

ในสถิติเชิงคำนวณ การสุ่มตัวอย่างแบบแบ่งชั้นเป็นวิธีการลดความแปรปรวนเมื่อใช้วิธีการมอนเตคาร์โล เพื่อประมาณสถิติประชากรจากประชากรที่ทราบ [ 1 ]

กลยุทธ์

  1. การจัดสรรตามสัดส่วนใช้สัดส่วนการสุ่มตัวอย่างในแต่ละชั้นที่สัมพันธ์กับสัดส่วนของประชากรทั้งหมด ตัวอย่างเช่น หากประชากรประกอบด้วยบุคคลทั้งหมดn คน โดยเป็นเพศชาย mคน และ เพศหญิง fคน (โดยที่m + f = n ) ขนาดสัมพัทธ์ของกลุ่มตัวอย่างทั้งสอง ( x1 = m / nเพศชาย, x2 = f / n เพศ หญิง) ควรสะท้อน สัดส่วนนี้
  2. การจัดสรรที่เหมาะสมที่สุด (หรือการจัดสรรที่ไม่เป็นสัดส่วน ) – สัดส่วนการสุ่มตัวอย่างของแต่ละชั้นจะแปรผันตามทั้งสัดส่วน (ดังที่กล่าวมาข้างต้น) และค่าเบี่ยงเบนมาตรฐานของการกระจายตัวของตัวแปร จะสุ่มตัวอย่างขนาดใหญ่ในชั้นที่มีความแปรปรวนมากที่สุด เพื่อให้ได้ความแปรปรวนของการสุ่มตัวอย่างโดยรวมน้อยที่สุดการจัดสรรแบบเนย์แมนเป็นกลยุทธ์ประเภทนี้

ตัวอย่างในโลกแห่งความเป็นจริงของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นคือการสำรวจ ทางการเมือง หากผู้ตอบแบบสอบถามจำเป็นต้องสะท้อนความหลากหลายของประชากร นักวิจัยจะพยายามรวมผู้เข้าร่วมจากกลุ่มชนกลุ่มน้อยต่างๆ เช่น เชื้อชาติหรือศาสนา โดยพิจารณาจากสัดส่วนของพวกเขาต่อประชากรทั้งหมดดังที่กล่าวไว้ข้างต้น การสำรวจแบบแบ่งชั้นจึงอาจกล่าวได้ว่ามีความเป็นตัวแทนของประชากรมากกว่าการสำรวจแบบสุ่มอย่างง่ายหรือการสุ่มตัวอย่างแบบเป็นระบบทั้งค่าเฉลี่ยและความแปรปรวนสามารถแก้ไขได้สำหรับต้นทุนการสุ่มตัวอย่างที่ไม่สมดุลโดยใช้ขนาดตัวอย่างแบบแบ่งชั้น

ตัวอย่าง

สมมติว่าเราต้องการประมาณค่าเฉลี่ยจำนวนคะแนนเสียงของแต่ละผู้สมัครในการเลือกตั้ง สมมติว่าประเทศหนึ่งมี 3 เมือง ได้แก่ เมือง A มีคนงานโรงงาน 1 ล้านคน เมือง B มีพนักงานออฟฟิศ 2 ล้านคน และเมือง C มีผู้เกษียณอายุ 3 ล้านคน เราอาจเลือกสุ่มตัวอย่างขนาด 60 จากประชากรทั้งหมด แต่มีโอกาสที่ตัวอย่างสุ่มที่ได้จะไม่สมดุลกันในแต่ละเมือง และทำให้เกิดความลำเอียง ส่งผลให้เกิดข้อผิดพลาดในการประมาณค่าอย่างมีนัยสำคัญ (เมื่อผลลัพธ์ที่สนใจมีการกระจายตัวที่แตกต่างกันในแง่ของพารามิเตอร์ที่สนใจระหว่างเมืองต่างๆ) ในทางกลับกัน หากเราเลือกสุ่มตัวอย่าง 10, 20 และ 30 จากเมือง A, B และ C ตามลำดับ เราจะสามารถสร้างข้อผิดพลาดในการประมาณค่าที่น้อยลงสำหรับขนาดตัวอย่างรวมที่เท่ากัน วิธีนี้โดยทั่วไปใช้เมื่อประชากรไม่ใช่กลุ่มที่เป็นเนื้อเดียวกัน

ข้อดี

เหตุผลในการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มธรรมดาได้แก่[ 2 ]

  1. หากค่าเบี่ยงเบนมาตรฐานของการวัดภายในกลุ่มย่อยต่ำกว่า (เมื่อเทียบกับค่าเบี่ยงเบนมาตรฐานโดยรวมของประชากร) การแบ่งกลุ่มย่อยจะทำให้ความคลาดเคลื่อนในการประมาณค่าลดลง
  2. สำหรับการใช้งานหลายๆ อย่าง การวัดผลจะทำได้ง่ายขึ้นและ/หรือมีต้นทุนถูกลง เมื่อประชากรถูกจัดกลุ่มเป็นชั้นๆ
  3. เมื่อต้องการประมาณค่าพารามิเตอร์ ของประชากร สำหรับกลุ่มย่อยภายในประชากร การสุ่มตัวอย่างแบบแบ่งชั้นจะช่วยตรวจสอบว่าเรามีตัวอย่างน้อยเพียงพอจากชั้นที่ต้องการหรือไม่

หากความหนาแน่นของประชากรแตกต่างกันอย่างมากภายในภูมิภาค การสุ่มตัวอย่างแบบแบ่งชั้นจะช่วยให้มั่นใจได้ว่าการประมาณค่าจะทำได้อย่างแม่นยำเท่ากันในส่วนต่างๆ ของภูมิภาค และการเปรียบเทียบระหว่างภูมิภาคย่อยต่างๆ จะทำได้ด้วยพลังทางสถิติ ที่เท่าเทียมกัน ตัวอย่างเช่น ในรัฐออนแทรีโอการสำรวจที่ดำเนินการทั่วทั้งรัฐอาจใช้สัดส่วนการสุ่มตัวอย่างที่มากกว่าในภาคเหนือที่มีประชากรน้อยกว่า เนื่องจากความแตกต่างของประชากรระหว่างภาคเหนือและภาคใต้มีมากจนสัดส่วนการสุ่มตัวอย่างที่อิงจากตัวอย่างทั้งรัฐอาจส่งผลให้มีการเก็บรวบรวมข้อมูลจากภาคเหนือเพียงเล็กน้อยเท่านั้น

ข้อเสีย

การกำหนดขนาดตัวอย่างของกลุ่มย่อยให้เป็นสัดส่วนกับปริมาณข้อมูลที่มีอยู่ในกลุ่มย่อยเหล่านั้น แทนที่จะปรับขนาดตัวอย่างให้เข้ากับขนาดของกลุ่มย่อย (หรือค่าความแปรปรวน หากทราบว่ามีความแตกต่างกันอย่างมีนัยสำคัญ เช่น การใช้การทดสอบ F ) ถือเป็นการประยุกต์ใช้เทคนิคที่ไม่ถูกต้อง ข้อมูลที่แสดงถึงแต่ละกลุ่มย่อยจะถือว่ามีความสำคัญเท่ากัน หากสงสัยว่ามีความแปรปรวนระหว่างกลุ่มย่อยเหล่านั้น ซึ่งจำเป็นต้องใช้การสุ่มตัวอย่างแบบแบ่งชั้น หากค่าความแปรปรวนของกลุ่มย่อยแตกต่างกันอย่างมีนัยสำคัญ และจำเป็นต้องแบ่งชั้นข้อมูลตามค่าความแปรปรวน จะไม่สามารถกำหนดขนาดตัวอย่างของแต่ละกลุ่มย่อยให้เป็นสัดส่วนกับขนาดของกลุ่มย่อยภายในประชากรทั้งหมดได้พร้อมกัน สำหรับวิธีการที่มีประสิทธิภาพในการแบ่งทรัพยากรการสุ่มตัวอย่างระหว่างกลุ่มต่างๆ ที่มีค่าเฉลี่ย ค่าความแปรปรวน และต้นทุนแตกต่างกัน โปรดดูที่"การจัดสรรที่เหมาะสมที่สุด"ปัญหาของการสุ่มตัวอย่างแบบแบ่งชั้นในกรณีที่ไม่ทราบค่าความน่าจะเป็นล่วงหน้าของคลาส (อัตราส่วนของประชากรย่อยในประชากรทั้งหมด) อาจส่งผลเสียต่อประสิทธิภาพของการวิเคราะห์ใดๆ บนชุดข้อมูล เช่น การจำแนกประเภท[ 3 ]ในส่วนนั้นอัตราส่วนการสุ่มตัวอย่างแบบมินิแม็กซ์สามารถใช้เพื่อทำให้ชุดข้อมูลมีความแข็งแกร่งต่อความไม่แน่นอนในกระบวนการสร้างข้อมูลพื้นฐาน[ 3 ]

การรวมกลุ่มย่อยเพื่อให้ได้จำนวนที่เพียงพออาจนำไปสู่ปรากฏการณ์ซิมป์สัน (Simpson's paradox ) ซึ่งแนวโน้มที่ปรากฏในกลุ่มข้อมูลต่างๆ จะหายไปหรือแม้กระทั่งกลับทิศทางเมื่อรวมกลุ่มเหล่านั้นเข้าด้วยกัน

ค่าเฉลี่ยและค่าความคลาดเคลื่อนมาตรฐาน

ค่าเฉลี่ยและความแปรปรวนของการสุ่มตัวอย่างแบบแบ่งชั้นกำหนดโดย: [ 2 ]

ที่ไหน

จำนวนชั้น
ผลรวมของขนาดชั้นทั้งหมด
ขนาดของชั้น
ค่าเฉลี่ยตัวอย่างของชั้น
จำนวนการสังเกตในชั้น
ค่าเบี่ยงเบนมาตรฐานตัวอย่างของชั้น

โปรดทราบว่าเทอมซึ่งเท่ากับเป็นการแก้ไขสำหรับประชากรจำกัดและต้องแสดงในหน่วย "หน่วยตัวอย่าง" การละเว้นการแก้ไขสำหรับประชากรจำกัดจะให้ผลลัพธ์ดังนี้:

โดยที่คือค่าน้ำหนักประชากรของชั้นข้อมูล

การจัดสรรขนาดตัวอย่าง

สำหรับกลยุทธ์การจัดสรรตามสัดส่วน ขนาดของตัวอย่างในแต่ละชั้นจะถูกกำหนดตามสัดส่วนของขนาดของชั้นนั้น สมมติว่าในบริษัทมีพนักงานดังต่อไปนี้: [ 4 ]

  • ชาย, ทำงานเต็มเวลา: 90
  • ชาย, ทำงานพาร์ทไทม์: 18 ปี
  • หญิง, ทำงานเต็มเวลา: 9
  • หญิง, ทำงานพาร์ทไทม์: 63
  • รวม: 180

และเราได้รับคำขอให้สุ่มตัวอย่างพนักงาน 40 คน โดยแบ่งตามหมวดหมู่ข้างต้น

ขั้นตอนแรกคือการคำนวณเปอร์เซ็นต์ของแต่ละกลุ่มจากทั้งหมด

  • ร้อยละของผู้ชายที่ทำงานเต็มเวลา = 90 ÷ 180 = 50%
  • ร้อยละของผู้ชายที่ทำงานพาร์ทไทม์ = 18 ÷ 180 = 10%
  • ร้อยละของผู้หญิงที่ทำงานเต็มเวลา = 9 ÷ 180 = 5%
  • ร้อยละของผู้หญิงที่ทำงานพาร์ทไทม์ = 63 ÷ 180 = 35%

ข้อมูลนี้แสดงให้เห็นว่าจากกลุ่มตัวอย่างของเราจำนวน 40 คน

  • 50% (20 คน) ควรเป็นผู้ชาย และทำงานเต็มเวลา
  • 10% (4 คน) ควรเป็นผู้ชาย ทำงานพาร์ทไทม์
  • 5% (2 คน) ควรเป็นเพศหญิง ทำงานเต็มเวลา
  • 35% (14 คน) ควรเป็นเพศหญิง ทำงานพาร์ทไทม์

อีกวิธีที่ง่ายกว่าโดยไม่ต้องคำนวณเปอร์เซ็นต์คือ การคูณขนาดของแต่ละกลุ่มด้วยขนาดของกลุ่มตัวอย่าง แล้วหารด้วยขนาดประชากรทั้งหมด (ขนาดของพนักงานทั้งหมด):

  • ชาย, ทำงานเต็มเวลา = 90 × (40 ÷ 180) = 20
  • ชาย, ทำงานพาร์ทไทม์ = 18 × (40 ÷ 180) = 4
  • หญิง, ทำงานเต็มเวลา = 9 × (40 ÷ 180) = 2
  • หญิง, ทำงานพาร์ทไทม์ = 63 × (40 ÷ 180) = 14

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Särndal, Carl-Erik และคณะ (2003). "การสุ่มตัวอย่างแบบแบ่งชั้น" การสุ่มตัวอย่างแบบสำรวจโดยใช้แบบจำลองช่วยนิวยอร์ก: Springer หน้า  100–109 ISBN 0-387-40620-4.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Stratified_sampling&oldid=1303141865 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การสุ่มตัวอย่างแบบแบ่งชั้น

ในทางสถิติการสุ่มตัวอย่างแบบแบ่งชั้นคือวิธีการสุ่มตัวอย่างจากประชากรที่สามารถแบ่งออกเป็นประชากรย่อยได้

กลยุทธ์

ตัวอย่างในโลกแห่งความเป็นจริงของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นคือ การสำรวจ ทางการเมือง หากผู้ตอบแบบสอบถามจำเป็นต้องสะท้อนความหลากหลายของประชากร นักวิจัยจะพยายามรวมผู้เข้าร่วมจากกลุ่มชนกลุ่มน้อยต่างๆ เช่น เชื้อชาติหรือศาสนา...

ตัวอย่าง

สมมติว่าเราต้องการประมาณค่าเฉลี่ยจำนวนคะแนนเสียงของแต่ละผู้สมัครในการเลือกตั้ง สมมติว่าประเทศหนึ่งมี 3 เมือง ได้แก่ เมือง A มีคนงานโรงงาน 1 ล้านคน เมือง B มีพนักงานออฟฟิศ 2 ล้านคน และเมือง C มีผู้เกษียณอายุ 3 ล้านคน เราอาจเลือกสุ่มตัวอย่างขนาด 60...

ข้อดี

เหตุผลในการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทน การสุ่มตัวอย่างแบบสุ่มธรรมดา ได้แก่ [ 2 ]