กลับไปหน้าบทความ

อ่าน 36 นาที

ความแปรปรวน

ในทฤษฎีความน่าจะเป็นและสถิติความแปรปรวนเป็นการวัดการกระจายตัวหมายความว่าเป็นการวัดว่าชุดตัวเลขกระจายตัวออกไปจากค่าเฉลี่ยมากน้อยเพียงใด

ความแปรปรวน

ตัวอย่างของกลุ่มตัวอย่างจากสองประชากรที่มีค่าเฉลี่ยเท่ากันแต่ค่าความแปรปรวนต่างกัน ประชากรสีแดงมีค่าเฉลี่ยμ = 100และค่าความแปรปรวนσ² = 100 ( σ = 10 ) ในขณะที่ประชากรสีน้ำเงินมีค่าเฉลี่ยμ = 100และค่าความแปรปรวนσ² = 2500 ( σ = 50 )

ในทฤษฎีความน่าจะเป็นและสถิติความแปรปรวนเป็นการวัดการกระจายตัวหมายความว่าเป็นการวัดว่าชุดตัวเลขกระจายตัวออกไปจากค่าเฉลี่ยมากน้อยเพียงใด โดยนิยามว่าคือค่าคาดหวังของค่าเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของตัวแปรสุ่มค่าเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวน ในทางเทคนิคแล้ว มันคือโมเมนต์กลางลำดับ ที่สอง ของการแจกแจงและความแปรปรวนร่วมของตัวแปรสุ่มกับตัวมันเอง และมักจะแสดงด้วย ⁠ ⁠ , ⁠ ⁠ , ⁠ ⁠ , ⁠ ⁠หรือ⁠ ⁠ [ 1 ]

ข้อดีของการใช้ค่าความแปรปรวนเป็นมาตรวัดการกระจายตัวคือ สามารถจัดการทางพีชคณิตได้ง่ายกว่ามาตรวัดการกระจายตัวอื่นๆ เช่น ค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังตัวอย่างเช่น ค่าความแปรปรวนของผลรวมของตัวแปรสุ่มที่ไม่เกี่ยวข้องกันจะเท่ากับผลรวมของค่าความแปรปรวนของตัวแปรเหล่านั้น ข้อเสียของการใช้ค่าความแปรปรวนในทางปฏิบัติคือ หน่วยของค่าความแปรปรวนจะแตกต่างจากค่าเบี่ยงเบนมาตรฐาน ซึ่งเป็นเหตุผลว่าทำไมจึงนิยมรายงานค่าเบี่ยงเบนมาตรฐานเป็นมาตรวัดการกระจายตัวมากกว่าเมื่อคำนวณเสร็จแล้ว ข้อเสียอีกประการหนึ่งคือ ค่าความแปรปรวนมีค่าไม่จำกัดสำหรับหลายๆ การแจกแจง

มีสองแนวคิดที่แตกต่างกันซึ่งต่างก็เรียกว่า "ความแปรปรวน" อย่างแรก ดังที่ได้กล่าวไว้ข้างต้น เป็นส่วนหนึ่งของการแจกแจงความน่าจะเป็น เชิงทฤษฎี และถูกกำหนดโดยสมการ ส่วนความแปรปรวนอีกอย่างหนึ่งเป็นลักษณะเฉพาะของชุดข้อมูลสังเกตการณ์ เมื่อคำนวณความแปรปรวนจากข้อมูลสังเกตการณ์ ข้อมูลเหล่านั้นมักจะวัดจากระบบในโลกแห่งความเป็นจริง หากมีข้อมูลสังเกตการณ์ที่เป็นไปได้ทั้งหมดของระบบ ความแปรปรวนที่คำนวณได้จะเรียกว่าความแปรปรวนของประชากร อย่างไรก็ตาม โดยปกติแล้วจะมีเพียงส่วนย่อยเท่านั้น และความแปรปรวนที่คำนวณจากส่วนย่อยนี้เรียกว่าความแปรปรวนของตัวอย่าง ความแปรปรวนที่คำนวณจากตัวอย่างถือเป็นการประมาณค่าความแปรปรวนของประชากรทั้งหมด มีหลายวิธีในการประมาณค่าความแปรปรวนของประชากรโดยอาศัยความแปรปรวนของตัวอย่าง ดังที่จะกล่าวถึงในหัวข้อถัดไป

ความแปรปรวนทั้งสองประเภทมีความสัมพันธ์กันอย่างใกล้ชิด เพื่อให้เข้าใจถึงความสัมพันธ์นั้น ลองพิจารณาว่าการแจกแจงความน่าจะเป็นเชิงทฤษฎีสามารถใช้เป็นตัวสร้างข้อมูลสังเกตการณ์สมมติได้ หากสร้างข้อมูลสังเกตการณ์จำนวนอนันต์โดยใช้การแจกแจงนั้น ความแปรปรวนของตัวอย่างที่คำนวณจากชุดข้อมูลอนันต์นั้นจะตรงกับค่าที่คำนวณโดยใช้สมการความแปรปรวนของการแจกแจงนั้น ความแปรปรวนมีบทบาทสำคัญในสถิติ ซึ่งแนวคิดบางอย่างที่ใช้ความแปรปรวน ได้แก่สถิติเชิงพรรณนาการอนุมานทางสถิติการทดสอบสมมติฐานความเหมาะสมของ แบบจำลอง และการสุ่มตัวอย่างแบบมอนเตคาร์โล

การแสดงภาพเชิงเรขาคณิตของความแปรปรวนของการแจกแจงแบบสุ่ม (2, 4, 4, 4, 5, 5, 7, 9):
  1. มีการสร้างแผนภูมิการแจกแจงความถี่
  2. จุดศูนย์กลางของการกระจายจะให้ค่าเฉลี่ยของการกระจายนั้น
  3. สำหรับแต่ละค่า จะมีการสร้างรูปสี่เหลี่ยมจัตุรัสที่มีด้านยาวเท่ากับผลต่างของแต่ละค่าจากค่าเฉลี่ย
  4. เมื่อนำ รูปสี่เหลี่ยมจัตุรัสมาเรียงให้เป็นรูปสี่เหลี่ยมผืนผ้า โดยให้ด้านหนึ่งเท่ากับจำนวนค่าnจะทำให้ด้านอีกด้านหนึ่งเท่ากับค่าความแปรปรวนของการกระจายตัวσ²

คำนิยาม

ความแปรปรวนของตัวแปรสุ่มคือค่าคาดหวังของค่าเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของตัวแปรสุ่มนั้น คำจำกัดความนี้ครอบคลุมตัวแปรสุ่มที่เกิดจากกระบวนการที่เป็นแบบไม่ต่อ เนื่อง แบบต่อเนื่อง แบบไม่ใช่ทั้งสองอย่าง หรือแบบผสม นอกจากนี้ ยังสามารถมองความแปรปรวนว่าเป็นความแปรปรวนร่วมของตัวแปรสุ่มกับตัวมันเองได้ อีก ด้วย

ค่าความแปรปรวนยังเทียบเท่ากับค่าคุมูลันต์ ที่สอง ของการแจกแจงความน่าจะเป็นที่สร้าง⁠ ⁠ค่าความแปรปรวนมักจะถูกกำหนดให้เป็น⁠ ⁠หรือบางครั้งเป็น⁠ หรือในเชิงสัญลักษณ์เป็นหรือเพียงแค่(อ่านว่า " ซิกมากำลังสอง") สามารถขยายนิพจน์สำหรับค่าความแปรปรวนได้ดังนี้:

กล่าวอีกนัยหนึ่ง ความแปรปรวนของ⁠ ⁠เท่ากับค่าเฉลี่ยของกำลังสองของ⁠ ⁠ลบด้วยกำลังสองของค่าเฉลี่ยของ⁠ ⁠สมการนี้ไม่ควรนำไปใช้ในการคำนวณโดยใช้เลขคณิตแบบจุดลอยตัวเนื่องจากจะเกิดการหักล้างกันอย่างรุนแรงหากส่วนประกอบทั้งสองของสมการมีขนาดใกล้เคียงกัน สำหรับทางเลือกอื่นที่มีเสถียรภาพทางตัวเลข โปรดดู ที่ อั ลก อริทึมสำหรับการคำนวณความแปรปรวน

ตัวแปรสุ่มแบบไม่ต่อเนื่อง

ถ้าตัวสร้างตัวแปรสุ่มเป็นแบบไม่ต่อเนื่องที่มีฟังก์ชันความน่าจะเป็นมวลแล้ว คือค่าคาดหวัง นั่นคือ (เมื่อ ระบุ ความแปรปรวนแบบถ่วงน้ำหนัก แบบไม่ต่อเนื่องดัง กล่าวด้วยน้ำหนักที่มีผลรวมไม่เท่ากับ 1 จะต้องหารด้วยผลรวมของน้ำหนักเหล่านั้น)

ความแปรปรวนของกลุ่มค่าที่มีโอกาสเกิดขึ้นเท่ากันสามารถเขียนได้เป็น โดย ที่คือค่าเฉลี่ย นั่นคือ

ความแปรปรวนของชุดค่าที่มีโอกาสเท่ากันสามารถแสดงได้อย่างเทียบเท่าโดยไม่ต้องอ้างอิงถึงค่าเฉลี่ยโดยตรง ในแง่ของค่าเบี่ยงเบนกำลังสองของระยะห่างกำลังสองระหว่างจุดแต่ละคู่: [ 2 ]

ตัวแปรสุ่มต่อเนื่องอย่างสมบูรณ์

ถ้าตัวแปรสุ่มมีฟังก์ชันความหนาแน่นความน่าจะเป็นและเป็นฟังก์ชันการกระจายสะสมที่ สอดคล้อง กัน แล้ว หรือเทียบเท่ากับ โดย ที่คือค่าคาดหวังของที่กำหนดโดย

ในสูตรเหล่านี้ อินทิกรัลที่เกี่ยวข้องกับและคือ อินทิกรัล ของเลเบสและ อินทิกรัล ของเลเบส-สตีลต์เจสตามลำดับ

ถ้าฟังก์ชัน สามารถ หาปริพันธ์รีมันน์ได้บนทุกช่วงจำกัดแล้ว โดย ที่ปริพันธ์นั้นเป็นปริพันธ์รีมันน์ไม่แท้

ตัวอย่าง

การแจกแจงแบบเอกซ์โปเนนเชียล

การแจกแจงเอกซ์โพ เนนเชียล ที่มีพารามิเตอร์⁠ ⁠เป็นการแจกแจงต่อเนื่องที่มีฟังก์ชันความหนาแน่นความน่าจะเป็นกำหนดโดย บนช่วง[0, ∞)ค่าเฉลี่ยของมันสามารถแสดงได้เป็น

เมื่อใช้การอินทิเกรตโดยส่วนและใช้ค่าที่คาดหวังที่คำนวณไว้แล้ว เราจะได้:

ดังนั้น ค่าความแปรปรวนของ⁠ ⁠จึงกำหนดโดย

ยุติธรรมแล้ว

ลูกเต๋าหกด้านที่ยุติธรรมสามารถจำลองได้เป็นตัวแปรสุ่มแบบไม่ต่อเนื่อง⁠ ⁠โดยมีผลลัพธ์ 1 ถึง 6 ซึ่งแต่ละผลลัพธ์มีโอกาสเกิดขึ้นเท่ากันที่ 1/6 ค่าคาดหวังของ⁠ ⁠คือดังนั้น ความแปรปรวนของคือ

สูตรทั่วไปสำหรับความแปรปรวนของผลลัพธ์⁠ ⁠ของ ลูกเต๋า ⁠ ⁠ด้านคือ

การแจกแจงความน่าจะเป็นที่ใช้กันทั่วไป

ตารางต่อไปนี้แสดงค่าความแปรปรวนของการแจกแจงความน่าจะเป็นที่ใช้กันทั่วไปบางแบบ

ชื่อของการแจกแจงความน่าจะเป็น ฟังก์ชันการกระจายความน่าจะเป็น หมายถึง ความแปรปรวน
การแจกแจงทวินาม
การแจกแจงทางเรขาคณิต
การกระจายแบบปกติ
การแจกแจงแบบสม่ำเสมอ (ต่อเนื่อง)
การแจกแจงแบบเอกซ์โปเนนเชียล
การแจกแจงปัวซง

คุณสมบัติ

คุณสมบัติพื้นฐาน

ค่าความแปรปรวนไม่ติดลบ เนื่องจากกำลังสองมีค่าเป็นบวกหรือศูนย์:

ความแปรปรวนของค่าคงที่เท่ากับศูนย์

ในทางกลับกัน หากความแปรปรวนของตัวแปรสุ่มเป็น 0 แสดงว่าตัวแปรสุ่มนั้นเกือบจะเป็นค่าคงที่ กล่าวคือ มันจะมีค่าเท่าเดิมเสมอ

ประเด็นเรื่องความจำกัด

หากการแจกแจงไม่มีค่าคาดหวังที่จำกัด เช่นเดียวกับการแจกแจงโคชีความแปรปรวนก็จะไม่จำกัดเช่นกัน อย่างไรก็ตาม การแจกแจงบางประเภทอาจไม่มีความแปรปรวนที่จำกัด แม้ว่าค่าคาดหวังจะจำกัดก็ตาม ตัวอย่างเช่นการแจกแจงพาเรโตซึ่งดัชนี เป็นไปตามเงื่อนไข

การสลายตัว

สูตรทั่วไปสำหรับการแยกส่วนความแปรปรวนหรือกฎของความแปรปรวนรวมคือ: ถ้าและเป็นตัวแปรสุ่มสองตัว และความแปรปรวนของมีอยู่จริง แล้ว

ค่าคาดหวังแบบมีเงื่อนไข และความแปรปรวนแบบมีเงื่อนไขสามารถเข้าใจได้ดังนี้ เมื่อกำหนดค่าy ใดๆ ของตัวแปรสุ่ม  Yแล้ว จะมีค่าคาดหวังแบบมีเงื่อนไข เมื่อเหตุการณ์  Y  =  yปริมาณนี้ขึ้นอยู่กับค่า  y นั้นๆ มันเป็นฟังก์ชันฟังก์ชันเดียวกันนั้น เมื่อประเมินค่าที่ตัวแปรสุ่มY จะ ได้ เป็นค่าคาดหวังแบบมีเงื่อนไข

โดยเฉพาะอย่างยิ่ง ถ้าเป็นตัวแปรสุ่มแบบไม่ต่อเนื่องที่มีค่าที่เป็นไปได้ด้วยความน่าจะเป็นที่สอดคล้องกันแล้วในสูตรสำหรับความแปรปรวนทั้งหมด พจน์แรกทางด้านขวามือจะกลายเป็น โดย ที่ ในทำนอง เดียวกันพจน์ที่สองทางด้านขวามือจะกลายเป็น โดย ที่และดังนั้นความแปรปรวนทั้งหมดจึงกำหนดโดย

สูตรที่คล้ายกันนี้ถูกนำมาใช้ในการวิเคราะห์ความแปรปรวนโดยสูตรที่เกี่ยวข้องใน ที่นี้หมายถึงค่าเฉลี่ยกำลังสอง ส่วนใน การวิเคราะห์ การถดถอยเชิงเส้นสูตรที่เกี่ยวข้องคือ

สิ่งนี้สามารถอนุมานได้จากคุณสมบัติการบวกของความแปรปรวน เนื่องจากคะแนนรวม (ที่สังเกตได้) คือผลรวมของคะแนนที่คาดการณ์และคะแนนความคลาดเคลื่อน โดยที่ทั้งสองค่าหลังไม่มีความสัมพันธ์กัน

สามารถแยกส่วนในลักษณะเดียวกันได้สำหรับผลรวมของค่าเบี่ยงเบนกำลังสอง (ผลรวมของกำลังสอง):

การคำนวณจาก CDF

ความแปรปรวนของประชากรสำหรับตัวแปรสุ่มที่ไม่เป็นลบสามารถแสดงได้ในรูปของฟังก์ชันการกระจายสะสมFโดยใช้

สามารถใช้สูตรนี้ในการคำนวณความแปรปรวนในสถานการณ์ที่สามารถแสดงฟังก์ชันการกระจายสะสม (CDF) ได้อย่างสะดวก แต่ไม่สามารถแสดง ความหนาแน่น ได้

คุณสมบัติเฉพาะ

โมเมนต์ที่สองของตัวแปรสุ่มจะมีค่าต่ำสุดเมื่อพิจารณารอบโมเมนต์แรก (เช่น ค่าเฉลี่ย) ของตัวแปรสุ่ม นั่นคือ⁠ ⁠ในทางกลับกัน หากฟังก์ชันต่อเนื่องเป็นไปตามเงื่อนไขสำหรับตัวแปรสุ่มX ทั้งหมด ฟังก์ชัน นั้นจะต้องอยู่ในรูปแบบโดยที่a > 0เงื่อนไขนี้ยังใช้ได้กับกรณีหลายมิติด้วย[ 3 ]

หน่วยวัด

ต่างจากค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังค่าความแปรปรวนของตัวแปรจะมีหน่วยเป็นกำลังสองของหน่วยของตัวแปรนั้นเอง ตัวอย่างเช่น ตัวแปรที่วัดเป็นเมตรจะมีค่าความแปรปรวนวัดเป็นเมตรกำลังสอง ด้วยเหตุนี้ การอธิบายชุดข้อมูลโดยใช้ค่าเบี่ยงเบนมาตรฐานหรือค่าเบี่ยงเบนมาตรฐานรากกำลังสองจึงมักเป็นที่นิยมมากกว่าการใช้ค่าความแปรปรวน ในตัวอย่างลูกเต๋า ค่าเบี่ยงเบนมาตรฐานคือ√2.9 ≈ 1.7 ซึ่งมากกว่าค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวัง 1.5 เล็กน้อย

ค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังสามารถใช้เป็นตัวบ่งชี้ "การกระจาย" ของการแจกแจงได้ ค่าเบี่ยงเบนมาตรฐานนั้นง่ายต่อการจัดการทางพีชคณิตมากกว่าค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวัง และเมื่อใช้ร่วมกับความแปรปรวนและความแปรปรวน ร่วมซึ่งเป็นส่วนขยายของความแปรปรวน ก็มักถูกใช้บ่อยในสถิติเชิงทฤษฎี อย่างไรก็ตาม ค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังมักมีความเสถียร มากกว่า เนื่องจากมีความไวต่อค่าผิดปกติที่เกิดจากความผิดปกติในการวัดหรือการแจกแจงที่มีหางหนัก เกินไปน้อย กว่า

การขยายพันธุ์

การบวกและการคูณด้วยค่าคงที่

ค่าความแปรปรวนไม่เปลี่ยนแปลงเมื่อค่าพารามิเตอร์ตำแหน่ง เปลี่ยน ไป กล่าวคือ หากเพิ่มค่าคงที่ให้กับค่าทั้งหมดของตัวแปร ค่าความแปรปรวนจะไม่เปลี่ยนแปลง

ถ้าค่าทั้งหมดถูกปรับขนาดด้วยค่าคงที่ ค่าความแปรปรวนก็จะถูกปรับขนาดด้วยกำลังสองของค่าคงที่นั้น:

ความแปรปรวนของผลรวมของตัวแปรสุ่มสองตัวกำหนดโดย โดย ที่คือค่าความแปรปรวนร่วม

การรวมเชิงเส้น

โดยทั่วไป สำหรับผลรวมของตัวแปรสุ่มความแปรปรวนจะเป็นดังนี้: ดู เพิ่มเติมที่เอกลักษณ์ทั่วไปของ Bienaymé

ผลลัพธ์เหล่านี้ทำให้ได้ค่าความแปรปรวนของผลรวมเชิงเส้นดังนี้:

ถ้าตัวแปรสุ่มเป็นไปตามเงื่อนไขดัง กล่าว เราจะกล่าวได้ว่าตัวแปรสุ่มเหล่านั้นไม่มีความสัมพันธ์กันจากนิพจน์ที่กล่าวไว้ก่อนหน้านี้ สรุปได้ทันทีว่า ถ้าตัวแปรสุ่มไม่มีความสัมพันธ์กัน ความแปรปรวนของผลรวมของตัวแปรสุ่มเหล่านั้นจะเท่ากับผลรวมของความแปรปรวนของตัวแปรสุ่มแต่ละตัว หรือเขียนในเชิงสัญลักษณ์ได้ดังนี้:

เนื่องจากตัวแปรสุ่มอิสระจะไม่สัมพันธ์กันเสมอ (ดูหัวข้อ ความแปรปรวนร่วม § ความไม่สัมพันธ์กันและความเป็นอิสระ ) สมการข้างต้นจึงเป็นจริงโดยเฉพาะอย่างยิ่งเมื่อตัวแปรสุ่มเป็นอิสระต่อกัน ดังนั้น ความเป็นอิสระจึงเป็นเงื่อนไขที่เพียงพอ แต่ไม่จำเป็นสำหรับการที่ความแปรปรวนของผลรวมจะเท่ากับผลรวมของความแปรปรวน

สัญลักษณ์เมทริกซ์สำหรับความแปรปรวนของผลรวมเชิงเส้น

กำหนดให้เป็นเวกเตอร์คอลัมน์ของตัวแปรสุ่มและเป็นเวกเตอร์คอลัมน์ของสเกลาร์ดังนั้นเป็นผลรวมเชิงเส้นของตัวแปรสุ่มเหล่านี้ โดยที่แทนการสลับตำแหน่งของนอกจากนี้ ให้เป็นเมทริกซ์ความแปรปรวนร่วมของความแปรปรวนของจะกำหนดโดย: [ 4 ]

นี่หมายความว่าค่าความแปรปรวนของค่าเฉลี่ยสามารถเขียนได้เป็น (โดยมีเวกเตอร์คอลัมน์เป็นเลขหนึ่งทั้งหมด)

ผลรวมของตัวแปร

ผลรวมของตัวแปรที่ไม่สัมพันธ์กัน

เหตุผลหนึ่งที่นิยมใช้ค่าความแปรปรวนแทนมาตรวัดการกระจายตัวแบบอื่นก็คือ ค่าความแปรปรวนของผลรวม (หรือผลต่าง) ของ ตัวแปรสุ่ม ที่ไม่เกี่ยวข้องกันนั้นเท่ากับผลรวมของค่าความแปรปรวนของตัวแปรเหล่านั้น:

ข้อความนี้เรียกว่าสูตรBienaymé [ 5 ]และถูกค้นพบในปี พ.ศ. 2396 [ 6 ] [ 7 ]มักจะใช้เงื่อนไขที่เข้มงวดกว่าคือตัวแปรต้องเป็นอิสระต่อกันแต่การไม่มีความสัมพันธ์กันก็เพียงพอแล้ว ดังนั้นหากตัวแปรทั้งหมดมีค่าความแปรปรวนσ² เท่า กันเนื่องจากหารด้วยnเป็นการแปลงเชิงเส้น สูตรนี้จึงแสดงให้เห็นทันทีว่าค่าความแปรปรวนของค่าเฉลี่ยคือ

กล่าวคือ ความแปรปรวนของค่าเฉลี่ยจะลดลงเมื่อnเพิ่มขึ้น สูตรสำหรับความแปรปรวนของค่าเฉลี่ยนี้ถูกนำไปใช้ในนิยามของค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยตัวอย่าง ซึ่งใช้ในทฤษฎีบท ขีดจำกัดกลาง

เพื่อพิสูจน์ข้อความเริ่มต้นนั้น เพียงพอที่จะแสดงให้เห็นว่า

ผลลัพธ์ทั่วไปจึงได้มาจากการอุปมาน โดยเริ่มจากนิยาม

เมื่อใช้คุณสมบัติความเป็นเส้นตรงของตัวดำเนินการค่าคาดหวังและสมมติฐานเรื่องความเป็นอิสระ (หรือไม่มีความสัมพันธ์กัน) ของXและYจะทำให้สมการง่ายขึ้นดังนี้:

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน โดยมีขนาดตัวอย่างคงที่

โดยทั่วไป ความแปรปรวนของผลรวมของ ตัวแปร nตัว คือผลรวมของความแปรปรวนร่วมของตัวแปร เหล่านั้น ( หมายเหตุ: ความเท่าเทียมกันข้อที่สองมาจากการที่Cov( X i , X i ) = Var( X i ) )

ในที่นี้คือค่าความแปรปรวนร่วมซึ่งจะเป็นศูนย์สำหรับตัวแปรสุ่มอิสระ (ถ้ามีอยู่) สูตรนี้ระบุว่า ความแปรปรวนของผลรวมเท่ากับผลรวมขององค์ประกอบทั้งหมดในเมทริกซ์ความแปรปรวนร่วมของส่วนประกอบ นิพจน์ถัดไประบุอย่างเทียบเท่าว่า ความแปรปรวนของผลรวมคือผลรวมของแนวทแยงมุมของเมทริกซ์ความแปรปรวนร่วม บวกกับสองเท่าของผลรวมขององค์ประกอบสามเหลี่ยมบน (หรือองค์ประกอบสามเหลี่ยมล่าง) ซึ่งเน้นว่าเมทริกซ์ความแปรปรวนร่วมเป็นเมทริกซ์สมมาตร สูตรนี้ใช้ในทฤษฎีของ ค่าสัมประสิทธิ์ อัลฟาของครอนบัคในทฤษฎีการทดสอบแบบคลาสสิ

ดังนั้น ถ้าตัวแปรมีค่าความแปรปรวนเท่ากันσ² และ ค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยของตัวแปรที่แตกต่างกันคือρแล้ว ค่าความแปรปรวนของค่าเฉลี่ยของตัวแปรเหล่านั้นคือ

นี่หมายความว่าความแปรปรวนของค่าเฉลี่ยจะเพิ่มขึ้นตามค่าเฉลี่ยของความสัมพันธ์ กล่าวอีกนัยหนึ่ง การสังเกตที่มีความสัมพันธ์กันเพิ่มเติมไม่ได้มีประสิทธิภาพเท่ากับการสังเกตที่เป็นอิสระเพิ่มเติมในการลดความไม่แน่นอนของค่าเฉลี่ยยิ่งไปกว่านั้น หากตัวแปรมีความแปรปรวนเป็นหนึ่ง เช่น หากตัวแปรเหล่านั้นได้รับการทำให้เป็นมาตรฐานแล้ว สมการก็จะง่ายขึ้นเป็น

สูตรนี้ใช้ในสูตรการทำนายของสเปียร์แมน-บราวน์ในทฤษฎีการทดสอบแบบคลาสสิก สูตรนี้จะลู่เข้าสู่ρเมื่อnเข้าสู่∞ โดยมีเงื่อนไขว่าค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยยังคงที่หรือลู่เข้าด้วย ดังนั้นสำหรับความแปรปรวนของค่าเฉลี่ยของตัวแปรมาตรฐานที่มีค่าสหสัมพันธ์เท่ากันหรือค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยลู่เข้า เราจะได้

ดังนั้น ความแปรปรวนของค่าเฉลี่ยของตัวแปรมาตรฐานจำนวนมากจึงมีค่าโดยประมาณเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยของตัวแปรเหล่านั้น นี่แสดงให้เห็นอย่างชัดเจนว่าค่าเฉลี่ยตัวอย่างของตัวแปรที่มีความสัมพันธ์กันโดยทั่วไปจะไม่ลู่เข้าสู่ค่าเฉลี่ยของประชากร แม้ว่ากฎของจำนวนมากจะระบุว่าค่าเฉลี่ยตัวอย่างจะลู่เข้าสู่ค่าเฉลี่ยของประชากรสำหรับตัวแปรอิสระก็ตาม

ผลรวมของตัวแปรที่ไม่สัมพันธ์กันโดยมีขนาดตัวอย่างแบบสุ่ม

มีบางกรณีที่ทำการสุ่มตัวอย่างโดยไม่ทราบล่วงหน้าว่าจำนวนการสังเกตที่ยอมรับได้ตามเกณฑ์ใดจะมีจำนวนเท่าใด ในกรณีเช่นนี้ ขนาดตัวอย่างNถือเป็นตัวแปรสุ่มที่ความแปรปรวนจะเพิ่มเข้าไปในความแปรปรวนของXโดยที่[ 8 ] ซึ่งเป็นไปตามกฎของความแปรปรวนรวม

ถ้าNมีการแจกแจงแบบปัวซงแล้วตัวประมาณค่าn = Nดังนั้น ตัวประมาณค่าของจะกลายเป็นซึ่งให้ผลลัพธ์เป็น (ดูข้อผิดพลาดมาตรฐาน § ข้อผิดพลาดมาตรฐานของค่าเฉลี่ยตัวอย่าง )

ผลรวมถ่วงน้ำหนักของตัวแปร

คุณสมบัติการปรับขนาดและสูตรของ Bienaymé ร่วมกับคุณสมบัติของความแปรปรวนร่วมCov( aXbY ) = ab Cov( XY ) บ่งชี้ร่วมกันว่า

นั่นหมายความว่า ในผลรวมถ่วงน้ำหนักของตัวแปร ตัวแปรที่มีน้ำหนักมากที่สุดจะมีน้ำหนักในความแปรปรวนของผลรวมมากกว่าตัวแปรอื่นอย่างไม่สมส่วน ตัวอย่างเช่น ถ้าX และ Y ไม่มีความสัมพันธ์กัน และน้ำหนักของXเป็นสองเท่าของน้ำหนักของYน้ำหนักของความแปรปรวนของXจะเป็นสี่เท่าของน้ำหนักของความแปรปรวนของY

นิพจน์ข้างต้นสามารถขยายไปสู่ผลรวมถ่วงน้ำหนักของตัวแปรหลายตัวได้:

ผลคูณของตัวแปร

ผลคูณของตัวแปรอิสระ

ถ้าตัวแปรสองตัว X และ Y เป็นอิสระต่อกันความแปรปรวนของผลคูณของตัวแปรทั้งสองจะกำหนดโดย[ 9 ]

หรือกล่าวอีกนัยหนึ่ง โดยใช้คุณสมบัติพื้นฐานของค่าคาดหวัง จะได้ว่า

ผลคูณของตัวแปรที่ขึ้นต่อกันทางสถิติ

โดยทั่วไป หากตัวแปรสองตัวมีความสัมพันธ์กันทางสถิติ ค่าความแปรปรวนของผลคูณของตัวแปรทั้งสองจะคำนวณได้จากสูตร:

ฟังก์ชันตามอำเภอใจ

วิธีเดลต้า ใช้ การกระจายอนุกรมเทย์เลอร์อันดับสองเพื่อประมาณค่าความแปรปรวนของฟังก์ชันของตัวแปรสุ่มหนึ่งตัวหรือมากกว่า (ดูการกระจายอนุกรมเทย์เลอร์สำหรับโมเมนต์ของฟังก์ชันของตัวแปรสุ่ม ) ตัวอย่างเช่น ค่าความแปรปรวนโดยประมาณของฟังก์ชันของตัวแปรหนึ่งตัวจะกำหนดโดย โดย ที่fสามารถหาอนุพันธ์ได้สองครั้ง และค่าเฉลี่ยและความแปรปรวนของXมีค่าจำกัด

ความแปรปรวนของประชากรและความแปรปรวนของตัวอย่าง

การสังเกตการณ์ในโลกแห่งความเป็นจริง เช่น การวัดปริมาณน้ำฝนของเมื่อวานตลอดทั้งวัน โดยทั่วไปแล้วจะไม่สามารถรวบรวมเป็นชุดข้อมูลที่สมบูรณ์ของข้อมูลที่เป็นไปได้ทั้งหมดได้ ดังนั้น ค่าความแปรปรวนที่คำนวณจากชุดข้อมูลที่จำกัดจึงมักจะไม่ตรงกับค่าความแปรปรวนที่คำนวณจากข้อมูลที่เป็นไปได้ทั้งหมด หมายความว่า เราต้องประมาณค่าเฉลี่ยและความแปรปรวนจากชุดข้อมูลที่จำกัดโดยใช้ สมการประมาณค่า สมการประมาณค่านี้เป็นฟังก์ชันของตัวอย่างข้อมูลnรายการที่สุ่มมาโดยปราศจากอคติจากการสังเกตจากประชากร ทั้งหมด ของข้อมูลที่เป็นไปได้ ในตัวอย่างนี้ ตัวอย่างจะเป็นชุดข้อมูลการวัดปริมาณน้ำฝนจริงของเมื่อวานจากเครื่องวัดปริมาณน้ำฝนที่มีอยู่ในพื้นที่ที่สนใจ

ตัวประมาณค่าที่ง่ายที่สุดสำหรับค่าเฉลี่ยและความแปรปรวนของประชากร คือ ค่าเฉลี่ยและความแปรปรวนของตัวอย่าง หรือค่าเฉลี่ยและความแปรปรวนของตัวอย่าง (ที่ยังไม่ได้แก้ไข)ตัวประมาณค่าเหล่านี้เป็นตัวประมาณค่าที่สอดคล้องกัน (ค่าเหล่านี้จะลู่เข้าสู่ค่าของประชากรทั้งหมดเมื่อจำนวนตัวอย่างเพิ่มขึ้น) แต่สามารถปรับปรุงให้ดีขึ้นได้ วิธีที่ง่ายที่สุดคือ การคำนวณความแปรปรวนของตัวอย่าง โดยการนำผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ย (ของตัวอย่าง) หารด้วยnซึ่งเป็นจำนวนตัวอย่าง อย่างไรก็ตาม การใช้ค่าอื่นที่ไม่ใช่nจะช่วยปรับปรุงตัวประมาณค่าในหลายๆ ด้าน ค่าทั่วไปสี่ค่าสำหรับตัวหารคือn , n − 1 , n + 1และn − 1.5 : nเป็นค่าที่ง่ายที่สุด (ความแปรปรวนของตัวอย่าง) n − 1ช่วยขจัดอคติ[ 10 ] n + 1ช่วยลดข้อผิดพลาดกำลังสองเฉลี่ยสำหรับการแจกแจงปกติ[ 11 ]และn − 1.5ช่วยขจัดอคติในการประมาณค่าเบี่ยงเบนมาตรฐานที่ไม่เอนเอียงสำหรับการแจกแจงปกติ เป็นส่วนใหญ่ [ 12 ]

ประการแรก หากไม่ทราบค่าเฉลี่ยของประชากรที่แท้จริง ความแปรปรวนของตัวอย่าง (ซึ่งใช้ค่าเฉลี่ยของตัวอย่างแทนค่าเฉลี่ยที่แท้จริง) จะเป็นตัวประมาณค่าที่มีอคติ กล่าวคือ จะประมาณค่าความแปรปรวนต่ำกว่าความเป็นจริงด้วยปัจจัย( n − 1) / nการแก้ไขปัจจัยนี้ ซึ่งส่งผลให้ผลรวมของค่าเบี่ยงเบนกำลังสองรอบค่าเฉลี่ยของตัวอย่างหารด้วยn − 1แทนที่จะเป็นnเรียกว่าการแก้ไขของเบสเซล [ 10 ] ตัวประมาณค่าที่ได้จะไม่มีอคติและเรียกว่าความแปรปรวนของตัวอย่าง (ที่แก้ไขแล้ว)หรือความแปรปรวนของตัวอย่างที่ไม่มีอคติหากค่าเฉลี่ยถูกกำหนดด้วยวิธีอื่นนอกเหนือจากการใช้ตัวอย่างเดียวกันกับที่ใช้ในการประมาณค่าความแปรปรวน อคตินี้จะไม่เกิดขึ้น และสามารถประมาณค่าความแปรปรวนได้อย่างปลอดภัยโดยใช้ค่าความแปรปรวนของตัวอย่างรอบค่าเฉลี่ย (ที่ทราบโดยอิสระ)

ประการที่สอง ความแปรปรวนของตัวอย่างโดยทั่วไปไม่ได้ลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ยระหว่างความแปรปรวนของตัวอย่างและความแปรปรวนของประชากร การแก้ไขอคติมักจะทำให้สถานการณ์แย่ลง: เราสามารถเลือกตัวประกอบมาตราส่วนที่ทำงานได้ดีกว่าความแปรปรวนของตัวอย่างที่แก้ไขแล้วได้เสมอ แม้ว่าตัวประกอบมาตราส่วนที่เหมาะสมที่สุดจะขึ้นอยู่กับความโค้งส่วนเกินของประชากร (ดูความคลาดเคลื่อนกำลังสองเฉลี่ย § ความแปรปรวน ) และทำให้เกิดอคติ วิธีนี้ประกอบด้วยการปรับขนาดตัวประมาณค่าที่ไม่เอนเอียง (หารด้วยจำนวนที่มากกว่าn − 1 ) และเป็นตัวอย่างง่ายๆ ของตัวประมาณค่าแบบหดตัว : เรา "หดตัว" ตัวประมาณค่าที่ไม่เอนเอียงเข้าหาศูนย์ สำหรับการแจกแจงแบบปกติ การหารด้วยn + 1 (แทนที่จะเป็นn − 1หรือn ) จะลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ยให้น้อยที่สุด[ 11 ]อย่างไรก็ตาม ตัวประมาณค่าที่ได้นั้นมีอคติ และเรียกว่าความแปรปรวนของตัวอย่างที่มีอคติ

ความแปรปรวนของประชากร

โดยทั่วไปความแปรปรวนของประชากรที่มีขนาดจำกัดโดยมีค่าx iจะกำหนดโดย โดย ที่ค่าเฉลี่ยของประชากรคือและโดยที่คือตัวดำเนินการ ค่าคาดหวัง

ความแปรปรวนของประชากรยังสามารถคำนวณได้โดยใช้[ 13 ]

(ด้านขวามีพจน์ซ้ำกันในผลรวม ในขณะที่ด้านตรงกลางมีเฉพาะพจน์ที่ไม่ซ้ำกันเท่านั้น) นี่เป็นความจริงเพราะ

ความแปรปรวนของประชากรจะตรงกับความแปรปรวนของการกระจายความน่าจะเป็นที่สร้างขึ้น ในแง่นี้ แนวคิดของประชากรสามารถขยายไปสู่ตัวแปรสุ่มต่อเนื่องที่มีประชากรอนันต์ได้

ความแปรปรวนของตัวอย่าง

ความแปรปรวนของตัวอย่างที่มีอคติ

ในสถานการณ์จริงหลายๆ สถานการณ์ ความแปรปรวนที่แท้จริงของประชากรจะไม่เป็นที่ทราบล่วงหน้าและจะต้องคำนวณด้วยวิธีใดวิธีหนึ่ง เมื่อต้องจัดการกับประชากรที่มีขนาดใหญ่มาก การนับวัตถุทุกชิ้นในประชากรเป็นไปไม่ได้ ดังนั้นการคำนวณจะต้องดำเนินการกับตัวอย่างของประชากร[ 14 ]โดยทั่วไปจะเรียกว่าความแปรปรวนของตัวอย่างหรือความแปรปรวนเชิงประจักษ์ความแปรปรวนของตัวอย่างยังสามารถนำไปใช้กับการประมาณค่าความแปรปรวนของการแจกแจงแบบต่อเนื่องจากตัวอย่างของการแจกแจงนั้นได้อีกด้วย

เราสุ่มตัวอย่างแบบแทนที่ค่าY 1 , ..., Y nจากประชากรขนาดn โดยที่n < Nและประมาณค่าความแปรปรวนบนพื้นฐานของตัวอย่างนี้[ 15 ] การหาค่าความแปรปรวนของข้อมูลตัวอย่างโดยตรงจะให้ค่าเฉลี่ยของค่าเบี่ยงเบนกำลังสอง: [ 16 ] ( ดูส่วน§ ความแปรปรวนของประชากรสำหรับการพิสูจน์สูตรนี้) ในที่นี้หมายถึงค่าเฉลี่ยของตัวอย่าง :

เนื่องจากY iถูกเลือกแบบสุ่ม ดังนั้นทั้งและจึงเป็นตัวแปรสุ่มค่าเฉลี่ยของตัวแปรเหล่านี้สามารถประเมินได้โดยการหาค่าเฉลี่ยจากกลุ่มตัวอย่างทั้งหมดที่เป็นไปได้{ Y i }ที่มีขนาดจากประชากร ซึ่งจะได้ผลลัพธ์ดังนี้:

ในส่วนนี้ได้มาจากความแปรปรวนของประชากรและเนื่องจากความเป็นอิสระของ และ

ดังนั้นค่าประมาณของความแปรปรวนของประชากรจึงมีความเอนเอียงเนื่องจากค่าคาดหวังของ มีค่าน้อยกว่าความแปรปรวนของประชากร (ความแปรปรวนที่แท้จริง) ด้วยปัจจัยดังกล่าว ด้วยเหตุนี้จึงเรียกว่าความแปรปรวนของตัวอย่างที่มีความเอนเอียง

ความแปรปรวนของตัวอย่างที่ไม่เอนเอียง

การแก้ไขอคตินี้ทำให้ได้ค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงซึ่งแสดงด้วยสัญลักษณ์⁠ ⁠ :

ไม่ว่าจะเป็นตัวประมาณค่าใดก็ตาม เราอาจเรียกมันว่าความแปรปรวนของตัวอย่าง ได้ เมื่อสามารถระบุเวอร์ชันได้จากบริบท การพิสูจน์แบบเดียวกันนี้ยังสามารถใช้ได้กับตัวอย่างที่ได้จากการแจกแจงความน่าจะเป็นแบบต่อเนื่องด้วย

การใช้พจน์n − 1เรียกว่าการแก้ไขของเบสเซล (Bessel's correction ) และยังใช้ในค่าความแปรปรวนร่วมของตัวอย่างและค่าเบี่ยงเบนมาตรฐานของตัวอย่าง (รากที่สองของความแปรปรวน) รากที่สองเป็นฟังก์ชันเว้าดังนั้นจึงทำให้เกิดอคติเชิงลบ (ตามอสมการของเจนเซน ) ซึ่งขึ้นอยู่กับการแจกแจง และด้วยเหตุนี้ ค่าเบี่ยงเบนมาตรฐานของตัวอย่างที่แก้ไขแล้ว (โดยใช้การแก้ไขของเบสเซล) จึงมีอคติการประมาณค่าเบี่ยงเบนมาตรฐานที่ไม่เอนเอียงเป็นปัญหาที่ซับซ้อนทางเทคนิค แม้ว่าสำหรับการแจกแจงแบบปกติ การใช้พจน์n − 1.5จะให้ค่าประมาณที่ไม่เอนเอียงเกือบทั้งหมด

ความแปรปรวนของตัวอย่างที่ไม่เอนเอียงคือค่าสถิติ Uสำหรับฟังก์ชันf ( y 1 , y 2 ) = ( y 1y 2 ) 2 /2ซึ่งหมายความว่าได้มาจากการหาค่าเฉลี่ยของสถิติ 2 ตัวอย่างเหนือเซตย่อย 2 องค์ประกอบของประชากร

ตัวอย่าง

สำหรับชุดตัวเลข {10, 15, 30, 45, 57, 52, 63, 72, 81, 93, 102, 105} ถ้าชุดตัวเลขนี้เป็นข้อมูลทั้งหมดของประชากรสำหรับการวัดบางอย่าง ค่าความแปรปรวนจะเป็นค่าความแปรปรวนของประชากร 932.743 ซึ่งคำนวณจากผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ยของชุดตัวเลขนี้ หารด้วย 12 ซึ่งเป็นจำนวนสมาชิกของชุดตัวเลขนั้น แต่ถ้าชุดตัวเลขนี้เป็นตัวอย่างจากประชากรทั้งหมด ค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงสามารถคำนวณได้เป็น 1017.538 ซึ่งคำนวณจากผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ยของตัวอย่าง หารด้วย 11 แทนที่จะเป็น 12 ฟังก์ชัน VAR.S ในMicrosoft Excelใช้สำหรับคำนวณค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ในขณะที่ VAR.P ใช้สำหรับคำนวณค่าความแปรปรวนของประชากร

การกระจายตัวของความแปรปรวนของตัวอย่าง

การแจกแจงและการแจกแจงสะสมของS 22สำหรับค่าต่างๆ ของν = n − 1 เมื่อy iมีการแจกแจงแบบปกติที่เป็นอิสระต่อกัน

เนื่องจากเป็นฟังก์ชันของตัวแปรสุ่มความแปรปรวนของตัวอย่างจึงเป็นตัวแปรสุ่มเช่นกัน และเป็นเรื่องปกติที่จะศึกษาการกระจายของมัน ในกรณีที่Y iเป็นการสังเกตที่เป็นอิสระจากการกระจายแบบปกติทฤษฎีบทของ Cochranแสดงให้เห็นว่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงS 2เป็นไปตามการกระจายไคกำลังสองแบบ ปรับขนาด (ดูเพิ่มเติม: คุณสมบัติเชิงอะซิมโทติกและการพิสูจน์เบื้องต้น ): [ 17 ] โดยที่σ 2คือความแปรปรวนของประชากรผลที่ตามมาโดยตรงคือ และ[ 18 ]

ถ้าY iเป็นอิสระและมีการกระจายเหมือนกัน แต่ไม่จำเป็นต้องกระจายแบบปกติ[ 19 ] โดยที่κคือค่าความโค้งของการกระจาย และμ 4คือโมเมนต์กลางลำดับ ที่ สี่

ถ้าเงื่อนไขของกฎของจำนวนมากเป็นจริงสำหรับการสังเกตยกกำลังสองS 2จะเป็นตัวประมาณค่าที่สอดคล้องกันของ  σ 2เราสามารถเห็นได้ว่าความแปรปรวนของตัวประมาณค่ามีแนวโน้มเข้าใกล้ศูนย์ในเชิงอะซิมโทติก สูตรที่เทียบเท่าในเชิงอะซิมโทติกได้รับการระบุไว้ใน Kenney และ Keeping (1951:164), Rose และ Smith (2002:264) และ Weisstein (nd) [ 20 ] [ 21 ] [ 22 ]

ความไม่เท่าเทียมกันของซามูเอลสัน

อสมการของ Samuelsonเป็นผลลัพธ์ที่ระบุขอบเขตของค่าที่การสังเกตแต่ละรายการในตัวอย่างสามารถรับได้ โดยที่ค่าเฉลี่ยของตัวอย่างและความแปรปรวน (ที่เอนเอียง) ได้รับการคำนวณแล้ว[ 23 ] ค่าต้องอยู่ภายในขอบเขต⁠ ⁠

ผลกระทบของการเพิ่มข้อมูลสังเกตการณ์หนึ่งรายการต่อความแปรปรวน

เมื่อมีการเพิ่มการสังเกตใหม่เพียงครั้งเดียวลงในชุดการสังเกตที่มีค่าเฉลี่ยและความแปรปรวนความแปรปรวนใหม่สามารถแสดงได้โดยใช้สูตรการปรับปรุงแบบวนซ้ำ โดยอิงจากเอกลักษณ์สำหรับผลรวมของกำลังสองที่จัดทำโดย Chan et al. (1983) [ 24 ] :

จากความสัมพันธ์นี้ ผลกระทบของการสังเกตใหม่ต่อความแปรปรวนขึ้นอยู่กับระยะห่างจากค่าเฉลี่ยปัจจุบัน ถ้าความแปรปรวนจะคงที่ดังนั้น ถ้าการสังเกตใหม่ใกล้กับค่าเฉลี่ยมากขึ้น ( ) ความแปรปรวนจะลดลง และถ้าอยู่ห่างจากค่าเฉลี่ยมากขึ้น ( ) ความแปรปรวนจะเพิ่มขึ้น

[การพิสูจน์]

การหาค่าความแปรปรวนของตัวอย่าง

โดยใช้สูตรการปรับปรุงสำหรับผลรวมของกำลังสอง ( ):

แทนที่ความสัมพันธ์สำหรับความแปรปรวนของตัวอย่าง ( ):

การตั้งค่า:

การคำนวณหาผลผลิต:

การหาค่าความแปรปรวนของประชากร

สำหรับความแปรปรวนของประชากร ( ) สูตรการปรับปรุงคือ:

การตั้งค่า:

การคำนวณหาผลผลิต:

ความสัมพันธ์กับค่าเฉลี่ยฮาร์มอนิกและค่าเฉลี่ยเลขคณิต

ได้มีการแสดงให้เห็นแล้ว[ 25 ]ว่าสำหรับตัวอย่าง{ y i }ของจำนวนจริงบวก โดยที่y maxคือค่าสูงสุดของตัวอย่างคือค่าเฉลี่ยเลขคณิตคือค่าเฉลี่ยฮาร์มอนิกของตัวอย่าง และคือความแปรปรวน (ที่เอนเอียง) ของตัวอย่าง

ขอบเขตนี้ได้รับการปรับปรุงแล้ว และเป็นที่ทราบกันว่าความแปรปรวนมีขอบเขตจำกัดโดย ที่y minคือค่าต่ำสุดของตัวอย่าง[ 26 ]

การทดสอบความเท่าเทียมกันของความแปรปรวน

การทดสอบ F เพื่อตรวจสอบความเท่าเทียมกันของความแปรปรวนและการทดสอบไคสแควร์นั้นเหมาะสมเมื่อตัวอย่างมีการกระจายแบบปกติ แต่หากตัวอย่างไม่ได้มีการกระจายแบบปกติ การทดสอบความเท่าเทียมกันของความแปรปรวนสองค่าขึ้นไปก็จะทำได้ยากขึ้น

มีการเสนอการทดสอบแบบไม่ใช้พารามิเตอร์หลายวิธี ได้แก่ การทดสอบ Barton–David–Ansari–Freund–Siegel–Tukey, การทดสอบ Capon , การทดสอบ Mood , การทดสอบ Klotzและการทดสอบ Sukhatmeการทดสอบ Sukhatme ใช้ได้กับความแปรปรวนสองค่าและต้อง ทราบ ค่ามัธยฐาน ทั้งสอง และต้องเท่ากับศูนย์ การทดสอบ Mood, Klotz, Capon และ Barton–David–Ansari–Freund–Siegel–Tukey ก็ใช้ได้กับความแปรปรวนสองค่าเช่นกัน การทดสอบเหล่านี้อนุญาตให้ไม่ทราบค่ามัธยฐาน แต่ต้องมีค่ามัธยฐานทั้งสองเท่ากัน

การทดสอบเลห์มันน์ (Lehmann test)เป็นการทดสอบพาราเมตริกสำหรับความแปรปรวนสองค่า การทดสอบนี้มีหลายรูปแบบที่รู้จักกันดี การทดสอบความเท่าเทียมกันของความแปรปรวนอื่นๆ ได้แก่ การทดสอบบ็อกซ์ (Box test) การทดสอบ บ็อกซ์-แอนเดอร์สัน ( Box–Anderson test)และการทดสอบโมเสส (Moses test )

วิธีการสุ่มตัวอย่างซ้ำ ซึ่งรวมถึงบูตสแตรปและแจ็กไนฟ์อาจใช้เพื่อทดสอบความเท่าเทียมกันของความแปรปรวน

โมเมนต์ความเฉื่อย

ความแปรปรวนของการกระจายความน่าจะเป็นนั้นคล้ายคลึงกับ โมเมนต์ความเฉื่อยในกลศาสตร์คลาสสิกของการกระจายมวลที่สอดคล้องกันตามแนวเส้นตรง โดยสัมพันธ์กับการหมุนรอบจุดศูนย์กลางมวล[ 27 ] ด้วยเหตุผลของความคล้ายคลึงนี้เองที่สิ่งต่างๆ เช่น ความแปรปรวน จึงถูกเรียกว่าโมเมนต์ของการกระจายความน่าจะเป็น [ 27 ] เมทริกซ์ความแปรปรวนร่วมมีความสัมพันธ์กับเทนเซอร์โมเมนต์ความเฉื่อยสำหรับการกระจายแบบหลายตัวแปร โมเมนต์ความเฉื่อยของกลุ่มจุดnจุดที่มีเมทริกซ์ความแปรปรวนร่วมเท่ากับ จะได้รับจาก

ความแตกต่างระหว่างโมเมนต์ความเฉื่อยในทางฟิสิกส์และในทางสถิติจะเห็นได้ชัดเจนสำหรับจุดที่กระจุกตัวอยู่ตามแนวเส้นตรง สมมติว่ามีจุดจำนวนมากอยู่ใกล้ แกน xและกระจายตัวอยู่ตามแนวแกนนั้น เมทริกซ์ความแปรปรวนร่วมอาจมีลักษณะดังนี้

กล่าวคือ ความแปรปรวนมากที่สุดใน ทิศทาง xนักฟิสิกส์จะพิจารณาว่าสิ่งนี้มีโมเมนต์ต่ำรอบแกนxดังนั้นเทนเซอร์โมเมนต์ความเฉื่อยจึงเป็น

เซมิแวเรียนซ์

ค่าเซมิแวเรียนซ์คำนวณในลักษณะเดียวกับค่าแวเรียนซ์ แต่จะรวมเฉพาะข้อมูลสังเกตการณ์ที่ต่ำกว่าค่าเฉลี่ยในการคำนวณเท่านั้น นอกจากนี้ยังอธิบายว่าเป็นมาตรวัดเฉพาะในสาขาการประยุกต์ใช้ที่แตกต่างกัน สำหรับการกระจายแบบเบ้ ค่าเซมิแวเรียนซ์สามารถให้ข้อมูลเพิ่มเติมที่ค่าแวเรียนซ์ไม่มี[ 28 ]

สำหรับอสมการที่เกี่ยวข้องกับเซมิแวเรียนซ์ โปรดดูอสมการของเชบิเชฟในหัวข้อ § เซมิแวเรียนซ์

นิรุกติศาสตร์

คำว่าความแปรปรวนได้รับการแนะนำครั้งแรกโดยRonald Fisherในบทความของเขาในปี พ.ศ. 2461 เรื่อง ความสัมพันธ์ระหว่างญาติโดยอาศัยสมมติฐานของการถ่ายทอดทางพันธุกรรมแบบเมนเดล : [ 29 ]

สถิติจำนวนมากที่มีอยู่แสดงให้เห็นว่า ความคลาดเคลื่อนของการวัดของมนุษย์จากค่าเฉลี่ยเป็นไปตามกฎความคลาดเคลื่อนปกติ อย่างใกล้ชิด และด้วยเหตุนี้ ความแปรปรวนจึงสามารถวัดได้อย่างสม่ำเสมอโดยใช้ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรากที่สองของค่าความคลาดเคลื่อนกำลังสองเฉลี่ย เมื่อมีสาเหตุอิสระสองประการของความแปรปรวนที่สามารถสร้างการกระจายในประชากรที่สม่ำเสมอโดยมีค่าเบี่ยงเบนมาตรฐาน σ และσ พบว่าการกระจายเมื่อสาเหตุทั้งสองกระทำร่วมกันจะมีค่าเบี่ยงเบนมาตรฐานσ ดังนั้น ในการวิเคราะห์สาเหตุของความแปรปรวน จึงควรใช้กำลังสองของค่าเบี่ยงเบนมาตรฐานเป็นตัววัดความแปรปรวน เราจะเรียกปริมาณนี้ว่า ความแปรปรวน...

การสรุปโดยทั่วไป

สำหรับตัวแปรเชิงซ้อน

ถ้าเป็น ตัวแปรสุ่มเชิงซ้อน แบบ สเกลาร์ ที่มีค่าอยู่ในแล้วค่าความแปรปรวนของมันคือโดยที่คือ ค่า สังยุคเชิงซ้อนของค่าความแปรปรวนนี้เป็นค่าสเกลาร์จริง

สำหรับตัวแปรสุ่มที่มีค่าเป็นเวกเตอร์

ในฐานะเมทริกซ์

ถ้าเป็นตัวแปรสุ่มเวกเตอร์ ที่มีค่าอยู่ใน และถือว่าเป็นเวกเตอร์คอลัมน์ การขยายความทั่วไปตามธรรมชาติของความแปรปรวนคือโดยที่และคือเมทริกซ์สลับแถวและคอลัมน์ของ และ ดังนั้น จึงเป็นเวกเตอร์แถว ผลลัพธ์ ที่ได้คือ เมทริกซ์จัตุรัสบวกกึ่งกำหนดซึ่งโดยทั่วไปเรียกว่าเมทริกซ์ความแปรปรวนร่วม (หรือเรียกง่ายๆ ว่าเมทริกซ์ความแปรปรวนร่วม )

ถ้าเป็นตัวแปรสุ่มแบบเวกเตอร์และมีค่าเป็นจำนวนเชิงซ้อน โดยมีค่าอยู่ในแล้วเมทริกซ์ความแปรปรวนร่วมคือโดยที่คือ เมทริกซ์ สลับเปลี่ยนเชิงสังยุคของเมทริกซ์นี้ยังเป็นเมทริกซ์บวกกึ่งกำหนดและเป็นเมทริกซ์จัตุรัสอีกด้วย

ในฐานะสเกลาร์

อีกหนึ่งการวางนัยทั่วไปของความแปรปรวนสำหรับตัวแปรสุ่มที่มีค่าเป็นเวกเตอร์ซึ่งส่งผลให้ได้ค่าสเกลาร์แทนที่จะเป็นเมทริกซ์ คือความแปรปรวนทั่วไปซึ่งเป็นดีเทอร์มิแนนต์ของเมทริกซ์ความแปรปรวนร่วม ความแปรปรวนทั่วไปสามารถแสดงให้เห็นว่าเกี่ยวข้องกับการกระจายแบบหลายมิติของจุดรอบค่าเฉลี่ย[ 30 ]

การสรุปทั่วไปที่แตกต่างออกไปได้มาจากการพิจารณาสมการสำหรับความแปรปรวนแบบสเกลาร์และตีความใหม่ ว่าเป็น ระยะทางยุคลิดกำลังสองระหว่างตัวแปรสุ่มกับค่าเฉลี่ย หรือกล่าวอีกนัยหนึ่งคือผลคูณสเกลาร์ของเวกเตอร์กับตัวมันเอง ซึ่งจะได้ผลลัพธ์เป็น โดยที่ คือร่องรอยของเมทริกซ์ความแปรปรวนร่วม

ดูเพิ่มเติม

ประเภทของความแปรปรวน

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Variance&oldid=1358248641#Population_variance_and_sample_variance "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความแปรปรวน

ในทฤษฎีความน่าจะเป็นและสถิติความแปรปรวนเป็นการวัดการกระจายตัวหมายความว่าเป็นการวัดว่าชุดตัวเลขกระจายตัวออกไปจากค่าเฉลี่ยมากน้อยเพียงใด

คำนิยาม

ความแปรปรวนของตัวแปรสุ่มคือ ค่าคาดหวัง ของ ค่าเบี่ยงเบนกำลังสองจากค่าเฉลี่ย ของ ตัวแปร สุ่ม นั้น คำจำกัดความนี้ครอบคลุมตัวแปรสุ่มที่เกิดจากกระบวนการที่เป็น แบบไม่ต่อ เนื่อง แบบ ต่อเนื่อง แบบ ไม่ใช่ ทั้งสองอย่าง หรือแบบผสม นอกจาก นี้...

ตัวแปรสุ่มแบบไม่ต่อเนื่อง

ถ้าตัวสร้างตัวแปรสุ่มเป็น แบบไม่ต่อเนื่อง ที่มี ฟังก์ชันความน่าจะเป็นมวล แล้ว คือค่าคาดหวัง นั่นคือ (เมื่อ ระบุ ความแปรปรวนแบบถ่วงน้ำหนัก แบบไม่ต่อเนื่องดัง กล่าวด้วยน้ำหนักที่มีผลรวมไม่เท่ากับ 1 จะต้องหารด้วยผลรวมของน้ำหนักเหล่านั้น) X {\displaystyle X} x 1...

ตัวแปรสุ่มต่อเนื่องอย่างสมบูรณ์

ถ้าตัวแปรสุ่มมี ฟังก์ชันความหนาแน่นความน่าจะเป็น ⁠ ⁠ และเป็น ฟังก์ชันการกระจายสะสมที่ สอดคล้อง กัน แล้ว หรือเทียบเท่ากับ โดย ที่คือค่าคาดหวังของที่กำหนดโดย X {\displaystyle X} เอฟ ( x ) {\displaystyle f(x)} เอฟ ( x ) {\displaystyle F(x)} วาร์ ⁡ ( X ) = σ 2 =...