ความแปรปรวน

Q: ข้อมูลสำคัญเกี่ยวกับ ความแปรปรวน

ในทฤษฎีความน่าจะเป็นและสถิติความแปรปรวนเป็นการวัดการกระจายตัวหมายความว่าเป็นการวัดว่าชุดตัวเลขกระจายตัวออกไปจากค่าเฉลี่ยมากน้อยเพียงใด

ในทฤษฎีความน่าจะเป็นและสถิติความแปรปรวนเป็นการวัดการกระจายตัวหมายความว่าเป็นการวัดว่าชุดตัวเลขกระจายตัวออกไปจากค่าเฉลี่ยมากน้อยเพียงใด โดยนิยามว่าคือค่าคาดหวังของค่าเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของตัวแปรสุ่ม ค่าเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวน ในทางเทคนิคแล้ว มันคือโมเมนต์กลางลำดับ ที่สอง ของการแจกแจงและความแปรปรวนร่วมของตัวแปรสุ่มกับตัวมันเอง และมักจะแสดง^ด้วย ⁠ ⁠ $\sigma ^{2}$ , ⁠ ⁠ $s^{2}$ , ⁠ ⁠ $\operatorname {Var} (X)$ , ⁠ ⁠ $V(X)$ หรือ⁠ ⁠ $\mathbb {V} (X)$ ^[¹ ]

ข้อดีของการใช้ค่าความแปรปรวนเป็นมาตรวัดการกระจายตัวคือ สามารถจัดการทางพีชคณิตได้ง่ายกว่ามาตรวัดการกระจายตัวอื่นๆ เช่น ค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังตัวอย่างเช่น ค่าความแปรปรวนของผลรวมของตัวแปรสุ่มที่ไม่เกี่ยวข้องกันจะเท่ากับผลรวมของค่าความแปรปรวนของตัวแปรเหล่านั้น ข้อเสียของการใช้ค่าความแปรปรวนในทางปฏิบัติคือ หน่วยของค่าความแปรปรวนจะแตกต่างจากค่าเบี่ยงเบนมาตรฐาน ซึ่งเป็นเหตุผลว่าทำไมจึงนิยมรายงานค่าเบี่ยงเบนมาตรฐานเป็นมาตรวัดการกระจายตัวมากกว่าเมื่อคำนวณเสร็จแล้ว ข้อเสียอีกประการหนึ่งคือ ค่าความแปรปรวนมีค่าไม่จำกัดสำหรับหลายๆ การแจกแจง

มีสองแนวคิดที่แตกต่างกันซึ่งต่างก็เรียกว่า "ความแปรปรวน" อย่างแรก ดังที่ได้กล่าวไว้ข้างต้น เป็นส่วนหนึ่งของการแจกแจงความน่าจะเป็น เชิงทฤษฎี และถูกกำหนดโดยสมการ ส่วนความแปรปรวนอีกอย่างหนึ่งเป็นลักษณะเฉพาะของชุดข้อมูลสังเกตการณ์ เมื่อคำนวณความแปรปรวนจากข้อมูลสังเกตการณ์ ข้อมูลเหล่านั้นมักจะวัดจากระบบในโลกแห่งความเป็นจริง หากมีข้อมูลสังเกตการณ์ที่เป็นไปได้ทั้งหมดของระบบ ความแปรปรวนที่คำนวณได้จะเรียกว่าความแปรปรวนของประชากร อย่างไรก็ตาม โดยปกติแล้วจะมีเพียงส่วนย่อยเท่านั้น และความแปรปรวนที่คำนวณจากส่วนย่อยนี้เรียกว่าความแปรปรวนของตัวอย่าง ความแปรปรวนที่คำนวณจากตัวอย่างถือเป็นการประมาณค่าความแปรปรวนของประชากรทั้งหมด มีหลายวิธีในการประมาณค่าความแปรปรวนของประชากรโดยอาศัยความแปรปรวนของตัวอย่าง ดังที่จะกล่าวถึงในหัวข้อถัดไป

ความแปรปรวนทั้งสองประเภทมีความสัมพันธ์กันอย่างใกล้ชิด เพื่อให้เข้าใจถึงความสัมพันธ์นั้น ลองพิจารณาว่าการแจกแจงความน่าจะเป็นเชิงทฤษฎีสามารถใช้เป็นตัวสร้างข้อมูลสังเกตการณ์สมมติได้ หากสร้างข้อมูลสังเกตการณ์จำนวนอนันต์โดยใช้การแจกแจงนั้น ความแปรปรวนของตัวอย่างที่คำนวณจากชุดข้อมูลอนันต์นั้นจะตรงกับค่าที่คำนวณโดยใช้สมการความแปรปรวนของการแจกแจงนั้น ความแปรปรวนมีบทบาทสำคัญในสถิติ ซึ่งแนวคิดบางอย่างที่ใช้ความแปรปรวน ได้แก่สถิติเชิงพรรณนา การอนุมานทางสถิติการทดสอบสมมติฐานความเหมาะสมของ แบบจำลอง และการสุ่มตัวอย่างแบบมอนเตคาร์โล

คำนิยาม

ความแปรปรวนของตัวแปรสุ่มคือค่าคาดหวังของค่าเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของตัวแปรสุ่มนั้น คำจำกัดความนี้ครอบคลุมตัวแปรสุ่มที่เกิดจากกระบวนการที่เป็นแบบไม่ต่อ เนื่อง แบบต่อเนื่อง แบบไม่ใช่ทั้งสองอย่าง หรือแบบผสม นอกจากนี้ ยังสามารถมองความแปรปรวนว่าเป็นความแปรปรวนร่วมของตัวแปรสุ่มกับตัวมันเองได้ อีก ด้วย $X$ $X$ $\mu =\operatorname {E} [X]$ $\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right].$ $\ตัวดำเนินการ {Var} (X)=\ชื่อตัวดำเนินการ {Cov} (X,X)$

ค่าความแปรปรวนยังเทียบเท่ากับค่าคุมูลันต์ ที่สอง ของการแจกแจงความน่าจะเป็นที่สร้าง⁠ ⁠ $X$ ค่าความแปรปรวนมักจะถูกกำหนดให้เป็น⁠ ⁠ $\operatorname {Var} (X)$ หรือบางครั้งเป็น⁠ ⁠ หรือในเชิงสัญลักษณ์เป็น⁠ ⁠หรือเพียงแค่(อ่านว่า " ซิกมากำลังสอง") สามารถขยายนิพจน์สำหรับค่าความแปรปรวนได้ดังนี้: $V(X)$ $\mathbb {V} (X)$ $\sigma _{X}^{2}$ $\sigma ^{2}$ ${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[{\left(X-\operatorname {E} [X]\right)}^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]^{2}+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}$

กล่าวอีกนัยหนึ่ง ความแปรปรวนของ⁠ ⁠ $X$ เท่ากับค่าเฉลี่ยของกำลังสองของ⁠ ⁠ $X$ ลบด้วยกำลังสองของค่าเฉลี่ยของ⁠ ⁠ $X$ สมการนี้ไม่ควรนำไปใช้ในการคำนวณโดยใช้เลขคณิตแบบจุดลอยตัวเนื่องจากจะเกิดการหักล้างกันอย่างรุนแรงหากส่วนประกอบทั้งสองของสมการมีขนาดใกล้เคียงกัน สำหรับทางเลือกอื่นที่มีเสถียรภาพทางตัวเลข โปรดดู ที่ อั ลก อริทึมสำหรับการคำนวณความแปรปรวน

ตัวแปรสุ่มแบบไม่ต่อเนื่อง

ถ้าตัวสร้างตัวแปรสุ่มเป็นแบบไม่ต่อเนื่องที่มีฟังก์ชันความน่าจะเป็นมวลแล้ว คือค่าคาดหวัง นั่นคือ (เมื่อ ระบุ ความแปรปรวนแบบถ่วงน้ำหนัก แบบไม่ต่อเนื่องดัง กล่าวด้วยน้ำหนักที่มีผลรวมไม่เท่ากับ 1 จะต้องหารด้วยผลรวมของน้ำหนักเหล่านั้น) $X$ $x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}$ $\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot {\left(x_{i}-\mu \right)}^{2},$ $\mu$ $\mu =\sum _{i=1}^{n}p_{i}x_{i}.$

ความแปรปรวนของกลุ่มค่าที่มีโอกาสเกิดขึ้นเท่ากันสามารถเขียนได้เป็น โดย ที่คือค่าเฉลี่ย นั่นคือ $n$ $\operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2},$ $\mu$ $\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.$

ความแปรปรวนของชุดค่าที่มีโอกาสเท่ากันสามารถแสดงได้อย่างเทียบเท่าโดยไม่ต้องอ้างอิงถึงค่าเฉลี่ยโดยตรง ในแง่ของค่าเบี่ยงเบนกำลังสองของระยะห่างกำลังสองระหว่างจุดแต่ละคู่: ^[²^] $n$ $\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}{\left(x_{i}-x_{j}\right)}^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}{\left(x_{i}-x_{j}\right)}^{2}.$

ตัวแปรสุ่มต่อเนื่องอย่างสมบูรณ์

ถ้าตัวแปรสุ่มมีฟังก์ชันความหนาแน่นความน่าจะเป็น⁠ ⁠และเป็นฟังก์ชันการกระจายสะสมที่ สอดคล้อง กัน แล้ว หรือเทียบเท่ากับ โดย ที่คือค่าคาดหวังของที่กำหนดโดย $X$ $f(x)$ $F(x)$ ${\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }{\left(x-\mu \right)}^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}$ $\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},$ $\mu$ $X$ $\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).$

ในสูตรเหล่านี้ อินทิกรัลที่เกี่ยวข้องกับและคือ อินทิกรัล ของเลเบสและ อินทิกรัล ของเลเบส-สตีลต์เจสตามลำดับ $dx$ $dF(x)$

ถ้าฟังก์ชัน สามารถ หาปริพันธ์รีมันน์ได้บนทุกช่วงจำกัดแล้ว โดย ที่ปริพันธ์นั้นเป็นปริพันธ์รีมันน์ไม่แท้ $x^{2}f(x)$ $[a,b]\subset \mathbb {R} ,$ $\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},$

ตัวอย่าง

การแจกแจงแบบเอกซ์โปเนนเชียล

การแจกแจงเอกซ์โพ เนนเชียล ที่มีพารามิเตอร์⁠ ⁠ $\lambda >0$ เป็นการแจกแจงต่อเนื่องที่มีฟังก์ชันความหนาแน่นความน่าจะเป็นกำหนดโดย บนช่วง $[0, \infty)$ ค่าเฉลี่ยของมันสามารถแสดงได้เป็น $f(x)=\lambda e^{-\lambda x}$ $\operatorname {E} [X]=\int _{0}^{\infty }x\lambda e^{-\lambda x}\,dx={\frac {1}{\lambda }}.$

เมื่อใช้การอินทิเกรตโดยส่วนและใช้ค่าที่คาดหวังที่คำนวณไว้แล้ว เราจะได้: ${\begin{aligned}\operatorname {E} \left[X^{2}\right]&=\int _{0}^{\infty }x^{2}\lambda e^{-\lambda x}\,dx\\&={\left[-x^{2}e^{-\lambda x}\right]}_{0}^{\infty }+\int _{0}^{\infty }2xe^{-\lambda x}\,dx\\&=0+{\frac {2}{\lambda }}\operatorname {E} [X]\\&={\frac {2}{\lambda ^{2}}}.\end{aligned}}$

ดังนั้น ค่าความแปรปรวนของ⁠ ⁠ $X$ จึงกำหนดโดย $\operatorname {Var} (X)=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}={\frac {2}{\lambda ^{2}}}-\left({\frac {1}{\lambda }}\right)^{2}={\frac {1}{\lambda ^{2}}}.$

ยุติธรรมแล้ว

ลูกเต๋าหกด้านที่ยุติธรรมสามารถจำลองได้เป็นตัวแปรสุ่มแบบไม่ต่อเนื่อง⁠ ⁠ $X$ โดยมีผลลัพธ์ 1 ถึง 6 ซึ่งแต่ละผลลัพธ์มีโอกาสเกิดขึ้นเท่ากันที่ 1/6 ค่าคาดหวังของ⁠ ⁠ $X$ คือดังนั้น ความแปรปรวนของ⁠ ⁠คือ $(1+2+3+4+5+6)/6=7/2.$ $X$ ${\begin{aligned}\operatorname {Var} (X)&=\sum _{i=1}^{6}{\frac {1}{6}}\left(i-{\frac {7}{2}}\right)^{2}\\[5pt]&={\frac {1}{6}}\left((-5/2)^{2}+(-3/2)^{2}+(-1/2)^{2}+(1/2)^{2}+(3/2)^{2}+(5/2)^{2}\right)\\[5pt]&={\frac {35}{12}}\approx 2.92.\end{aligned}}$

สูตรทั่วไปสำหรับความแปรปรวนของผลลัพธ์⁠ ⁠ $X$ ของ ลูกเต๋า ⁠ ⁠ $n$ ด้านคือ ${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left(X^{2}\right)-(\operatorname {E} (X))^{2}\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}i^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}i\right)^{2}\\[5pt]&={\frac {(n+1)(2n+1)}{6}}-\left({\frac {n+1}{2}}\right)^{2}\\[4pt]&={\frac {n^{2}-1}{12}}.\end{aligned}}$

การแจกแจงความน่าจะเป็นที่ใช้กันทั่วไป

ตารางต่อไปนี้แสดงค่าความแปรปรวนของการแจกแจงความน่าจะเป็นที่ใช้กันทั่วไปบางแบบ

ชื่อของการแจกแจงความน่าจะเป็น	ฟังก์ชันการกระจายความน่าจะเป็น	หมายถึง	ความแปรปรวน
การแจกแจงทวินาม	$\Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$	$np$	$np(1-p)$
การแจกแจงทางเรขาคณิต	$\Pr \,(X=k)=(1-p)^{k-1}p$	${\frac {1}{p}}$	${\frac {(1-p)}{p^{2}}}$
การกระจายแบบปกติ	$f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {1}{2}}{\left({\frac {x-\mu }{\sigma }}\right)}^{2}}$	$\mu$	$\sigma ^{2}$
การแจกแจงแบบสม่ำเสมอ (ต่อเนื่อง)	$f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&{\text{for }}a\leq x\leq b,\\[3pt]0&{\text{for }}x<a{\text{ or }}x>b\end{cases}}$	${\frac {a+b}{2}}$	${\frac {(b-a)^{2}}{12}}$
การแจกแจงแบบเอกซ์โปเนนเชียล	$f(x\mid \lambda )=\lambda e^{-\lambda x}$	${\frac {1}{\lambda }}$	${\frac {1}{\lambda ^{2}}}$
การแจกแจงปัวซง	$f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$	$\lambda$	$\lambda$

คุณสมบัติ

คุณสมบัติพื้นฐาน

ค่าความแปรปรวนไม่ติดลบ เนื่องจากกำลังสองมีค่าเป็นบวกหรือศูนย์: $\operatorname {Var} (X)\geq 0.$

ความแปรปรวนของค่าคงที่เท่ากับศูนย์ $\operatorname {Var} (a)=0.$

ในทางกลับกัน หากความแปรปรวนของตัวแปรสุ่มเป็น 0 แสดงว่าตัวแปรสุ่มนั้นเกือบจะเป็นค่าคงที่ กล่าวคือ มันจะมีค่าเท่าเดิมเสมอ $\operatorname {Var} (X)=0\iff \exists a:P(X=a)=1.$

ประเด็นเรื่องความจำกัด

หากการแจกแจงไม่มีค่าคาดหวังที่จำกัด เช่นเดียวกับการแจกแจงโคชีความแปรปรวนก็จะไม่จำกัดเช่นกัน อย่างไรก็ตาม การแจกแจงบางประเภทอาจไม่มีความแปรปรวนที่จำกัด แม้ว่าค่าคาดหวังจะจำกัดก็ตาม ตัวอย่างเช่นการแจกแจงพาเรโตซึ่งดัชนี เป็นไปตามเงื่อนไข $k$ $1<k\leq 2.$

การสลายตัว

สูตรทั่วไปสำหรับการแยกส่วนความแปรปรวนหรือกฎของความแปรปรวนรวมคือ: ถ้าและเป็นตัวแปรสุ่มสองตัว และความแปรปรวนของมีอยู่จริง แล้ว $X$ $Y$ $X$ $\operatorname {Var} [X]=\operatorname {E} (\operatorname {Var} [X\mid Y])+\operatorname {Var} (\operatorname {E} [X\mid Y]).$

ค่าคาดหวังแบบมีเงื่อนไข และความแปรปรวนแบบมีเงื่อนไขสามารถเข้าใจได้ดังนี้ เมื่อกำหนดค่าy ใดๆ ของตัวแปรสุ่ม Yแล้ว จะมีค่าคาดหวังแบบมีเงื่อนไข เมื่อเหตุการณ์ Y = yปริมาณนี้ขึ้นอยู่กับค่า y นั้นๆ มันเป็นฟังก์ชันฟังก์ชันเดียวกันนั้น เมื่อประเมินค่าที่ตัวแปรสุ่มY จะ ได้ เป็นค่าคาดหวังแบบมีเงื่อนไข $\operatorname {E} (X\mid Y)$ $X$ $Y$ $\operatorname {Var} (X\mid Y)$ $\operatorname {E} (X\mid Y=y)$ $g(y)=\operatorname {E} (X\mid Y=y)$ $\operatorname {E} (X\mid Y)=g(Y)$

โดยเฉพาะอย่างยิ่ง ถ้าเป็นตัวแปรสุ่มแบบไม่ต่อเนื่องที่มีค่าที่เป็นไปได้ด้วยความน่าจะเป็นที่สอดคล้องกันแล้วในสูตรสำหรับความแปรปรวนทั้งหมด พจน์แรกทางด้านขวามือจะกลายเป็น โดย ที่ ในทำนอง เดียวกันพจน์ที่สองทางด้านขวามือจะกลายเป็น โดย ที่และดังนั้นความแปรปรวนทั้งหมดจึงกำหนดโดย $Y$ $y_{1},y_{2},y_{3}\ldots$ $p_{1},p_{2},p_{3}\ldots ,$ $\operatorname {E} (\operatorname {Var} [X\mid Y])=\sum _{i}p_{i}\sigma _{i}^{2},$ $\sigma _{i}^{2}=\operatorname {Var} [X\mid Y=y_{i}]$ $\operatorname {Var} (\operatorname {E} [X\mid Y])=\sum _{i}p_{i}\mu _{i}^{2}-\left(\sum _{i}p_{i}\mu _{i}\right)^{2}=\sum _{i}p_{i}\mu _{i}^{2}-\mu ^{2},$ ${1}$ $\textstyle \mu =\sum _{i}p_{i}\mu _{i}$ $\operatorname {Var} [X]=\sum _{i}p_{i}\sigma _{i}^{2}+\left(\sum _{i}p_{i}\mu _{i}^{2}-\mu ^{2}\right).$

สูตรที่คล้ายกันนี้ถูกนำมาใช้ในการวิเคราะห์ความแปรปรวนโดยสูตรที่เกี่ยวข้องใน ที่นี้หมายถึงค่าเฉลี่ยกำลังสอง ส่วนใน การวิเคราะห์ การถดถอยเชิงเส้นสูตรที่เกี่ยวข้องคือ ${\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{between}}+{\mathit {MS}}_{\text{within}};$ ${\mathit {MS}}$ ${\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{regression}}+{\mathit {MS}}_{\text{residual}}.$

สิ่งนี้สามารถอนุมานได้จากคุณสมบัติการบวกของความแปรปรวน เนื่องจากคะแนนรวม (ที่สังเกตได้) คือผลรวมของคะแนนที่คาดการณ์และคะแนนความคลาดเคลื่อน โดยที่ทั้งสองค่าหลังไม่มีความสัมพันธ์กัน

สามารถแยกส่วนในลักษณะเดียวกันได้สำหรับผลรวมของค่าเบี่ยงเบนกำลังสอง (ผลรวมของกำลังสอง): ${\mathit {SS}}$ ${\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{between}}+{\mathit {SS}}_{\text{within}},$ ${\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{regression}}+{\mathit {SS}}_{\text{residual}}.$

การคำนวณจาก CDF

ความแปรปรวนของประชากรสำหรับตัวแปรสุ่มที่ไม่เป็นลบสามารถแสดงได้ในรูปของฟังก์ชันการกระจายสะสมFโดยใช้ $2\int _{0}^{\infty }u(1-F(u))\,du-{\left[\int _{0}^{\infty }(1-F(u))\,du\right]}^{2}.$

สามารถใช้สูตรนี้ในการคำนวณความแปรปรวนในสถานการณ์ที่สามารถแสดงฟังก์ชันการกระจายสะสม (CDF) ได้อย่างสะดวก แต่ไม่สามารถแสดง ความหนาแน่น ได้

คุณสมบัติเฉพาะ

โมเมนต์ที่สองของตัวแปรสุ่มจะมีค่าต่ำสุดเมื่อพิจารณารอบโมเมนต์แรก (เช่น ค่าเฉลี่ย) ของตัวแปรสุ่ม นั่นคือ⁠ ⁠ $\mathrm {argmin} _{m}\,\mathrm {E} \left(\left(X-m\right)^{2}\right)=\mathrm {E} (X)$ ในทางกลับกัน หากฟังก์ชันต่อเนื่องเป็นไปตามเงื่อนไขสำหรับตัวแปรสุ่ม $X$ ทั้งหมด ฟังก์ชัน นั้นจะต้องอยู่ในรูปแบบ⁠ ⁠โดยที่ $a$ $> 0$ เงื่อนไขนี้ยังใช้ได้กับกรณีหลายมิติด้วย^[³^] $\varphi$ $\mathrm {argmin} _{m}\,\mathrm {E} (\varphi (X-m))=\mathrm {E} (X)$ $\varphi (x)=ax^{2}+b$

หน่วยวัด

ต่างจากค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังค่าความแปรปรวนของตัวแปรจะมีหน่วยเป็นกำลังสองของหน่วยของตัวแปรนั้นเอง ตัวอย่างเช่น ตัวแปรที่วัดเป็นเมตรจะมีค่าความแปรปรวนวัดเป็นเมตรกำลังสอง ด้วยเหตุนี้ การอธิบายชุดข้อมูลโดยใช้ค่าเบี่ยงเบนมาตรฐานหรือค่าเบี่ยงเบนมาตรฐานรากกำลังสองจึงมักเป็นที่นิยมมากกว่าการใช้ค่าความแปรปรวน ในตัวอย่างลูกเต๋า ค่าเบี่ยงเบนมาตรฐานคือ $\sqrt2.9 \approx 1.7 ซึ่ง$ มากกว่าค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวัง 1.5 เล็กน้อย

ค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังสามารถใช้เป็นตัวบ่งชี้ "การกระจาย" ของการแจกแจงได้ ค่าเบี่ยงเบนมาตรฐานนั้นง่ายต่อการจัดการทางพีชคณิตมากกว่าค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวัง และเมื่อใช้ร่วมกับความแปรปรวนและความแปรปรวน ร่วมซึ่งเป็นส่วนขยายของความแปรปรวน ก็มักถูกใช้บ่อยในสถิติเชิงทฤษฎี อย่างไรก็ตาม ค่าเบี่ยงเบนสัมบูรณ์ที่คาดหวังมักมีความเสถียร มากกว่า เนื่องจากมีความไวต่อค่าผิดปกติที่เกิดจากความผิดปกติในการวัดหรือการแจกแจงที่มีหางหนัก เกินไปน้อย กว่า

การขยายพันธุ์

การบวกและการคูณด้วยค่าคงที่

ค่าความแปรปรวนไม่เปลี่ยนแปลงเมื่อค่าพารามิเตอร์ตำแหน่ง เปลี่ยน ไป กล่าวคือ หากเพิ่มค่าคงที่ให้กับค่าทั้งหมดของตัวแปร ค่าความแปรปรวนจะไม่เปลี่ยนแปลง $\operatorname {Var} (X+a)=\operatorname {Var} (X).$

ถ้าค่าทั้งหมดถูกปรับขนาดด้วยค่าคงที่ ค่าความแปรปรวนก็จะถูกปรับขนาดด้วยกำลังสองของค่าคงที่นั้น: $\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X).$

ความแปรปรวนของผลรวมของตัวแปรสุ่มสองตัวกำหนดโดย โดย ที่คือค่าความแปรปรวนร่วม ${\begin{aligned}\operatorname {Var} (aX+bY)&=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)\\[1ex]\operatorname {Var} (aX-bY)&=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)-2ab\,\operatorname {Cov} (X,Y)\end{aligned}}$ $\operatorname {Cov} (X,Y)$

การรวมเชิงเส้น

โดยทั่วไป สำหรับผลรวมของตัวแปรสุ่มความแปรปรวนจะเป็นดังนี้: ดู เพิ่มเติมที่เอกลักษณ์ทั่วไปของ Bienaymé $N$ $\{X_{1},\dots ,X_{N}\}$ $\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i,j=1,i\neq j}^{N}\operatorname {Cov} (X_{i},X_{j}),$

ผลลัพธ์เหล่านี้ทำให้ได้ค่าความแปรปรวนของผลรวมเชิงเส้นดังนี้: ${\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\neq j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}$

ถ้าตัวแปรสุ่มเป็นไปตามเงื่อนไขดัง กล่าว เราจะกล่าวได้ว่าตัวแปรสุ่มเหล่านั้นไม่มีความสัมพันธ์กันจากนิพจน์ที่กล่าวไว้ก่อนหน้านี้ สรุปได้ทันทีว่า ถ้าตัวแปรสุ่มไม่มีความสัมพันธ์กัน ความแปรปรวนของผลรวมของตัวแปรสุ่มเหล่านั้นจะเท่ากับผลรวมของความแปรปรวนของตัวแปรสุ่มแต่ละตัว หรือเขียนในเชิงสัญลักษณ์ได้ดังนี้: $X_{1},\dots ,X_{N}$ $\operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j),$ $X_{1},\dots ,X_{N}$ $\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {Var} (X_{i}).$

เนื่องจากตัวแปรสุ่มอิสระจะไม่สัมพันธ์กันเสมอ (ดูหัวข้อ ความแปรปรวนร่วม § ความไม่สัมพันธ์กันและความเป็นอิสระ ) สมการข้างต้นจึงเป็นจริงโดยเฉพาะอย่างยิ่งเมื่อตัวแปรสุ่มเป็นอิสระต่อกัน ดังนั้น ความเป็นอิสระจึงเป็นเงื่อนไขที่เพียงพอ แต่ไม่จำเป็นสำหรับการที่ความแปรปรวนของผลรวมจะเท่ากับผลรวมของความแปรปรวน $X_{1},\dots ,X_{n}$

สัญลักษณ์เมทริกซ์สำหรับความแปรปรวนของผลรวมเชิงเส้น

กำหนดให้เป็นเวกเตอร์คอลัมน์ของตัวแปรสุ่ม⁠ ⁠และเป็นเวกเตอร์คอลัมน์ของสเกลาร์⁠ ⁠ดังนั้นเป็นผลรวมเชิงเส้นของตัวแปรสุ่มเหล่านี้ โดยที่แทนการสลับตำแหน่งของ⁠ ⁠นอกจากนี้ ให้เป็นเมทริกซ์ความแปรปรวนร่วมของ⁠ ⁠ความแปรปรวนของจะกำหนดโดย: ^[⁴^] $X$ $n$ $X_{1},\ldots ,X_{n}$ $c$ $n$ $c_{1},\ldots ,c_{n}$ $c^{\mathsf {T}}X$ $c^{\mathsf {T}}$ $c$ $\Sigma$ $X$ $c^{\mathsf {T}}X$ $\operatorname {Var} \left(c^{\mathsf {T}}X\right)=c^{\mathsf {T}}\Sigma c.$

นี่หมายความว่าค่าความแปรปรวนของค่าเฉลี่ยสามารถเขียนได้เป็น (โดยมีเวกเตอร์คอลัมน์เป็นเลขหนึ่งทั้งหมด) $\operatorname {Var} \left({\bar {x}}\right)=\operatorname {Var} \left({\frac {1}{n}}1'X\right)={\frac {1}{n^{2}}}1'\Sigma 1.$

ผลรวมของตัวแปร

ผลรวมของตัวแปรที่ไม่สัมพันธ์กัน

เหตุผลหนึ่งที่นิยมใช้ค่าความแปรปรวนแทนมาตรวัดการกระจายตัวแบบอื่นก็คือ ค่าความแปรปรวนของผลรวม (หรือผลต่าง) ของ ตัวแปรสุ่ม ที่ไม่เกี่ยวข้องกันนั้นเท่ากับผลรวมของค่าความแปรปรวนของตัวแปรเหล่านั้น: $\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {Var} (X_{i}).$

ข้อความนี้เรียกว่าสูตรBienaymé ^{[ 5 ]}และถูกค้นพบในปี พ.ศ. 2396 ^{[ 6 ]}^{[ 7 ]}มักจะใช้เงื่อนไขที่เข้มงวดกว่าคือตัวแปรต้องเป็นอิสระต่อกันแต่การไม่มีความสัมพันธ์กันก็เพียงพอแล้ว ดังนั้นหากตัวแปรทั้งหมดมีค่าความแปรปรวน $σ² เท่า กัน$ เนื่องจากหารด้วย $n$ เป็นการแปลงเชิงเส้น สูตรนี้จึงแสดงให้เห็นทันทีว่าค่าความแปรปรวนของค่าเฉลี่ยคือ $\operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.$

กล่าวคือ ความแปรปรวนของค่าเฉลี่ยจะลดลงเมื่อnเพิ่มขึ้น สูตรสำหรับความแปรปรวนของค่าเฉลี่ยนี้ถูกนำไปใช้ในนิยามของค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยตัวอย่าง ซึ่งใช้ในทฤษฎีบท ขีดจำกัดกลาง

เพื่อพิสูจน์ข้อความเริ่มต้นนั้น เพียงพอที่จะแสดงให้เห็นว่า $\operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y).$

ผลลัพธ์ทั่วไปจึงได้มาจากการอุปมาน โดยเริ่มจากนิยาม ${\begin{aligned}\operatorname {Var} (X+Y)&=\operatorname {E} \left[(X+Y)^{2}\right]-(\operatorname {E} [X+Y])^{2}\\[5pt]&=\operatorname {E} \left[X^{2}+2XY+Y^{2}\right]-(\operatorname {E} [X]+\operatorname {E} [Y])^{2}.\end{aligned}}$

เมื่อใช้คุณสมบัติความเป็นเส้นตรงของตัวดำเนินการค่าคาดหวังและสมมติฐานเรื่องความเป็นอิสระ (หรือไม่มีความสัมพันธ์กัน) ของXและYจะทำให้สมการง่ายขึ้นดังนี้: ${\begin{aligned}\operatorname {Var} (X+Y)&=\operatorname {E} {\left[X^{2}\right]}+2\operatorname {E} [XY]+\operatorname {E} {\left[Y^{2}\right]}-\left(\operatorname {E} [X]^{2}+2\operatorname {E} [X]\operatorname {E} [Y]+\operatorname {E} [Y]^{2}\right)\\[5pt]&=\operatorname {E} \left[X^{2}\right]+\operatorname {E} \left[Y^{2}\right]-\operatorname {E} [X]^{2}-\operatorname {E} [Y]^{2}\\[5pt]&=\operatorname {Var} (X)+\operatorname {Var} (Y).\end{aligned}}$

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน โดยมีขนาดตัวอย่างคงที่

โดยทั่วไป ความแปรปรวนของผลรวมของ ตัวแปร $n$ ตัว คือผลรวมของความแปรปรวนร่วมของตัวแปร เหล่านั้น ( หมายเหตุ: ความเท่าเทียมกันข้อที่สองมาจากการที่ $Cov($ $X$ $i$ $,$ $X$ $i$ $) = Var($ $X$ $i$ $)$ ) $\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\sum _{j=1}^{n}\operatorname {Cov} \left(X_{i},X_{j}\right)=\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)+2\sum _{1\leq i<j\leq n}\operatorname {Cov} \left(X_{i},X_{j}\right).$

ในที่นี้คือค่าความแปรปรวนร่วมซึ่งจะเป็นศูนย์สำหรับตัวแปรสุ่มอิสระ (ถ้ามีอยู่) สูตรนี้ระบุว่า ความแปรปรวนของผลรวมเท่ากับผลรวมขององค์ประกอบทั้งหมดในเมทริกซ์ความแปรปรวนร่วมของส่วนประกอบ นิพจน์ถัดไประบุอย่างเทียบเท่าว่า ความแปรปรวนของผลรวมคือผลรวมของแนวทแยงมุมของเมทริกซ์ความแปรปรวนร่วม บวกกับสองเท่าของผลรวมขององค์ประกอบสามเหลี่ยมบน (หรือองค์ประกอบสามเหลี่ยมล่าง) ซึ่งเน้นว่าเมทริกซ์ความแปรปรวนร่วมเป็นเมทริกซ์สมมาตร สูตรนี้ใช้ในทฤษฎีของ ค่าสัมประสิทธิ์ อัลฟาของครอนบัคในทฤษฎีการทดสอบแบบคลาสสิก $\operatorname {Cov} (\cdot ,\cdot )$

ดังนั้น ถ้าตัวแปรมีค่าความแปรปรวนเท่ากัน $σ² และ ค่า$ สัมประสิทธิ์สหสัมพันธ์เฉลี่ยของตัวแปรที่แตกต่างกันคือ $ρ$ แล้ว ค่าความแปรปรวนของค่าเฉลี่ยของตัวแปรเหล่านั้นคือ $\operatorname {Var} \left({\overline {X}}\right)={\frac {\sigma ^{2}}{n}}+{\frac {n-1}{n}}\rho \sigma ^{2}.$

นี่หมายความว่าความแปรปรวนของค่าเฉลี่ยจะเพิ่มขึ้นตามค่าเฉลี่ยของความสัมพันธ์ กล่าวอีกนัยหนึ่ง การสังเกตที่มีความสัมพันธ์กันเพิ่มเติมไม่ได้มีประสิทธิภาพเท่ากับการสังเกตที่เป็นอิสระเพิ่มเติมในการลดความไม่แน่นอนของค่าเฉลี่ยยิ่งไปกว่านั้น หากตัวแปรมีความแปรปรวนเป็นหนึ่ง เช่น หากตัวแปรเหล่านั้นได้รับการทำให้เป็นมาตรฐานแล้ว สมการก็จะง่ายขึ้นเป็น $\operatorname {Var} \left({\overline {X}}\right)={\frac {1}{n}}+{\frac {n-1}{n}}\rho .$

สูตรนี้ใช้ในสูตรการทำนายของสเปียร์แมน-บราวน์ในทฤษฎีการทดสอบแบบคลาสสิก สูตรนี้จะลู่เข้าสู่ $ρ$ เมื่อ $n$ เข้าสู่∞ โดยมีเงื่อนไขว่าค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยยังคงที่หรือลู่เข้าด้วย ดังนั้นสำหรับความแปรปรวนของค่าเฉลี่ยของตัวแปรมาตรฐานที่มีค่าสหสัมพันธ์เท่ากันหรือค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยลู่เข้า เราจะได้ $\lim _{n\to \infty }\operatorname {Var} \left({\overline {X}}\right)=\rho .$

ดังนั้น ความแปรปรวนของค่าเฉลี่ยของตัวแปรมาตรฐานจำนวนมากจึงมีค่าโดยประมาณเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ยของตัวแปรเหล่านั้น นี่แสดงให้เห็นอย่างชัดเจนว่าค่าเฉลี่ยตัวอย่างของตัวแปรที่มีความสัมพันธ์กันโดยทั่วไปจะไม่ลู่เข้าสู่ค่าเฉลี่ยของประชากร แม้ว่ากฎของจำนวนมากจะระบุว่าค่าเฉลี่ยตัวอย่างจะลู่เข้าสู่ค่าเฉลี่ยของประชากรสำหรับตัวแปรอิสระก็ตาม

ผลรวมของตัวแปรที่ไม่สัมพันธ์กันโดยมีขนาดตัวอย่างแบบสุ่ม

มีบางกรณีที่ทำการสุ่มตัวอย่างโดยไม่ทราบล่วงหน้าว่าจำนวนการสังเกตที่ยอมรับได้ตามเกณฑ์ใดจะมีจำนวนเท่าใด ในกรณีเช่นนี้ ขนาดตัวอย่าง $N$ ถือเป็นตัวแปรสุ่มที่ความแปรปรวนจะเพิ่มเข้าไปในความแปรปรวนของ $X$ โดยที่^{[ 8 ]} ซึ่งเป็นไปตามกฎของความแปรปรวนรวม $\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\operatorname {E} \left[N\right]\operatorname {Var} (X)+\operatorname {Var} (N)(\operatorname {E} \left[X\right])^{2}$

ถ้า $N$ มีการแจกแจงแบบปัวซงแล้วตัวประมาณค่า $n$ $=$ $N$ ดังนั้น ตัวประมาณค่าของจะกลายเป็น⁠ ⁠ซึ่งให้ผลลัพธ์เป็น (ดูข้อผิดพลาดมาตรฐาน § ข้อผิดพลาดมาตรฐานของค่าเฉลี่ยตัวอย่าง ) $\operatorname {E} [N]=\operatorname {Var} (N)$ $\textstyle \operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)$ $\textstyle n{S_{x}}^{2}+n{\bar {X}}^{2}$ $\textstyle \operatorname {SE} ({\bar {X}})={\sqrt {{({S_{x}}^{2}+{\bar {X}}^{2})}/{n}}}$

ผลรวมถ่วงน้ำหนักของตัวแปร

คุณสมบัติการปรับขนาดและสูตรของ Bienaymé ร่วมกับคุณสมบัติของความแปรปรวนร่วม $Cov(aX, bY) = ab Cov(X, Y)$ บ่งชี้ร่วมกันว่า $\operatorname {Var} (aX\pm bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)\pm 2ab\,\operatorname {Cov} (X,Y).$

นั่นหมายความว่า ในผลรวมถ่วงน้ำหนักของตัวแปร ตัวแปรที่มีน้ำหนักมากที่สุดจะมีน้ำหนักในความแปรปรวนของผลรวมมากกว่าตัวแปรอื่นอย่างไม่สมส่วน ตัวอย่างเช่น ถ้าX และ Y ไม่มีความสัมพันธ์กัน และน้ำหนักของXเป็นสองเท่าของน้ำหนักของYน้ำหนักของความแปรปรวนของXจะเป็นสี่เท่าของน้ำหนักของความแปรปรวนของY

นิพจน์ข้างต้นสามารถขยายไปสู่ผลรวมถ่วงน้ำหนักของตัวแปรหลายตัวได้: $\operatorname {Var} \left(\sum _{i}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i}\sum _{<j\leq n}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})$

ผลคูณของตัวแปร

ผลคูณของตัวแปรอิสระ

ถ้าตัวแปรสองตัว X และ Y เป็นอิสระต่อกันความแปรปรวนของผลคูณของตัวแปรทั้งสองจะกำหนดโดย^{[ 9 ]} $\operatorname {Var} (XY)=[\operatorname {E} (X)]^{2}\operatorname {Var} (Y)+[\operatorname {E} (Y)]^{2}\operatorname {Var} (X)+\operatorname {Var} (X)\operatorname {Var} (Y).$

หรือกล่าวอีกนัยหนึ่ง โดยใช้คุณสมบัติพื้นฐานของค่าคาดหวัง จะได้ว่า $\operatorname {Var} (XY)=\operatorname {E} \left(X^{2}\right)\operatorname {E} \left(Y^{2}\right)-[\operatorname {E} (X)]^{2}[\operatorname {E} (Y)]^{2}.$

ผลคูณของตัวแปรที่ขึ้นต่อกันทางสถิติ

โดยทั่วไป หากตัวแปรสองตัวมีความสัมพันธ์กันทางสถิติ ค่าความแปรปรวนของผลคูณของตัวแปรทั้งสองจะคำนวณได้จากสูตร:

${\begin{aligned}\operatorname {Var} (XY)={}&\operatorname {E} \left[X^{2}Y^{2}\right]-[\operatorname {E} (XY)]^{2}\\[5pt]={}&\operatorname {Cov} \left(X^{2},Y^{2}\right)+\operatorname {E} (X^{2})\operatorname {E} \left(Y^{2}\right)-[\operatorname {E} (XY)]^{2}\\[5pt]={}&\operatorname {Cov} \left(X^{2},Y^{2}\right)+\left(\operatorname {Var} (X)+[\operatorname {E} (X)]^{2}\right)\left(\operatorname {Var} (Y)+[\operatorname {E} (Y)]^{2}\right)\\[5pt]&-[\operatorname {Cov} (X,Y)+\operatorname {E} (X)\operatorname {E} (Y)]^{2}\end{aligned}}$

ฟังก์ชันตามอำเภอใจ

วิธีเดลต้า ใช้ การกระจายอนุกรมเทย์เลอร์อันดับสองเพื่อประมาณค่าความแปรปรวนของฟังก์ชันของตัวแปรสุ่มหนึ่งตัวหรือมากกว่า (ดูการกระจายอนุกรมเทย์เลอร์สำหรับโมเมนต์ของฟังก์ชันของตัวแปรสุ่ม ) ตัวอย่างเช่น ค่าความแปรปรวนโดยประมาณของฟังก์ชันของตัวแปรหนึ่งตัวจะกำหนดโดย โดย ที่ $f$ สามารถหาอนุพันธ์ได้สองครั้ง และค่าเฉลี่ยและความแปรปรวนของ $X$ มีค่าจำกัด $\operatorname {Var} \left[f(X)\right]\approx \left(f'(\operatorname {E} \left[X\right])\right)^{2}\operatorname {Var} \left[X\right]$

ความแปรปรวนของประชากรและความแปรปรวนของตัวอย่าง

การสังเกตการณ์ในโลกแห่งความเป็นจริง เช่น การวัดปริมาณน้ำฝนของเมื่อวานตลอดทั้งวัน โดยทั่วไปแล้วจะไม่สามารถรวบรวมเป็นชุดข้อมูลที่สมบูรณ์ของข้อมูลที่เป็นไปได้ทั้งหมดได้ ดังนั้น ค่าความแปรปรวนที่คำนวณจากชุดข้อมูลที่จำกัดจึงมักจะไม่ตรงกับค่าความแปรปรวนที่คำนวณจากข้อมูลที่เป็นไปได้ทั้งหมด หมายความว่า เราต้องประมาณค่าเฉลี่ยและความแปรปรวนจากชุดข้อมูลที่จำกัดโดยใช้ สมการประมาณค่า สมการประมาณค่านี้เป็นฟังก์ชันของตัวอย่างข้อมูล $n$ รายการที่สุ่มมาโดยปราศจากอคติจากการสังเกตจากประชากร ทั้งหมด ของข้อมูลที่เป็นไปได้ ในตัวอย่างนี้ ตัวอย่างจะเป็นชุดข้อมูลการวัดปริมาณน้ำฝนจริงของเมื่อวานจากเครื่องวัดปริมาณน้ำฝนที่มีอยู่ในพื้นที่ที่สนใจ

ตัวประมาณค่าที่ง่ายที่สุดสำหรับค่าเฉลี่ยและความแปรปรวนของประชากร คือ ค่าเฉลี่ยและความแปรปรวนของตัวอย่าง หรือค่าเฉลี่ยและความแปรปรวนของตัวอย่าง (ที่ยังไม่ได้แก้ไข) – ตัวประมาณค่าเหล่านี้เป็นตัวประมาณค่าที่สอดคล้องกัน (ค่าเหล่านี้จะลู่เข้าสู่ค่าของประชากรทั้งหมดเมื่อจำนวนตัวอย่างเพิ่มขึ้น) แต่สามารถปรับปรุงให้ดีขึ้นได้ วิธีที่ง่ายที่สุดคือ การคำนวณความแปรปรวนของตัวอย่าง โดยการนำผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ย (ของตัวอย่าง) หารด้วย $n$ ซึ่งเป็นจำนวนตัวอย่าง อย่างไรก็ตาม การใช้ค่าอื่นที่ไม่ใช่ $n$ จะช่วยปรับปรุงตัวประมาณค่าในหลายๆ ด้าน ค่าทั่วไปสี่ค่าสำหรับตัวหารคือ $n$ , $n - 1$ , $n + 1$ และ $n - 1.5$ : $n$ เป็นค่าที่ง่ายที่สุด (ความแปรปรวนของตัวอย่าง) $n - 1$ ช่วยขจัดอคติ^{[ 10 ]} $n + 1$ ช่วยลดข้อผิดพลาดกำลังสองเฉลี่ยสำหรับการแจกแจงปกติ^{[ 11 ]}และ $n - 1.5$ ช่วยขจัดอคติในการประมาณค่าเบี่ยงเบนมาตรฐานที่ไม่เอนเอียงสำหรับการแจกแจงปกติ เป็นส่วนใหญ่ ^{[ 12 ]}

ประการแรก หากไม่ทราบค่าเฉลี่ยของประชากรที่แท้จริง ความแปรปรวนของตัวอย่าง (ซึ่งใช้ค่าเฉลี่ยของตัวอย่างแทนค่าเฉลี่ยที่แท้จริง) จะเป็นตัวประมาณค่าที่มีอคติ กล่าวคือ จะประมาณค่าความแปรปรวนต่ำกว่าความเป็นจริงด้วยปัจจัย $(n - 1) / n$ การแก้ไขปัจจัยนี้ ซึ่งส่งผลให้ผลรวมของค่าเบี่ยงเบนกำลังสองรอบค่าเฉลี่ยของตัวอย่างหารด้วย $n - 1$ แทนที่จะเป็น $n$ เรียกว่าการแก้ไขของเบสเซล [ ^{10 ] ตัว}ประมาณค่าที่ได้จะไม่มีอคติและเรียกว่าความแปรปรวนของตัวอย่าง (ที่แก้ไขแล้ว)หรือความแปรปรวนของตัวอย่างที่ไม่มีอคติหากค่าเฉลี่ยถูกกำหนดด้วยวิธีอื่นนอกเหนือจากการใช้ตัวอย่างเดียวกันกับที่ใช้ในการประมาณค่าความแปรปรวน อคตินี้จะไม่เกิดขึ้น และสามารถประมาณค่าความแปรปรวนได้อย่างปลอดภัยโดยใช้ค่าความแปรปรวนของตัวอย่างรอบค่าเฉลี่ย (ที่ทราบโดยอิสระ)

ประการที่สอง ความแปรปรวนของตัวอย่างโดยทั่วไปไม่ได้ลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ยระหว่างความแปรปรวนของตัวอย่างและความแปรปรวนของประชากร การแก้ไขอคติมักจะทำให้สถานการณ์แย่ลง: เราสามารถเลือกตัวประกอบมาตราส่วนที่ทำงานได้ดีกว่าความแปรปรวนของตัวอย่างที่แก้ไขแล้วได้เสมอ แม้ว่าตัวประกอบมาตราส่วนที่เหมาะสมที่สุดจะขึ้นอยู่กับความโค้งส่วนเกินของประชากร (ดูความคลาดเคลื่อนกำลังสองเฉลี่ย § ความแปรปรวน ) และทำให้เกิดอคติ วิธีนี้ประกอบด้วยการปรับขนาดตัวประมาณค่าที่ไม่เอนเอียง (หารด้วยจำนวนที่มากกว่า $n - 1$ ) และเป็นตัวอย่างง่ายๆ ของตัวประมาณค่าแบบหดตัว : เรา "หดตัว" ตัวประมาณค่าที่ไม่เอนเอียงเข้าหาศูนย์ สำหรับการแจกแจงแบบปกติ การหารด้วย $n + 1$ (แทนที่จะเป็น $n - 1$ หรือ $n$ ) จะลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ยให้น้อยที่สุด^{[ 11 ]}อย่างไรก็ตาม ตัวประมาณค่าที่ได้นั้นมีอคติ และเรียกว่าความแปรปรวนของตัวอย่างที่มีอคติ

ความแปรปรวนของประชากร

โดยทั่วไปความแปรปรวนของประชากรที่มีขนาดจำกัด⁠ ⁠โดยมีค่า $x$ $i$ จะกำหนดโดย โดย ที่ค่าเฉลี่ยของประชากรคือและ⁠ ⁠โดยที่คือตัวดำเนินการ ค่าคาดหวัง $N$ ${\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}{\left(x_{i}-\mu \right)}^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\operatorname {E} [x_{i}^{2}]-\mu ^{2},\end{aligned}}$ ${\textstyle \mu =\operatorname {E} [x_{i}]={\frac {1}{N}}\sum _{i=1}^{N}x_{i}}$ $\textstyle \operatorname {E} [x_{i}^{2}]=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)$ ${\textstyle \operatorname {E} }$

ความแปรปรวนของประชากรยังสามารถคำนวณได้โดยใช้^{[ 13 ]} $\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.$

(ด้านขวามีพจน์ซ้ำกันในผลรวม ในขณะที่ด้านตรงกลางมีเฉพาะพจน์ที่ไม่ซ้ำกันเท่านั้น) นี่เป็นความจริงเพราะ ${\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}{\left(x_{i}-x_{j}\right)}^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}.\end{aligned}}$

ความแปรปรวนของประชากรจะตรงกับความแปรปรวนของการกระจายความน่าจะเป็นที่สร้างขึ้น ในแง่นี้ แนวคิดของประชากรสามารถขยายไปสู่ตัวแปรสุ่มต่อเนื่องที่มีประชากรอนันต์ได้

ความแปรปรวนของตัวอย่าง

ความแปรปรวนของตัวอย่างที่มีอคติ

ในสถานการณ์จริงหลายๆ สถานการณ์ ความแปรปรวนที่แท้จริงของประชากรจะไม่เป็นที่ทราบล่วงหน้าและจะต้องคำนวณด้วยวิธีใดวิธีหนึ่ง เมื่อต้องจัดการกับประชากรที่มีขนาดใหญ่มาก การนับวัตถุทุกชิ้นในประชากรเป็นไปไม่ได้ ดังนั้นการคำนวณจะต้องดำเนินการกับตัวอย่างของประชากร^{[ 14 ]}โดยทั่วไปจะเรียกว่าความแปรปรวนของตัวอย่างหรือความแปรปรวนเชิงประจักษ์ความแปรปรวนของตัวอย่างยังสามารถนำไปใช้กับการประมาณค่าความแปรปรวนของการแจกแจงแบบต่อเนื่องจากตัวอย่างของการแจกแจงนั้นได้อีกด้วย

เราสุ่มตัวอย่างแบบแทนที่ค่าY $n$ $1$ $, ...,$ $Y$ $n$ จากประชากรขนาดn โดย $N$ ที่ $n < N$ และประมาณค่าความแปรปรวนบนพื้นฐานของตัวอย่างนี้ $[$ ¹⁵ ] ^การหาค่าความแปรปรวนของข้อมูลตัวอย่างโดยตรงจะให้ค่าเฉลี่ยของค่าเบี่ยงเบนกำลังสอง^: [ ^{16 ] (} ดูส่วน§ ความแปรปรวนของประชากรสำหรับการพิสูจน์สูตรนี้) ในที่นี้หมายถึงค่าเฉลี่ยของตัวอย่าง : ${\tilde {S}}_{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.$ ${\overline {Y}}$ ${\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.$

เนื่องจาก $Y i$ ถูกเลือกแบบสุ่ม ดังนั้นทั้งและจึงเป็นตัวแปรสุ่มค่าเฉลี่ยของตัวแปรเหล่านี้สามารถประเมินได้โดยการหาค่าเฉลี่ยจากกลุ่มตัวอย่างทั้งหมดที่เป็นไปได้ ${$ $Y$ $i$ $}$ ที่มีขนาด⁠ ⁠จากประชากร ซึ่งจะได้ผลลัพธ์ดังนี้: ${\overline {Y}}$ ${\tilde {S}}_{Y}^{2}$ $n$ ${\tilde {S}}_{Y}^{2}$ ${\begin{aligned}\operatorname {E} [{\tilde {S}}_{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}{\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)}^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left(\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\left(\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+\operatorname {E} \left[Y_{i}^{2}\right]\right)+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}$

ในส่วนนี้ได้มาจากความแปรปรวนของประชากรและเนื่องจากความเป็นอิสระของ และ⁠ ⁠ ${\textstyle \sigma ^{2}=\operatorname {E} [Y_{i}^{2}]-\mu ^{2}}$ ${\textstyle \operatorname {E} [Y_{i}Y_{j}]=\operatorname {E} [Y_{i}]\operatorname {E} [Y_{j}]=\mu ^{2}}$ $Y_{i}$ $Y_{j}$

ดังนั้นค่าประมาณของความแปรปรวนของประชากรจึงมีความเอนเอียงเนื่องจากค่าคาดหวังของ มีค่าน้อยกว่าความแปรปรวนของประชากร (ความแปรปรวนที่แท้จริง) ด้วยปัจจัยดังกล่าว ด้วยเหตุนี้จึงเรียกว่าความแปรปรวนของตัวอย่างที่มีความเอนเอียง ${\textstyle {\tilde {S}}_{Y}^{2}}$ ${\textstyle \sigma ^{2}}$ ${\textstyle {\frac {n-1}{n}}}$ ${\textstyle {\tilde {S}}_{Y}^{2}}$ ${\textstyle {\tilde {S}}_{Y}^{2}}$

ความแปรปรวนของตัวอย่างที่ไม่เอนเอียง

การแก้ไขอคตินี้ทำให้ได้ค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงซึ่งแสดงด้วยสัญลักษณ์⁠ ⁠ $S^{2}$ : $S^{2}={\frac {n}{n-1}}{\tilde {S}}_{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}$

ไม่ว่าจะเป็นตัวประมาณค่าใดก็ตาม เราอาจเรียกมันว่าความแปรปรวนของตัวอย่าง ได้ เมื่อสามารถระบุเวอร์ชันได้จากบริบท การพิสูจน์แบบเดียวกันนี้ยังสามารถใช้ได้กับตัวอย่างที่ได้จากการแจกแจงความน่าจะเป็นแบบต่อเนื่องด้วย

การใช้พจน์ $n - 1$ เรียกว่าการแก้ไขของเบสเซล (Bessel's correction ) และยังใช้ในค่าความแปรปรวนร่วมของตัวอย่างและค่าเบี่ยงเบนมาตรฐานของตัวอย่าง (รากที่สองของความแปรปรวน) รากที่สองเป็นฟังก์ชันเว้าดังนั้นจึงทำให้เกิดอคติเชิงลบ (ตามอสมการของเจนเซน ) ซึ่งขึ้นอยู่กับการแจกแจง และด้วยเหตุนี้ ค่าเบี่ยงเบนมาตรฐานของตัวอย่างที่แก้ไขแล้ว (โดยใช้การแก้ไขของเบสเซล) จึงมีอคติการประมาณค่าเบี่ยงเบนมาตรฐานที่ไม่เอนเอียงเป็นปัญหาที่ซับซ้อนทางเทคนิค แม้ว่าสำหรับการแจกแจงแบบปกติ การใช้พจน์ $n - 1.5$ จะให้ค่าประมาณที่ไม่เอนเอียงเกือบทั้งหมด

ความแปรปรวนของตัวอย่างที่ไม่เอนเอียงคือค่าสถิติ Uสำหรับฟังก์ชัน $f (y 1, y 2) = (y 1 - y 2) 2 /2$ ซึ่งหมายความว่าได้มาจากการหาค่าเฉลี่ยของสถิติ 2 ตัวอย่างเหนือเซตย่อย 2 องค์ประกอบของประชากร

ตัวอย่าง

สำหรับชุดตัวเลข {10, 15, 30, 45, 57, 52, 63, 72, 81, 93, 102, 105} ถ้าชุดตัวเลขนี้เป็นข้อมูลทั้งหมดของประชากรสำหรับการวัดบางอย่าง ค่าความแปรปรวนจะเป็นค่าความแปรปรวนของประชากร 932.743 ซึ่งคำนวณจากผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ยของชุดตัวเลขนี้ หารด้วย 12 ซึ่งเป็นจำนวนสมาชิกของชุดตัวเลขนั้น แต่ถ้าชุดตัวเลขนี้เป็นตัวอย่างจากประชากรทั้งหมด ค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงสามารถคำนวณได้เป็น 1017.538 ซึ่งคำนวณจากผลรวมของกำลังสองของส่วนเบี่ยงเบนจากค่าเฉลี่ยของตัวอย่าง หารด้วย 11 แทนที่จะเป็น 12 ฟังก์ชัน VAR.S ในMicrosoft Excelใช้สำหรับคำนวณค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ในขณะที่ VAR.P ใช้สำหรับคำนวณค่าความแปรปรวนของประชากร

การกระจายตัวของความแปรปรวนของตัวอย่าง

การแจกแจงและการแจกแจงสะสมของS ² /σ ²สำหรับค่าต่างๆ ของν = n − 1 เมื่อy _iมีการแจกแจงแบบปกติที่เป็นอิสระต่อกัน

เนื่องจากเป็นฟังก์ชันของตัวแปรสุ่มความแปรปรวนของตัวอย่างจึงเป็นตัวแปรสุ่มเช่นกัน และเป็นเรื่องปกติที่จะศึกษาการกระจายของมัน ในกรณีที่Y _iเป็นการสังเกตที่เป็นอิสระจากการกระจายแบบปกติทฤษฎีบทของ Cochranแสดงให้เห็นว่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียงS ²เป็นไปตามการกระจายไคกำลังสองแบบ ปรับขนาด (ดูเพิ่มเติม: คุณสมบัติเชิงอะซิมโทติกและการพิสูจน์เบื้องต้น ): ^{[ 17 ]} โดยที่ $σ$ $2$ คือความแปรปรวนของประชากรผลที่ตามมาโดยตรงคือ และ^[¹⁸^] $(n-1){\frac {S^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2},$ $\operatorname {E} \left(S^{2}\right)=\operatorname {E} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)=\sigma ^{2},$ $\operatorname {Var} \left[S^{2}\right]=\operatorname {Var} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)={\frac {\sigma ^{4}}{{\left(n-1\right)}^{2}}}\operatorname {Var} \left(\chi _{n-1}^{2}\right)={\frac {2\sigma ^{4}}{n-1}}.$

ถ้า $Y i$ เป็นอิสระและมีการกระจายเหมือนกัน แต่ไม่จำเป็นต้องกระจายแบบปกติ^{[ 19 ]} โดยที่κคือค่าความโค้งของการกระจาย และ $μ$ $4$ คือโมเมนต์กลางลำดับ ที่ สี่ $\operatorname {E} \left[S^{2}\right]=\sigma ^{2};\quad \operatorname {Var} \left[S^{2}\right]={\frac {\sigma ^{4}}{n}}\left(\kappa -1+{\frac {2}{n-1}}\right)={\frac {1}{n}}\left(\mu _{4}-{\frac {n-3}{n-1}}\sigma ^{4}\right),$

ถ้าเงื่อนไขของกฎของจำนวนมากเป็นจริงสำหรับการสังเกตยกกำลังสอง $S 2$ จะเป็นตัวประมาณค่าที่สอดคล้องกันของ $σ 2$ เราสามารถเห็นได้ว่าความแปรปรวนของตัวประมาณค่ามีแนวโน้มเข้าใกล้ศูนย์ในเชิงอะซิมโทติก สูตรที่เทียบเท่าในเชิงอะซิมโทติกได้รับการระบุไว้ใน Kenney และ Keeping (1951:164), Rose และ Smith (2002:264) และ Weisstein (nd) ^{[ 20 ]}^{[ 21 ]}^{[ 22 ]}

ความไม่เท่าเทียมกันของซามูเอลสัน

อสมการของ Samuelsonเป็นผลลัพธ์ที่ระบุขอบเขตของค่าที่การสังเกตแต่ละรายการในตัวอย่างสามารถรับได้ โดยที่ค่าเฉลี่ยของตัวอย่างและความแปรปรวน (ที่เอนเอียง) ได้รับการคำนวณแล้ว[ ^{23 ] ค่า}ต้องอยู่ภายในขอบเขต⁠ ⁠ ${\bar {y}}\pm \sigma _{Y}(n-1)^{1/2}$

ผลกระทบของการเพิ่มข้อมูลสังเกตการณ์หนึ่งรายการต่อความแปรปรวน

เมื่อมีการเพิ่มการสังเกตใหม่เพียงครั้งเดียวลงในชุดการสังเกตที่มีค่าเฉลี่ยและความแปรปรวนความแปรปรวนใหม่สามารถแสดงได้โดยใช้สูตรการปรับปรุงแบบวนซ้ำ โดยอิงจากเอกลักษณ์สำหรับผลรวมของกำลังสองที่จัดทำโดย Chan et al. (1983) ^[²⁴^] : $x_{n+1}$ $n$ ${\bar {x}}_{n}$ $s_{n}^{2}$ $s_{n+1}^{2}$

ns_{n+1}^{2}=(n-1)s_{n}^{2}+{\frac {n}{n+1}}(x_{n+1}-{\bar {x}}_{n})^{2}

จากความสัมพันธ์นี้ ผลกระทบของการสังเกตใหม่ต่อความแปรปรวนขึ้นอยู่กับระยะห่างจากค่าเฉลี่ยปัจจุบัน ถ้าความแปรปรวนจะคงที่ดังนั้น ถ้าการสังเกตใหม่ใกล้กับค่าเฉลี่ยมากขึ้น ( ) ความแปรปรวนจะลดลง และถ้าอยู่ห่างจากค่าเฉลี่ยมากขึ้น ( ) ความแปรปรวนจะเพิ่มขึ้น $x_{n+1}={\bar {x}}_{n}\pm s_{n}{\sqrt {\frac {n+1}{n}}}$ $|x_{n+1}|<{\bar {x}}_{n}+s_{n}{\sqrt {\frac {n+1}{n}}}$ $|x_{n+1}|>{\bar {x}}_{n}+s_{n}{\sqrt {\frac {n+1}{n}}}$

[การพิสูจน์]

การหาค่าความแปรปรวนของตัวอย่าง

โดยใช้สูตรการปรับปรุงสำหรับผลรวมของกำลังสอง ( ): $SS$

SS_{n+1}=SS_{n}+{\frac {n}{n+1}}(x_{n+1}-{\bar {x}}_{n})^{2}

แทนที่ความสัมพันธ์สำหรับความแปรปรวนของตัวอย่าง ( ): $SS=(n-1)s^{2}$

ns_{n+1}^{2}=(n-1)s_{n}^{2}+{\frac {n}{n+1}}(x_{n+1}-{\bar {x}}_{n})^{2}

การตั้งค่า: $s_{n+1}^{2}=s_{n}^{2}$

ns_{n}^{2}=(n-1)s_{n}^{2}+{\frac {n}{n+1}}(x_{n+1}-{\bar {x}}_{n})^{2}

s_{n}^{2}={\frac {n}{n+1}}(x_{n+1}-{\bar {x}}_{n})^{2}

การคำนวณหาผลผลิต: $x_{n+1}$

x_{n+1}={\bar {x}}_{n}\pm s_{n}{\sqrt {\frac {n+1}{n}}}

การหาค่าความแปรปรวนของประชากร

สำหรับความแปรปรวนของประชากร ( ) สูตรการปรับปรุงคือ: $\sigma ^{2}={\frac {SS}{n}}$

(n+1)\sigma _{n+1}^{2}=n\sigma _{n}^{2}+{\frac {n}{n+1}}(x_{n+1}-\mu _{n})^{2}

การตั้งค่า: $\sigma _{n+1}^{2}=\sigma _{n}^{2}$

(n+1)\sigma _{n}^{2}=n\sigma _{n}^{2}+{\frac {n}{n+1}}(x_{n+1}-\mu _{n})^{2}

\sigma _{n}^{2}={\frac {n}{n+1}}(x_{n+1}-\mu _{n})^{2}

การคำนวณหาผลผลิต: $x_{n+1}$

x_{n+1}=\mu _{n}\pm \sigma _{n}{\sqrt {\frac {n+1}{n}}}

ความสัมพันธ์กับค่าเฉลี่ยฮาร์มอนิกและค่าเฉลี่ยเลขคณิต

ได้มีการแสดงให้เห็นแล้ว^{[ 25 ]}ว่าสำหรับตัวอย่าง ${y i}$ ของจำนวนจริงบวก โดยที่ $y$ $max$ คือค่าสูงสุดของตัวอย่าง⁠ ⁠คือค่าเฉลี่ยเลขคณิต⁠ ⁠คือค่าเฉลี่ยฮาร์มอนิกของตัวอย่าง และคือความแปรปรวน (ที่เอนเอียง) ของตัวอย่าง $\sigma _{y}^{2}\leq 2y_{\max }(A-H),$ $A$ $H$ $\sigma _{y}^{2}$

ขอบเขตนี้ได้รับการปรับปรุงแล้ว และเป็นที่ทราบกันว่าความแปรปรวนมีขอบเขตจำกัดโดย ที่ $y$ $min$ คือค่าต่ำสุดของตัวอย่าง^[²⁶^] ${\begin{aligned}\sigma _{y}^{2}&\leq {\frac {y_{\max }(A-H)(y_{\max }-A)}{y_{\max }-H}},\\[1ex]\sigma _{y}^{2}&\geq {\frac {y_{\min }(A-H)(A-y_{\min })}{H-y_{\min }}},\end{aligned}}$

การทดสอบความเท่าเทียมกันของความแปรปรวน

การทดสอบ F เพื่อตรวจสอบความเท่าเทียมกันของความแปรปรวนและการทดสอบไคสแควร์นั้นเหมาะสมเมื่อตัวอย่างมีการกระจายแบบปกติ แต่หากตัวอย่างไม่ได้มีการกระจายแบบปกติ การทดสอบความเท่าเทียมกันของความแปรปรวนสองค่าขึ้นไปก็จะทำได้ยากขึ้น

มีการเสนอการทดสอบแบบไม่ใช้พารามิเตอร์หลายวิธี ได้แก่ การทดสอบ Barton–David–Ansari–Freund–Siegel–Tukey, การทดสอบ Capon , การทดสอบ Mood , การทดสอบ Klotzและการทดสอบ Sukhatmeการทดสอบ Sukhatme ใช้ได้กับความแปรปรวนสองค่าและต้อง ทราบ ค่ามัธยฐาน ทั้งสอง และต้องเท่ากับศูนย์ การทดสอบ Mood, Klotz, Capon และ Barton–David–Ansari–Freund–Siegel–Tukey ก็ใช้ได้กับความแปรปรวนสองค่าเช่นกัน การทดสอบเหล่านี้อนุญาตให้ไม่ทราบค่ามัธยฐาน แต่ต้องมีค่ามัธยฐานทั้งสองเท่ากัน

การทดสอบเลห์มันน์ (Lehmann test)เป็นการทดสอบพาราเมตริกสำหรับความแปรปรวนสองค่า การทดสอบนี้มีหลายรูปแบบที่รู้จักกันดี การทดสอบความเท่าเทียมกันของความแปรปรวนอื่นๆ ได้แก่ การทดสอบบ็อกซ์ (Box test) การทดสอบ บ็อกซ์-แอนเดอร์สัน ( Box–Anderson test)และการทดสอบโมเสส (Moses test )

วิธีการสุ่มตัวอย่างซ้ำ ซึ่งรวมถึงบูตสแตรปและแจ็กไนฟ์อาจใช้เพื่อทดสอบความเท่าเทียมกันของความแปรปรวน

โมเมนต์ความเฉื่อย

ความแปรปรวนของการกระจายความน่าจะเป็นนั้นคล้ายคลึงกับ โมเมนต์ความเฉื่อยในกลศาสตร์คลาสสิกของการกระจายมวลที่สอดคล้องกันตามแนวเส้นตรง โดยสัมพันธ์กับการหมุนรอบจุดศูนย์กลางมวล^{[ 27 ]} ด้วยเหตุผลของความคล้ายคลึงนี้เองที่สิ่งต่างๆ เช่น ความแปรปรวน จึงถูกเรียกว่าโมเมนต์ของการกระจายความน่าจะเป็น [ ^{27 ] เมท}ริกซ์ความแปรปรวนร่วมมีความสัมพันธ์กับเทนเซอร์โมเมนต์ความเฉื่อยสำหรับการกระจายแบบหลายตัวแปร โมเมนต์ความเฉื่อยของกลุ่มจุดnจุดที่มีเมทริกซ์ความแปรปรวนร่วมเท่ากับ จะได้รับจาก $\Sigma$ $I=n\left(\mathbf {1} _{3\times 3}\operatorname {tr} (\Sigma )-\Sigma \right).$

ความแตกต่างระหว่างโมเมนต์ความเฉื่อยในทางฟิสิกส์และในทางสถิติจะเห็นได้ชัดเจนสำหรับจุดที่กระจุกตัวอยู่ตามแนวเส้นตรง สมมติว่ามีจุดจำนวนมากอยู่ใกล้ แกน xและกระจายตัวอยู่ตามแนวแกนนั้น เมทริกซ์ความแปรปรวนร่วมอาจมีลักษณะดังนี้ $\Sigma ={\begin{bmatrix}10&0&0\\0&0.1&0\\0&0&0.1\end{bmatrix}}.$

กล่าวคือ ความแปรปรวนมากที่สุดใน ทิศทาง xนักฟิสิกส์จะพิจารณาว่าสิ่งนี้มีโมเมนต์ต่ำรอบแกนxดังนั้นเทนเซอร์โมเมนต์ความเฉื่อยจึงเป็น $I=n{\begin{bmatrix}0.2&0&0\\0&10.1&0\\0&0&10.1\end{bmatrix}}.$

เซมิแวเรียนซ์

ค่าเซมิแวเรียนซ์คำนวณในลักษณะเดียวกับค่าแวเรียนซ์ แต่จะรวมเฉพาะข้อมูลสังเกตการณ์ที่ต่ำกว่าค่าเฉลี่ยในการคำนวณเท่านั้น นอกจากนี้ยังอธิบายว่าเป็นมาตรวัดเฉพาะในสาขาการประยุกต์ใช้ที่แตกต่างกัน สำหรับการกระจายแบบเบ้ ค่าเซมิแวเรียนซ์สามารถให้ข้อมูลเพิ่มเติมที่ค่าแวเรียนซ์ไม่มี^[²⁸^] ${\text{Semivariance}}={\frac {1}{n}}\sum _{i:x_{i}<\mu }{\left(x_{i}-\mu \right)}^{2}$

สำหรับอสมการที่เกี่ยวข้องกับเซมิแวเรียนซ์ โปรดดูอสมการของเชบิเชฟในหัวข้อ § เซมิแวเรียนซ์

นิรุกติศาสตร์

คำว่าความแปรปรวนได้รับการแนะนำครั้งแรกโดยRonald Fisherในบทความของเขาในปี พ.ศ. 2461 เรื่อง ความสัมพันธ์ระหว่างญาติโดยอาศัยสมมติฐานของการถ่ายทอดทางพันธุกรรมแบบเมนเดล : ^{[ 29 ]}

สถิติจำนวนมากที่มีอยู่แสดงให้เห็นว่า ความคลาดเคลื่อนของการวัดของมนุษย์จากค่าเฉลี่ยเป็นไปตามกฎความคลาดเคลื่อนปกติ อย่างใกล้ชิด และด้วยเหตุนี้ ความแปรปรวนจึงสามารถวัดได้อย่างสม่ำเสมอโดยใช้ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรากที่สองของค่าความคลาดเคลื่อนกำลังสองเฉลี่ย เมื่อมีสาเหตุอิสระสองประการของความแปรปรวนที่สามารถสร้างการกระจายในประชากรที่สม่ำเสมอโดยมีค่าเบี่ยงเบนมาตรฐาน σ และσ พบว่าการกระจายเมื่อสาเหตุทั้งสองกระทำร่วมกันจะมีค่าเบี่ยงเบนมาตรฐานσ ดังนั้น ในการวิเคราะห์สาเหตุของความแปรปรวน จึงควรใช้กำลังสองของค่าเบี่ยงเบนมาตรฐานเป็นตัววัดความแปรปรวน เราจะเรียกปริมาณนี้ว่า ความแปรปรวน... $\sigma _{1}$ $\sigma _{2}$ ${\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}$

การสรุปโดยทั่วไป

สำหรับตัวแปรเชิงซ้อน

ถ้าเป็น ตัวแปรสุ่มเชิงซ้อน แบบ สเกลาร์ ที่มีค่าอยู่ใน⁠ ⁠แล้วค่าความแปรปรวนของมันคือ⁠ ⁠โดยที่คือ ค่า สังยุคเชิงซ้อนของ⁠ ⁠ค่าความแปรปรวนนี้เป็นค่าสเกลาร์จริง $x$ $\mathbb {C}$ $\operatorname {E} \left[(x-\mu )(x-\mu )^{*}\right]$ $x^{*}$ $x$

สำหรับตัวแปรสุ่มที่มีค่าเป็นเวกเตอร์

ในฐานะเมทริกซ์

ถ้าเป็นตัวแปรสุ่มเวกเตอร์ ที่มีค่าอยู่ใน และถือว่าเป็นเวกเตอร์คอลัมน์ การขยายความทั่วไปตามธรรมชาติของความแปรปรวนคือโดยที่และคือเมทริกซ์สลับแถวและคอลัมน์ของ และ ดังนั้น จึงเป็นเวกเตอร์แถว ผลลัพธ์ ที่ได้คือ เมทริกซ์จัตุรัสบวกกึ่งกำหนดซึ่งโดยทั่วไปเรียกว่าเมทริกซ์ความแปรปรวนร่วม (หรือเรียกง่ายๆ ว่าเมทริกซ์ความแปรปรวนร่วม ) $X$ $\mathbb {R} ^{n},$ $\operatorname {E} \left[(X-\mu ){(X-\mu )}^{\mathsf {T}}\right],$ $\mu =\operatorname {E} (X)$ $X^{\mathsf {T}}$ $X$

ถ้าเป็นตัวแปรสุ่มแบบเวกเตอร์และมีค่าเป็นจำนวนเชิงซ้อน โดยมีค่าอยู่ใน⁠ ⁠แล้วเมทริกซ์ความแปรปรวนร่วมคือ⁠ ⁠โดยที่คือ เมทริกซ์ สลับเปลี่ยนเชิงสังยุคของ⁠ ⁠เมทริกซ์นี้ยังเป็นเมทริกซ์บวกกึ่งกำหนดและเป็นเมทริกซ์จัตุรัสอีกด้วย $X$ $\mathbb {C} ^{n}$ $\operatorname {E} \left[(X-\mu ){(X-\mu )}^{\dagger }\right]$ $X^{\dagger }$ $X$

ในฐานะสเกลาร์

อีกหนึ่งการวางนัยทั่วไปของความแปรปรวนสำหรับตัวแปรสุ่มที่มีค่าเป็นเวกเตอร์ซึ่งส่งผลให้ได้ค่าสเกลาร์แทนที่จะเป็นเมทริกซ์ คือความแปรปรวนทั่วไปซึ่งเป็นดีเทอร์มิแนนต์ของเมทริกซ์ความแปรปรวนร่วม ความแปรปรวนทั่วไปสามารถแสดงให้เห็นว่าเกี่ยวข้องกับการกระจายแบบหลายมิติของจุดรอบค่าเฉลี่ย^[³⁰^] $X,$ $\det(C)$

การสรุปทั่วไปที่แตกต่างออกไปได้มาจากการพิจารณาสมการสำหรับความแปรปรวนแบบสเกลาร์และตีความใหม่ ว่าเป็น ระยะทางยุคลิดกำลังสองระหว่างตัวแปรสุ่มกับค่าเฉลี่ย หรือกล่าวอีกนัยหนึ่งคือผลคูณสเกลาร์ของเวกเตอร์กับตัวมันเอง ซึ่งจะได้ผลลัพธ์เป็น โดยที่ คือร่องรอยของเมทริกซ์ความแปรปรวนร่วม $\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right],$ $(X-\mu )^{2}$ $X-\mu$ $\operatorname {E} \left[(X-\mu )^{\mathsf {T}}(X-\mu )\right]=\operatorname {tr} (C),$

ดูเพิ่มเติม

ความไม่เท่าเทียมกันของ Bhatia–Davis
สัมประสิทธิ์ความแปรผัน
ความแปรปรวนคงที่
การวิเคราะห์สเปกตรัมแบบกำลังสองน้อยที่สุดใช้สำหรับการคำนวณสเปกตรัมความถี่โดยแสดงค่าความเข้มสเปกตรัมเป็นเปอร์เซ็นต์ของความแปรปรวนหรือเป็นเดซิเบล
ทฤษฎีพอร์ตโฟลิโอสมัยใหม่
ความไม่เท่าเทียมกันของ Popoviciu เกี่ยวกับความแปรปรวน
มาตรการสำหรับการกระจายทางสถิติ
การแปลงที่ทำให้ความแปรปรวนคงที่

ประเภทของความแปรปรวน

ด้วย

[

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

15

16 ] (

[ 17 ]

[

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

23 ] ค่า

[

[ 25 ]

[

[ 27 ]

[

[ 29 ]

[

ความแปรปรวน

คำนิยาม

ตัวแปรสุ่มแบบไม่ต่อเนื่อง

ตัวแปรสุ่มต่อเนื่องอย่างสมบูรณ์

ตัวอย่าง

การแจกแจงแบบเอกซ์โปเนนเชียล

ยุติธรรมแล้ว

การแจกแจงความน่าจะเป็นที่ใช้กันทั่วไป

คุณสมบัติ

คุณสมบัติพื้นฐาน

ประเด็นเรื่องความจำกัด

การสลายตัว

การคำนวณจาก CDF

คุณสมบัติเฉพาะ

หน่วยวัด

การขยายพันธุ์

การบวกและการคูณด้วยค่าคงที่

การรวมเชิงเส้น

สัญลักษณ์เมทริกซ์สำหรับความแปรปรวนของผลรวมเชิงเส้น

ผลรวมของตัวแปร

ผลรวมของตัวแปรที่ไม่สัมพันธ์กัน

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน

ผลรวมของตัวแปรที่มีความสัมพันธ์กัน โดยมีขนาดตัวอย่างคงที่

ผลรวมของตัวแปรที่ไม่สัมพันธ์กันโดยมีขนาดตัวอย่างแบบสุ่ม

ผลรวมถ่วงน้ำหนักของตัวแปร

ผลคูณของตัวแปร

ผลคูณของตัวแปรอิสระ

ผลคูณของตัวแปรที่ขึ้นต่อกันทางสถิติ

ฟังก์ชันตามอำเภอใจ

ความแปรปรวนของประชากรและความแปรปรวนของตัวอย่าง

ความแปรปรวนของประชากร

ความแปรปรวนของตัวอย่าง

ความแปรปรวนของตัวอย่างที่มีอคติ

ความแปรปรวนของตัวอย่างที่ไม่เอนเอียง

ตัวอย่าง

การกระจายตัวของความแปรปรวนของตัวอย่าง

ความไม่เท่าเทียมกันของซามูเอลสัน

ผลกระทบของการเพิ่มข้อมูลสังเกตการณ์หนึ่งรายการต่อความแปรปรวน

ความสัมพันธ์กับค่าเฉลี่ยฮาร์มอนิกและค่าเฉลี่ยเลขคณิต

การทดสอบความเท่าเทียมกันของความแปรปรวน

โมเมนต์ความเฉื่อย

เซมิแวเรียนซ์

นิรุกติศาสตร์

การสรุปโดยทั่วไป

สำหรับตัวแปรเชิงซ้อน

สำหรับตัวแปรสุ่มที่มีค่าเป็นเวกเตอร์

ในฐานะเมทริกซ์

ในฐานะสเกลาร์

ดูเพิ่มเติม

ประเภทของความแปรปรวน

ข้อมูลสำคัญจากบทความ