ฟังก์ชันการกระจายเชิงประจักษ์

Q: ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันการกระจายเชิงประจักษ์

ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง

Q: ช่วงความเชื่อมั่น

ตาม อสมการของ Dvoretzky–Kiefer–Wolfowitz ช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้ F ( x ) {\displaystyle F(x)} 1 − α {\displaystyle 1-\alpha }

เส้นโค้งสีเขียวซึ่งเข้าใกล้ค่า 0 และ 1 อย่างไม่สิ้นสุดโดยไม่ถึงค่าเหล่านั้น คือฟังก์ชันการกระจายสะสมที่ แท้จริง ของการแจกแจงปกติมาตรฐานขีดสีเทาแสดงถึงค่าสังเกตในตัวอย่าง เฉพาะ ที่สุ่มมาจากการแจกแจงนั้น และขั้นแนวนอนของฟังก์ชันขั้นสีน้ำเงิน (รวมจุดซ้ายสุดในแต่ละขั้น แต่ไม่รวมจุดขวาสุด) ก่อให้เกิดฟังก์ชันการกระจายเชิงประจักษ์ของตัวอย่างนั้น ()

ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) ^{คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง [ 1 ]}ฟังก์ชันการกระจายสะสมนี้เป็นฟังก์ชันขั้น^{บันได}^ที่กระโดดขึ้น 1 / nที่ $จุด$ $ข้อมูล$ n จุดแต่ละจุด $ค่า$ ของฟังก์ชันนี้ที่ค่าที่กำหนดของตัวแปรที่วัดได้คือเศษส่วนของการสังเกตของตัวแปรที่วัดได้ซึ่งน้อยกว่าหรือเท่ากับค่าที่กำหนด

ฟังก์ชันการแจกแจงเชิงประจักษ์เป็นการประมาณค่าของฟังก์ชันการแจกแจงสะสมที่สร้างจุดต่างๆ ในตัวอย่าง โดยจะลู่เข้าสู่การแจกแจงพื้นฐานนั้นด้วยความน่าจะเป็น 1 ตามทฤษฎีบทของ Glivenko–Cantelliมีผลลัพธ์หลายอย่างที่ใช้ในการหาปริมาณอัตราการลู่เข้าของฟังก์ชันการแจกแจงเชิงประจักษ์ไปยังฟังก์ชันการแจกแจงสะสมพื้นฐาน การประมาณค่าเชิงประจักษ์อย่างง่ายคือการแจกแจง ความถี่

คำนิยาม

ให้ $(X 1, \dots, X n)$ เป็นตัวแปรสุ่มจริงที่เป็นอิสระและมีการกระจายเหมือนกัน โดยมี ฟังก์ชันการกระจายสะสม ร่วมกันคือ $F (t)$ จากนั้นฟังก์ชันการกระจายเชิงประจักษ์จะถูกกำหนดเป็น^{[ 2 ]} โดยที่เป็นตัวบ่งชี้ของเหตุการณ์ $A$ สำหรับ $t$ ที่กำหนด ตัวบ่งชี้เป็นตัวแปรสุ่มเบอร์นูลีที่มีพารามิเตอร์ $p$ $=$ $F$ $($ $t$ $)$ ดังนั้นเป็นตัวแปรสุ่มทวินามที่มีค่าเฉลี่ย $nF$ $($ $t$ $)$ และความแปรปรวน $nF$ $($ $t$ $)(1 -$ $F$ $($ $t$ $))$ ซึ่ง หมายความว่าเป็น ตัวประมาณ ที่ไม่เอนเอียงสำหรับ $F$ $($ $t$ $)$ ${\widehat {F}}_{n}(t)={\frac {{\text{จำนวนองค์ประกอบในตัวอย่าง}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},$ $\mathbf {1} _{A}$ $\mathbf {1} _{X_{i}\leq t}$ $n{\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)$

ในตำราเรียนบางเล่ม ฟังก์ชันการกระจายเชิงประจักษ์ถูกกำหนดไว้ดังนี้^{[ 3 ]}^{[ 4 ]} อย่างไรก็ตาม เนื่องจากอัตราส่วน $($ $n$ $+ 1)/$ $n$ เข้าใกล้ 1 เมื่อ $n$ เข้าสู่อนันต์ คุณสมบัติเชิงอะซิมโทติกของคำจำกัดความทั้งสองจึงเหมือนกัน ${\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}$

คุณสมบัติเชิงอะซิมโทติก

ตามกฎจำนวนมากที่เข้มงวดตัวประมาณจะลู่เข้าสู่ $F$ $($ $t$ $)$ เมื่อ $n$ $\to \infty$ เกือบแน่นอนสำหรับทุกค่าของ $t$ : ^[²^] ดังนั้นตัวประมาณจึงสอดคล้องกันนิพจน์นี้ยืนยันการลู่เข้าแบบจุดต่อจุดของฟังก์ชันการกระจายเชิงประจักษ์ไปยังฟังก์ชันการกระจายสะสมที่แท้จริง มีผลลัพธ์ที่แข็งแกร่งกว่าที่เรียกว่าทฤษฎีบท Glivenko–Cantelliซึ่งระบุว่าการลู่เข้าเกิดขึ้นอย่างสม่ำเสมอเหนือ $t$ : ^[⁵^] นอร์มสูงสุดในนิพจน์นี้เรียกว่าสถิติ Kolmogorov–Smirnovสำหรับการทดสอบความเหมาะสมระหว่างการกระจายเชิงประจักษ์และฟังก์ชันการกระจายสะสมที่แท้จริงที่สมมติขึ้น $F$ ฟังก์ชันนอร์มอื่น ๆอาจใช้ได้อย่างเหมาะสมที่นี่แทนนอร์มสูงสุด ตัวอย่างเช่น^{นอร์ม} L2 ก่อให้เกิดสถิติ Cramér–von Mises ${\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)\ {\xrightarrow {\text{as}}}\ F(t);$ ${\widehat {F}}_{n}(t)$ $\left\|{\widehat {F}}_{n}-F\right\|_{\infty }\equiv \sup _{t\in \mathbb {R} }\left|{\widehat {F}}_{n}(t)-F(t)\right|\xrightarrow {} \ 0.$ ${\textstyle {\widehat {F}}_{n}(t)}$

การกระจายแบบอะซิมโทติกสามารถอธิบายลักษณะเพิ่มเติมได้หลายวิธี ประการแรก ทฤษฎีบทขีดจำกัดกลางระบุว่าจุดต่อจุดมีการกระจายแบบปกติอะซิมโทติกด้วยอัตราการล convergence มาตรฐาน: ^[²^] ผลลัพธ์นี้ได้รับการขยายโดยทฤษฎีบทของดอนสเกอร์ซึ่งยืนยันว่ากระบวนการเชิงประจักษ์เมื่อมองว่าเป็นฟังก์ชันที่มีดัชนีโดย จะลู่เข้าในการกระจายในปริภูมิสโกโรค็อด ไปยัง กระบวนการเกาส์ เซียน ที่มีค่าเฉลี่ยเป็นศูนย์โดยที่ $B$ คือสะพานบราวน์มาตรฐาน^[⁵^]โครงสร้างความแปรปรวนร่วมของกระบวนการเกาส์เซียนนี้คือ อัตราการลู่เข้าแบบสม่ำเสมอในทฤษฎีบทของดอนสเกอร์สามารถวัดปริมาณได้ด้วยผลลัพธ์ที่เรียกว่าการฝังแบบฮังการี : ^[⁶^] ${\textstyle {\widehat {F}}_{n}(t)}$ ${\textstyle {\sqrt {n}}}$ ${\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.$ ${\textstyle {\sqrt {n}}({\widehat {F}}_{n}-F)}$ ${\textstyle t\in \mathbb {R} }$ $D[-\infty ,+\infty ]$ ${\textstyle G_{F}=B\circ F}$ $\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).$ $\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}\left\|{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}\right\|_{\infty }<\infty ,\quad {\text{a.s.}}$

อีกทางเลือกหนึ่ง อัตราการลู่เข้าของสามารถวัดปริมาณได้ในแง่ของพฤติกรรมเชิงอะซิมโทติกของนอร์มสูงสุดของนิพจน์นี้ มีผลลัพธ์จำนวนมากในเรื่องนี้ ตัวอย่างเช่นอสมการ Dvoretzky–Kiefer–Wolfowitzให้ขอบเขตของความน่าจะเป็นส่วนหางของ: ^[⁶^] ในความเป็นจริง Kolmogorov ได้แสดงให้เห็นว่าหากฟังก์ชันการกระจายสะสม $F$ มีความต่อเนื่อง นิพจน์จะลู่เข้าในการกระจายไปยังซึ่งมีการกระจาย Kolmogorovที่ไม่ขึ้นอยู่กับรูปแบบของ $F$ ${\sqrt {n}}({\widehat {F}}_{n}-F)$ ${\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }}$ $\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.$ ${\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }}$ ${\textstyle \left\|B\right\|_{\infty }}$

ผลลัพธ์อีกประการหนึ่งซึ่งเป็นผลมาจากกฎของลอการิทึมแบบวนซ้ำคือ^{[ 6 ]} และ $\limsup _{n\to \infty }{\sqrt {\frac {n}{2\ln \ln n}}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }\leq {\frac {1}{2}},\quad {\text{a.s.}}$ $\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}$

ช่วงความเชื่อมั่น

ตามอสมการของ Dvoretzky–Kiefer–Wolfowitzช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้ $F(x)$ $1-\alpha$

$F_{n}(x){-}\varepsilon \leq F(x)\leq F_{n}(x){+}\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.$

ตามขอบเขตข้างต้น เราสามารถสร้างกราฟ CDF เชิงประจักษ์ CDF และช่วงความเชื่อมั่นสำหรับชุดข้อมูลต่างๆ โดยใช้การดำเนินการทางสถิติแบบใดแบบหนึ่งก็ได้

การนำไปใช้ทางสถิติ

ตัวอย่างโปรแกรมที่ใช้ฟังก์ชันการแจกแจงเชิงประจักษ์ (Empirical Distribution Function) มีดังต่อไปนี้ (แต่ไม่ครบถ้วนสมบูรณ์):

ในซอฟต์แวร์ Rเราคำนวณฟังก์ชันการกระจายสะสมเชิงประจักษ์ โดยมีวิธีการต่างๆ สำหรับการพล็อต การพิมพ์ และการคำนวณด้วยออบเจ็กต์ "ecdf" ดังกล่าว
ในGNU OctaveหรือMATLABเราสามารถใช้กราฟฟังก์ชันการกระจายสะสมเชิงประจักษ์ (cdf) ได้
คำสั่ง jmp จาก SASจะสร้างกราฟแสดงฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Cumulative Distribution Function: CDF plot)
Minitabสร้างฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Empirical CDF)
Mathwaveช่วยให้เราสามารถปรับการแจกแจงความน่าจะเป็นให้เข้ากับข้อมูลของเราได้
Dataplotเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
ใน Scipyเราสามารถใช้ scipy.stats.ecdf ได้
เราสามารถใช้ statsmodels.distributions.empirical_distribution.ECDF กับStatsmodels ได้
Matplotlibโดยใช้ฟังก์ชัน matplotlib.pyplot.ecdf (ใหม่ในเวอร์ชัน 3.8.0) ^{[ 7 ]}
Seabornโดยใช้ฟังก์ชัน seaborn.ecdfplot
Plotlyโดยใช้ฟังก์ชัน plotly.express.ecdf
ใน Excelเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
ArviZใช้ฟังก์ชันaz.plot_dist

ดูเพิ่มเติม

อ่านเพิ่มเติม

Shorack, GR ; Wellner, JA (1986). กระบวนการเชิงประจักษ์พร้อมการประยุกต์ใช้กับสถิติ . นิวยอร์ก: Wiley. ISBN 0-471-86725-X.

ลิงก์ภายนอก

สื่อที่เกี่ยวข้องกับฟังก์ชันการแจกแจงเชิงประจักษ์ในวิกิมีเดียคอมมอนส์

คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง [ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[

[ 7 ]