อ่าน 6 นาที
ฟังก์ชันการกระจายเชิงประจักษ์
ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง
ฟังก์ชันการกระจายเชิงประจักษ์
ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง [ 1 ]ฟังก์ชันการกระจายสะสมนี้เป็นฟังก์ชันขั้นบันไดที่กระโดดขึ้น 1 / nที่จุดข้อมูล n จุดแต่ละจุดค่าของฟังก์ชันนี้ที่ค่าที่กำหนดของตัวแปรที่วัดได้คือเศษส่วนของการสังเกตของตัวแปรที่วัดได้ซึ่งน้อยกว่าหรือเท่ากับค่าที่กำหนด
ฟังก์ชันการแจกแจงเชิงประจักษ์เป็นการประมาณค่าของฟังก์ชันการแจกแจงสะสมที่สร้างจุดต่างๆ ในตัวอย่าง โดยจะลู่เข้าสู่การแจกแจงพื้นฐานนั้นด้วยความน่าจะเป็น 1 ตามทฤษฎีบทของ Glivenko–Cantelliมีผลลัพธ์หลายอย่างที่ใช้ในการหาปริมาณอัตราการลู่เข้าของฟังก์ชันการแจกแจงเชิงประจักษ์ไปยังฟังก์ชันการแจกแจงสะสมพื้นฐาน การประมาณค่าเชิงประจักษ์อย่างง่ายคือการแจกแจง ความถี่
คำนิยาม
ให้( X 1 , …, X n )เป็นตัวแปรสุ่มจริงที่เป็นอิสระและมีการกระจายเหมือนกัน โดยมี ฟังก์ชันการกระจายสะสม ร่วมกันคือ F ( t )จากนั้นฟังก์ชันการกระจายเชิงประจักษ์จะถูกกำหนดเป็น[ 2 ] โดยที่เป็นตัวบ่งชี้ของเหตุการณ์Aสำหรับt ที่กำหนด ตัวบ่งชี้เป็นตัวแปรสุ่มเบอร์นูลีที่มีพารามิเตอร์p = F ( t )ดังนั้นเป็นตัวแปรสุ่มทวินามที่มีค่าเฉลี่ยnF ( t )และความแปรปรวนnF ( t )(1 − F ( t ))ซึ่ง หมายความว่าเป็น ตัวประมาณ ที่ไม่เอนเอียงสำหรับF ( t )
ในตำราเรียนบางเล่ม ฟังก์ชันการกระจายเชิงประจักษ์ถูกกำหนดไว้ดังนี้[ 3 ] [ 4 ] อย่างไรก็ตาม เนื่องจากอัตราส่วน( n + 1)/ nเข้าใกล้ 1 เมื่อnเข้าสู่อนันต์ คุณสมบัติเชิงอะซิมโทติกของคำจำกัดความทั้งสองจึงเหมือนกัน
คุณสมบัติเชิงอะซิมโทติก
ตามกฎจำนวนมากที่เข้มงวดตัวประมาณจะลู่เข้าสู่F ( t )เมื่อn → ∞ เกือบแน่นอนสำหรับทุกค่าของt : [ 2 ] ดังนั้นตัวประมาณจึงสอดคล้องกันนิพจน์นี้ยืนยันการลู่เข้าแบบจุดต่อจุดของฟังก์ชันการกระจายเชิงประจักษ์ไปยังฟังก์ชันการกระจายสะสมที่แท้จริง มีผลลัพธ์ที่แข็งแกร่งกว่าที่เรียกว่าทฤษฎีบท Glivenko–Cantelliซึ่งระบุว่าการลู่เข้าเกิดขึ้นอย่างสม่ำเสมอเหนือt : [ 5 ] นอร์มสูงสุดในนิพจน์นี้เรียกว่าสถิติ Kolmogorov–Smirnovสำหรับการทดสอบความเหมาะสมระหว่างการกระจายเชิงประจักษ์และฟังก์ชันการกระจายสะสมที่แท้จริงที่สมมติขึ้นFฟังก์ชันนอร์มอื่น ๆอาจใช้ได้อย่างเหมาะสมที่นี่แทนนอร์มสูงสุด ตัวอย่างเช่นนอร์ม L2 ก่อให้เกิดสถิติ Cramér–von Mises
การกระจายแบบอะซิมโทติกสามารถอธิบายลักษณะเพิ่มเติมได้หลายวิธี ประการแรก ทฤษฎีบทขีดจำกัดกลางระบุว่าจุดต่อจุดมีการกระจายแบบปกติอะซิมโทติกด้วยอัตราการล convergence มาตรฐาน: [ 2 ] ผลลัพธ์นี้ได้รับการขยายโดยทฤษฎีบทของดอนสเกอร์ซึ่งยืนยันว่ากระบวนการเชิงประจักษ์เมื่อมองว่าเป็นฟังก์ชันที่มีดัชนีโดย จะลู่เข้าในการกระจายในปริภูมิสโกโรค็อด ไปยัง กระบวนการเกาส์ เซียน ที่มีค่าเฉลี่ยเป็นศูนย์โดยที่Bคือสะพานบราวน์มาตรฐาน[ 5 ]โครงสร้างความแปรปรวนร่วมของกระบวนการเกาส์เซียนนี้คือ อัตราการลู่เข้าแบบสม่ำเสมอในทฤษฎีบทของดอนสเกอร์สามารถวัดปริมาณได้ด้วยผลลัพธ์ที่เรียกว่าการฝังแบบฮังการี : [ 6 ]
อีกทางเลือกหนึ่ง อัตราการลู่เข้าของสามารถวัดปริมาณได้ในแง่ของพฤติกรรมเชิงอะซิมโทติกของนอร์มสูงสุดของนิพจน์นี้ มีผลลัพธ์จำนวนมากในเรื่องนี้ ตัวอย่างเช่นอสมการ Dvoretzky–Kiefer–Wolfowitzให้ขอบเขตของความน่าจะเป็นส่วนหางของ: [ 6 ] ในความเป็นจริง Kolmogorov ได้แสดงให้เห็นว่าหากฟังก์ชันการกระจายสะสมFมีความต่อเนื่อง นิพจน์จะลู่เข้าในการกระจายไปยังซึ่งมีการกระจาย Kolmogorovที่ไม่ขึ้นอยู่กับรูปแบบของ F
ผลลัพธ์อีกประการหนึ่งซึ่งเป็นผลมาจากกฎของลอการิทึมแบบวนซ้ำคือ[ 6 ] และ
ช่วงความเชื่อมั่น



ตามอสมการของ Dvoretzky–Kiefer–Wolfowitzช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้
ตามขอบเขตข้างต้น เราสามารถสร้างกราฟ CDF เชิงประจักษ์ CDF และช่วงความเชื่อมั่นสำหรับชุดข้อมูลต่างๆ โดยใช้การดำเนินการทางสถิติแบบใดแบบหนึ่งก็ได้
การนำไปใช้ทางสถิติ
ตัวอย่างโปรแกรมที่ใช้ฟังก์ชันการแจกแจงเชิงประจักษ์ (Empirical Distribution Function) มีดังต่อไปนี้ (แต่ไม่ครบถ้วนสมบูรณ์):
- ในซอฟต์แวร์ Rเราคำนวณฟังก์ชันการกระจายสะสมเชิงประจักษ์ โดยมีวิธีการต่างๆ สำหรับการพล็อต การพิมพ์ และการคำนวณด้วยออบเจ็กต์ "ecdf" ดังกล่าว
- ในGNU OctaveหรือMATLABเราสามารถใช้กราฟฟังก์ชันการกระจายสะสมเชิงประจักษ์ (cdf) ได้
- คำสั่ง jmp จาก SASจะสร้างกราฟแสดงฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Cumulative Distribution Function: CDF plot)
- Minitabสร้างฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Empirical CDF)
- Mathwaveช่วยให้เราสามารถปรับการแจกแจงความน่าจะเป็นให้เข้ากับข้อมูลของเราได้
- Dataplotเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
- ใน Scipyเราสามารถใช้ scipy.stats.ecdf ได้
- เราสามารถใช้ statsmodels.distributions.empirical_distribution.ECDF กับStatsmodels ได้
- Matplotlibโดยใช้ฟังก์ชัน matplotlib.pyplot.ecdf (ใหม่ในเวอร์ชัน 3.8.0) [ 7 ]
- Seabornโดยใช้ฟังก์ชัน seaborn.ecdfplot
- Plotlyโดยใช้ฟังก์ชัน plotly.express.ecdf
- ใน Excelเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
- ArviZใช้ฟังก์ชันaz.plot_dist
ดูเพิ่มเติม
- ฟังก์ชันCàdlàg
- นับข้อมูล
- การวิเคราะห์ความถี่สะสม
- การปรับการกระจาย
- ความไม่เท่าเทียมกันของดโวเรตซกี้-คีเฟอร์-โวลโฟวิทซ์
- ความน่าจะเป็นเชิงประจักษ์
- กระบวนการเชิงประจักษ์
- การประมาณค่าควอนไทล์จากตัวอย่าง
- ความถี่ (สถิติ)
- ความน่าจะเป็นเชิงประจักษ์
- ตัวประมาณค่า Kaplan–Meierสำหรับกระบวนการที่ถูกตัดตอน
- ฟังก์ชันการอยู่รอด
- แผนภูมิ Q–Q
อ่านเพิ่มเติม
- Shorack, GR ; Wellner, JA (1986). กระบวนการเชิงประจักษ์พร้อมการประยุกต์ใช้กับสถิติ . นิวยอร์ก: Wiley. ISBN 0-471-86725-X.
ลิงก์ภายนอก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันการกระจายเชิงประจักษ์
ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง
คำนิยาม
ให้ ( X 1 , …, X n ) เป็นตัวแปรสุ่มจริงที่ เป็นอิสระและมีการกระจายเหมือนกัน โดยมี ฟังก์ชันการกระจายสะสม ร่วมกันคือ F ( t ) จากนั้น ฟังก์ชันการกระจายเชิงประจักษ์ จะถูกกำหนดเป็น [ 2 ] โดยที่เป็น ตัวบ่งชี้ ของ เหตุการณ์ A สำหรับ t ที่กำหนด ตัวบ่งชี้เป็น...
คุณสมบัติเชิงอะซิมโทติก
ตาม กฎจำนวนมากที่เข้มงวด ตัวประมาณจะลู่เข้าสู่ F ( t ) เมื่อ n → ∞ เกือบแน่นอน สำหรับทุกค่าของ t : [ 2 ] ดังนั้นตัวประมาณจึงสอดคล้อง กัน นิพจน์นี้ยืนยันการลู่เข้าแบบจุดต่อจุดของฟังก์ชันการกระจายเชิงประจักษ์ไปยังฟังก์ชันการกระจายสะสมที่แท้จริง...
ช่วงความเชื่อมั่น
ตาม อสมการของ Dvoretzky–Kiefer–Wolfowitz ช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้ F ( x ) {\displaystyle F(x)} 1 − α {\displaystyle 1-\alpha }
