กลับไปหน้าบทความ

อ่าน 6 นาที

ฟังก์ชันการกระจายเชิงประจักษ์

ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง

ฟังก์ชันการกระจายเชิงประจักษ์

เส้นโค้งสีเขียวซึ่งเข้าใกล้ค่า 0 และ 1 อย่างไม่สิ้นสุดโดยไม่ถึงค่าเหล่านั้น คือฟังก์ชันการกระจายสะสมที่ แท้จริง ของการแจกแจงปกติมาตรฐานขีดสีเทาแสดงถึงค่าสังเกตในตัวอย่าง เฉพาะ ที่สุ่มมาจากการแจกแจงนั้น และขั้นแนวนอนของฟังก์ชันขั้นสีน้ำเงิน (รวมจุดซ้ายสุดในแต่ละขั้น แต่ไม่รวมจุดขวาสุด) ก่อให้เกิดฟังก์ชันการกระจายเชิงประจักษ์ของตัวอย่างนั้น ()

ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง [ 1 ]ฟังก์ชันการกระจายสะสมนี้เป็นฟังก์ชันขั้นบันไดที่กระโดดขึ้น 1 / nที่จุดข้อมูล n จุดแต่ละจุดค่าของฟังก์ชันนี้ที่ค่าที่กำหนดของตัวแปรที่วัดได้คือเศษส่วนของการสังเกตของตัวแปรที่วัดได้ซึ่งน้อยกว่าหรือเท่ากับค่าที่กำหนด

ฟังก์ชันการแจกแจงเชิงประจักษ์เป็นการประมาณค่าของฟังก์ชันการแจกแจงสะสมที่สร้างจุดต่างๆ ในตัวอย่าง โดยจะลู่เข้าสู่การแจกแจงพื้นฐานนั้นด้วยความน่าจะเป็น 1 ตามทฤษฎีบทของ Glivenko–Cantelliมีผลลัพธ์หลายอย่างที่ใช้ในการหาปริมาณอัตราการลู่เข้าของฟังก์ชันการแจกแจงเชิงประจักษ์ไปยังฟังก์ชันการแจกแจงสะสมพื้นฐาน การประมาณค่าเชิงประจักษ์อย่างง่ายคือการแจกแจง ความถี่

คำนิยาม

ให้( X 1 , …, X n )เป็นตัวแปรสุ่มจริงที่เป็นอิสระและมีการกระจายเหมือนกัน โดยมี ฟังก์ชันการกระจายสะสม ร่วมกันคือ F ( t )จากนั้นฟังก์ชันการกระจายเชิงประจักษ์จะถูกกำหนดเป็น[ 2 ] โดยที่เป็นตัวบ่งชี้ของเหตุการณ์Aสำหรับt ที่กำหนด ตัวบ่งชี้เป็นตัวแปรสุ่มเบอร์นูลีที่มีพารามิเตอร์p = F ( t )ดังนั้นเป็นตัวแปรสุ่มทวินามที่มีค่าเฉลี่ยnF ( t )และความแปรปรวนnF ( t )(1 − F ( t ))ซึ่ง หมายความว่าเป็น ตัวประมาณ ที่ไม่เอนเอียงสำหรับF ( t )

ในตำราเรียนบางเล่ม ฟังก์ชันการกระจายเชิงประจักษ์ถูกกำหนดไว้ดังนี้[ 3 ] [ 4 ] อย่างไรก็ตาม เนื่องจากอัตราส่วน( n + 1)/ nเข้าใกล้ 1 เมื่อnเข้าสู่อนันต์ คุณสมบัติเชิงอะซิมโทติกของคำจำกัดความทั้งสองจึงเหมือนกัน

คุณสมบัติเชิงอะซิมโทติก

ตามกฎจำนวนมากที่เข้มงวดตัวประมาณจะลู่เข้าสู่F ( t )เมื่อn → ∞ เกือบแน่นอนสำหรับทุกค่าของt : [ 2 ] ดังนั้นตัวประมาณจึงสอดคล้องกันนิพจน์นี้ยืนยันการลู่เข้าแบบจุดต่อจุดของฟังก์ชันการกระจายเชิงประจักษ์ไปยังฟังก์ชันการกระจายสะสมที่แท้จริง มีผลลัพธ์ที่แข็งแกร่งกว่าที่เรียกว่าทฤษฎีบท Glivenko–Cantelliซึ่งระบุว่าการลู่เข้าเกิดขึ้นอย่างสม่ำเสมอเหนือt : [ 5 ] นอร์มสูงสุดในนิพจน์นี้เรียกว่าสถิติ Kolmogorov–Smirnovสำหรับการทดสอบความเหมาะสมระหว่างการกระจายเชิงประจักษ์และฟังก์ชันการกระจายสะสมที่แท้จริงที่สมมติขึ้นFฟังก์ชันนอร์มอื่น ๆอาจใช้ได้อย่างเหมาะสมที่นี่แทนนอร์มสูงสุด ตัวอย่างเช่นนอร์ม L2 ก่อให้เกิดสถิติ Cramér–von Mises

การกระจายแบบอะซิมโทติกสามารถอธิบายลักษณะเพิ่มเติมได้หลายวิธี ประการแรก ทฤษฎีบทขีดจำกัดกลางระบุว่าจุดต่อจุดมีการกระจายแบบปกติอะซิมโทติกด้วยอัตราการล convergence มาตรฐาน: [ 2 ] ผลลัพธ์นี้ได้รับการขยายโดยทฤษฎีบทของดอนสเกอร์ซึ่งยืนยันว่ากระบวนการเชิงประจักษ์เมื่อมองว่าเป็นฟังก์ชันที่มีดัชนีโดย จะลู่เข้าในการกระจายในปริภูมิสโกโรค็อด ไปยัง กระบวนการเกาส์ เซียน ที่มีค่าเฉลี่ยเป็นศูนย์โดยที่Bคือสะพานบราวน์มาตรฐาน[ 5 ]โครงสร้างความแปรปรวนร่วมของกระบวนการเกาส์เซียนนี้คือ อัตราการลู่เข้าแบบสม่ำเสมอในทฤษฎีบทของดอนสเกอร์สามารถวัดปริมาณได้ด้วยผลลัพธ์ที่เรียกว่าการฝังแบบฮังการี : [ 6 ]

อีกทางเลือกหนึ่ง อัตราการลู่เข้าของสามารถวัดปริมาณได้ในแง่ของพฤติกรรมเชิงอะซิมโทติกของนอร์มสูงสุดของนิพจน์นี้ มีผลลัพธ์จำนวนมากในเรื่องนี้ ตัวอย่างเช่นอสมการ Dvoretzky–Kiefer–Wolfowitzให้ขอบเขตของความน่าจะเป็นส่วนหางของ: [ 6 ] ในความเป็นจริง Kolmogorov ได้แสดงให้เห็นว่าหากฟังก์ชันการกระจายสะสมFมีความต่อเนื่อง นิพจน์จะลู่เข้าในการกระจายไปยังซึ่งมีการกระจาย Kolmogorovที่ไม่ขึ้นอยู่กับรูปแบบของ F

ผลลัพธ์อีกประการหนึ่งซึ่งเป็นผลมาจากกฎของลอการิทึมแบบวนซ้ำคือ[ 6 ] และ

ช่วงความเชื่อมั่น

กราฟแสดงฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Empirical CDF), กราฟแสดงฟังก์ชันการกระจายสะสม (CDF) และช่วงความเชื่อมั่น สำหรับขนาดตัวอย่างต่างๆ ของการแจกแจงแบบปกติ
แผนภาพ CDF เชิงประจักษ์, CDF และช่วงความเชื่อมั่นสำหรับขนาดตัวอย่างต่างๆ ของการแจกแจงแบบโคชี
กราฟแสดงฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Empirical CDF), กราฟแสดงฟังก์ชันการกระจายสะสม (CDF) และช่วงความเชื่อมั่น สำหรับขนาดตัวอย่างต่างๆ ของการแจกแจงแบบสามเหลี่ยม

ตามอสมการของ Dvoretzky–Kiefer–Wolfowitzช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้

ตามขอบเขตข้างต้น เราสามารถสร้างกราฟ CDF เชิงประจักษ์ CDF และช่วงความเชื่อมั่นสำหรับชุดข้อมูลต่างๆ โดยใช้การดำเนินการทางสถิติแบบใดแบบหนึ่งก็ได้

การนำไปใช้ทางสถิติ

ตัวอย่างโปรแกรมที่ใช้ฟังก์ชันการแจกแจงเชิงประจักษ์ (Empirical Distribution Function) มีดังต่อไปนี้ (แต่ไม่ครบถ้วนสมบูรณ์):

  • ในซอฟต์แวร์ Rเราคำนวณฟังก์ชันการกระจายสะสมเชิงประจักษ์ โดยมีวิธีการต่างๆ สำหรับการพล็อต การพิมพ์ และการคำนวณด้วยออบเจ็กต์ "ecdf" ดังกล่าว
  • ในGNU OctaveหรือMATLABเราสามารถใช้กราฟฟังก์ชันการกระจายสะสมเชิงประจักษ์ (cdf) ได้
  • คำสั่ง jmp จาก SASจะสร้างกราฟแสดงฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Cumulative Distribution Function: CDF plot)
  • Minitabสร้างฟังก์ชันการกระจายสะสมเชิงประจักษ์ (Empirical CDF)
  • Mathwaveช่วยให้เราสามารถปรับการแจกแจงความน่าจะเป็นให้เข้ากับข้อมูลของเราได้
  • Dataplotเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
  • ใน Scipyเราสามารถใช้ scipy.stats.ecdf ได้
  • เราสามารถใช้ statsmodels.distributions.empirical_distribution.ECDF กับStatsmodels ได้
  • Matplotlibโดยใช้ฟังก์ชัน matplotlib.pyplot.ecdf (ใหม่ในเวอร์ชัน 3.8.0) [ 7 ]
  • Seabornโดยใช้ฟังก์ชัน seaborn.ecdfplot
  • Plotlyโดยใช้ฟังก์ชัน plotly.express.ecdf
  • ใน Excelเราสามารถสร้างกราฟ CDF เชิงประจักษ์ได้
  • ArviZใช้ฟังก์ชันaz.plot_dist

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Shorack, GR ; Wellner, JA (1986). กระบวนการเชิงประจักษ์พร้อมการประยุกต์ใช้กับสถิติ . นิวยอร์ก: Wiley. ISBN 0-471-86725-X.
  • โลโก้ Wikimedia Commonsสื่อที่เกี่ยวข้องกับฟังก์ชันการแจกแจงเชิงประจักษ์ในวิกิมีเดียคอมมอนส์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Empirical_distribution_function&oldid=1347599945 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันการกระจายเชิงประจักษ์

ในทางสถิติฟังก์ชันการกระจายเชิงประจักษ์ ( หรือเรียกอีกอย่างว่าฟังก์ชันการกระจายสะสมเชิงประจักษ์ eCDF ) คือฟังก์ชันการกระจายที่เกี่ยวข้องกับการวัดเชิงประจักษ์ของตัวอย่าง

คำนิยาม

ให้ ( X 1 , …, X n ) เป็นตัวแปรสุ่มจริงที่ เป็นอิสระและมีการกระจายเหมือนกัน โดยมี ฟังก์ชันการกระจายสะสม ร่วมกันคือ F ( t ) จากนั้น ฟังก์ชันการกระจายเชิงประจักษ์ จะถูกกำหนดเป็น [ 2 ] โดยที่เป็น ตัวบ่งชี้ ของ เหตุการณ์ A สำหรับ t ที่กำหนด ตัวบ่งชี้เป็น...

คุณสมบัติเชิงอะซิมโทติก

ตาม กฎจำนวนมากที่เข้มงวด ตัวประมาณจะลู่เข้าสู่ F ( t ) เมื่อ n → ∞ เกือบแน่นอน สำหรับทุกค่าของ t : [ 2 ] ดังนั้นตัวประมาณจึงสอดคล้อง กัน นิพจน์นี้ยืนยันการลู่เข้าแบบจุดต่อจุดของฟังก์ชันการกระจายเชิงประจักษ์ไปยังฟังก์ชันการกระจายสะสมที่แท้จริง...

ช่วงความเชื่อมั่น

ตาม อสมการของ Dvoretzky–Kiefer–Wolfowitz ช่วงที่ประกอบด้วยฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นจะถูกกำหนดดังนี้ F ( x ) {\displaystyle F(x)} 1 − α {\displaystyle 1-\alpha }