อ่าน 4 นาที
ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ตาม CDF
ในทางสถิติ ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ที่อิงตาม ฟังก์ชันการกระจายสะสม (CDF) เป็น ช่วงความเชื่อมั่นประเภททั่วไปรอบ ๆฟังก์ชันทางสถิติของการกระจาย...
ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ตาม CDF
ในทางสถิติ ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ที่อิงตาม ฟังก์ชันการกระจายสะสม (CDF) เป็น ช่วงความเชื่อมั่นประเภททั่วไปรอบ ๆฟังก์ชันทางสถิติของการกระจาย ในการคำนวณช่วงความเชื่อมั่นเหล่านี้ สิ่งที่จำเป็นคือ ตัวอย่าง ที่มีการกระจายแบบอิสระและเหมือนกัน (iid) จากการกระจาย และขอบเขตที่ทราบของส่วนรองรับของการกระจาย ข้อกำหนดหลังนี้หมายความว่ามวลความน่าจะเป็นที่ไม่เป็นศูนย์ทั้งหมดของการกระจายจะต้องอยู่ในช่วงที่ทราบบางช่วง
ปรีชา
แนวคิดเบื้องหลังวิธีการที่ใช้ฟังก์ชันการกระจายสะสม (CDF) คือ ขอบเขตของ CDF ของการแจกแจงสามารถแปลงเป็นขอบเขตของฟังก์ชันทางสถิติของการแจกแจงนั้นได้ เมื่อกำหนดขอบเขตบนและล่างของ CDF แล้ว วิธีการนี้จะเกี่ยวข้องกับการค้นหา CDF ภายในขอบเขตเหล่านั้นที่ทำให้ฟังก์ชันทางสถิติที่สนใจมีค่าสูงสุดและต่ำสุด
คุณสมบัติของขอบเขต
แตกต่างจากวิธีการที่ตั้งสมมติฐานเชิงอะซิมโทติก รวมถึงวิธีการบูตสแตรปและวิธีการที่อาศัย ทฤษฎีบทลิมิต กลางขอบเขตที่อิงตามฟังก์ชันการกระจายสะสม (CDF) นั้นใช้ได้กับขนาดตัวอย่างที่จำกัด และแตกต่างจากขอบเขตที่อิงตามอสมการ เช่น อสมการ ของ HoeffdingและMcDiarmidขอบเขตที่อิงตาม CDF ใช้คุณสมบัติของตัวอย่างทั้งหมด ดังนั้นจึงมักให้ขอบเขตที่แคบกว่าอย่างมีนัยสำคัญ
ขอบเขต CDF
เมื่อสร้างขอบเขตบนฟังก์ชันการกระจายสะสม (CDF) เราต้องแยกแยะความแตกต่างระหว่างขอบเขตแบบจุดต่อจุดและขอบเขตแบบพร้อมกัน

แบนด์แบบจุดต่อจุด
ขอบเขต CDF แบบจุดต่อจุด คือขอบเขตที่รับประกันเพียงความน่าจะเป็นในการครอบคลุมเป็นเปอร์เซ็นต์ ณ จุดใดจุดหนึ่งของ CDF เชิงประจักษ์เท่านั้น เนื่องจากการรับประกันที่ไม่เข้มงวด ขอบเขตเหล่านี้จึงอาจมีขนาดเล็กกว่ามาก
วิธีหนึ่งในการสร้างขอบเขตความเชื่อมั่นนั้นอิงตามการแจกแจงทวินามโดยพิจารณาจุดเดียวบนฟังก์ชันการกระจายสะสม (CDF) ที่มีค่าแล้วการแจกแจงเชิงประจักษ์ ณ จุดนั้นจะเป็นการแจกแจงตามสัดส่วนของการแจกแจงทวินาม โดยกำหนดให้ เท่ากับจำนวนตัวอย่างในการแจกแจงเชิงประจักษ์ ดังนั้น วิธีใดๆ ที่ใช้ในการสร้างช่วงความเชื่อมั่นตามสัดส่วนทวินามก็สามารถใช้สร้างขอบเขต CDF ได้เช่นกัน
แถบพร้อมกัน
ช่วงความเชื่อมั่นที่อิงตามฟังก์ชันการกระจายสะสม (CDF) จำเป็นต้องมีขอบเขตความน่าจะเป็นของ CDF ของการแจกแจงที่ใช้สร้างตัวอย่าง มีวิธีการมากมายในการสร้างช่วงความเชื่อมั่นสำหรับ CDF ของการแจกแจงโดยกำหนดตัวอย่างอิสระและมีการแจกแจงเหมือนกัน (iid) ที่สุ่มมาจากการแจกแจงนั้น วิธีการเหล่านี้ทั้งหมดอิงตามฟังก์ชันการแจกแจงเชิงประจักษ์ (empirical CDF) เมื่อกำหนดตัวอย่าง iid ขนาด nฟังก์ชัน การ กระจายสะสมเชิงประจักษ์จะถูกกำหนดให้เป็น
โดยที่ ตัวบ่งชี้ของเหตุการณ์ A เป็นอย่างไรอสมการ Dvoretzky–Kiefer–Wolfowitz [ 1 ]ซึ่งค่าคงที่ที่แน่นหนาถูกกำหนดโดย Massart [ 2 ]วางช่วงความเชื่อมั่นรอบสถิติ Kolmogorov–Smirnovระหว่าง CDF และ CDF เชิงประจักษ์ เมื่อกำหนดตัวอย่าง iid ขนาด nจากสถานะผูกพัน
สิ่งนี้สามารถมองได้ว่าเป็นกรอบความเชื่อมั่นที่ขนานไปกับ และอยู่เหนือและใต้ CDF เชิงประจักษ์ในสัดส่วนที่เท่ากัน
ช่วงเวลาที่ครอบคลุมฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นมักจะระบุเป็น

ช่วงความเชื่อมั่นที่เว้นระยะห่างเท่ากันรอบ CDF เชิงประจักษ์ช่วยให้สามารถละเมิดอัตราที่แตกต่างกันได้ทั่วขอบเขตของการกระจาย โดยเฉพาะอย่างยิ่ง CDF มักจะอยู่นอกขอบเขต CDF ที่ประมาณโดยใช้ความไม่เท่าเทียมกันของ Dvoretzky–Kiefer–Wolfowitz ใกล้ค่ามัธยฐานของการกระจายมากกว่าใกล้จุดปลายของการกระจาย ในทางตรงกันข้าม ขอบเขตตามสถิติลำดับที่ Learned-Miller และ DeStefano [ 3 ] นำเสนอ ช่วยให้สามารถละเมิดอัตราที่เท่ากันได้ทั่วสถิติลำดับทั้งหมด ซึ่งส่งผลให้ขอบเขตแน่นขึ้นใกล้ปลายของขอบเขตของการกระจายและหลวมขึ้นตรงกลางของขอบเขต ขอบเขตประเภทอื่น ๆ สามารถสร้างขึ้นได้โดยการเปลี่ยนแปลงอัตราการละเมิดสำหรับสถิติลำดับ ตัวอย่างเช่น หากต้องการขอบเขตที่แน่นขึ้นสำหรับการกระจายในส่วนบนของขอบเขต สามารถอนุญาตให้มีอัตราการละเมิดที่สูงขึ้นในส่วนบนของขอบเขตได้ โดยแลกกับการมีอัตราการละเมิดที่ต่ำลง และด้วยเหตุนี้จึงมีขอบเขตที่หลวมขึ้นสำหรับส่วนล่างของขอบเขต
ขอบเขตที่ไม่ใช้พารามิเตอร์ของค่าเฉลี่ย
สมมติโดยไม่เสียความเป็นทั่วไปว่าขอบเขตการรองรับของการแจกแจงนั้นบรรจุอยู่ในเมื่อกำหนดซองความเชื่อมั่นสำหรับ CDF ของแล้วการหาช่วงความเชื่อมั่นที่สอดคล้องกันสำหรับค่าเฉลี่ยของนั้นทำได้ง่ายสามารถแสดงได้[ 4 ] ว่า CDF ที่ทำให้ค่าเฉลี่ยสูงสุดคือ CDF ที่วิ่งไปตามซองความเชื่อมั่นด้านล่างและ CDF ที่ทำให้ค่าเฉลี่ยต่ำสุดคือ CDF ที่วิ่งไปตามซองความเชื่อมั่นด้านบนโดยใช้เอกลักษณ์
ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยสามารถคำนวณได้ดังนี้
ขอบเขตที่ไม่ใช้พารามิเตอร์ของความแปรปรวน
สมมติโดยไม่เสียความเป็นทั่วไปว่าขอบเขตการรองรับของการกระจายที่สนใจนั้นบรรจุอยู่ในเมื่อกำหนดซองความเชื่อมั่นสำหรับจะสามารถแสดงได้[ 5 ] ว่า CDF ภายในซองที่ลดความแปรปรวนให้น้อยที่สุดจะเริ่มต้นที่ซองล่างมีการกระโดดอย่างไม่ต่อเนื่องไปยังซองบน และจากนั้นจะดำเนินต่อไปตามซองบน ยิ่งไปกว่านั้น ยังสามารถแสดงได้ว่า CDF ที่ลดความแปรปรวนให้น้อยที่สุดนี้ F' จะต้องเป็นไปตามข้อจำกัดที่ว่าการกระโดดอย่างไม่ต่อเนื่องเกิดขึ้นที่CDF ที่เพิ่มความแปรปรวนให้มากที่สุดจะเริ่มต้นที่ซองบน เปลี่ยนไปในแนวนอนไปยังซองล่าง และจากนั้นจะดำเนินต่อไปตามซองล่าง อัลกอริทึมที่ชัดเจนสำหรับการคำนวณ CDF ที่เพิ่มความแปรปรวนให้มากที่สุดและน้อยที่สุดเหล่านี้มีให้โดย Romano และ Wolf [ 5 ]
ขอบเขตของฟังก์ชันทางสถิติอื่นๆ
กรอบการทำงานที่ใช้ฟังก์ชันการกระจายสะสม (CDF) ในการสร้างช่วงความเชื่อมั่นนั้นมีความเป็นสากลมาก และสามารถนำไปใช้กับฟังก์ชันทางสถิติอื่นๆ ได้หลากหลาย รวมถึง
- เอนโทรปี[ 3 ]
- ข้อมูลร่วมกัน[ 6 ]
- เปอร์เซ็นไทล์ตามอำเภอใจ
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ตาม CDF
ในทางสถิติ ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ที่อิงตาม ฟังก์ชันการกระจายสะสม (CDF) เป็น ช่วงความเชื่อมั่นประเภททั่วไปรอบ ๆฟังก์ชันทางสถิติของการกระจาย...
ปรีชา
แนวคิดเบื้องหลังวิธีการที่ใช้ฟังก์ชันการกระจายสะสม (CDF) คือ ขอบเขตของ CDF ของการแจกแจงสามารถแปลงเป็นขอบเขตของฟังก์ชันทางสถิติของการแจกแจงนั้นได้ เมื่อกำหนดขอบเขตบนและล่างของ CDF แล้ว วิธีการนี้จะเกี่ยวข้องกับการค้นหา CDF...
คุณสมบัติของขอบเขต
แตกต่างจากวิธีการที่ตั้งสมมติฐานเชิงอะซิมโทติก รวมถึง วิธีการบูตสแตรป และวิธีการที่อาศัย ทฤษฎีบทลิมิต กลาง ขอบเขตที่อิงตามฟังก์ชันการกระจายสะสม (CDF) นั้นใช้ได้กับขนาดตัวอย่างที่จำกัด และแตกต่างจากขอบเขตที่อิงตามอสมการ เช่น อสมการ ของ Hoeffding และ McDiarmid...
ขอบเขต CDF
เมื่อสร้างขอบเขตบนฟังก์ชันการกระจายสะสม (CDF) เราต้องแยกแยะความแตกต่างระหว่าง ขอบเขตแบบจุดต่อจุดและขอบเขตแบบพร้อม กัน