ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ตาม CDF

ในทางสถิติ ช่วงความเชื่อมั่นแบบไม่ใช้พารามิเตอร์ที่อิงตาม ฟังก์ชันการกระจายสะสม (CDF) เป็น ช่วงความเชื่อมั่นประเภททั่วไปรอบ ๆฟังก์ชันทางสถิติของการกระจาย ในการคำนวณช่วงความเชื่อมั่นเหล่านี้ สิ่งที่จำเป็นคือ ตัวอย่าง ที่มีการกระจายแบบอิสระและเหมือนกัน (iid) จากการกระจาย และขอบเขตที่ทราบของส่วนรองรับของการกระจาย ข้อกำหนดหลังนี้หมายความว่ามวลความน่าจะเป็นที่ไม่เป็นศูนย์ทั้งหมดของการกระจายจะต้องอยู่ในช่วงที่ทราบบางช่วง $[a,b]$

ปรีชา

แนวคิดเบื้องหลังวิธีการที่ใช้ฟังก์ชันการกระจายสะสม (CDF) คือ ขอบเขตของ CDF ของการแจกแจงสามารถแปลงเป็นขอบเขตของฟังก์ชันทางสถิติของการแจกแจงนั้นได้ เมื่อกำหนดขอบเขตบนและล่างของ CDF แล้ว วิธีการนี้จะเกี่ยวข้องกับการค้นหา CDF ภายในขอบเขตเหล่านั้นที่ทำให้ฟังก์ชันทางสถิติที่สนใจมีค่าสูงสุดและต่ำสุด

คุณสมบัติของขอบเขต

แตกต่างจากวิธีการที่ตั้งสมมติฐานเชิงอะซิมโทติก รวมถึงวิธีการบูตสแตรปและวิธีการที่อาศัย ทฤษฎีบทลิมิต กลางขอบเขตที่อิงตามฟังก์ชันการกระจายสะสม (CDF) นั้นใช้ได้กับขนาดตัวอย่างที่จำกัด และแตกต่างจากขอบเขตที่อิงตามอสมการ เช่น อสมการ ของ HoeffdingและMcDiarmidขอบเขตที่อิงตาม CDF ใช้คุณสมบัติของตัวอย่างทั้งหมด ดังนั้นจึงมักให้ขอบเขตที่แคบกว่าอย่างมีนัยสำคัญ

ขอบเขต CDF

เมื่อสร้างขอบเขตบนฟังก์ชันการกระจายสะสม (CDF) เราต้องแยกแยะความแตกต่างระหว่างขอบเขตแบบจุดต่อจุดและขอบเขตแบบพร้อมกัน

แบนด์แบบจุดต่อจุด

ขอบเขต CDF แบบจุดต่อจุด คือขอบเขตที่รับประกันเพียงความน่าจะเป็นในการครอบคลุมเป็นเปอร์เซ็นต์ ณ จุดใดจุดหนึ่งของ CDF เชิงประจักษ์เท่านั้น เนื่องจากการรับประกันที่ไม่เข้มงวด ขอบเขตเหล่านี้จึงอาจมีขนาดเล็กกว่ามาก $1-\alpha$

วิธีหนึ่งในการสร้างขอบเขตความเชื่อมั่นนั้นอิงตามการแจกแจงทวินามโดยพิจารณาจุดเดียวบนฟังก์ชันการกระจายสะสม (CDF) ที่มีค่าแล้วการแจกแจงเชิงประจักษ์ ณ จุดนั้นจะเป็นการแจกแจงตามสัดส่วนของการแจกแจงทวินาม โดยกำหนดให้ เท่ากับจำนวนตัวอย่างในการแจกแจงเชิงประจักษ์ ดังนั้น วิธีใดๆ ที่ใช้ในการสร้างช่วงความเชื่อมั่นตามสัดส่วนทวินามก็สามารถใช้สร้างขอบเขต CDF ได้เช่นกัน $F(x_{i})$ $p=F(x_{i})$ $n$

แถบพร้อมกัน

ช่วงความเชื่อมั่นที่อิงตามฟังก์ชันการกระจายสะสม (CDF) จำเป็นต้องมีขอบเขตความน่าจะเป็นของ CDF ของการแจกแจงที่ใช้สร้างตัวอย่าง มีวิธีการมากมายในการสร้างช่วงความเชื่อมั่นสำหรับ CDF ของการแจกแจงโดยกำหนดตัวอย่างอิสระและมีการแจกแจงเหมือนกัน (iid) ที่สุ่มมาจากการแจกแจงนั้น วิธีการเหล่านี้ทั้งหมดอิงตามฟังก์ชันการแจกแจงเชิงประจักษ์ (empirical CDF) เมื่อกำหนดตัวอย่าง iid ขนาด nฟังก์ชัน การ กระจายสะสมเชิงประจักษ์จะถูกกำหนดให้เป็น $F$ $x_{1},\ldots ,x_{n}\sim F$

{\hat {F}}_{n}(t)={\frac {1}{n}}\sum _{i=1}^{n}1\{x_{i}\leq t\},

โดยที่ ตัวบ่งชี้ของเหตุการณ์ A เป็นอย่างไรอสมการ Dvoretzky–Kiefer–Wolfowitz ^[¹^]ซึ่งค่าคงที่ที่แน่นหนาถูกกำหนดโดย Massart ^[²^]วางช่วงความเชื่อมั่นรอบสถิติ Kolmogorov–Smirnovระหว่าง CDF และ CDF เชิงประจักษ์ เมื่อกำหนดตัวอย่าง iid ขนาด nจากสถานะผูกพัน $1\{A\}$ $F$

P(\sup _{x}|F(x)-F_{n}(x)|>\varepsilon )\leq 2e^{-2n\varepsilon ^{2}}.

สิ่งนี้สามารถมองได้ว่าเป็นกรอบความเชื่อมั่นที่ขนานไปกับ และอยู่เหนือและใต้ CDF เชิงประจักษ์ในสัดส่วนที่เท่ากัน

ช่วงเวลาที่ครอบคลุมฟังก์ชันการกระจายสะสมที่แท้จริง (CDF) ด้วยความน่าจะเป็นมักจะระบุเป็น $F(x)$ $1-\alpha$

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ โดยที่ }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}

ภาพประกอบแสดงขอบเขตของฟังก์ชันการกระจายสะสมเชิงประจักษ์ (empirical CDF) ที่ได้จากการใช้ความไม่เท่าเทียมกันของ Dvoretzky–Kiefer–Wolfowitz สัญลักษณ์แสดงถึงสถิติลำดับ $X_{(j)}$ $j^{\text{th}}$

ช่วงความเชื่อมั่นที่เว้นระยะห่างเท่ากันรอบ CDF เชิงประจักษ์ช่วยให้สามารถละเมิดอัตราที่แตกต่างกันได้ทั่วขอบเขตของการกระจาย โดยเฉพาะอย่างยิ่ง CDF มักจะอยู่นอกขอบเขต CDF ที่ประมาณโดยใช้ความไม่เท่าเทียมกันของ Dvoretzky–Kiefer–Wolfowitz ใกล้ค่ามัธยฐานของการกระจายมากกว่าใกล้จุดปลายของการกระจาย ในทางตรงกันข้าม ขอบเขตตามสถิติลำดับที่ Learned-Miller และ DeStefano ^{[ 3 ]} นำเสนอ ช่วยให้สามารถละเมิดอัตราที่เท่ากันได้ทั่วสถิติลำดับทั้งหมด ซึ่งส่งผลให้ขอบเขตแน่นขึ้นใกล้ปลายของขอบเขตของการกระจายและหลวมขึ้นตรงกลางของขอบเขต ขอบเขตประเภทอื่น ๆ สามารถสร้างขึ้นได้โดยการเปลี่ยนแปลงอัตราการละเมิดสำหรับสถิติลำดับ ตัวอย่างเช่น หากต้องการขอบเขตที่แน่นขึ้นสำหรับการกระจายในส่วนบนของขอบเขต สามารถอนุญาตให้มีอัตราการละเมิดที่สูงขึ้นในส่วนบนของขอบเขตได้ โดยแลกกับการมีอัตราการละเมิดที่ต่ำลง และด้วยเหตุนี้จึงมีขอบเขตที่หลวมขึ้นสำหรับส่วนล่างของขอบเขต

ขอบเขตที่ไม่ใช้พารามิเตอร์ของค่าเฉลี่ย

สมมติโดยไม่เสียความเป็นทั่วไปว่าขอบเขตการรองรับของการแจกแจงนั้นบรรจุอยู่ในเมื่อกำหนดซองความเชื่อมั่นสำหรับ CDF ของแล้วการหาช่วงความเชื่อมั่นที่สอดคล้องกันสำหรับค่าเฉลี่ยของนั้นทำได้ง่ายสามารถแสดงได้^[⁴^] ว่า CDF ที่ทำให้ค่าเฉลี่ยสูงสุดคือ CDF ที่วิ่งไปตามซองความเชื่อมั่นด้านล่างและ CDF ที่ทำให้ค่าเฉลี่ยต่ำสุดคือ CDF ที่วิ่งไปตามซองความเชื่อมั่นด้านบนโดยใช้เอกลักษณ์ $[0,1].$ $F$ $F$ $L(x)$ $U(x)$

E(X)=\int _{0}^{1}(1-F(x))\,dx,

ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยสามารถคำนวณได้ดังนี้

\left[\int _{0}^{1}(1-U(x))\,dx,\int _{0}^{1}(1-L(x))\,dx\right].

ขอบเขตที่ไม่ใช้พารามิเตอร์ของความแปรปรวน

สมมติโดยไม่เสียความเป็นทั่วไปว่าขอบเขตการรองรับของการกระจายที่สนใจนั้นบรรจุอยู่ในเมื่อกำหนดซองความเชื่อมั่นสำหรับจะสามารถแสดงได้^[⁵^] ว่า CDF ภายในซองที่ลดความแปรปรวนให้น้อยที่สุดจะเริ่มต้นที่ซองล่างมีการกระโดดอย่างไม่ต่อเนื่องไปยังซองบน และจากนั้นจะดำเนินต่อไปตามซองบน ยิ่งไปกว่านั้น ยังสามารถแสดงได้ว่า CDF ที่ลดความแปรปรวนให้น้อยที่สุดนี้ F' จะต้องเป็นไปตามข้อจำกัดที่ว่าการกระโดดอย่างไม่ต่อเนื่องเกิดขึ้นที่CDF ที่เพิ่มความแปรปรวนให้มากที่สุดจะเริ่มต้นที่ซองบน เปลี่ยนไปในแนวนอนไปยังซองล่าง และจากนั้นจะดำเนินต่อไปตามซองล่าง อัลกอริทึมที่ชัดเจนสำหรับการคำนวณ CDF ที่เพิ่มความแปรปรวนให้มากที่สุดและน้อยที่สุดเหล่านี้มีให้โดย Romano และ Wolf ^[⁵^] $F$ $[0,1]$ $F$ $E[F']$

ขอบเขตของฟังก์ชันทางสถิติอื่นๆ

กรอบการทำงานที่ใช้ฟังก์ชันการกระจายสะสม (CDF) ในการสร้างช่วงความเชื่อมั่นนั้นมีความเป็นสากลมาก และสามารถนำไปใช้กับฟังก์ชันทางสถิติอื่นๆ ได้หลากหลาย รวมถึง

เอนโทรปี^{[ 3 ]}
ข้อมูลร่วมกัน^{[ 6 ]}
เปอร์เซ็นไทล์ตามอำเภอใจ

ดูเพิ่มเติม

[

[

[ 3 ]

[

[

[ 6 ]