อ่าน 9 นาที
ควอนไทล์
ใน ทางสถิติ และ ความน่าจะเป็น ควอนไทล์ คือจุดตัดที่แบ่ง ช่วง ของ ความน่าจะเป็นออก เป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่ง ข้อมูล ใน ตัวอย่าง ในลักษณะเดียวกัน...
ควอนไทล์

ในทางสถิติและความน่าจะเป็นควอนไทล์คือจุดตัดที่แบ่งช่วงของความน่าจะเป็นออกเป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่งข้อมูลในตัวอย่างในลักษณะเดียวกัน ควอนไทล์ที่ใช้กันทั่วไปมีชื่อเรียกเฉพาะ เช่นควาร์ไทล์ (สี่กลุ่ม) เดไซล์ (สิบกลุ่ม) และเปอร์เซ็นไทล์ (หนึ่งร้อยกลุ่ม) กลุ่มที่สร้างขึ้นเรียกว่าครึ่งหนึ่ง หนึ่งในสาม หนึ่งในสี่ เป็นต้น แต่โดยส่วนใหญ่แล้ว คำที่ใช้เรียกควอนไทล์มักใช้เรียกกลุ่มที่สร้างขึ้นมากกว่าจุดตัด
ค วอนไทล์qคือค่าที่แบ่งเซตของค่าจำกัด ออกเป็น q เซตย่อยที่มีขนาด (เกือบ) เท่ากัน มีเซตย่อยของควอนไทล์ q ทั้งหมด q − 1 เซต โดยแต่ละ เซตย่อยแทน จำนวนเต็มkที่สอดคล้องกับ 0 < k < qในบางกรณี ค่าของควอนไทล์อาจไม่สามารถกำหนดได้อย่างเฉพาะเจาะจง เช่น ค่ามัธยฐาน (ควอนไทล์ที่ 2) ของการแจกแจงความน่าจะเป็นแบบเอกรูปบนเซตที่มีขนาดเป็นเลขคู่ ควอนไทล์ยังสามารถนำไปใช้กับ การแจกแจง แบบต่อเนื่องได้ซึ่งเป็นวิธีหนึ่งในการขยายสถิติอันดับไปสู่ตัวแปรต่อเนื่อง (ดูอันดับเปอร์เซ็นไทล์ ) เมื่อทราบฟังก์ชันการแจกแจงสะสมของตัวแปรสุ่ม ควอนไทล์ qคือการประยุกต์ใช้ฟังก์ชันควอนไทล์ (ฟังก์ชันผกผันของฟังก์ชันการแจกแจงสะสม ) กับค่า {1/ q , 2/ q , …, ( q − 1)/ q }
ควอนไทล์ของประชากร
เช่นเดียวกับการคำนวณค่าเบี่ยงเบนมาตรฐานการประมาณค่าควอนไทล์ขึ้นอยู่กับว่าเรากำลังทำงานกับประชากรทางสถิติหรือกับตัวอย่างที่สุ่มมาจากประชากรนั้น สำหรับประชากรที่มีค่าแบบไม่ต่อเนื่องหรือสำหรับความหนาแน่นของประชากรแบบต่อเนื่อง ควอนไทล์ที่kคือค่าข้อมูลที่ฟังก์ชันการกระจายสะสมตัดกับk / qนั่นคือxเป็น ค วอนไท ล์ที่ kสำหรับตัวแปรXถ้า
- Pr[ X < x ] ≤ k / qหรือเทียบเท่ากับPr[ X ≥ x ] ≥ 1 − k / q
และ
- Pr[ X ≤ x ] ≥ k / q
โดยที่Prคือฟังก์ชันความน่าจะเป็นสำหรับประชากรจำกัดที่มีค่าN ค่าซึ่งมีความน่าจะเป็นเท่ากัน โดยมีดัชนี 1, …, Nจากต่ำสุดไปสูงสุด ค่าค วอน ไท ล์ q ที่ k ของประชากรนี้สามารถคำนวณได้โดยใช้ค่าI p = N k / qถ้าI pไม่ใช่จำนวนเต็ม ให้ปัดขึ้นเป็นจำนวนเต็มถัดไปเพื่อให้ได้ดัชนีที่เหมาะสม ค่าข้อมูลที่สอดคล้องกันคือค่า ค วอน ไทล์ q ที่ kในทางกลับกัน ถ้าI pเป็นจำนวนเต็ม เราสามารถใช้จำนวนใดก็ได้ตั้งแต่ค่าข้อมูลที่ดัชนีนั้นไปจนถึงค่าข้อมูลของดัชนีถัดไปเป็นค่าควอนไทล์ และโดยทั่วไป (แม้ว่าจะขึ้นอยู่กับดุลพินิจ) จะหาค่าเฉลี่ยของค่าทั้งสองนั้น (ดูการประมาณค่าควอนไทล์จากตัวอย่าง )
ถ้าหากแทนที่จะใช้จำนวนเต็มkและq " ควอนไทล์ p" อ้างอิงจากจำนวนจริงpโดยที่0 < p < 1แล้วpจะเข้ามาแทนที่k / qในสูตรข้างต้น คำศัพท์ที่กว้างขึ้นนี้ใช้เมื่อใช้ควอนไทล์ในการกำหนดพารามิเตอร์ของการแจกแจงความน่าจะเป็นแบบต่อเนื่องนอกจากนี้ โปรแกรมซอฟต์แวร์บางโปรแกรม (รวมถึงMicrosoft Excel ) ถือว่าค่าต่ำสุดและค่าสูงสุดเป็นเปอร์เซ็นไทล์ที่ 0 และ 100 ตามลำดับ อย่างไรก็ตาม คำศัพท์ที่กว้างขึ้นนี้เป็นการขยายความจากคำจำกัดความทางสถิติแบบดั้งเดิม
ตัวอย่าง
ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดูที่เปอร์เซ็นไทล์
ประชากรที่มีขนาดเท่ากัน
พิจารณาชุดข้อมูลเรียงลำดับ 10 ค่า ได้แก่ [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้
| ควาร์ไทล์ | การคำนวณ | ผลลัพธ์ |
|---|---|---|
| ควาร์ไทล์ที่ศูนย์ | ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3 | 3 |
| ควาร์ไทล์แรก | อันดับของควาร์ไทล์แรกคือ 10×(1/4) = 2.5 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คืออันดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7 | 7 |
| ควาร์ไทล์ที่สอง | อันดับของควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คือ 10×(2/4) = 5 ซึ่งเป็นจำนวนเต็ม ในขณะที่จำนวนค่า (10) เป็นจำนวนคู่ ดังนั้นจึงนำค่าเฉลี่ยของค่าที่ห้าและค่าที่หกมาใช้ นั่นคือ (8+10)/2 = 9 แม้ว่าค่าใดๆ ตั้งแต่ 8 ถึง 10 ก็สามารถนำมาใช้เป็นค่ามัธยฐานได้ | 9 |
| ควาร์ไทล์ที่สาม | อันดับของควาร์ไทล์ที่สามคือ 10×(3/4) = 7.5 ซึ่งปัดขึ้นเป็น 8 ค่าลำดับที่แปดในประชากรคือ 15 | 15 |
| ควาร์ไทล์ที่สี่ | แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 10 | 20 |
ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20
ประชากรที่มีขนาดคี่
พิจารณาชุดข้อมูลเรียงลำดับ 11 ค่า ได้แก่ [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้
| ควาร์ไทล์ | การคำนวณ | ผลลัพธ์ |
|---|---|---|
| ควาร์ไทล์ที่ศูนย์ | ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3 | 3 |
| ควาร์ไทล์แรก | ควาร์ไทล์แรกคำนวณได้จาก 11×(1/4) = 2.75 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7 | 7 |
| ควาร์ไทล์ที่สอง | ค่าควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คำนวณได้จาก 11×(2/4) = 5.5 ซึ่งปัดขึ้นเป็น 6 ดังนั้น 6 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 2/4 ของค่าทั้งหมดน้อยกว่าค่าควาร์ไทล์ที่สอง (หรือค่ามัธยฐาน) ค่าลำดับที่หกในประชากรคือ 9 | 9 |
| ควาร์ไทล์ที่สาม | ค่าควาร์ไทล์ที่สามสำหรับตัวอย่างเดิมข้างต้นคำนวณได้จาก 11×(3/4) = 8.25 ซึ่งปัดขึ้นเป็น 9 ค่าลำดับที่เก้าในประชากรคือ 15 | 15 |
| ควาร์ไทล์ที่สี่ | แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 11 | 20 |
ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20
ความสัมพันธ์กับค่าเฉลี่ย
สำหรับการกระจายความน่าจะเป็นของประชากรใดๆ บนค่าจำนวนจำกัด และโดยทั่วไปสำหรับการกระจายความน่าจะเป็นใดๆ ที่มีค่าเฉลี่ยและความแปรปรวน จะเป็นกรณีที่ Q (p)คือค่าของควอนไทล์ p สำหรับ0 < p < 1 (หรือเทียบเท่ากับ ควอน ไทล์ q ที่ k สำหรับp = k / q ) โดยที่μ คือ ค่าเฉลี่ยเลขคณิตของการกระจายและσ คือส่วนเบี่ยง เบนมาตรฐานของการกระจาย[ 1 ] โดยเฉพาะอย่างยิ่ง ค่ามัธยฐาน( p = k / q = 1/2)จะไม่เกินหนึ่งส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย
สูตรข้างต้นสามารถใช้เพื่อกำหนดขอบเขตของค่าμ + zσในแง่ของควอนไทล์ได้ เมื่อz ≥ 0ค่าที่อยู่เหนือค่าเฉลี่ยเป็นระยะz ส่วนเบี่ยงเบนมาตรฐาน จะมีขอบเขตล่าง ตัวอย่างเช่น ค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ z = 1ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับQ ( p = 0.5)ซึ่งเป็นค่ามัธยฐานเสมอ และค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ z = 2ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับQ ( p = 0.8) ซึ่งเป็น ควินไทล์ที่สี่ เสมอ
เมื่อz ≤ 0จะมีขอบเขตบนแทน ตัวอย่างเช่น ค่าμ + zσสำหรับz = −3จะไม่เกินQ ( p = 0.1)ซึ่งเป็นเดซิไล์แรก
การประมาณค่าควอนไทล์จากตัวอย่าง
ปัญหาหนึ่งที่เกิดขึ้นบ่อยครั้งคือ การประมาณค่าควอนไทล์ของประชากร (ขนาดใหญ่มากหรืออนันต์) โดยอาศัยตัวอย่างที่มีขนาดจำกัดเพียง N
โปรแกรมทางสถิติสมัยใหม่ใช้วิธีการหลายอย่างในการประมาณค่าควอนไทล์
Hyndmanและ Fan ได้รวบรวมอนุกรมวิธานของอัลกอริทึมเก้าแบบ[ 2 ]ที่ใช้โดยแพ็กเกจซอฟต์แวร์ต่างๆ วิธีการทั้งหมดคำนวณQ pซึ่งเป็นการประมาณค่า ควอนไทล์ p ( ควอน ไทล์ qที่ k โดยที่ p = k / q ) จากตัวอย่างขนาดNโดยการคำนวณดัชนีค่าจริงhเมื่อhเป็นจำนวนเต็ม ค่าที่เล็กที่สุดลำดับที่ hของ ค่า Nค่าx hจะเป็นค่าประมาณควอนไทล์ มิฉะนั้นจะใช้แผนการปัดเศษหรือการแทรกสอดเพื่อคำนวณค่าประมาณควอนไทล์จากh , x ⌊ h ⌋และx ⌈ h ⌉ (สำหรับสัญลักษณ์ โปรดดูฟังก์ชันพื้นและเพดาน )
สามแบบแรกเป็นค่าคงที่แบบเป็นช่วงๆ โดยมีการเปลี่ยนแปลงอย่างฉับพลันที่แต่ละจุดข้อมูล ในขณะที่หกแบบสุดท้ายใช้การประมาณค่าเชิงเส้นระหว่างจุดข้อมูล และแตกต่างกันเพียงแค่การเลือกดัชนีhที่ใช้ในการเลือกจุดตามเส้นโค้งการประมาณค่าเชิงเส้นแบบเป็นช่วงๆ เท่านั้น
ภาษาโปรแกรมMathematica [ 3 ] Matlab [ 4 ] R [ 5 ]และGNU Octave [ 6 ] รองรับวิธีการควอนไทล์ตัวอย่างทั้งเก้า วิธี SASมีวิธีการควอนไทล์ตัวอย่างห้าวิธีSciPy [ 7 ] และ Maple [ 8 ] มีแปดวิธีEViews [ 9 ]และJulia [ 10 ]มีฟังก์ชันเชิงเส้นแบบแบ่งส่วนหกฟังก์ชันStata [ 11 ] มีสองวิธีPython [ 12 ]มีสองวิธี และMicrosoft Excelมีสองวิธี Mathematica, SciPy และ Julia รองรับพารามิเตอร์ที่กำหนดเองสำหรับวิธีการต่างๆ ซึ่งอนุญาตให้ใช้วิธีการอื่นๆ ที่ไม่เป็นมาตรฐาน ไลบรารี Google Guava Java มีรูปแบบประเภท 7 ในคลาส Quantiles
ประเภทการประมาณค่าและวิธีการประมาณค่าแบบสอดแทรกที่ใช้ ได้แก่:
| พิมพ์ | ชม. | คิวพี | หมายเหตุ |
|---|---|---|---|
| อาร์-1, เอสเอเอส-3, เมเปิล-1 | เอ็นพี | x ⌈ h ⌉ | ส่วน กลับของฟังก์ชันการกระจายเชิงประจักษ์ |
| R-2, SAS-5, Maple-2, Stata | เอ็นพี + 1/2 | ( x ⌈ h – 1/2⌉ + x ⌊ h + 1/2⌋ ) / 2 | เหมือนกับ R-1 แต่มีการหาค่าเฉลี่ยที่จุดไม่ต่อเนื่อง |
| อาร์-3, เอสเอเอส-2 | เอ็นพี | x ⌊ h ⌉ | เลือกค่าสังเกตที่ใกล้เคียงกับNp มากที่สุด โดยที่⌊ h ⌉หมายถึงการปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุด และจะเลือกจำนวนคู่ในกรณีที่มีค่าเท่ากัน |
| R‑4, SAS‑1, SciPy‑(0,1), Julia‑(0,1), Maple‑3 | เอ็นพี | x ⌊ h ⌋ + ( h − ⌊ h ⌋) ( x ⌈ h ⌉ − x ⌊ h ⌋ ) | การประมาณค่าเชิงเส้นของส่วนกลับของฟังก์ชันการกระจายเชิงประจักษ์ |
| R‑5, SciPy‑(1/2,1/2), Julia‑(1/2,1/2), Maple‑4 | เอ็นพี + 1/2 | ฟังก์ชันเชิงเส้นแบบแบ่งช่วง โดยที่จุดเชื่อมต่อคือค่ากึ่งกลางระหว่างช่วงต่างๆ ของฟังก์ชันการกระจายเชิงประจักษ์ | |
| R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Julia-(0,0), Maple‑5, Stata‑altdef | ( N + 1) p | การประมาณค่าเชิงเส้นของค่าคาดหวังสำหรับสถิติลำดับของการแจกแจงเอกรูปบนช่วง [0,1] กล่าวคือ เป็นการประมาณค่าเชิงเส้นระหว่างจุด( p h , x h )โดยที่p h = h /( N +1)คือความน่าจะเป็นที่ค่าสุดท้ายจากค่าที่สุ่มเลือกมา ( N +1 ) ค่า จะไม่เกินค่าที่น้อยที่สุดลำดับที่ hจากค่าที่สุ่มเลือกมา N ค่าแรก | |
| R‑7, Excel, Python, SciPy‑(1,1), Julia-(1,1), Maple‑6, NumPy, Guava | ( N − 1) p + 1 | การประมาณค่าเชิงเส้นของโหมดสำหรับสถิติลำดับสำหรับการแจกแจงเอกรูปบนช่วง [0,1] | |
| R‑8, SciPy‑(1/3,1/3), Julia‑(1/3,1/3), Maple‑7 | ( N + 1/3) p + 1/3 | การประมาณค่ามัธยฐานแบบเชิงเส้นสำหรับสถิติเรียงลำดับ | |
| R‑9, SciPy‑(3/8,3/8), Julia‑(3/8,3/8), Maple‑8 | ( N + 1/4) p + 3/8 | ค่าประมาณควอนไทล์ที่ได้จะมีค่าประมาณที่ไม่เอนเอียงสำหรับค่าสถิติลำดับที่คาดหวัง หากxมีการกระจายแบบปกติ |
หมายเหตุ:
- R-1 ถึง R-3 เป็นค่าคงที่แบบเป็นช่วงๆ โดยมีจุดไม่ต่อเนื่อง
- R-4 และตัวต่อๆ ไปเป็นแบบเชิงเส้นเป็นช่วงๆ โดยไม่มีจุดไม่ต่อเนื่อง แต่แตกต่างกันในวิธีการคำนวณh
- R-3 และ R-4 ไม่สมมาตร เนื่องจากไม่ให้ค่าh = ( N + 1) / 2เมื่อp = 1/2
- ฟังก์ชัน PERCENTILE.EXC ของ Excel และเมธอด "exclusive" เริ่มต้นของ Python เทียบเท่ากับ R-6
- ฟังก์ชัน PERCENTILE และ PERCENTILE.INC ของ Excel และเมธอด "inclusive" ที่เป็นตัวเลือกของ Python นั้นเทียบเท่ากับ R-7 ซึ่งเป็นเมธอดเริ่มต้นของ R และ Julia
- แพ็กเกจต่างๆ มีวิธีการประมาณค่าควอนไทล์ที่แตกต่างกันออกไป โดยค่าที่ได้ควรอยู่นอกเหนือค่าต่ำสุดและสูงสุดในตัวอย่าง เช่นp < 1/ Nและp > ( N − 1)/ Nตัวเลือกต่างๆ ได้แก่ การส่งคืนค่าความคลาดเคลื่อน การคำนวณการประมาณค่าเชิงเส้น หรือการสมมติค่าคงที่
ในบรรดาเทคนิคต่างๆ Hyndman และ Fan แนะนำ R-8 แต่ซอฟต์แวร์ทางสถิติส่วนใหญ่เลือกใช้ R-6 หรือ R-7 เป็นค่าเริ่มต้น[ 13 ]
โดยทั่วไปแล้ว ค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่าควอนไทล์สามารถประมาณได้โดยใช้บูตสแตรปนอกจากนี้ยังสามารถใช้วิธี Maritz–Jarrett ได้อีกด้วย[ 14 ]
การแจกแจงเชิงอะซิมโทติกของค่ามัธยฐานของตัวอย่าง
ค่ามัธยฐานของตัวอย่างเป็นค่าที่ถูกศึกษามากที่สุดในบรรดาควอนไทล์ เนื่องจากเป็นทางเลือกในการประมาณค่าพารามิเตอร์ตำแหน่งเมื่อค่าเฉลี่ยของการกระจายตัวไม่มีอยู่จริง และด้วยเหตุนี้ค่าเฉลี่ยของตัวอย่างจึงไม่ใช่ตัวประมาณค่าที่มีความหมายของลักษณะประชากร นอกจากนี้ ค่ามัธยฐานของตัวอย่างยังเป็นตัวประมาณค่าที่แข็งแกร่งกว่าค่าเฉลี่ยของตัวอย่างอีกด้วย
ลักษณะเฉพาะอย่างหนึ่งของค่ามัธยฐานของตัวอย่างคือการกระจายเชิงอะซิมโทติก : เมื่อตัวอย่างมาจากการกระจายแบบต่อเนื่อง ค่ามัธยฐานของตัวอย่างจะมีการกระจายเชิงอะซิมโทติกแบบปกติที่คาดการณ์ไว้
หลักการนี้ใช้ได้กับควอนไทล์อื่นๆ ด้วยเช่นกัน
โดยที่f ( x p )คือค่าของความหนาแน่นการกระจายที่ควอนไทล์ประชากร ที่ p ( ) [ 15 ]
แต่เมื่อการแจกแจงเป็นแบบไม่ต่อเนื่อง การแจกแจงของค่ามัธยฐานของตัวอย่างและควอนไทล์อื่นๆ จะไม่เป็นการแจกแจงแบบปกติ (ดูตัวอย่างได้ที่https://stats.stackexchange.com/a/86638/28746 )
วิธีแก้ปัญหาดังกล่าวคือการใช้นิยามทางเลือกของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชัน "ค่ากลางของการกระจาย" ซึ่งกำหนดไว้ดังนี้
นิยามของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชันการกระจายกลางสามารถมองได้ว่าเป็นการวางนัยทั่วไปที่สามารถครอบคลุมกรณีพิเศษของการกระจายแบบต่อเนื่องได้ สำหรับการกระจายแบบไม่ต่อเนื่อง ค่ามัธยฐานของตัวอย่างตามนิยามนี้จะมีการกระจายแบบปกติเชิงอะซิมโทติก ดู Ma, Y., Genton, MG, & Parzen, E. (2011). คุณสมบัติเชิงอะซิมโทติกของควอนไทล์ตัวอย่างของการกระจายแบบไม่ต่อเนื่อง Annals of the Institute of Statistical Mathematics, 63(2), 227–243.
ค่าควอนไทล์โดยประมาณจากสตรีม
การคำนวณควอนไทล์โดยประมาณจากข้อมูลที่เข้ามาจากสตรีมสามารถทำได้อย่างมีประสิทธิภาพโดยใช้โครงสร้างข้อมูลที่บีบอัด วิธีที่ได้รับความนิยมมากที่สุดคือ t-digest [ 16 ]และ KLL [ 17 ]วิธีเหล่านี้จะอ่านสตรีมของค่าอย่างต่อเนื่อง และสามารถสอบถามเกี่ยวกับค่าโดยประมาณของควอนไทล์ที่ระบุได้ตลอดเวลา
อัลกอริทึมทั้งสองแบบนี้มีพื้นฐานมาจากแนวคิดที่คล้ายกัน คือ การบีบอัดกระแสของค่าโดยการสรุปค่าที่เหมือนกันหรือคล้ายกันด้วยน้ำหนัก หากกระแสประกอบด้วยการทำซ้ำ v1 100 ครั้ง และ v2 100 ครั้ง ก็ไม่มีเหตุผลที่จะต้องเก็บรายการที่เรียงลำดับแล้ว 200 รายการ เพียงแค่เก็บสององค์ประกอบและสองจำนวนก็เพียงพอที่จะกู้คืนควอนไทล์ได้แล้ว สำหรับค่าที่มากขึ้น อัลกอริทึมเหล่านี้จะรักษาสมดุลระหว่างจำนวนค่าที่ไม่ซ้ำกันที่จัดเก็บไว้และความแม่นยำของควอนไทล์ที่ได้ บางค่าอาจถูกทิ้งจากกระแสและนำไปรวมกับน้ำหนักของค่าใกล้เคียงโดยไม่เปลี่ยนแปลงผลลัพธ์ของควอนไทล์มากนัก อัลกอริทึม t-digest รักษาโครงสร้างข้อมูลที่มีขนาดจำกัดโดยใช้วิธีการที่ได้รับแรงบันดาลใจจาก การจัดกลุ่มแบบ k -means เพื่อจัดกลุ่มค่าที่คล้ายกัน อัลกอริทึม KLL ใช้ "วิธีการบีบอัด" ที่ซับซ้อนกว่า ซึ่งนำไปสู่การ ควบคุม ขอบเขตของข้อผิดพลาดได้ดีขึ้น แต่ต้องแลกมาด้วยขนาดที่ไม่จำกัดหากต้องจำกัดข้อผิดพลาดเทียบกับp
ทั้งสองวิธีนี้จัดอยู่ในกลุ่มของโครงร่างข้อมูลซึ่งเป็นส่วนย่อยของอัลกอริธึมแบบสตรีมมิ่งที่มีคุณสมบัติที่เป็นประโยชน์: โครงร่าง t-digest หรือ KLL สามารถนำมาใช้ร่วมกันได้ การคำนวณโครงร่างสำหรับเวกเตอร์ค่าขนาดใหญ่มากสามารถแบ่งออกเป็นกระบวนการแบบขนานที่ง่ายต่อการประมวลผล โดยที่โครงร่างจะถูกคำนวณสำหรับส่วนย่อยของเวกเตอร์แบบขนานและรวมเข้าด้วยกันในภายหลัง
อัลกอริทึมที่อธิบายไว้ข้างต้นประมาณค่าควอนไทล์เชิงประจักษ์โดยตรงโดยไม่ต้องมีข้อสมมติฐานใดๆ เกี่ยวกับข้อมูล โดยพื้นฐานแล้วข้อมูลก็คือตัวเลขหรือโดยทั่วไปแล้วก็คือชุดของรายการที่สามารถเรียงลำดับได้ อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากวิทยาศาสตร์คอมพิวเตอร์ นอกจากนี้ยังมีอัลกอริทึมอีกประเภทหนึ่งที่สมมติว่าข้อมูลเป็นผลลัพธ์ของกระบวนการสุ่ม อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากสถิติ โดยเฉพาะอย่างยิ่งอัลกอริทึมการประมาณค่าแบบไม่พาราเมตริกตามลำดับ มีอัลกอริทึมดังกล่าวอยู่หลายตัว เช่น อัลกอริทึมที่อิงตามการประมาณค่าแบบสุ่ม[ 18 ] [ 19 ]หรือตัวประมาณค่าอนุกรม Hermite [ 20 ]
โดยทั่วไปอัลกอริธึมที่ใช้สถิติเหล่านี้จะมีเวลาในการอัปเดตและความซับซ้อนของพื้นที่คงที่ แต่มีการรับประกันขอบเขตข้อผิดพลาดที่แตกต่างกันเมื่อเทียบกับวิธีการประเภทวิทยาศาสตร์คอมพิวเตอร์ และตั้งสมมติฐานมากกว่า อย่างไรก็ตาม อัลกอริธึมที่ใช้สถิติมีข้อดีบางประการ โดยเฉพาะอย่างยิ่งในการตั้งค่าสตรีมมิ่งที่ไม่คงที่ เช่น ข้อมูลที่เปลี่ยนแปลงตามเวลา อัลกอริธึมของทั้งสองประเภท พร้อมด้วยข้อดีและข้อเสียบางประการ ได้รับการสำรวจเมื่อเร็ว ๆ นี้[ 21 ]
การอภิปราย
ผลการทดสอบมาตรฐานมักจะรายงานว่านักเรียนได้คะแนน "อยู่ในเปอร์เซ็นไทล์ที่ 80" ตัวอย่างเช่น นี่เป็นการใช้ความหมายอื่นของคำว่าเปอร์เซ็นไทล์เป็นช่วงระหว่าง (ในกรณีนี้) เปอร์เซ็นไทล์ที่ 80 และ 81 [ 22 ]ความหมายที่แยกจากกันของเปอร์เซ็นไทล์นี้ยังใช้ในบทความวิจัยทางวิทยาศาสตร์ที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิด้วย[ 23 ]ความหมายที่ใช้สามารถอนุมานได้จากบริบท
ถ้าการแจกแจงสมมาตร ค่ามัธยฐานจะเป็นค่าเฉลี่ย (ตราบใดที่ค่าเฉลี่ยมีอยู่) แต่โดยทั่วไปแล้ว ค่ามัธยฐานและค่าเฉลี่ยอาจแตกต่างกันได้ ตัวอย่างเช่น สำหรับตัวแปรสุ่มที่มีการแจกแจงแบบเอกซ์โปเนนเชียล ตัวอย่างใดๆ ของตัวแปรสุ่มนี้จะมีโอกาสประมาณ 63% ที่จะน้อยกว่าค่าเฉลี่ย เนื่องจาก1การแจกแจงแบบเอกซ์โปเนนเชียลมีหางยาวสำหรับค่าบวก แต่เป็นศูนย์สำหรับจำนวนลบ
ควอนไทล์เป็นมาตรวัดที่มีประโยชน์เพราะมีความอ่อนไหวต่อปัญหาที่เกิดจากการกระจายแบบหางยาวและค่าผิดปกติได้น้อยกว่าค่าเฉลี่ย ในทางปฏิบัติ หากข้อมูลที่นำมาวิเคราะห์ไม่ได้มีการกระจายตามสมมติฐาน หรือหากมีแหล่งที่มาของค่าผิดปกติอื่นๆ ที่อยู่ห่างไกลจากค่าเฉลี่ยมาก ควอนไทล์อาจเป็นสถิติเชิงพรรณนาที่มีประโยชน์มากกว่าค่าเฉลี่ยและสถิติอื่นๆ ที่เกี่ยวข้องกับโมเมนต์
หัวข้อที่เกี่ยวข้องอย่างใกล้ชิดคือ วิธี การหา ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด (Least Absolute Deviation : LASSO) ซึ่งเป็นวิธีการถดถอยที่มีความทนทานต่อค่าผิดปกติมากกว่าวิธีการกำลังสองน้อยที่สุด ( Least Squares: LASSO) ซึ่งใช้ผลรวมของค่าสัมบูรณ์ของความคลาดเคลื่อนที่สังเกตได้แทนค่าความคลาดเคลื่อนกำลังสอง ความเชื่อมโยงคือ ค่าเฉลี่ยเป็นค่าประมาณเพียงค่าเดียวของการกระจายตัวที่ทำให้ค่าความคลาดเคลื่อนกำลังสองที่คาดหวังมีค่าน้อยที่สุด ในขณะที่ค่ามัธยฐานทำให้ค่าความคลาดเคลื่อนสัมบูรณ์ที่คาดหวังมีค่าน้อยที่สุด วิธีการหาค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด มีความสามารถที่จะไม่ไวต่อค่าเบี่ยงเบนขนาดใหญ่ในข้อมูลที่ผิดปกติ แม้ว่า จะมี วิธี การถดถอยที่ทนทานต่อค่าผิดปกติได้ดีกว่านี้ก็ตาม
ควอนไทล์ของตัวแปรสุ่มจะคงอยู่ภายใต้การแปลงที่เพิ่มขึ้น ในแง่ที่ว่า ตัวอย่างเช่น ถ้าmคือค่ามัธยฐานของตัวแปรสุ่มXแล้ว2m ก็คือค่ามัธยฐานของ2X เว้นแต่จะมีการเลือกค่าใดค่าหนึ่งโดยพลการจากช่วงค่าเพื่อระบุควอนไทล์เฉพาะ (ดูตัวอย่างการประมาณค่าควอนไทล์ใน หัวข้อข้างต้น) ควอนไทล์ยังสามารถใช้ได้ในกรณีที่มีข้อมูล เชิงลำดับ เท่านั้น
การวัดปริมาณอื่นๆ
ค่าที่ใช้แบ่งข้อมูลที่เรียงลำดับแล้วออกเป็นกลุ่มย่อยที่เท่ากันนอกเหนือจากสี่กลุ่ม จะมีชื่อเรียกที่แตกต่างกัน
- ค่าควอไทล์ที่ 2 เพียงค่าเดียวเรียกว่าค่ามัธยฐาน
- ควอนไทล์ทั้ง 3 เรียกว่าเทอร์ไทล์หรือเทอร์ไซล์ → T
- ควอนไทล์ทั้ง 4 เรียกว่าควาร์ไทล์ → Q; ผลต่างระหว่างควาร์ไทล์บนและล่างเรียกว่าช่วงควาร์ไทล์ (Interquartile Range) , ค่ากลาง (Midspread)หรือค่ากลางห้าสิบ (Middle Fifty) → IQR = Q 3 − Q 1
- ควอนไทล์ทั้ง 5 เรียกว่าควินไทล์หรือเพนไทล์ → QU
- ควอนไทล์ที่ 6 เรียกว่าเซกซ์ไทล์ → S
- ควอนไทล์ทั้ง 7 เรียกว่าเซปไทล์ → SP
- ควอนไทล์ที่ 8 เรียกว่าอ็อกไทล์ → O
- ควอนไทล์ทั้ง 10 เรียกว่าเดไซล์ → D
- ควอนไทล์ทั้ง 12 เรียกว่า ดูโอเดไซล์ หรือ โดเดไซล์ → DD
- ควอนไทล์ทั้ง 16 ตัวเรียกว่าเฮกซาเดซิล → H
- 20 ควอไทล์เรียกว่าventiles , vigintilesหรือ demi-deciles → V
- ค่าควอไทล์ 100 ค่า เรียกว่าเปอร์เซ็นไทล์ → P
- ควอนไทล์ 1,000 ได้รับการเรียกขานว่าเพอร์มิลหรือมิลไลล์ แต่สิ่งเหล่านี้หายากและล้าสมัยเป็นส่วนใหญ่[ 24 ]
ดูเพิ่มเติม
- Flashsort – เรียงลำดับตามการจัดกลุ่มแรกตามควอนไทล์
- ช่วงควาร์ไทล์
- สถิติเชิงพรรณนา
- ค่าคาดหวัง – เกี่ยวข้องกับค่าคาดหวังในลักษณะที่คล้ายคลึงกับความสัมพันธ์ระหว่างค่าควอนไทล์กับค่ามัธยฐาน
- ควาร์ไทล์
- แผนภูมิ Q–Q
- ฟังก์ชันควอนไทล์
- การทำให้เป็นมาตรฐานควอนไทล์
- การถดถอยควอนไทล์
- การหาปริมาณ
- สถิติสรุป
- ช่วงความคลาดเคลื่อน (" ช่วงความเชื่อมั่นสำหรับ ควอนไทล์ที่ p " [ 25 ] )
อ่านเพิ่มเติม
- Serfling, RJ (1980). ทฤษฎีบทการประมาณค่าทางสถิติคณิตศาสตร์ . John Wiley & Sons. ISBN 0-471-02403-1.
ลิงก์ภายนอก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ควอนไทล์
ใน ทางสถิติ และ ความน่าจะเป็น ควอนไทล์ คือจุดตัดที่แบ่ง ช่วง ของ ความน่าจะเป็นออก เป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่ง ข้อมูล ใน ตัวอย่าง ในลักษณะเดียวกัน...
ควอนไทล์ของประชากร
เช่นเดียวกับการคำนวณค่า เบี่ยงเบนมาตรฐาน การประมาณค่าควอนไทล์ขึ้นอยู่กับว่าเรากำลังทำงานกับ ประชากรทางสถิติ หรือกับ ตัวอย่าง ที่สุ่มมาจากประชากรนั้น สำหรับประชากรที่มีค่าแบบไม่ต่อเนื่องหรือสำหรับความหนาแน่นของประชากรแบบต่อเนื่อง ควอนไทล์ที่ k คือ ค่า...
ตัวอย่าง
ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดู ที่เปอร์เซ็นไท ล์
ความสัมพันธ์กับค่าเฉลี่ย
สำหรับการกระจายความน่าจะเป็นของประชากรใดๆ บนค่าจำนวนจำกัด และโดยทั่วไปสำหรับการกระจายความน่าจะเป็นใดๆ ที่มีค่าเฉลี่ยและความแปรปรวน จะเป็นกรณีที่ Q (p) คือค่าของ ค วอนไทล์ p สำหรับ 0 < p < 1 (หรือเทียบเท่ากับ ค วอน ไทล์ q ที่ k สำหรับ p = k / q ) โดยที่ μ คือ...