ควอนไทล์

Q: ตัวอย่าง

ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดู ที่เปอร์เซ็นไท ล์

ในทางสถิติและความน่าจะเป็นควอนไทล์คือจุดตัดที่แบ่งช่วงของความน่าจะเป็นออกเป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่งข้อมูลในตัวอย่างในลักษณะเดียวกัน ควอนไทล์ที่ใช้กันทั่วไปมีชื่อเรียกเฉพาะ เช่นควาร์ไทล์ (สี่กลุ่ม) เดไซล์ (สิบกลุ่ม) และเปอร์เซ็นไทล์ (หนึ่งร้อยกลุ่ม) กลุ่มที่สร้างขึ้นเรียกว่าครึ่งหนึ่ง หนึ่งในสาม หนึ่งในสี่ เป็นต้น แต่โดยส่วนใหญ่แล้ว คำที่ใช้เรียกควอนไทล์มักใช้เรียกกลุ่มที่สร้างขึ้นมากกว่าจุดตัด

ค วอนไทล์ $q$ คือค่าที่แบ่งเซตของค่าจำกัด ออกเป็น $q$ เซตย่อยที่มีขนาด (เกือบ) เท่ากัน มีเซตย่อยของ $ควอนไทล์ q ทั้งหมด$ $q - 1$ เซต โดยแต่ละ เซตย่อยแทน จำนวนเต็ม $k$ ที่สอดคล้องกับ $0 <$ $k$ $<$ $q$ ในบางกรณี ค่าของควอนไทล์อาจไม่สามารถกำหนดได้อย่างเฉพาะเจาะจง เช่น ค่ามัธยฐาน (ควอนไทล์ที่ 2) ของการแจกแจงความน่าจะเป็นแบบเอกรูปบนเซตที่มีขนาดเป็นเลขคู่ ควอนไทล์ยังสามารถนำไปใช้กับ การแจกแจง แบบต่อเนื่องได้ซึ่งเป็นวิธีหนึ่งในการขยายสถิติอันดับไปสู่ตัวแปรต่อเนื่อง (ดูอันดับเปอร์เซ็นไทล์ ) เมื่อทราบฟังก์ชันการแจกแจงสะสมของตัวแปรสุ่ม ควอนไทล์ $q$ คือการประยุกต์ใช้ฟังก์ชันควอนไทล์ (ฟังก์ชันผกผันของฟังก์ชันการแจกแจงสะสม ) กับค่า ${1/$ $q$ $, 2/$ $q$ $, \dots, ($ $q$ $- 1)/$ $q$ }

ควอนไทล์ของประชากร

เช่นเดียวกับการคำนวณค่าเบี่ยงเบนมาตรฐานการประมาณค่าควอนไทล์ขึ้นอยู่กับว่าเรากำลังทำงานกับประชากรทางสถิติหรือกับตัวอย่างที่สุ่มมาจากประชากรนั้น สำหรับประชากรที่มีค่าแบบไม่ต่อเนื่องหรือสำหรับความหนาแน่นของประชากรแบบต่อเนื่อง ควอนไทล์ที่ $k$ คือ $ค่า$ ข้อมูลที่ฟังก์ชันการกระจายสะสมตัดกับ $k$ $/$ $q$ นั่นคือ $x$ เป็น ค วอน $ไท ล์ที่$ $k$ สำหรับตัวแปร $X$ ถ้า

Pr[X < x] \leq k / q

หรือเทียบเท่ากับ

Pr[X \geq x] \geq 1 - k / q

และ

Pr[X \leq x] \geq k / q

โดยที่ $Pr$ คือฟังก์ชันความน่าจะเป็นสำหรับประชากรจำกัดที่มีค่า $N ค่าซึ่งมีความน่าจะเป็นเท่ากัน โดยมีดัชนี$ $1, \dots, N$ จากต่ำสุดไปสูงสุด ค่า $ค$ วอน ไท ล์ $q$ ที่ k ของประชากรนี้สามารถคำนวณได้โดยใช้ค่า $I p = N k / q$ ถ้า $I p$ ไม่ใช่จำนวนเต็ม ให้ปัดขึ้นเป็นจำนวนเต็มถัดไปเพื่อให้ได้ดัชนีที่เหมาะสม ค่าข้อมูลที่สอดคล้องกันคือค่า ค วอน ไทล์ $q$ $ที่ k$ ในทางกลับกัน ถ้า $I$ $p$ เป็นจำนวนเต็ม เราสามารถใช้จำนวนใดก็ได้ตั้งแต่ค่าข้อมูลที่ดัชนีนั้นไปจนถึงค่าข้อมูลของดัชนีถัดไปเป็นค่าควอนไทล์ และโดยทั่วไป (แม้ว่าจะขึ้นอยู่กับดุลพินิจ) จะหาค่าเฉลี่ยของค่าทั้งสองนั้น (ดูการประมาณค่าควอนไทล์จากตัวอย่าง )

ถ้าหากแทนที่จะใช้จำนวนเต็ม $k$ และ $q$ " $ค$ วอนไทล์ p" อ้างอิงจากจำนวนจริง $p$ โดยที่ $0 < p < 1$ แล้ว $p$ จะเข้ามาแทนที่ $k / q$ ในสูตรข้างต้น คำศัพท์ที่กว้างขึ้นนี้ใช้เมื่อใช้ควอนไทล์ในการกำหนดพารามิเตอร์ของการแจกแจงความน่าจะเป็นแบบต่อเนื่องนอกจากนี้ โปรแกรมซอฟต์แวร์บางโปรแกรม (รวมถึงMicrosoft Excel ) ถือว่าค่าต่ำสุดและค่าสูงสุดเป็นเปอร์เซ็นไทล์ที่ 0 และ 100 ตามลำดับ อย่างไรก็ตาม คำศัพท์ที่กว้างขึ้นนี้เป็นการขยายความจากคำจำกัดความทางสถิติแบบดั้งเดิม

ตัวอย่าง

ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดูที่เปอร์เซ็นไทล์

ประชากรที่มีขนาดเท่ากัน

พิจารณาชุดข้อมูลเรียงลำดับ 10 ค่า ได้แก่ [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้

ควาร์ไทล์	การคำนวณ	ผลลัพธ์
ควาร์ไทล์ที่ศูนย์	ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3	3
ควาร์ไทล์แรก	อันดับของควาร์ไทล์แรกคือ 10×(1/4) = 2.5 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คืออันดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7	7
ควาร์ไทล์ที่สอง	อันดับของควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คือ 10×(2/4) = 5 ซึ่งเป็นจำนวนเต็ม ในขณะที่จำนวนค่า (10) เป็นจำนวนคู่ ดังนั้นจึงนำค่าเฉลี่ยของค่าที่ห้าและค่าที่หกมาใช้ นั่นคือ (8+10)/2 = 9 แม้ว่าค่าใดๆ ตั้งแต่ 8 ถึง 10 ก็สามารถนำมาใช้เป็นค่ามัธยฐานได้	9
ควาร์ไทล์ที่สาม	อันดับของควาร์ไทล์ที่สามคือ 10×(3/4) = 7.5 ซึ่งปัดขึ้นเป็น 8 ค่าลำดับที่แปดในประชากรคือ 15	15
ควาร์ไทล์ที่สี่	แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 10	20

ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20

ประชากรที่มีขนาดคี่

พิจารณาชุดข้อมูลเรียงลำดับ 11 ค่า ได้แก่ [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้

ควาร์ไทล์	การคำนวณ	ผลลัพธ์
ควาร์ไทล์ที่ศูนย์	ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3	3
ควาร์ไทล์แรก	ควาร์ไทล์แรกคำนวณได้จาก 11×(1/4) = 2.75 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7	7
ควาร์ไทล์ที่สอง	ค่าควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คำนวณได้จาก 11×(2/4) = 5.5 ซึ่งปัดขึ้นเป็น 6 ดังนั้น 6 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 2/4 ของค่าทั้งหมดน้อยกว่าค่าควาร์ไทล์ที่สอง (หรือค่ามัธยฐาน) ค่าลำดับที่หกในประชากรคือ 9	9
ควาร์ไทล์ที่สาม	ค่าควาร์ไทล์ที่สามสำหรับตัวอย่างเดิมข้างต้นคำนวณได้จาก 11×(3/4) = 8.25 ซึ่งปัดขึ้นเป็น 9 ค่าลำดับที่เก้าในประชากรคือ 15	15
ควาร์ไทล์ที่สี่	แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 11	20

ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20

ความสัมพันธ์กับค่าเฉลี่ย

สำหรับการกระจายความน่าจะเป็นของประชากรใดๆ บนค่าจำนวนจำกัด และโดยทั่วไปสำหรับการกระจายความน่าจะเป็นใดๆ ที่มีค่าเฉลี่ยและความแปรปรวน จะเป็นกรณีที่ Q $(p)$ คือค่าของ $ค$ วอนไทล์ p สำหรับ $0 <$ $p$ $< 1$ (หรือเทียบเท่ากับ $ค$ วอน ไทล์ $q$ ที่ k สำหรับ $p$ $=$ $k$ $/$ $q$ ) โดยที่ $μ คือ$ ค่าเฉลี่ยเลขคณิตของการกระจายและ $σ$ คือส่วนเบี่ยง เบนมาตรฐานของการกระจาย^[¹^] โดยเฉพาะอย่างยิ่ง ค่ามัธยฐาน $($ $p$ $=$ $k$ $/$ $q$ $= 1/2)$ จะไม่เกินหนึ่งส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย $\mu -\sigma \cdot {\sqrt {\frac {1-p}{p}}}\leq Q(p)\leq \mu +\sigma \cdot {\sqrt {\frac {p}{1-p}}}\,,$

สูตรข้างต้นสามารถใช้เพื่อกำหนดขอบเขตของค่า $μ + zσ$ ในแง่ของควอนไทล์ได้ เมื่อ $z \geq 0$ ค่าที่อยู่เหนือค่าเฉลี่ยเป็นระยะ $z$ ส่วนเบี่ยงเบนมาตรฐาน จะมีขอบเขตล่าง ตัวอย่างเช่น ค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ $z$ $= 1$ ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับ $Q$ $($ $p$ $= 0.5)$ ซึ่งเป็นค่ามัธยฐานเสมอ และค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ $z$ $= 2$ ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับ $Q$ $($ $p$ $= 0.8)$ ซึ่งเป็น ควินไทล์ที่สี่ เสมอ $\mu +z\sigma \geq Q\left({\frac {z^{2}}{1+z^{2}}}\right)\,,\mathrm {~for~} z\geq 0.$

เมื่อ $z \leq 0$ จะมีขอบเขตบนแทน ตัวอย่างเช่น ค่า $μ$ $+$ $zσ$ สำหรับ $z$ $= -3$ จะไม่เกิน $Q$ $($ $p$ $= 0.1)$ ซึ่งเป็นเดซิไล์แรก $\mu +z\sigma \leq Q\left({\frac {1}{1+z^{2}}}\right)\,,\mathrm {~for~} z\leq 0.$

การประมาณค่าควอนไทล์จากตัวอย่าง

ปัญหาหนึ่งที่เกิดขึ้นบ่อยครั้งคือ การประมาณค่าควอนไทล์ของประชากร (ขนาดใหญ่มากหรืออนันต์) โดยอาศัยตัวอย่างที่มีขนาดจำกัดเพียง $N$

โปรแกรมทางสถิติสมัยใหม่ใช้วิธีการหลายอย่างในการประมาณค่าควอนไทล์

Hyndmanและ Fan ได้รวบรวมอนุกรมวิธานของอัลกอริทึมเก้าแบบ^{[ 2 ]}ที่ใช้โดยแพ็กเกจซอฟต์แวร์ต่างๆ วิธีการทั้งหมดคำนวณ $Q p$ ซึ่งเป็นการประมาณค่า ควอนไทล์ $p$ ( $ค$ วอน ไทล์ $q$ ที่ k โดยที่ $p = k / q$ ) จากตัวอย่างขนาด $N$ โดยการคำนวณดัชนีค่าจริง $h$ เมื่อ $h$ เป็นจำนวนเต็ม ค่าที่เล็กที่สุดลำดับที่ $h$ ของ ค่า $N$ ค่า $x h$ จะเป็นค่าประมาณควอนไทล์ มิฉะนั้นจะใช้แผนการปัดเศษหรือการแทรกสอดเพื่อคำนวณค่าประมาณควอนไทล์จาก $h$ , $x ⌊ h ⌋$ และ $x ⌈ h ⌉$ (สำหรับสัญลักษณ์ โปรดดูฟังก์ชันพื้นและเพดาน )

สามแบบแรกเป็นค่าคงที่แบบเป็นช่วงๆ โดยมีการเปลี่ยนแปลงอย่างฉับพลันที่แต่ละจุดข้อมูล ในขณะที่หกแบบสุดท้ายใช้การประมาณค่าเชิงเส้นระหว่างจุดข้อมูล และแตกต่างกันเพียงแค่การเลือกดัชนี $h$ ที่ใช้ในการเลือกจุดตามเส้นโค้งการประมาณค่าเชิงเส้นแบบเป็นช่วงๆ เท่านั้น

ภาษาโปรแกรมMathematica [ ^{3 ]} Matlab [ ⁴^] R ^[⁵^]และGNU Octave ^[⁶^{] รองรับวิธีการควอนไทล์ตัวอย่างทั้งเก้า}^วิธี SASมีวิธีการควอนไทล์ตัวอย่างห้าวิธี^SciPy [ ⁷^]^และ Maple [ ⁸^]^มีแปดวิธีEViews ^[⁹^]และJulia ^[¹⁰^]มีฟังก์ชันเชิงเส้นแบบแบ่งส่วนหกฟังก์ชันStata ^[¹¹^] มีสองวิธีPython ^[¹²^]มีสองวิธี และMicrosoft Excelมีสองวิธี Mathematica, SciPy และ Julia รองรับพารามิเตอร์ที่กำหนดเองสำหรับวิธีการต่างๆ ซึ่งอนุญาตให้ใช้วิธีการอื่นๆ ที่ไม่เป็นมาตรฐาน ไลบรารี Google Guava Java มีรูปแบบประเภท 7 ในคลาส Quantiles

ประเภทการประมาณค่าและวิธีการประมาณค่าแบบสอดแทรกที่ใช้ ได้แก่:

พิมพ์	$ชม.$	$คิว พี$	หมายเหตุ
อาร์-1, เอสเอเอส-3, เมเปิล-1	$เอ็นพี$	$x ⌈ h ⌉$	ส่วน กลับของฟังก์ชันการกระจายเชิงประจักษ์
R-2, SAS-5, Maple-2, Stata	$เอ็นพี + 1/2$	$(x ⌈ h - 1/2⌉ + x ⌊ h + 1/2⌋) / 2$	เหมือนกับ R-1 แต่มีการหาค่าเฉลี่ยที่จุดไม่ต่อเนื่อง
อาร์-3, เอสเอเอส-2	$เอ็นพี$	$x ⌊ h ⌉$	เลือกค่าสังเกตที่ใกล้เคียงกับ $Np$ มากที่สุด โดยที่ $⌊ h ⌉$ หมายถึงการปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุด และจะเลือกจำนวนคู่ในกรณีที่มีค่าเท่ากัน
R‑4, SAS‑1, SciPy‑(0,1), Julia‑(0,1), Maple‑3	$เอ็นพี$	$x ⌊ h ⌋ + (h - ⌊ h ⌋) (x ⌈ h ⌉ - x ⌊ h ⌋)$	การประมาณค่าเชิงเส้นของส่วนกลับของฟังก์ชันการกระจายเชิงประจักษ์
R‑5, SciPy‑(1/2,1/2), Julia‑(1/2,1/2), Maple‑4	$เอ็นพี + 1/2$		ฟังก์ชันเชิงเส้นแบบแบ่งช่วง โดยที่จุดเชื่อมต่อคือค่ากึ่งกลางระหว่างช่วงต่างๆ ของฟังก์ชันการกระจายเชิงประจักษ์
R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Julia-(0,0), Maple‑5, Stata‑altdef	$(N + 1) p$		การประมาณค่าเชิงเส้นของค่าคาดหวังสำหรับสถิติลำดับของการแจกแจงเอกรูปบนช่วง [0,1] กล่าวคือ เป็นการประมาณค่าเชิงเส้นระหว่างจุด $(p h, x h)$ โดยที่ $p h = h /(N +1)$ คือความน่าจะเป็นที่ค่าสุดท้ายจากค่าที่สุ่มเลือกมา ( $N +1 ) ค่า จะไม่เกินค่าที่น้อยที่สุดลำดับที่$ $h$ จากค่าที่สุ่มเลือกมา $N ค่าแรก$
R‑7, Excel, Python, SciPy‑(1,1), Julia-(1,1), Maple‑6, NumPy, Guava	$(N - 1) p + 1$		การประมาณค่าเชิงเส้นของโหมดสำหรับสถิติลำดับสำหรับการแจกแจงเอกรูปบนช่วง [0,1]
R‑8, SciPy‑(1/3,1/3), Julia‑(1/3,1/3), Maple‑7	$(N + 1/3) p + 1/3$		การประมาณค่ามัธยฐานแบบเชิงเส้นสำหรับสถิติเรียงลำดับ
R‑9, SciPy‑(3/8,3/8), Julia‑(3/8,3/8), Maple‑8	$(N + 1/4) p + 3/8$		ค่าประมาณควอนไทล์ที่ได้จะมีค่าประมาณที่ไม่เอนเอียงสำหรับค่าสถิติลำดับที่คาดหวัง หาก $x$ มีการกระจายแบบปกติ

หมายเหตุ:

R-1 ถึง R-3 เป็นค่าคงที่แบบเป็นช่วงๆ โดยมีจุดไม่ต่อเนื่อง
R-4 และตัวต่อๆ ไปเป็นแบบเชิงเส้นเป็นช่วงๆ โดยไม่มีจุดไม่ต่อเนื่อง แต่แตกต่างกันในวิธีการคำนวณ $h$
R-3 และ R-4 ไม่สมมาตร เนื่องจากไม่ให้ค่า $h = (N + 1) / 2$ เมื่อ $p =$ 1/2
ฟังก์ชัน PERCENTILE.EXC ของ Excel และเมธอด "exclusive" เริ่มต้นของ Python เทียบเท่ากับ R-6
ฟังก์ชัน PERCENTILE และ PERCENTILE.INC ของ Excel และเมธอด "inclusive" ที่เป็นตัวเลือกของ Python นั้นเทียบเท่ากับ R-7 ซึ่งเป็นเมธอดเริ่มต้นของ R และ Julia
แพ็กเกจต่างๆ มีวิธีการประมาณค่าควอนไทล์ที่แตกต่างกันออกไป โดยค่าที่ได้ควรอยู่นอกเหนือค่าต่ำสุดและสูงสุดในตัวอย่าง เช่น $p < 1/ N$ และ $p > (N - 1)/ N$ ตัวเลือกต่างๆ ได้แก่ การส่งคืนค่าความคลาดเคลื่อน การคำนวณการประมาณค่าเชิงเส้น หรือการสมมติค่าคงที่

ในบรรดาเทคนิคต่างๆ Hyndman และ Fan แนะนำ R-8 แต่ซอฟต์แวร์ทางสถิติส่วนใหญ่เลือกใช้ R-6 หรือ R-7 เป็นค่าเริ่มต้น^{[ 13 ]}

โดยทั่วไปแล้ว ค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่าควอนไทล์สามารถประมาณได้โดยใช้บูตสแตรปนอกจากนี้ยังสามารถใช้วิธี Maritz–Jarrett ได้อีกด้วย^{[ 14 ]}

การแจกแจงเชิงอะซิมโทติกของค่ามัธยฐานของตัวอย่าง

ค่ามัธยฐานของตัวอย่างเป็นค่าที่ถูกศึกษามากที่สุดในบรรดาควอนไทล์ เนื่องจากเป็นทางเลือกในการประมาณค่าพารามิเตอร์ตำแหน่งเมื่อค่าเฉลี่ยของการกระจายตัวไม่มีอยู่จริง และด้วยเหตุนี้ค่าเฉลี่ยของตัวอย่างจึงไม่ใช่ตัวประมาณค่าที่มีความหมายของลักษณะประชากร นอกจากนี้ ค่ามัธยฐานของตัวอย่างยังเป็นตัวประมาณค่าที่แข็งแกร่งกว่าค่าเฉลี่ยของตัวอย่างอีกด้วย

ลักษณะเฉพาะอย่างหนึ่งของค่ามัธยฐานของตัวอย่างคือการกระจายเชิงอะซิมโทติก : เมื่อตัวอย่างมาจากการกระจายแบบต่อเนื่อง ค่ามัธยฐานของตัวอย่างจะมีการกระจายเชิงอะซิมโทติกแบบปกติที่คาดการณ์ไว้

{\text{ค่ามัธยฐานของตัวอย่าง m}}\sim {\mathcal {N}}\left(\mu =m,\sigma ^{2}={\frac {1}{4Nf(m)^{2}}}\right)

หลักการนี้ใช้ได้กับควอนไทล์อื่นๆ ด้วยเช่นกัน

{\text{Sample quantile p}}\sim {\mathcal {N}}\left(\mu =x_{p},\sigma ^{2}={\frac {p(1-p)}{Nf(x_{p})^{2}}}\right)

โดยที่ $f (x p)$ คือค่าของความหนาแน่นการกระจายที่ควอนไทล์ประชากร ที่ $p$ ( ) ^[¹⁵^] $x_{p}=F^{-1}(p)$

แต่เมื่อการแจกแจงเป็นแบบไม่ต่อเนื่อง การแจกแจงของค่ามัธยฐานของตัวอย่างและควอนไทล์อื่นๆ จะไม่เป็นการแจกแจงแบบปกติ (ดูตัวอย่างได้ที่https://stats.stackexchange.com/a/86638/28746 )

วิธีแก้ปัญหาดังกล่าวคือการใช้นิยามทางเลือกของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชัน "ค่ากลางของการกระจาย" ซึ่งกำหนดไว้ดังนี้

F_{\text{mid}}(x)=P(X\leq x)-{\frac {1}{2}}P(X=x)

นิยามของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชันการกระจายกลางสามารถมองได้ว่าเป็นการวางนัยทั่วไปที่สามารถครอบคลุมกรณีพิเศษของการกระจายแบบต่อเนื่องได้ สำหรับการกระจายแบบไม่ต่อเนื่อง ค่ามัธยฐานของตัวอย่างตามนิยามนี้จะมีการกระจายแบบปกติเชิงอะซิมโทติก ดู Ma, Y., Genton, MG, & Parzen, E. (2011). คุณสมบัติเชิงอะซิมโทติกของควอนไทล์ตัวอย่างของการกระจายแบบไม่ต่อเนื่อง Annals of the Institute of Statistical Mathematics, 63(2), 227–243.

ค่าควอนไทล์โดยประมาณจากสตรีม

การคำนวณควอนไทล์โดยประมาณจากข้อมูลที่เข้ามาจากสตรีมสามารถทำได้อย่างมีประสิทธิภาพโดยใช้โครงสร้างข้อมูลที่บีบอัด วิธีที่ได้รับความนิยมมากที่สุดคือ t-digest ^{[ 16 ]}และ KLL ^{[ 17 ]}วิธีเหล่านี้จะอ่านสตรีมของค่าอย่างต่อเนื่อง และสามารถสอบถามเกี่ยวกับค่าโดยประมาณของควอนไทล์ที่ระบุได้ตลอดเวลา

อัลกอริทึมทั้งสองแบบนี้มีพื้นฐานมาจากแนวคิดที่คล้ายกัน คือ การบีบอัดกระแสของค่าโดยการสรุปค่าที่เหมือนกันหรือคล้ายกันด้วยน้ำหนัก หากกระแสประกอบด้วยการทำซ้ำ v1 100 ครั้ง และ v2 100 ครั้ง ก็ไม่มีเหตุผลที่จะต้องเก็บรายการที่เรียงลำดับแล้ว 200 รายการ เพียงแค่เก็บสององค์ประกอบและสองจำนวนก็เพียงพอที่จะกู้คืนควอนไทล์ได้แล้ว สำหรับค่าที่มากขึ้น อัลกอริทึมเหล่านี้จะรักษาสมดุลระหว่างจำนวนค่าที่ไม่ซ้ำกันที่จัดเก็บไว้และความแม่นยำของควอนไทล์ที่ได้ บางค่าอาจถูกทิ้งจากกระแสและนำไปรวมกับน้ำหนักของค่าใกล้เคียงโดยไม่เปลี่ยนแปลงผลลัพธ์ของควอนไทล์มากนัก อัลกอริทึม t-digest รักษาโครงสร้างข้อมูลที่มีขนาดจำกัดโดยใช้วิธีการที่ได้รับแรงบันดาลใจจาก การจัดกลุ่มแบบ k -means เพื่อจัดกลุ่มค่าที่คล้ายกัน อัลกอริทึม KLL ใช้ "วิธีการบีบอัด" ที่ซับซ้อนกว่า ซึ่งนำไปสู่การ ควบคุม ขอบเขตของข้อผิดพลาดได้ดีขึ้น แต่ต้องแลกมาด้วยขนาดที่ไม่จำกัดหากต้องจำกัดข้อผิดพลาดเทียบกับ $p$

ทั้งสองวิธีนี้จัดอยู่ในกลุ่มของโครงร่างข้อมูลซึ่งเป็นส่วนย่อยของอัลกอริธึมแบบสตรีมมิ่งที่มีคุณสมบัติที่เป็นประโยชน์: โครงร่าง t-digest หรือ KLL สามารถนำมาใช้ร่วมกันได้ การคำนวณโครงร่างสำหรับเวกเตอร์ค่าขนาดใหญ่มากสามารถแบ่งออกเป็นกระบวนการแบบขนานที่ง่ายต่อการประมวลผล โดยที่โครงร่างจะถูกคำนวณสำหรับส่วนย่อยของเวกเตอร์แบบขนานและรวมเข้าด้วยกันในภายหลัง

อัลกอริทึมที่อธิบายไว้ข้างต้นประมาณค่าควอนไทล์เชิงประจักษ์โดยตรงโดยไม่ต้องมีข้อสมมติฐานใดๆ เกี่ยวกับข้อมูล โดยพื้นฐานแล้วข้อมูลก็คือตัวเลขหรือโดยทั่วไปแล้วก็คือชุดของรายการที่สามารถเรียงลำดับได้ อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากวิทยาศาสตร์คอมพิวเตอร์ นอกจากนี้ยังมีอัลกอริทึมอีกประเภทหนึ่งที่สมมติว่าข้อมูลเป็นผลลัพธ์ของกระบวนการสุ่ม อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากสถิติ โดยเฉพาะอย่างยิ่งอัลกอริทึมการประมาณค่าแบบไม่พาราเมตริกตามลำดับ มีอัลกอริทึมดังกล่าวอยู่หลายตัว เช่น อัลกอริทึมที่อิงตามการประมาณค่าแบบสุ่ม^{[ 18 ]}^{[ 19 ]}หรือตัวประมาณค่าอนุกรม Hermite ^{[ 20 ]}

โดยทั่วไปอัลกอริธึมที่ใช้สถิติเหล่านี้จะมีเวลาในการอัปเดตและความซับซ้อนของพื้นที่คงที่ แต่มีการรับประกันขอบเขตข้อผิดพลาดที่แตกต่างกันเมื่อเทียบกับวิธีการประเภทวิทยาศาสตร์คอมพิวเตอร์ และตั้งสมมติฐานมากกว่า อย่างไรก็ตาม อัลกอริธึมที่ใช้สถิติมีข้อดีบางประการ โดยเฉพาะอย่างยิ่งในการตั้งค่าสตรีมมิ่งที่ไม่คงที่ เช่น ข้อมูลที่เปลี่ยนแปลงตามเวลา อัลกอริธึมของทั้งสองประเภท พร้อมด้วยข้อดีและข้อเสียบางประการ ได้รับการสำรวจเมื่อเร็ว ๆ นี้^{[ 21 ]}

การอภิปราย

ผลการทดสอบมาตรฐานมักจะรายงานว่านักเรียนได้คะแนน "อยู่ในเปอร์เซ็นไทล์ที่ 80" ตัวอย่างเช่น นี่เป็นการใช้ความหมายอื่นของคำว่าเปอร์เซ็นไทล์เป็นช่วงระหว่าง (ในกรณีนี้) เปอร์เซ็นไทล์ที่ 80 และ 81 ^{[ 22 ]}ความหมายที่แยกจากกันของเปอร์เซ็นไทล์นี้ยังใช้ในบทความวิจัยทางวิทยาศาสตร์ที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิด้วย^{[ 23 ]}ความหมายที่ใช้สามารถอนุมานได้จากบริบท

ถ้าการแจกแจงสมมาตร ค่ามัธยฐานจะเป็นค่าเฉลี่ย (ตราบใดที่ค่าเฉลี่ยมีอยู่) แต่โดยทั่วไปแล้ว ค่ามัธยฐานและค่าเฉลี่ยอาจแตกต่างกันได้ ตัวอย่างเช่น สำหรับตัวแปรสุ่มที่มีการแจกแจงแบบเอกซ์โปเนนเชียล ตัวอย่างใดๆ ของตัวแปรสุ่มนี้จะมีโอกาสประมาณ 63% ที่จะน้อยกว่าค่าเฉลี่ย เนื่องจาก1การแจกแจงแบบเอกซ์โปเนนเชียลมีหางยาวสำหรับค่าบวก แต่เป็นศูนย์สำหรับจำนวนลบ

ควอนไทล์เป็นมาตรวัดที่มีประโยชน์เพราะมีความอ่อนไหวต่อปัญหาที่เกิดจากการกระจายแบบหางยาวและค่าผิดปกติได้น้อยกว่าค่าเฉลี่ย ในทางปฏิบัติ หากข้อมูลที่นำมาวิเคราะห์ไม่ได้มีการกระจายตามสมมติฐาน หรือหากมีแหล่งที่มาของค่าผิดปกติอื่นๆ ที่อยู่ห่างไกลจากค่าเฉลี่ยมาก ควอนไทล์อาจเป็นสถิติเชิงพรรณนาที่มีประโยชน์มากกว่าค่าเฉลี่ยและสถิติอื่นๆ ที่เกี่ยวข้องกับโมเมนต์

หัวข้อที่เกี่ยวข้องอย่างใกล้ชิดคือ วิธี การหา ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด (Least Absolute Deviation : LASSO) ซึ่งเป็นวิธีการถดถอยที่มีความทนทานต่อค่าผิดปกติมากกว่าวิธีการกำลังสองน้อยที่สุด ( Least Squares: LASSO) ซึ่งใช้ผลรวมของค่าสัมบูรณ์ของความคลาดเคลื่อนที่สังเกตได้แทนค่าความคลาดเคลื่อนกำลังสอง ความเชื่อมโยงคือ ค่าเฉลี่ยเป็นค่าประมาณเพียงค่าเดียวของการกระจายตัวที่ทำให้ค่าความคลาดเคลื่อนกำลังสองที่คาดหวังมีค่าน้อยที่สุด ในขณะที่ค่ามัธยฐานทำให้ค่าความคลาดเคลื่อนสัมบูรณ์ที่คาดหวังมีค่าน้อยที่สุด วิธีการหาค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด มีความสามารถที่จะไม่ไวต่อค่าเบี่ยงเบนขนาดใหญ่ในข้อมูลที่ผิดปกติ แม้ว่า จะมี วิธี การถดถอยที่ทนทานต่อค่าผิดปกติได้ดีกว่านี้ก็ตาม

ควอนไทล์ของตัวแปรสุ่มจะคงอยู่ภายใต้การแปลงที่เพิ่มขึ้น ในแง่ที่ว่า ตัวอย่างเช่น ถ้า $m$ คือค่ามัธยฐานของตัวแปรสุ่ม $X$ แล้ว $2m$ $ก็$ คือค่ามัธยฐานของ $2X เว้นแต่จะมีการเลือกค่าใดค่าหนึ่งโดยพลการจากช่วงค่าเพื่อระบุควอนไทล์เฉพาะ (ดูตัวอย่างการประมาณค่าควอนไทล์ใน$ $หัวข้อ$ ข้างต้น) ควอนไทล์ยังสามารถใช้ได้ในกรณีที่มีข้อมูล เชิงลำดับ เท่านั้น

การวัดปริมาณอื่นๆ

ค่าที่ใช้แบ่งข้อมูลที่เรียงลำดับแล้วออกเป็นกลุ่มย่อยที่เท่ากันนอกเหนือจากสี่กลุ่ม จะมีชื่อเรียกที่แตกต่างกัน

ค่าควอไทล์ที่ 2 เพียงค่าเดียวเรียกว่าค่ามัธยฐาน
ควอนไทล์ทั้ง 3 เรียกว่าเทอร์ไทล์หรือเทอร์ไซล์ → T
ควอนไทล์ทั้ง 4 เรียกว่าควาร์ไทล์ → Q; ผลต่างระหว่างควาร์ไทล์บนและล่างเรียกว่าช่วงควาร์ไทล์ (Interquartile Range) , ค่ากลาง (Midspread)หรือค่ากลางห้าสิบ (Middle Fifty) → IQR = $Q 3 - Q 1$
ควอนไทล์ทั้ง 5 เรียกว่าควินไทล์หรือเพนไทล์ → QU
ควอนไทล์ที่ 6 เรียกว่าเซกซ์ไทล์ → S
ควอนไทล์ทั้ง 7 เรียกว่าเซปไทล์ → SP
ควอนไทล์ที่ 8 เรียกว่าอ็อกไทล์ → O
ควอนไทล์ทั้ง 10 เรียกว่าเดไซล์ → D
ควอนไทล์ทั้ง 12 เรียกว่า ดูโอเดไซล์ หรือ โดเดไซล์ → DD
ควอนไทล์ทั้ง 16 ตัวเรียกว่าเฮกซาเดซิล → H
20 ควอไทล์เรียกว่าventiles , vigintilesหรือ demi-deciles → V
ค่าควอไทล์ 100 ค่า เรียกว่าเปอร์เซ็นไทล์ → P
ควอนไทล์ 1,000 ได้รับการเรียกขานว่าเพอร์มิลหรือมิลไลล์ แต่สิ่งเหล่านี้หายากและล้าสมัยเป็นส่วนใหญ่^{[ 24 ]}

ดูเพิ่มเติม

Flashsort – เรียงลำดับตามการจัดกลุ่มแรกตามควอนไทล์
ช่วงควาร์ไทล์
สถิติเชิงพรรณนา
ค่าคาดหวัง – เกี่ยวข้องกับค่าคาดหวังในลักษณะที่คล้ายคลึงกับความสัมพันธ์ระหว่างค่าควอนไทล์กับค่ามัธยฐาน
ควาร์ไทล์
แผนภูมิ Q–Q
ฟังก์ชันควอนไทล์
การทำให้เป็นมาตรฐานควอนไทล์
การถดถอยควอนไทล์
การหาปริมาณ
สถิติสรุป
ช่วงความคลาดเคลื่อน (" ช่วงความเชื่อมั่นสำหรับ ควอนไทล์ที่ p " ^{[ 25 ]} )

อ่านเพิ่มเติม

Serfling, RJ (1980). ทฤษฎีบทการประมาณค่าทางสถิติคณิตศาสตร์ . John Wiley & Sons. ISBN 0-471-02403-1.

ลิงก์ภายนอก

สื่อที่เกี่ยวข้องกับควอนไทล์ในวิกิมีเดียคอมมอนส์

[

[ 2 ]

3 ]

4

5

7

8

[

[

[

[

[ 13 ]

[ 14 ]

[

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]