กลับไปหน้าบทความ

อ่าน 9 นาที

ควอนไทล์

ใน ทางสถิติ และ ความน่าจะเป็น ควอนไทล์ คือจุดตัดที่แบ่ง ช่วง ของ ความน่าจะเป็นออก เป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่ง ข้อมูล ใน ตัวอย่าง ในลักษณะเดียวกัน...

ควอนไทล์

แสดง ความหนาแน่น ของความน่าจะเป็นของการแจกแจงปกติโดยมีควอนไทล์Q1 , Q2และQ3 พื้นที่ใต้ เส้นโค้ง สี แดงมีค่า เท่ากันในช่วง (−∞, Q1 ) , ( Q1 , Q2 ) , ( Q2 , Q3 )และ( Q3 , + )

ในทางสถิติและความน่าจะเป็นควอนไทล์คือจุดตัดที่แบ่งช่วงของความน่าจะเป็นออกเป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่งข้อมูลในตัวอย่างในลักษณะเดียวกัน ควอนไทล์ที่ใช้กันทั่วไปมีชื่อเรียกเฉพาะ เช่นควาร์ไทล์ (สี่กลุ่ม) เดไซล์ (สิบกลุ่ม) และเปอร์เซ็นไทล์ (หนึ่งร้อยกลุ่ม) กลุ่มที่สร้างขึ้นเรียกว่าครึ่งหนึ่ง หนึ่งในสาม หนึ่งในสี่ เป็นต้น แต่โดยส่วนใหญ่แล้ว คำที่ใช้เรียกควอนไทล์มักใช้เรียกกลุ่มที่สร้างขึ้นมากกว่าจุดตัด

ค วอนไทล์qคือค่าที่แบ่งเซตของค่าจำกัด ออกเป็น q เซตย่อยที่มีขนาด (เกือบ) เท่ากัน มีเซตย่อยของควอนไทล์ q ทั้งหมด q − 1 เซต โดยแต่ละ เซตย่อยแทน จำนวนเต็มkที่สอดคล้องกับ 0 < k < qในบางกรณี ค่าของควอนไทล์อาจไม่สามารถกำหนดได้อย่างเฉพาะเจาะจง เช่น ค่ามัธยฐาน (ควอนไทล์ที่ 2) ของการแจกแจงความน่าจะเป็นแบบเอกรูปบนเซตที่มีขนาดเป็นเลขคู่ ควอนไทล์ยังสามารถนำไปใช้กับ การแจกแจง แบบต่อเนื่องได้ซึ่งเป็นวิธีหนึ่งในการขยายสถิติอันดับไปสู่ตัวแปรต่อเนื่อง (ดูอันดับเปอร์เซ็นไทล์ ) เมื่อทราบฟังก์ชันการแจกแจงสะสมของตัวแปรสุ่ม ควอนไทล์ qคือการประยุกต์ใช้ฟังก์ชันควอนไทล์ (ฟังก์ชันผกผันของฟังก์ชันการแจกแจงสะสม ) กับค่า {1/ q , 2/ q , …, ( q − 1)/ q }

ควอนไทล์ของประชากร

เช่นเดียวกับการคำนวณค่าเบี่ยงเบนมาตรฐานการประมาณค่าควอนไทล์ขึ้นอยู่กับว่าเรากำลังทำงานกับประชากรทางสถิติหรือกับตัวอย่างที่สุ่มมาจากประชากรนั้น สำหรับประชากรที่มีค่าแบบไม่ต่อเนื่องหรือสำหรับความหนาแน่นของประชากรแบบต่อเนื่อง ควอนไทล์ที่kคือค่าข้อมูลที่ฟังก์ชันการกระจายสะสมตัดกับk / qนั่นคือxเป็น ค วอนไท ล์ที่ kสำหรับตัวแปรXถ้า

Pr[ X < x ] ≤ k / qหรือเทียบเท่ากับPr[ Xx ] ≥ 1 − k / q

และ

Pr[ Xx ] ≥ k / q

โดยที่Prคือฟังก์ชันความน่าจะเป็นสำหรับประชากรจำกัดที่มีค่าN ค่าซึ่งมีความน่าจะเป็นเท่ากัน โดยมีดัชนี 1, …, Nจากต่ำสุดไปสูงสุด ค่า วอน ไท ล์ q ที่ k ของประชากรนี้สามารถคำนวณได้โดยใช้ค่าI p = N k / qถ้าI pไม่ใช่จำนวนเต็ม ให้ปัดขึ้นเป็นจำนวนเต็มถัดไปเพื่อให้ได้ดัชนีที่เหมาะสม ค่าข้อมูลที่สอดคล้องกันคือค่า ค วอน ไทล์ q ที่ kในทางกลับกัน ถ้าI pเป็นจำนวนเต็ม เราสามารถใช้จำนวนใดก็ได้ตั้งแต่ค่าข้อมูลที่ดัชนีนั้นไปจนถึงค่าข้อมูลของดัชนีถัดไปเป็นค่าควอนไทล์ และโดยทั่วไป (แม้ว่าจะขึ้นอยู่กับดุลพินิจ) จะหาค่าเฉลี่ยของค่าทั้งสองนั้น (ดูการประมาณค่าควอนไทล์จากตัวอย่าง )

ถ้าหากแทนที่จะใช้จำนวนเต็มkและq " วอนไทล์ p" อ้างอิงจากจำนวนจริงpโดยที่0 < p < 1แล้วpจะเข้ามาแทนที่k / qในสูตรข้างต้น คำศัพท์ที่กว้างขึ้นนี้ใช้เมื่อใช้ควอนไทล์ในการกำหนดพารามิเตอร์ของการแจกแจงความน่าจะเป็นแบบต่อเนื่องนอกจากนี้ โปรแกรมซอฟต์แวร์บางโปรแกรม (รวมถึงMicrosoft Excel ) ถือว่าค่าต่ำสุดและค่าสูงสุดเป็นเปอร์เซ็นไทล์ที่ 0 และ 100 ตามลำดับ อย่างไรก็ตาม คำศัพท์ที่กว้างขึ้นนี้เป็นการขยายความจากคำจำกัดความทางสถิติแบบดั้งเดิม

ตัวอย่าง

ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดูที่เปอร์เซ็นไทล์

ประชากรที่มีขนาดเท่ากัน

พิจารณาชุดข้อมูลเรียงลำดับ 10 ค่า ได้แก่ [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้

ควาร์ไทล์ การคำนวณ ผลลัพธ์
ควาร์ไทล์ที่ศูนย์ ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3 3
ควาร์ไทล์แรก อันดับของควาร์ไทล์แรกคือ 10×(1/4) = 2.5 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คืออันดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7 7
ควาร์ไทล์ที่สอง อันดับของควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คือ 10×(2/4) = 5 ซึ่งเป็นจำนวนเต็ม ในขณะที่จำนวนค่า (10) เป็นจำนวนคู่ ดังนั้นจึงนำค่าเฉลี่ยของค่าที่ห้าและค่าที่หกมาใช้ นั่นคือ (8+10)/2 = 9 แม้ว่าค่าใดๆ ตั้งแต่ 8 ถึง 10 ก็สามารถนำมาใช้เป็นค่ามัธยฐานได้ 9
ควาร์ไทล์ที่สาม อันดับของควาร์ไทล์ที่สามคือ 10×(3/4) = 7.5 ซึ่งปัดขึ้นเป็น 8 ค่าลำดับที่แปดในประชากรคือ 15 15
ควาร์ไทล์ที่สี่ แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 10 20

ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20

ประชากรที่มีขนาดคี่

พิจารณาชุดข้อมูลเรียงลำดับ 11 ค่า ได้แก่ [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] จงหาควอไทล์ทั้ง 4 ของชุดข้อมูลนี้

ควาร์ไทล์ การคำนวณ ผลลัพธ์
ควาร์ไทล์ที่ศูนย์ ถึงแม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควาร์ไทล์ที่ศูนย์ได้เช่นกัน นี่คือค่าต่ำสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควาร์ไทล์ที่ศูนย์ ซึ่งก็คือ 3 3
ควาร์ไทล์แรก ควาร์ไทล์แรกคำนวณได้จาก 11×(1/4) = 2.75 ซึ่งปัดขึ้นเป็น 3 หมายความว่า 3 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 1/4 ของค่าทั้งหมดน้อยกว่าค่าของควาร์ไทล์แรก ค่าที่สามในประชากรคือ 7 7
ควาร์ไทล์ที่สอง ค่าควาร์ไทล์ที่สอง (เช่นเดียวกับค่ามัธยฐาน) คำนวณได้จาก 11×(2/4) = 5.5 ซึ่งปัดขึ้นเป็น 6 ดังนั้น 6 คือลำดับในประชากร (จากค่าน้อยที่สุดไปมากที่สุด) ที่ประมาณ 2/4 ของค่าทั้งหมดน้อยกว่าค่าควาร์ไทล์ที่สอง (หรือค่ามัธยฐาน) ค่าลำดับที่หกในประชากรคือ 9 9
ควาร์ไทล์ที่สาม ค่าควาร์ไทล์ที่สามสำหรับตัวอย่างเดิมข้างต้นคำนวณได้จาก 11×(3/4) = 8.25 ซึ่งปัดขึ้นเป็น 9 ค่าลำดับที่เก้าในประชากรคือ 15 15
ควาร์ไทล์ที่สี่ แม้จะไม่เป็นที่ยอมรับกันโดยทั่วไป แต่เราก็สามารถพูดถึงควอไทล์ที่สี่ได้เช่นกัน นี่คือค่าสูงสุดของชุดข้อมูล ดังนั้นในตัวอย่างนี้คือควอไทล์ที่สี่ ตามนิยามของควอไทล์แบบลำดับที่ใกล้ที่สุด ลำดับของควอไทล์ที่สี่คือลำดับของจำนวนที่มากที่สุด ดังนั้นลำดับของควอไทล์ที่สี่คือ 11 20

ดังนั้น ควอนไทล์ที่หนึ่ง สอง และสาม (หรือ "ควอไทล์") ของชุดข้อมูล [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] คือ [7, 9, 15] หากจำเป็น ควอนไทล์ที่ศูนย์คือ 3 และควอนไทล์ที่สี่คือ 20

ความสัมพันธ์กับค่าเฉลี่ย

สำหรับการกระจายความน่าจะเป็นของประชากรใดๆ บนค่าจำนวนจำกัด และโดยทั่วไปสำหรับการกระจายความน่าจะเป็นใดๆ ที่มีค่าเฉลี่ยและความแปรปรวน จะเป็นกรณีที่ Q (p)คือค่าของวอนไทล์ p สำหรับ0 < p < 1 (หรือเทียบเท่ากับ วอน ไทล์ q ที่ k สำหรับp = k / q ) โดยที่μ คือ ค่าเฉลี่ยเลขคณิตของการกระจายและσ คือส่วนเบี่ยง เบนมาตรฐานของการกระจาย[ 1 ] โดยเฉพาะอย่างยิ่ง ค่ามัธยฐาน( p = k / q = 1/2)จะไม่เกินหนึ่งส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย

สูตรข้างต้นสามารถใช้เพื่อกำหนดขอบเขตของค่าμ + ในแง่ของควอนไทล์ได้ เมื่อz ≥ 0ค่าที่อยู่เหนือค่าเฉลี่ยเป็นระยะz ส่วนเบี่ยงเบนมาตรฐาน จะมีขอบเขตล่าง ตัวอย่างเช่น ค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ z = 1ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับQ ( p = 0.5)ซึ่งเป็นค่ามัธยฐานเสมอ และค่าที่อยู่ เหนือค่าเฉลี่ยเป็นระยะ z = 2ส่วนเบี่ยงเบนมาตรฐาน จะมากกว่าหรือเท่ากับQ ( p = 0.8) ซึ่งเป็น ควินไทล์ที่สี่ เสมอ

เมื่อz ≤ 0จะมีขอบเขตบนแทน ตัวอย่างเช่น ค่าμ + สำหรับz = −3จะไม่เกินQ ( p = 0.1)ซึ่งเป็นเดซิไล์แรก

การประมาณค่าควอนไทล์จากตัวอย่าง

ปัญหาหนึ่งที่เกิดขึ้นบ่อยครั้งคือ การประมาณค่าควอนไทล์ของประชากร (ขนาดใหญ่มากหรืออนันต์) โดยอาศัยตัวอย่างที่มีขนาดจำกัดเพียง N

โปรแกรมทางสถิติสมัยใหม่ใช้วิธีการหลายอย่างในการประมาณค่าควอนไทล์

Hyndmanและ Fan ได้รวบรวมอนุกรมวิธานของอัลกอริทึมเก้าแบบ[ 2 ]ที่ใช้โดยแพ็กเกจซอฟต์แวร์ต่างๆ วิธีการทั้งหมดคำนวณQ pซึ่งเป็นการประมาณค่า ควอนไทล์ p ( วอน ไทล์ qที่ k โดยที่ p = k / q ) จากตัวอย่างขนาดNโดยการคำนวณดัชนีค่าจริงhเมื่อhเป็นจำนวนเต็ม ค่าที่เล็กที่สุดลำดับที่ hของ ค่า Nค่าx hจะเป็นค่าประมาณควอนไทล์ มิฉะนั้นจะใช้แผนการปัดเศษหรือการแทรกสอดเพื่อคำนวณค่าประมาณควอนไทล์จากh , x hและx h (สำหรับสัญลักษณ์ โปรดดูฟังก์ชันพื้นและเพดาน )

สามแบบแรกเป็นค่าคงที่แบบเป็นช่วงๆ โดยมีการเปลี่ยนแปลงอย่างฉับพลันที่แต่ละจุดข้อมูล ในขณะที่หกแบบสุดท้ายใช้การประมาณค่าเชิงเส้นระหว่างจุดข้อมูล และแตกต่างกันเพียงแค่การเลือกดัชนีhที่ใช้ในการเลือกจุดตามเส้นโค้งการประมาณค่าเชิงเส้นแบบเป็นช่วงๆ เท่านั้น

ภาษาโปรแกรมMathematica [ 3 ] Matlab [ 4 ] R [ 5 ]และGNU Octave [ 6 ] รองรับวิธีการควอนไทล์ตัวอย่างทั้งเก้า วิธี SASมีวิธีการควอนไทล์ตัวอย่างห้าวิธีSciPy [ 7 ] และ Maple [ 8 ] มีแปดวิธีEViews [ 9 ]และJulia [ 10 ]มีฟังก์ชันเชิงเส้นแบบแบ่งส่วนหกฟังก์ชันStata [ 11 ] มีสองวิธีPython [ 12 ]มีสองวิธี และMicrosoft Excelมีสองวิธี Mathematica, SciPy และ Julia รองรับพารามิเตอร์ที่กำหนดเองสำหรับวิธีการต่างๆ ซึ่งอนุญาตให้ใช้วิธีการอื่นๆ ที่ไม่เป็นมาตรฐาน ไลบรารี Google Guava Java มีรูปแบบประเภท 7 ในคลาส Quantiles

ประเภทการประมาณค่าและวิธีการประมาณค่าแบบสอดแทรกที่ใช้ ได้แก่:

พิมพ์ ชม.คิวพีหมายเหตุ
อาร์-1, เอสเอเอส-3, เมเปิล-1 เอ็นพีx hส่วน กลับของฟังก์ชันการกระจายเชิงประจักษ์
R-2, SAS-5, Maple-2, Stata เอ็นพี + 1/2( x h – 1/2⌉ + x h + 1/2⌋ ) / 2เหมือนกับ R-1 แต่มีการหาค่าเฉลี่ยที่จุดไม่ต่อเนื่อง
อาร์-3, เอสเอเอส-2 เอ็นพีx hเลือกค่าสังเกตที่ใกล้เคียงกับNp มากที่สุด โดยที่hหมายถึงการปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุด และจะเลือกจำนวนคู่ในกรณีที่มีค่าเท่ากัน
R‑4, SAS‑1, SciPy‑(0,1), Julia‑(0,1), Maple‑3 เอ็นพีx h + ( h − ⌊ h ⌋) ( x hx h )การประมาณค่าเชิงเส้นของส่วนกลับของฟังก์ชันการกระจายเชิงประจักษ์
R‑5, SciPy‑(1/2,1/2), Julia‑(1/2,1/2), Maple‑4 เอ็นพี + 1/2ฟังก์ชันเชิงเส้นแบบแบ่งช่วง โดยที่จุดเชื่อมต่อคือค่ากึ่งกลางระหว่างช่วงต่างๆ ของฟังก์ชันการกระจายเชิงประจักษ์
R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Julia-(0,0), Maple‑5, Stata‑altdef ( N + 1) pการประมาณค่าเชิงเส้นของค่าคาดหวังสำหรับสถิติลำดับของการแจกแจงเอกรูปบนช่วง [0,1] กล่าวคือ เป็นการประมาณค่าเชิงเส้นระหว่างจุด( p h , x h )โดยที่p h = h /( N +1)คือความน่าจะเป็นที่ค่าสุดท้ายจากค่าที่สุ่มเลือกมา ( N +1 ) ค่า จะไม่เกินค่าที่น้อยที่สุดลำดับที่ hจากค่าที่สุ่มเลือกมา N ค่าแรก
R‑7, Excel, Python, SciPy‑(1,1), Julia-(1,1), Maple‑6, NumPy, Guava ( N − 1) p + 1การประมาณค่าเชิงเส้นของโหมดสำหรับสถิติลำดับสำหรับการแจกแจงเอกรูปบนช่วง [0,1]
R‑8, SciPy‑(1/3,1/3), Julia‑(1/3,1/3), Maple‑7 ( N + 1/3) p + 1/3การประมาณค่ามัธยฐานแบบเชิงเส้นสำหรับสถิติเรียงลำดับ
R‑9, SciPy‑(3/8,3/8), Julia‑(3/8,3/8), Maple‑8 ( N + 1/4) p + 3/8ค่าประมาณควอนไทล์ที่ได้จะมีค่าประมาณที่ไม่เอนเอียงสำหรับค่าสถิติลำดับที่คาดหวัง หากxมีการกระจายแบบปกติ

หมายเหตุ:

  • R-1 ถึง R-3 เป็นค่าคงที่แบบเป็นช่วงๆ โดยมีจุดไม่ต่อเนื่อง
  • R-4 และตัวต่อๆ ไปเป็นแบบเชิงเส้นเป็นช่วงๆ โดยไม่มีจุดไม่ต่อเนื่อง แต่แตกต่างกันในวิธีการคำนวณh
  • R-3 และ R-4 ไม่สมมาตร เนื่องจากไม่ให้ค่าh = ( N + 1) / 2เมื่อp = 1/2
  • ฟังก์ชัน PERCENTILE.EXC ของ Excel และเมธอด "exclusive" เริ่มต้นของ Python เทียบเท่ากับ R-6
  • ฟังก์ชัน PERCENTILE และ PERCENTILE.INC ของ Excel และเมธอด "inclusive" ที่เป็นตัวเลือกของ Python นั้นเทียบเท่ากับ R-7 ซึ่งเป็นเมธอดเริ่มต้นของ R และ Julia
  • แพ็กเกจต่างๆ มีวิธีการประมาณค่าควอนไทล์ที่แตกต่างกันออกไป โดยค่าที่ได้ควรอยู่นอกเหนือค่าต่ำสุดและสูงสุดในตัวอย่าง เช่นp < 1/ Nและp > ( N − 1)/ Nตัวเลือกต่างๆ ได้แก่ การส่งคืนค่าความคลาดเคลื่อน การคำนวณการประมาณค่าเชิงเส้น หรือการสมมติค่าคงที่

ในบรรดาเทคนิคต่างๆ Hyndman และ Fan แนะนำ R-8 แต่ซอฟต์แวร์ทางสถิติส่วนใหญ่เลือกใช้ R-6 หรือ R-7 เป็นค่าเริ่มต้น[ 13 ]

โดยทั่วไปแล้ว ค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่าควอนไทล์สามารถประมาณได้โดยใช้บูตสแตรปนอกจากนี้ยังสามารถใช้วิธี Maritz–Jarrett ได้อีกด้วย[ 14 ]

การแจกแจงเชิงอะซิมโทติกของค่ามัธยฐานของตัวอย่าง

ค่ามัธยฐานของตัวอย่างเป็นค่าที่ถูกศึกษามากที่สุดในบรรดาควอนไทล์ เนื่องจากเป็นทางเลือกในการประมาณค่าพารามิเตอร์ตำแหน่งเมื่อค่าเฉลี่ยของการกระจายตัวไม่มีอยู่จริง และด้วยเหตุนี้ค่าเฉลี่ยของตัวอย่างจึงไม่ใช่ตัวประมาณค่าที่มีความหมายของลักษณะประชากร นอกจากนี้ ค่ามัธยฐานของตัวอย่างยังเป็นตัวประมาณค่าที่แข็งแกร่งกว่าค่าเฉลี่ยของตัวอย่างอีกด้วย

ลักษณะเฉพาะอย่างหนึ่งของค่ามัธยฐานของตัวอย่างคือการกระจายเชิงอะซิมโทติก : เมื่อตัวอย่างมาจากการกระจายแบบต่อเนื่อง ค่ามัธยฐานของตัวอย่างจะมีการกระจายเชิงอะซิมโทติกแบบปกติที่คาดการณ์ไว้

หลักการนี้ใช้ได้กับควอนไทล์อื่นๆ ด้วยเช่นกัน

โดยที่f ( x p )คือค่าของความหนาแน่นการกระจายที่ควอนไทล์ประชากร ที่ p ( ) [ 15 ]

แต่เมื่อการแจกแจงเป็นแบบไม่ต่อเนื่อง การแจกแจงของค่ามัธยฐานของตัวอย่างและควอนไทล์อื่นๆ จะไม่เป็นการแจกแจงแบบปกติ (ดูตัวอย่างได้ที่https://stats.stackexchange.com/a/86638/28746 )

วิธีแก้ปัญหาดังกล่าวคือการใช้นิยามทางเลือกของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชัน "ค่ากลางของการกระจาย" ซึ่งกำหนดไว้ดังนี้

นิยามของควอนไทล์ตัวอย่างผ่านแนวคิดของฟังก์ชันการกระจายกลางสามารถมองได้ว่าเป็นการวางนัยทั่วไปที่สามารถครอบคลุมกรณีพิเศษของการกระจายแบบต่อเนื่องได้ สำหรับการกระจายแบบไม่ต่อเนื่อง ค่ามัธยฐานของตัวอย่างตามนิยามนี้จะมีการกระจายแบบปกติเชิงอะซิมโทติก ดู Ma, Y., Genton, MG, & Parzen, E. (2011). คุณสมบัติเชิงอะซิมโทติกของควอนไทล์ตัวอย่างของการกระจายแบบไม่ต่อเนื่อง Annals of the Institute of Statistical Mathematics, 63(2), 227–243.

ค่าควอนไทล์โดยประมาณจากสตรีม

การคำนวณควอนไทล์โดยประมาณจากข้อมูลที่เข้ามาจากสตรีมสามารถทำได้อย่างมีประสิทธิภาพโดยใช้โครงสร้างข้อมูลที่บีบอัด วิธีที่ได้รับความนิยมมากที่สุดคือ t-digest [ 16 ]และ KLL [ 17 ]วิธีเหล่านี้จะอ่านสตรีมของค่าอย่างต่อเนื่อง และสามารถสอบถามเกี่ยวกับค่าโดยประมาณของควอนไทล์ที่ระบุได้ตลอดเวลา

อัลกอริทึมทั้งสองแบบนี้มีพื้นฐานมาจากแนวคิดที่คล้ายกัน คือ การบีบอัดกระแสของค่าโดยการสรุปค่าที่เหมือนกันหรือคล้ายกันด้วยน้ำหนัก หากกระแสประกอบด้วยการทำซ้ำ v1 100 ครั้ง และ v2 100 ครั้ง ก็ไม่มีเหตุผลที่จะต้องเก็บรายการที่เรียงลำดับแล้ว 200 รายการ เพียงแค่เก็บสององค์ประกอบและสองจำนวนก็เพียงพอที่จะกู้คืนควอนไทล์ได้แล้ว สำหรับค่าที่มากขึ้น อัลกอริทึมเหล่านี้จะรักษาสมดุลระหว่างจำนวนค่าที่ไม่ซ้ำกันที่จัดเก็บไว้และความแม่นยำของควอนไทล์ที่ได้ บางค่าอาจถูกทิ้งจากกระแสและนำไปรวมกับน้ำหนักของค่าใกล้เคียงโดยไม่เปลี่ยนแปลงผลลัพธ์ของควอนไทล์มากนัก อัลกอริทึม t-digest รักษาโครงสร้างข้อมูลที่มีขนาดจำกัดโดยใช้วิธีการที่ได้รับแรงบันดาลใจจาก การจัดกลุ่มแบบ k -means เพื่อจัดกลุ่มค่าที่คล้ายกัน อัลกอริทึม KLL ใช้ "วิธีการบีบอัด" ที่ซับซ้อนกว่า ซึ่งนำไปสู่การ ควบคุม ขอบเขตของข้อผิดพลาดได้ดีขึ้น แต่ต้องแลกมาด้วยขนาดที่ไม่จำกัดหากต้องจำกัดข้อผิดพลาดเทียบกับp

ทั้งสองวิธีนี้จัดอยู่ในกลุ่มของโครงร่างข้อมูลซึ่งเป็นส่วนย่อยของอัลกอริธึมแบบสตรีมมิ่งที่มีคุณสมบัติที่เป็นประโยชน์: โครงร่าง t-digest หรือ KLL สามารถนำมาใช้ร่วมกันได้ การคำนวณโครงร่างสำหรับเวกเตอร์ค่าขนาดใหญ่มากสามารถแบ่งออกเป็นกระบวนการแบบขนานที่ง่ายต่อการประมวลผล โดยที่โครงร่างจะถูกคำนวณสำหรับส่วนย่อยของเวกเตอร์แบบขนานและรวมเข้าด้วยกันในภายหลัง

อัลกอริทึมที่อธิบายไว้ข้างต้นประมาณค่าควอนไทล์เชิงประจักษ์โดยตรงโดยไม่ต้องมีข้อสมมติฐานใดๆ เกี่ยวกับข้อมูล โดยพื้นฐานแล้วข้อมูลก็คือตัวเลขหรือโดยทั่วไปแล้วก็คือชุดของรายการที่สามารถเรียงลำดับได้ อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากวิทยาศาสตร์คอมพิวเตอร์ นอกจากนี้ยังมีอัลกอริทึมอีกประเภทหนึ่งที่สมมติว่าข้อมูลเป็นผลลัพธ์ของกระบวนการสุ่ม อัลกอริทึมเหล่านี้เป็นวิธีการที่ได้มาจากสถิติ โดยเฉพาะอย่างยิ่งอัลกอริทึมการประมาณค่าแบบไม่พาราเมตริกตามลำดับ มีอัลกอริทึมดังกล่าวอยู่หลายตัว เช่น อัลกอริทึมที่อิงตามการประมาณค่าแบบสุ่ม[ 18 ] [ 19 ]หรือตัวประมาณค่าอนุกรม Hermite [ 20 ]

โดยทั่วไปอัลกอริธึมที่ใช้สถิติเหล่านี้จะมีเวลาในการอัปเดตและความซับซ้อนของพื้นที่คงที่ แต่มีการรับประกันขอบเขตข้อผิดพลาดที่แตกต่างกันเมื่อเทียบกับวิธีการประเภทวิทยาศาสตร์คอมพิวเตอร์ และตั้งสมมติฐานมากกว่า อย่างไรก็ตาม อัลกอริธึมที่ใช้สถิติมีข้อดีบางประการ โดยเฉพาะอย่างยิ่งในการตั้งค่าสตรีมมิ่งที่ไม่คงที่ เช่น ข้อมูลที่เปลี่ยนแปลงตามเวลา อัลกอริธึมของทั้งสองประเภท พร้อมด้วยข้อดีและข้อเสียบางประการ ได้รับการสำรวจเมื่อเร็ว ๆ นี้[ 21 ]

การอภิปราย

ผลการทดสอบมาตรฐานมักจะรายงานว่านักเรียนได้คะแนน "อยู่ในเปอร์เซ็นไทล์ที่ 80" ตัวอย่างเช่น นี่เป็นการใช้ความหมายอื่นของคำว่าเปอร์เซ็นไทล์เป็นช่วงระหว่าง (ในกรณีนี้) เปอร์เซ็นไทล์ที่ 80 และ 81 [ 22 ]ความหมายที่แยกจากกันของเปอร์เซ็นไทล์นี้ยังใช้ในบทความวิจัยทางวิทยาศาสตร์ที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิด้วย[ 23 ]ความหมายที่ใช้สามารถอนุมานได้จากบริบท

ถ้าการแจกแจงสมมาตร ค่ามัธยฐานจะเป็นค่าเฉลี่ย (ตราบใดที่ค่าเฉลี่ยมีอยู่) แต่โดยทั่วไปแล้ว ค่ามัธยฐานและค่าเฉลี่ยอาจแตกต่างกันได้ ตัวอย่างเช่น สำหรับตัวแปรสุ่มที่มีการแจกแจงแบบเอกซ์โปเนนเชียล ตัวอย่างใดๆ ของตัวแปรสุ่มนี้จะมีโอกาสประมาณ 63% ที่จะน้อยกว่าค่าเฉลี่ย เนื่องจาก1การแจกแจงแบบเอกซ์โปเนนเชียลมีหางยาวสำหรับค่าบวก แต่เป็นศูนย์สำหรับจำนวนลบ

ควอนไทล์เป็นมาตรวัดที่มีประโยชน์เพราะมีความอ่อนไหวต่อปัญหาที่เกิดจากการกระจายแบบหางยาวและค่าผิดปกติได้น้อยกว่าค่าเฉลี่ย ในทางปฏิบัติ หากข้อมูลที่นำมาวิเคราะห์ไม่ได้มีการกระจายตามสมมติฐาน หรือหากมีแหล่งที่มาของค่าผิดปกติอื่นๆ ที่อยู่ห่างไกลจากค่าเฉลี่ยมาก ควอนไทล์อาจเป็นสถิติเชิงพรรณนาที่มีประโยชน์มากกว่าค่าเฉลี่ยและสถิติอื่นๆ ที่เกี่ยวข้องกับโมเมนต์

หัวข้อที่เกี่ยวข้องอย่างใกล้ชิดคือ วิธี การหา ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด (Least Absolute Deviation : LASSO) ซึ่งเป็นวิธีการถดถอยที่มีความทนทานต่อค่าผิดปกติมากกว่าวิธีการกำลังสองน้อยที่สุด ( Least Squares: LASSO) ซึ่งใช้ผลรวมของค่าสัมบูรณ์ของความคลาดเคลื่อนที่สังเกตได้แทนค่าความคลาดเคลื่อนกำลังสอง ความเชื่อมโยงคือ ค่าเฉลี่ยเป็นค่าประมาณเพียงค่าเดียวของการกระจายตัวที่ทำให้ค่าความคลาดเคลื่อนกำลังสองที่คาดหวังมีค่าน้อยที่สุด ในขณะที่ค่ามัธยฐานทำให้ค่าความคลาดเคลื่อนสัมบูรณ์ที่คาดหวังมีค่าน้อยที่สุด วิธีการหาค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด มีความสามารถที่จะไม่ไวต่อค่าเบี่ยงเบนขนาดใหญ่ในข้อมูลที่ผิดปกติ แม้ว่า จะมี วิธี การถดถอยที่ทนทานต่อค่าผิดปกติได้ดีกว่านี้ก็ตาม

ควอนไทล์ของตัวแปรสุ่มจะคงอยู่ภายใต้การแปลงที่เพิ่มขึ้น ในแง่ที่ว่า ตัวอย่างเช่น ถ้าmคือค่ามัธยฐานของตัวแปรสุ่มXแล้ว2m ก็คือค่ามัธยฐานของ2X เว้นแต่จะมีการเลือกค่าใดค่าหนึ่งโดยพลการจากช่วงค่าเพื่อระบุควอนไทล์เฉพาะ (ดูตัวอย่างการประมาณค่าควอนไทล์ใน หัวข้อข้างต้น) ควอนไทล์ยังสามารถใช้ได้ในกรณีที่มีข้อมูล เชิงลำดับ เท่านั้น

การวัดปริมาณอื่นๆ

ค่าที่ใช้แบ่งข้อมูลที่เรียงลำดับแล้วออกเป็นกลุ่มย่อยที่เท่ากันนอกเหนือจากสี่กลุ่ม จะมีชื่อเรียกที่แตกต่างกัน

  • ค่าควอไทล์ที่ 2 เพียงค่าเดียวเรียกว่าค่ามัธยฐาน
  • ควอนไทล์ทั้ง 3 เรียกว่าเทอร์ไทล์หรือเทอร์ไซล์ → T
  • ควอนไทล์ทั้ง 4 เรียกว่าควาร์ไทล์ → Q; ผลต่างระหว่างควาร์ไทล์บนและล่างเรียกว่าช่วงควาร์ไทล์ (Interquartile Range) , ค่ากลาง (Midspread)หรือค่ากลางห้าสิบ (Middle Fifty) → IQR = Q 3Q 1
  • ควอนไทล์ทั้ง 5 เรียกว่าควินไทล์หรือเพนไทล์ → QU
  • ควอนไทล์ที่ 6 เรียกว่าเซกซ์ไทล์ → S
  • ควอนไทล์ทั้ง 7 เรียกว่าเซปไทล์ → SP
  • ควอนไทล์ที่ 8 เรียกว่าอ็อกไทล์ → O
  • ควอนไทล์ทั้ง 10 เรียกว่าเดไซล์ → D
  • ควอนไทล์ทั้ง 12 เรียกว่า ดูโอเดไซล์ หรือ โดเดไซล์ → DD
  • ควอนไทล์ทั้ง 16 ตัวเรียกว่าเฮกซาเดซิล → H
  • 20 ควอไทล์เรียกว่าventiles , vigintilesหรือ demi-deciles → V
  • ค่าควอไทล์ 100 ค่า เรียกว่าเปอร์เซ็นไทล์ → P
  • ควอนไทล์ 1,000 ได้รับการเรียกขานว่าเพอร์มิลหรือมิลไลล์ แต่สิ่งเหล่านี้หายากและล้าสมัยเป็นส่วนใหญ่[ 24 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Serfling, RJ (1980). ทฤษฎีบทการประมาณค่าทางสถิติคณิตศาสตร์ . John Wiley & Sons. ISBN 0-471-02403-1.
  • โลโก้ Wikimedia Commonsสื่อที่เกี่ยวข้องกับควอนไทล์ในวิกิมีเดียคอมมอนส์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Quantile&oldid=1345581729 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ควอนไทล์

ใน ทางสถิติ และ ความน่าจะเป็น ควอนไทล์ คือจุดตัดที่แบ่ง ช่วง ของ ความน่าจะเป็นออก เป็นช่วงต่อเนื่องที่มีความน่าจะเป็นเท่ากัน หรือแบ่ง ข้อมูล ใน ตัวอย่าง ในลักษณะเดียวกัน...

ควอนไทล์ของประชากร

เช่นเดียวกับการคำนวณค่า เบี่ยงเบนมาตรฐาน การประมาณค่าควอนไทล์ขึ้นอยู่กับว่าเรากำลังทำงานกับ ประชากรทางสถิติ หรือกับ ตัวอย่าง ที่สุ่มมาจากประชากรนั้น สำหรับประชากรที่มีค่าแบบไม่ต่อเนื่องหรือสำหรับความหนาแน่นของประชากรแบบต่อเนื่อง ควอนไทล์ที่ k คือ ค่า...

ตัวอย่าง

ตัวอย่างสองข้อต่อไปนี้ใช้คำจำกัดความของควอนไทล์ตามลำดับที่ใกล้ที่สุดโดยมีการปัดเศษ สำหรับคำอธิบายเกี่ยวกับคำจำกัดความนี้ โปรดดู ที่เปอร์เซ็นไท ล์

ความสัมพันธ์กับค่าเฉลี่ย

สำหรับการกระจายความน่าจะเป็นของประชากรใดๆ บนค่าจำนวนจำกัด และโดยทั่วไปสำหรับการกระจายความน่าจะเป็นใดๆ ที่มีค่าเฉลี่ยและความแปรปรวน จะเป็นกรณีที่ Q (p) คือค่าของ ค วอนไทล์ p สำหรับ 0 < p < 1 (หรือเทียบเท่ากับ ค วอน ไทล์ q ที่ k สำหรับ p = k / q ) โดยที่ μ คือ...