กลับไปหน้าบทความ

อ่าน 4 นาที

ช่วงควาร์ไทล์

ในสถิติเชิงพรรณนาช่วงควาร์ไทล์ ( IQR ) เป็นการวัดการกระจายทางสถิติซึ่งก็คือการกระจายของข้อมูล IQR อาจเรียกว่าค่ากลาง ค่า 50% กลาง ค่าที่สี่ หรือค่า H-spread...

ช่วงควาร์ไทล์

แผนภาพกล่อง (พร้อมช่วงควาร์ไทล์) และฟังก์ชันความหนาแน่นความน่าจะเป็น (pdf) ของประชากร ปกติ N(0, σ² )

ในสถิติเชิงพรรณนาช่วงควาร์ไทล์ ( IQR ) เป็นการวัดการกระจายทางสถิติซึ่งก็คือการกระจายของข้อมูล[ 1 ] IQR อาจเรียกว่าค่ากลาง ค่า 50% กลาง ค่าที่สี่ หรือค่า H-spread ก็ได้โดยกำหนดให้เป็นผลต่างระหว่างเปอร์เซ็นไทล์ที่ 75 และเปอร์เซ็นไทล์ ที่ 25 ของข้อมูล[ 2 ] [ 3 ] [ 4 ]ในการคำนวณ IQR ชุดข้อมูลจะถูกแบ่งออกเป็นควาร์ไทล์หรือสี่ส่วนที่เรียงลำดับเท่ากันโดยใช้การประมาณค่าเชิงเส้น[ 1 ]ควาร์ไทล์เหล่านี้จะถูกกำหนดโดยQ 1 (เรียกอีกอย่างว่าควาร์ไทล์ล่าง) Q 2 (ค่ามัธยฐาน ) และQ 3 (เรียกอีกอย่างว่าควาร์ไทล์บน) ควาร์ไทล์ล่างสอดคล้องกับเปอร์เซ็นไทล์ที่ 25 และควาร์ไทล์บนสอดคล้องกับเปอร์เซ็นไท ล์ที่ 75 ดังนั้น IQR = Q 3 −   Q 1 [ 1 ]

IQR เป็นตัวอย่างของตัวประมาณค่าแบบตัดแต่ง ซึ่งกำหนดเป็น ช่วงที่ตัดแต่ง 25% ซึ่งช่วยเพิ่มความแม่นยำของสถิติชุดข้อมูลโดยการตัดจุดที่อยู่นอกช่วงซึ่งมีส่วนร่วมน้อยออกไป[ 5 ]นอกจากนี้ยังใช้เป็นมาตรวัดขนาดที่แข็งแกร่ง[ 5 ]สามารถมองเห็นได้อย่างชัดเจนด้วยกล่องบนแผนภาพกล่อง[ 1 ]

ใช้

ช่วงระหว่างควอไทล์ จะแตกต่างจาก ช่วงทั้งหมด โดย มี จุดแตกหักที่ 25% [ 6 ]และมักจะเป็นที่นิยมมากกว่าช่วงทั้งหมด

ค่า IQR ใช้ในการสร้างแผนภาพกล่องซึ่งเป็นการแสดงภาพกราฟิกอย่างง่ายของความน่าจะเป็น

อัตราส่วนช่วงควาร์ไทล์ (IQR) ถูกนำมาใช้ในภาคธุรกิจเพื่อเป็นตัวชี้วัดอัตราผล ตอบแทนราย ได้

สำหรับข้อมูลที่มีการแจกแจงแบบสมมาตร (โดยที่ค่ามัธยฐานเท่ากับค่ากึ่งกลางซึ่งเป็นค่าเฉลี่ยของควาร์ไทล์ที่หนึ่งและที่สาม) ครึ่งหนึ่งของช่วงควาร์ไทล์ (IQR) จะเท่ากับค่าเบี่ยงเบนสัมบูรณ์ของมัธยฐาน (MAD)

ค่ามัธยฐานคือค่าที่แสดงถึงแนวโน้มศูนย์กลางที่ สอดคล้อง กัน

IQR สามารถใช้เพื่อระบุค่าผิดปกติได้ (ดูด้านล่าง ) IQR ยังอาจบ่งชี้ถึงความเบี่ยงเบนของชุดข้อมูลได้ อีกด้วย [ 1 ]

ค่าเบี่ยงเบนควอไทล์หรือช่วงกึ่งควอไทล์ถูกกำหนดให้เป็นครึ่งหนึ่งของ IQR [ 7 ]

อัลกอริทึม

IQR ของชุดค่าจะคำนวณจากความแตกต่างระหว่างควอไทล์บนและล่าง Q 3และ Q 1แต่ละควอไทล์คือค่ามัธยฐาน[ 8 ]ที่คำนวณดังต่อไปนี้

กำหนดค่าเป็นจำนวนคู่2nหรือจำนวนคี่2n+1ค่า

ควาร์ไทล์แรก Q1 =ค่ามัธยฐานของ ค่าที่เล็กที่สุด nค่า
ควาร์ไทล์ที่สาม Q 3 = ค่ามัธยฐานของค่าที่ใหญ่ที่สุดn ค่า [ 8 ]

วาร์ไทล์ที่สอง Q 2เหมือนกับค่ามัธยฐานปกติ[ 8 ]

ตัวอย่าง

ชุดข้อมูลในรูปแบบตาราง

ตารางต่อไปนี้มี 13 แถว และเป็นไปตามกฎสำหรับจำนวนรายการที่เป็นเลขคี่

ฉัน x[i] ค่ามัธยฐาน ควาร์ไทล์
1 7 Q 2 =87 (ค่ามัธยฐานของตารางทั้งหมด) Q 1 =31 (ค่ามัธยฐานของครึ่งล่าง จากแถวที่ 1 ถึง 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115 Q 3 =119 (ค่ามัธยฐานของครึ่งบน จากแถวที่ 8 ถึง 13)
9 116
10 119
11 119
12 155
13 177

สำหรับข้อมูลในตารางนี้ ช่วงควาร์ไทล์คือ IQR = Q 3 − Q 1 = 119 - 31 = 88

ชุดข้อมูลในแผนภาพกล่องข้อความธรรมดา

 +−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ เส้นจำนวน 0 1 2 3 4 5 6 7 8 9 10 11 12 

สำหรับชุดข้อมูลในแผนภาพกล่อง นี้ :

  • ควาร์ไทล์ล่าง (แรก) Q 1 = 7
  • ค่ามัธยฐาน (ควาร์ไทล์ที่สอง) Q 2 = 8.5
  • ควาร์ไทล์บน (ที่สาม) Q 3 = 9
  • ช่วงควาร์ไทล์ (IQR) = Q 3 - Q 1 = 2
  • หนวดด้านล่าง 1.5*IQR = Q 1 - 1.5 * IQR = 7 - 3 = 4 (ถ้าไม่มีจุดข้อมูลที่ 4 ให้ใช้จุดต่ำสุดที่มากกว่า 4)
  • หนวดด้านบน 1.5*IQR = Q 3 + 1.5 * IQR = 9 + 3 = 12 (ถ้าไม่มีจุดข้อมูลที่ 12 ให้ใช้จุดสูงสุดที่น้อยกว่า 12)
  • รูปแบบของสองข้อหลัง: หากไม่มีจุดข้อมูลที่ควอไทล์ที่แท้จริง ให้ใช้จุดข้อมูลที่อยู่ "ห่างจากควอไทล์จริง" เล็กน้อย (ใกล้กับค่ามัธยฐาน)

ซึ่งหมายความว่าหนวด 1.5*IQR อาจมีความยาวไม่เท่ากัน ค่ามัธยฐาน ค่าต่ำสุด ค่าสูงสุด และควาร์ไทล์ที่หนึ่งและที่สามประกอบกันเป็น บท สรุปห้าตัวเลข[ 9 ]

การแจกจ่าย

ช่วงควาร์ไทล์ระหว่างกลางของการแจกแจงแบบต่อเนื่องสามารถคำนวณได้โดยการอินทิเกตฟังก์ชันความหนาแน่นความน่าจะเป็น(ซึ่งจะได้ฟังก์ชันการแจกแจงสะสม — วิธีอื่นใดในการคำนวณ CDF ก็ใช้ได้เช่น กัน ) ควาร์ไทล์ล่างQ₁คือจำนวนที่เมื่ออินทิเกรต PDF จาก -∞ ถึงQ₁เท่ากับ 0.25 ในขณะที่ค วาร์ไทล์ บนQ₃คือจำนวนที่เมื่ออินทิเกรตจาก -∞ ถึงQ₃เท่ากับ 0.75 ในแง่ของ CDF ควาร์ไทล์สามารถกำหนดได้ดังนี้:

โดยที่ CDF −1คือฟังก์ชันควอนไทล์

ช่วงควาร์ไทล์และค่ามัธยฐานของการแจกแจงทั่วไปบางประเภทแสดงไว้ด้านล่าง

การกระจาย ค่ามัธยฐาน ไอคิวอาร์
ปกติμ 2 Φ −1 (0.75)σ พรีเมี่ยม 1.349σ ความเข้มข้น (27/20)σ
ลาปลาซμ 2 b  ln(2) ≈ 1.386 b
คอชี่μ

การทดสอบช่วงควาร์ไทล์เพื่อตรวจสอบความปกติของการกระจายตัว

ค่า IQR ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของประชากรPสามารถนำมาใช้ในการทดสอบอย่างง่ายว่าPมีการกระจายแบบปกติหรือแบบเกาส์เซียนหรือไม่ ถ้าPมีการกระจายแบบปกติค่าเบี่ยงเบนมาตรฐาน ของควา ร์ไทล์แรกz₁คือ -0.67 และค่าเบี่ยงเบนมาตรฐานของควาร์ไทล์ที่สามz₃ คือ +0.67 กำหนดให้ ค่าเฉลี่ย  =  และค่าเบี่ยงเบนมาตรฐาน  = σ สำหรับPถ้าPมีการกระจายแบบปกติ ควาร์ไทล์แรก = -0.67

และควาร์ไทล์ที่สาม

หากค่าจริงของควาร์ไทล์ที่หนึ่งหรือที่สามแตกต่างจากค่าที่คำนวณได้มาก แสดงว่าP ไม่มีการกระจายแบบปกติ อย่างไรก็ตาม การกระจายแบบปกติสามารถถูกรบกวนเล็กน้อยเพื่อให้ค่าเบี่ยงเบนมาตรฐานของ Q1 และ Q2 ยังคงอยู่ที่ 0.67 และ -0.67 ตามลำดับ โดยไม่ถือว่าเป็นการกระจายแบบปกติ (ดังนั้นการทดสอบข้างต้นจะให้ผลบวกเท็จ) จึงควรใช้ การทดสอบความปกติที่ดีกว่า เช่นแผนภาพ Q–Q

ค่าผิดปกติ

แผนภูมิกล่องและหนวดแสดงค่าผิดปกติเล็กน้อย 4 ค่า และค่าผิดปกติมาก 1 ค่า ในแผนภูมินี้ ค่าผิดปกติเล็กน้อยหมายถึงค่าที่สูงกว่า Q3 + 1.5 IQR และค่าผิดปกติมากหมายถึงค่าที่สูงกว่า Q3 + 3 IQR

ช่วงควาร์ไทล์ (Interquartile Range) มักใช้ในการค้นหาค่าผิดปกติในข้อมูล ค่าผิดปกติในที่นี้หมายถึงค่าที่อยู่ต่ำกว่า Q1 − 1.5 IQR หรือสูงกว่า Q3 + 1.5 IQR ในแผนภาพกล่อง (Boxplot) ค่าสูงสุดและต่ำสุดที่เกิดขึ้นภายในขอบเขตนี้จะแสดงด้วยหนวดของกล่อง (โดยมักจะมีแท่งเพิ่มเติมที่ปลายหนวด) และค่าผิดปกติจะแสดงเป็นจุดแต่ละจุด

ดูเพิ่มเติม

  • โลโก้ Wikimedia Commonsสื่อที่เกี่ยวข้องกับช่วงควาร์ไทล์ในวิกิมีเดียคอมมอนส์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Interquartile_range&oldid=1349106608 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ช่วงควาร์ไทล์

ในสถิติเชิงพรรณนาช่วงควาร์ไทล์ ( IQR ) เป็นการวัดการกระจายทางสถิติซึ่งก็คือการกระจายของข้อมูล IQR อาจเรียกว่าค่ากลาง ค่า 50% กลาง ค่าที่สี่ หรือค่า H-spread...

ใช้

ช่วงระหว่างควอไทล์ จะแตกต่างจาก ช่วง ทั้งหมด โดย มี จุดแตกหัก ที่ 25% [ 6 ] และมักจะเป็นที่นิยมมากกว่าช่วงทั้งหมด

อัลกอริทึม

IQR ของชุดค่าจะคำนวณจากความแตกต่างระหว่างควอไทล์บนและล่าง Q 3 และ Q 1 แต่ละควอไทล์คือค่ามัธยฐาน [ 8 ] ที่คำนวณดังต่อไปนี้

ชุดข้อมูลในรูปแบบตาราง

ตารางต่อไปนี้มี 13 แถว และเป็นไปตามกฎสำหรับจำนวนรายการที่เป็นเลขคี่