แผนภูมิ Q–Q

ในทางสถิติแผนภูมิ Q–Q ( แผนภูมิควอนไทล์–ควอนไทล์ ) เป็นแผนภูมิความน่าจะเป็น ซึ่งเป็นวิธีการทางกราฟิกสำหรับการเปรียบเทียบการแจกแจงความน่าจะเป็น สองแบบ โดยการพล็อตควอนไทล์ ของทั้งสองแบบ เข้าด้วยกัน^{[ 1 ]}จุด $(x, y)$ บนแผนภูมิจะสอดคล้องกับควอนไทล์หนึ่งค่าของการแจกแจงที่สอง ( พิกัด $y$ ) ที่พล็อตเทียบกับควอนไทล์เดียวกันของการแจกแจงแรก ( พิกัด $x$ ) ซึ่งกำหนดเส้นโค้งพาราเมตริกโดยที่พาราเมตริกคือดัชนีของช่วงควอนไทล์

ถ้าการแจกแจงทั้งสองที่นำมาเปรียบเทียบกันมีความคล้ายคลึงกัน จุดในกราฟ Q–Q จะอยู่บนเส้นตรงเอกลักษณ์ $y = x$ โดยประมาณ ถ้าการแจกแจงมีความสัมพันธ์เชิงเส้น จุดในกราฟ Q–Q จะอยู่บนเส้นตรงโดยประมาณ แต่ไม่จำเป็นต้องอยู่บนเส้นตรง $y = x$ นอกจากนี้ กราฟ Q–Q ยังสามารถใช้เป็นวิธีการทางกราฟิกในการประมาณค่าพารามิเตอร์ใน กลุ่ม การแจกแจง แบบตำแหน่ง-มาตราส่วน ได้อีกด้วย

แผนภูมิ AQ–Q ใช้เพื่อเปรียบเทียบรูปร่างของการกระจาย โดยให้มุมมองเชิงกราฟิกว่าคุณสมบัติเช่นตำแหน่งมาตราส่วนและความ เบี่ยงเบนมีความคล้ายคลึงหรือแตกต่างกันอย่างไรในสองการกระจาย แผนภูมิ Q–Q สามารถใช้เพื่อเปรียบเทียบชุดข้อมูลหรือการกระจายเชิงทฤษฎีการใช้แผนภูมิ Q–Q เพื่อเปรียบเทียบข้อมูลสองตัวอย่างสามารถมองได้ว่าเป็น วิธีการแบบ ไม่ใช้พารามิเตอร์ในการเปรียบเทียบการกระจายพื้นฐาน แผนภูมิ AQ–Q โดยทั่วไปแล้วจะให้การวินิจฉัยที่ดีกว่าการเปรียบเทียบฮิสโตแกรม ของตัวอย่าง แต่เป็นที่รู้จักน้อยกว่า แผนภูมิ Q–Q มักใช้เพื่อเปรียบเทียบชุดข้อมูลกับแบบจำลองเชิงทฤษฎี^{[ 2 ]}^{[ 3 ]}ซึ่งสามารถให้การประเมินความเหมาะสมที่ดีในรูปแบบกราฟิก แทนที่จะลดทอนเป็นสถิติสรุปเชิง ตัวเลข เนื่องจากแผนภูมิ Q–Q เปรียบเทียบการกระจาย จึงไม่จำเป็นต้องสังเกตค่าเป็นคู่ ๆ เหมือนในแผนภูมิกระจายหรือแม้แต่จำนวนค่าในสองกลุ่มที่กำลังเปรียบเทียบจะต้องเท่ากัน

คำว่า "แผนภูมิความน่าจะเป็น" บางครั้งหมายถึงแผนภูมิ Q–Q โดยเฉพาะ บางครั้งหมายถึงแผนภูมิประเภททั่วไป และบางครั้งหมายถึงแผนภูมิ P–P ที่ใช้กันน้อยกว่า แผนภูมิสัมประสิทธิ์สหสัมพันธ์ความน่าจะเป็น ( แผนภูมิ PPCC) เป็นปริมาณที่ได้มาจากแนวคิดของแผนภูมิ Q–Q ซึ่งวัดความสอดคล้องของการแจกแจงที่เหมาะสมกับข้อมูลที่สังเกตได้ และบางครั้งใช้เป็นวิธีการในการปรับใช้การแจกแจงกับข้อมูล

คำจำกัดความและโครงสร้าง

แผนภูมิ AQ–Q คือแผนภูมิที่แสดงค่าควอนไทล์ของสองการแจกแจงเทียบกัน หรือแผนภูมิที่สร้างขึ้นจากค่าประมาณของควอนไทล์ รูปแบบของจุดในแผนภูมิจะใช้ในการเปรียบเทียบการแจกแจงทั้งสอง

ขั้นตอนหลักในการสร้างแผนภูมิ Q–Q คือการคำนวณหรือประมาณค่าควอนไทล์ที่จะนำมาพล็อต หากแกนใดแกนหนึ่งหรือทั้งสองแกนในแผนภูมิ Q–Q อิงตามการแจกแจงทางทฤษฎีที่มีฟังก์ชันการแจกแจงสะสม (CDF) ต่อเนื่อง ควอนไทล์ทั้งหมดจะถูกกำหนดอย่างไม่ซ้ำกันและสามารถหาได้โดยการผกผัน CDF หากการแจกแจงความน่าจะเป็นทางทฤษฎีที่มี CDF ไม่ต่อเนื่องเป็นหนึ่งในสองการแจกแจงที่กำลังเปรียบเทียบกัน ควอนไทล์บางส่วนอาจไม่ถูกกำหนด ดังนั้นอาจต้องพล็อตควอนไทล์แบบแทรกสอด หากแผนภูมิ Q–Q อิงตามข้อมูล จะมีการใช้ตัวประมาณค่าควอนไทล์หลายตัว กฎสำหรับการสร้างแผนภูมิ Q–Q เมื่อต้องประมาณค่าหรือแทรกสอดควอนไทล์เรียกว่าตำแหน่งการพล็อต

กรณีที่ง่ายที่สุดคือกรณีที่มีชุดข้อมูลสองชุดที่มีขนาดเท่ากัน ในกรณีนี้ การสร้างแผนภูมิ Q-Q ทำได้โดยการเรียงลำดับชุดข้อมูลแต่ละชุดจากน้อยไปมาก จากนั้นจับคู่และพล็อตค่าที่สอดคล้องกัน ส่วนกรณีที่ซับซ้อนกว่าคือกรณีที่กำลังเปรียบเทียบชุดข้อมูลสองชุดที่มีขนาดแตกต่างกัน ในการสร้างแผนภูมิ Q-Q ในกรณีนี้ จำเป็นต้องใช้ การประมาณค่าควอนไทล์ แบบสอดแทรกเพื่อให้สามารถสร้างควอนไทล์ที่สอดคล้องกับความน่าจะเป็นพื้นฐานเดียวกันได้

โดยนามธรรมมากขึ้น^{[ 5 ]}เมื่อกำหนดฟังก์ชันการกระจายความน่าจะเป็นสะสมสองฟังก์ชัน $F$ และ $G$ พร้อมด้วยฟังก์ชันควอนไทล์ $F -1$ และ $G -1$ ที่เกี่ยวข้อง (ฟังก์ชันผกผันของ CDF คือฟังก์ชันควอนไทล์) พล็อต Q–Q จะวาด ควอนไทล์ที่ $q$ ของ $F$ เทียบกับควอนไทล์ที่ $q ของ$ $G$ สำหรับช่วงค่าของ $q$ ดังนั้น พล็อต Q–Q จึงเป็นเส้นโค้งพาราเมตริก ที่จัด ทำ ดัชนีในช่วง [0,1] โดยมีค่าอยู่ในระนาบจริง $R 2$

โดยทั่วไปสำหรับการวิเคราะห์ภาวะปกติ แกนตั้งจะแสดงค่าของตัวแปรที่สนใจ เช่น $x$ ที่มีฟังก์ชันการกระจายสะสม $F (x)$ และแกนนอนจะแสดง $N⁻¹$ $(F (x))$ โดยที่ $N⁻¹ (.)$ แทนฟังก์ชันการกระจายสะสมปกติผกผัน

การตีความ

จุดที่แสดงในกราฟ Q–Q จะมีความชันเป็นบวกเสมอ กล่าวคือ ค่าจะเพิ่มขึ้นเมื่อมองจากซ้ายไปขวา หากการแจกแจงสองแบบที่เปรียบเทียบกันเหมือนกัน กราฟ Q–Q จะตามแนวเส้นตรง 45° $y = x$ หากการแจกแจงทั้งสองแบบสอดคล้องกันหลังจากแปลงค่าในหนึ่งของการแจกแจงแบบเชิงเส้นแล้ว กราฟ Q–Q จะตามแนวเส้นตรงบางเส้น แต่ไม่จำเป็นต้องเป็นเส้นตรง $y = x$ หากแนวโน้มโดยรวมของกราฟ Q–Q แบนราบกว่าเส้นตรง $y = x$ การแจกแจงที่แสดงบนแกนแนวนอนจะกระจายตัวมากกว่าการแจกแจงที่แสดงบนแกนแนวตั้ง ในทางกลับกัน หากแนวโน้มโดยรวมของกราฟ Q–Q ชันกว่าเส้นตรง $y = x$ การแจกแจงที่แสดงบนแกนแนวตั้งจะกระจายตัวมากกว่าการแจกแจงที่แสดงบนแกนแนวนอน กราฟ Q–Q มักจะมีลักษณะโค้งหรือรูปตัว S ซึ่งบ่งชี้ว่าการแจกแจงหนึ่งเบี่ยงเบนมากกว่าอีกการแจกแจงหนึ่ง หรือการแจกแจงหนึ่งมีหางที่หนากว่าอีกการแจกแจงหนึ่ง

แม้ว่าแผนภูมิ Q-Q จะอิงตามควอนไทล์ แต่ในแผนภูมิ Q-Q มาตรฐานนั้น ไม่สามารถระบุได้ว่าจุดใดในแผนภูมิ Q-Q เป็นตัวกำหนดควอนไทล์ที่กำหนด ตัวอย่างเช่น ไม่สามารถหาค่ามัธยฐานของข้อมูลสองชุดที่เปรียบเทียบกันได้โดยการตรวจสอบแผนภูมิ Q-Q แผนภูมิ Q-Q บางแบบแสดงเดซิไล์เพื่อให้สามารถทำการกำหนดค่าดังกล่าวได้

จุดตัดแกนและค่าความชันของการถดถอยเชิงเส้นระหว่างควอนไทล์จะให้ค่าที่บ่งบอกถึงตำแหน่งสัมพัทธ์และขนาดสัมพัทธ์ของตัวอย่าง หากค่ามัธยฐานของการกระจายที่แสดงบนแกนแนวนอนเป็น 0 จุดตัดแกนของเส้นถดถอยจะเป็นตัววัดตำแหน่ง และค่าความชันจะเป็นตัววัดขนาด ระยะห่างระหว่างค่ามัธยฐานเป็นอีกตัววัดหนึ่งของตำแหน่งสัมพัทธ์ที่สะท้อนให้เห็นในแผนภูมิ Q–Q " สัมประสิทธิ์สหสัมพันธ์ของแผนภูมิความน่าจะเป็น " (แผนภูมิ PPCC) คือสัมประสิทธิ์สหสัมพันธ์ระหว่างควอนไทล์ของตัวอย่างที่จับคู่กัน ยิ่งสัมประสิทธิ์สหสัมพันธ์ใกล้เคียงกับหนึ่งมากเท่าใด การกระจายก็จะยิ่งใกล้เคียงกันมากขึ้นเท่านั้น สำหรับการกระจายที่มีพารามิเตอร์รูปร่างเพียงตัวเดียว แผนภูมิสัมประสิทธิ์สหสัมพันธ์ของแผนภูมิความน่าจะเป็นจะให้วิธีการประมาณค่าพารามิเตอร์รูปร่าง – เพียงแค่คำนวณสัมประสิทธิ์สหสัมพันธ์สำหรับค่าต่างๆ ของพารามิเตอร์รูปร่าง และใช้ค่าที่เหมาะสมที่สุด เช่นเดียวกับการเปรียบเทียบการกระจายประเภทต่างๆ

การใช้งานทั่วไปอีกอย่างหนึ่งของแผนภูมิ Q–Q คือการเปรียบเทียบการกระจายของตัวอย่างกับการกระจายเชิงทฤษฎี เช่นการกระจายปกติ มาตรฐาน $N (0,1)$ ดังเช่นในแผนภูมิความน่าจะเป็นปกติเช่นเดียวกับกรณีเมื่อเปรียบเทียบข้อมูลสองตัวอย่าง เราจะเรียงลำดับข้อมูล (อย่างเป็นทางการคือคำนวณสถิติลำดับ) จากนั้นพล็อตข้อมูลเหล่านั้นเทียบกับควอนไทล์บางส่วนของการกระจายเชิงทฤษฎี^{[ 3 ]}

การกำหนดตำแหน่ง

การเลือกควอนไทล์จากการกระจายเชิงทฤษฎีอาจขึ้นอยู่กับบริบทและวัตถุประสงค์ การเลือกอย่างหนึ่ง เมื่อกำหนดขนาดตัวอย่าง เป็น $n$ คือ $k / n$ สำหรับ $k = 1, \dots, n$ เนื่องจากค่าเหล่านี้เป็นควอนไทล์ที่การกระจายตัวอย่างทำให้เป็นจริง ค่าสุดท้าย $n / n$ สอดคล้องกับเปอร์เซ็นไทล์ที่ 100 ซึ่งเป็นค่าสูงสุดของการกระจายเชิงทฤษฎี ซึ่งบางครั้งอาจเป็นอนันต์ ทางเลือกอื่นคือการใช้ $(k - 0.5) / n$ หรือการกำหนดระยะห่าง ระหว่างจุด $n$ จุดให้มีระยะห่างเท่ากันระหว่างจุดทั้งหมดและระหว่างจุดสองจุดที่อยู่นอกสุดกับขอบของช่วง โดยใช้ $k$ $/ ($ $n$ $+ 1$ ) ^[⁶^] $[0,1]$

มีการเสนอทางเลือกอื่นๆ อีกมากมาย ทั้งที่เป็นทางการและเชิงอนุมาน โดยอิงจากทฤษฎีหรือการจำลองที่เกี่ยวข้องในบริบทนั้นๆ หัวข้อย่อยต่อไปนี้จะกล่าวถึงบางส่วนเหล่านั้น คำถามที่แคบกว่าคือการเลือกค่าสูงสุด (การประมาณค่าสูงสุดของประชากร) ซึ่งรู้จักกันในชื่อปัญหาของรถถังเยอรมันซึ่งมีวิธีแก้ปัญหาที่คล้ายกันคือ "ค่าสูงสุดของตัวอย่าง บวกช่องว่าง" ซึ่งง่ายที่สุดคือ $m + m / n - 1$ การประยุกต์ใช้การทำให้ระยะห่างเป็นมาตรฐานนี้ในรูปแบบที่เป็นทางการมากขึ้นเกิดขึ้นใน การประมาณ ค่าพารามิเตอร์โดย ใช้ระยะห่างสูงสุด

ค่าที่คาดหวังของสถิติลำดับสำหรับการแจกแจงแบบเอกรูป

วิธี การ $k / (n + 1)$ เท่ากับการพล็อตจุดตามความน่าจะเป็นที่ค่าสุดท้ายจากค่าที่สุ่มเลือกมา ( $n + 1 ) ค่าจะไม่เกินค่าที่เล็กที่สุดลำดับที่$ $k$ จากค่าที่สุ่มเลือกมา $n ค่าแรก$ ^{[ 7 ]}^{[ 8 ]}

ค่าที่คาดหวังของสถิติลำดับสำหรับการแจกแจงปกติมาตรฐาน

ในการใช้แผนภาพความน่าจะเป็นแบบปกติควอนไทล์ที่ใช้คือค่าอันดับ (rankits)ซึ่งเป็นควอนไทล์ของค่าคาดหวังของสถิติอันดับของการแจกแจงปกติมาตรฐาน

โดยทั่วไปการทดสอบ Shapiro–Wilkใช้ค่าที่คาดหวังของสถิติลำดับของการแจกแจงที่กำหนด ผลลัพธ์ของพล็อตและเส้นจะให้ ค่าประมาณ กำลังสองน้อยที่สุดทั่วไปสำหรับตำแหน่งและมาตราส่วน (จากจุดตัดและความชันของเส้นที่เหมาะสม) ^{[ 9 ]} แม้ว่าสิ่งนี้จะไม่สำคัญมากนักสำหรับการแจกแจงปกติ (ตำแหน่งและมาตราส่วนจะถูกประมาณโดยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานตามลำดับ) แต่ก็มีประโยชน์สำหรับการแจกแจงอื่นๆ อีกมากมาย

อย่างไรก็ตาม วิธีนี้จำเป็นต้องคำนวณค่าที่คาดหวังของสถิติลำดับ ซึ่งอาจทำได้ยากหากการกระจายตัวไม่ใช่แบบปกติ

ค่ามัธยฐานของสถิติลำดับ

อีกทางเลือกหนึ่งคือ อาจใช้ค่าประมาณของค่ามัธยฐานของสถิติลำดับ ซึ่งสามารถคำนวณได้จากค่าประมาณของค่ามัธยฐานของสถิติลำดับของการแจกแจงแบบเอกรูปและฟังก์ชันควอนไทล์ของการแจกแจง ซึ่งเสนอโดยFilliben (1975 ) ^{[ 9 ]}

สามารถสร้างสิ่งนี้ได้อย่างง่ายดายสำหรับการกระจายใด ๆ ที่สามารถคำนวณฟังก์ชันควอนไทล์ได้ แต่ในทางกลับกัน ค่าประมาณตำแหน่งและมาตราส่วนที่ได้จะไม่ใช่ค่าประมาณกำลังสองน้อยที่สุดอย่างแม่นยำอีกต่อไป แม้ว่าค่าเหล่านี้จะแตกต่างกันอย่างมีนัยสำคัญเฉพาะในกรณีที่ $n$ มีขนาดเล็ก ก็ตาม

ฮิวริสติกส์

มีการใช้หรือเสนอสูตรต่างๆ หลายสูตรเป็น ตำแหน่งการพล็อต แบบ สมมาตร เชิงเส้น ตรง สูตรเหล่านี้มีรูปแบบ $(k - a) / (n + 1 - 2 a)$ สำหรับค่า $a$ บางค่า ในช่วงตั้งแต่ 0 ถึง 1 ซึ่งให้ช่วงระหว่าง $k / (n + 1)$ และ $(k - 1) / (n - 1$ )

วลีต่างๆ ได้แก่:

$k / (n + 1)$
$(k - 0.3) / (n + 0.4)$ . ^{[ 10 ]}
$(k - 0.3175) / (n + 0.365)$ . ^{[ 11 ]}^{[หมายเหตุ 1 ]}
$(k - 0.326) / (n + 0.348)$ . ^{[ 12 ]}
$(k - ⅓) / (n + ⅓)$ . ^{[หมายเหตุ 2 ]}
$(k - 0.375) / (n + 0.25)$ . ^{[หมายเหตุ 3 ]}
$(k - 0.4) / (n + 0.2)$ .
$(k - 0.44) / (n + 0.12)$ . ^{[หมายเหตุ 4 ]}
$(k - 0.5) / n$ . ^{[ 14 ]}
$(k - 0.567) / (n - 0.134)$ .
$(k - 1) / (n - 1)$ . ^{[หมายเหตุ 5 ]}

สำหรับขนาดตัวอย่างขนาดใหญ่ $n$ จะมีความแตกต่างเพียงเล็กน้อยระหว่างนิพจน์ต่างๆ เหล่านี้

การประมาณการของฟิลลิเบน

ค่ามัธยฐานของสถิติเรียงลำดับ คือค่ามัธยฐานของสถิติเรียงลำดับของการแจกแจง สามารถแสดงได้ในรูปของฟังก์ชันควอนไทล์และค่ามัธยฐานของสถิติเรียงลำดับสำหรับการแจกแจงเอกรูปต่อเนื่องโดย: โดยที่ $U$ $($ $i$ $)$ คือค่ามัธยฐานของสถิติเรียงลำดับเอกรูป และ $G$ คือฟังก์ชันควอนไทล์สำหรับการแจกแจงที่ต้องการ ฟังก์ชันควอนไทล์คือส่วนกลับของฟังก์ชันการแจกแจงสะสม (ความน่าจะเป็นที่ $X$ น้อยกว่าหรือเท่ากับค่าบางค่า) กล่าวคือ เมื่อกำหนดความน่าจะเป็น เราต้องการควอนไทล์ที่สอดคล้องกันของฟังก์ชันการแจกแจงสะสม $N(i)=G(U(i))$

James J. Filliben ใช้การประมาณค่าต่อไปนี้สำหรับค่ามัธยฐานสถิติลำดับแบบสม่ำเสมอ: ^{[ 15 ]} เหตุผลของการประมาณค่านี้คือค่ามัธยฐานสถิติลำดับไม่มีรูปแบบที่เรียบง่าย $m(i)={\begin{cases}1-0.5^{1/n}&i=1\\[2ex]{\dfrac {i-0.3175}{n+0.365}}&i=2,3,\ldots ,n-1\\[2ex]0.5^{1/n}&i=n.\end{cases}}$

ซอฟต์แวร์

ภาษาโปรแกรม Rมีฟังก์ชันสำหรับสร้างกราฟ Q-Q อยู่แล้ว ได้แก่ qqnorm และ qqplot จากstatsแพ็กเกจ ซึ่งfastqqแพ็กเกจนี้ช่วยให้การสร้างกราฟสำหรับข้อมูลจำนวนมากทำได้เร็วขึ้น

ดูเพิ่มเติม

ฟังก์ชันการกระจายเชิงประจักษ์
การวิเคราะห์ แบบโพรบิตได้รับการพัฒนาโดยเชสเตอร์ อิตต์เนอร์ บลิสในปี 1934

หมายเหตุ

^โปรดทราบว่าสิ่งนี้ยังใช้การแสดงออกที่แตกต่างกันสำหรับจุดแรกและจุดสุดท้าย [1]อ้างอิงงานดั้งเดิมโดย Filliben (1975) การแสดงออกนี้ เป็นการประมาณค่ามัธยฐานของ $U (k)$
^สูตรอย่างง่าย (และจำง่าย) สำหรับการกำหนดตำแหน่งโดยใช้กราฟ ใช้ในโปรแกรมสถิติ BMDP
^นี่คือค่าประมาณเบื้องต้นของ Blom (1958) และเป็นสูตรที่ ใช้ ใน MINITAB
^ ตำแหน่งการพล็ อตนี้ถูกใช้โดย Irving I. Gringorten^{[ 13 ]}เพื่อพล็อตจุดในการทดสอบสำหรับการกระจาย Gumbel
^ จุดพล็อตเหล่านี้ ซึ่งใช้โดย Filliben (1975 )เท่ากับโหมดของ $U (k)$

ลิงก์ภายนอก

แผนภูมิความน่าจะเป็น
มานูเอล กิมอนด์, แผนภาพ QQ เชิงประจักษ์ (และแผนภาพความแตกต่างเฉลี่ยของทูคีย์ที่ได้มา)

[12] โปรดทราบว่าสิ่งนี้ยังใช้การแสดงออกที่แตกต่างกันสำหรับจุดแรกและจุดสุดท้าย [1]อ้างอิงงานดั้งเดิมโดย Filliben (1975) การแสดงออกนี้ เป็นการประมาณค่ามัธยฐานของ $U (k)$

[14] สูตรอย่างง่าย (และจำง่าย) สำหรับการกำหนดตำแหน่งโดยใช้กราฟ ใช้ในโปรแกรมสถิติ BMDP

[15] นี่คือค่าประมาณเบื้องต้นของ Blom (1958) และเป็นสูตรที่ ใช้ ใน MINITAB

[17] ตำแหน่งการพล็ อตนี้ถูกใช้โดย Irving I. Gringorten^{[ 13 ]}เพื่อพล็อตจุดในการทดสอบสำหรับการกระจาย Gumbel

[19] จุดพล็อตเหล่านี้ ซึ่งใช้โดย Filliben (1975 )เท่ากับโหมดของ $U (k)$

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[หมายเหตุ 1 ]

[ 12 ]

[หมายเหตุ 2 ]

[หมายเหตุ 3 ]

[หมายเหตุ 4 ]

[ 14 ]

[หมายเหตุ 5 ]

[ 15 ]

[ 13 ]