อ่าน 9 นาที
การกระจายแบบหางหนัก
ในทฤษฎีความน่าจะเป็นการแจกแจงแบบหางหนักคือการแจกแจงความน่าจะเป็นที่หางไม่ได้ถูกจำกัดแบบเอกซ์โพเนนเชียล: กล่าวคือ มีหางที่หนักกว่าการแจกแจงแบบเอกซ์โพเนนเชียล โดยคร่าวๆ แล้ว...
การกระจายแบบหางหนัก

ในทฤษฎีความน่าจะเป็นการแจกแจงแบบหางหนักคือการแจกแจงความน่าจะเป็นที่หางไม่ได้ถูกจำกัดแบบเอกซ์โพเนนเชียล: [ 1 ]กล่าวคือ มีหางที่หนักกว่าการแจกแจงแบบเอกซ์โพเนนเชียล โดยคร่าวๆ แล้ว “หางหนัก” หมายความว่าการแจกแจงลดลงช้ากว่าการแจกแจงแบบเอกซ์โพเนนเชียล ดังนั้นค่าสุดขั้วจึงมีโอกาสเกิดขึ้นได้มากกว่า ในการใช้งานหลายๆ อย่าง หางด้านขวาของการแจกแจงเป็นสิ่งที่น่าสนใจ แต่การแจกแจงอาจมีหางด้านซ้ายที่หนัก หรือทั้งสองหางอาจหนักก็ได้
การแจกแจงแบบหางหนักมีสามประเภทย่อยที่สำคัญ ได้แก่การแจกแจงแบบหางหนาการแจกแจงแบบหางยาวและการแจกแจงแบบซับเอ็กซ์โพเนนเชียลในทางปฏิบัติ การแจกแจงแบบหางหนักที่ใช้กันทั่วไปทั้งหมดจัดอยู่ในกลุ่มซับเอ็กซ์โพเนนเชียล ซึ่งแนะนำโดยJozef Teugels [ 2 ]
ยังคงมีความเห็นที่แตกต่างกันเกี่ยวกับการใช้คำว่า " หางหนัก " อยู่ มีคำจำกัดความอื่น ๆ อีกสองแบบที่ใช้กันอยู่ ผู้เขียนบางคนใช้คำนี้เพื่ออ้างถึงการแจกแจงที่โมเมนต์กำลังทั้งหมดไม่เป็นค่า จำกัด และบางคนใช้เพื่ออ้างถึงการแจกแจงที่ ความแปรปรวนไม่เป็นค่าจำกัดคำจำกัดความที่ให้ไว้ในบทความนี้เป็นคำจำกัดความที่ใช้กันทั่วไปมากที่สุด และรวมถึงการแจกแจงทั้งหมดที่ครอบคลุมโดยคำจำกัดความทางเลือกอื่น ๆ รวมถึงการแจกแจงเช่นการแจกแจงแบบ ลอการิทมิกปกติ ( log-normal ) ที่มีโมเมนต์กำลังทั้งหมด แต่โดยทั่วไปถือว่าเป็นการแจกแจงแบบหางหนัก (บางครั้ง คำว่า "หางหนัก" ใช้กับทุกการแจกแจงที่มีหางหนักกว่าการแจกแจงแบบปกติ)
คำจำกัดความ
นิยามของการแจกแจงแบบหางหนัก
การกระจายตัวของตัวแปรสุ่มXที่มีฟังก์ชันการกระจายตัวFกล่าวได้ว่ามีหางหนัก (ขวา) หากฟังก์ชันสร้างโมเมนต์ของX , M X ( t ) เป็นอนันต์สำหรับt > 0 ทั้งหมด [ 3 ]
นั่นหมายความว่า
สิ่งนี้เขียนในรูปของฟังก์ชันการกระจายหางได้เช่นกัน
เช่น
นิยามของการแจกแจงแบบหางยาว
การกระจายตัวของตัวแปรสุ่มXที่มีฟังก์ชันการกระจายตัวFกล่าวได้ว่ามีหางยาวทางขวา[ 1 ] ถ้าสำหรับ t > 0 ทั้งหมด
หรือเทียบเท่า
นี่คือการตีความเชิงสัญชาตญาณสำหรับปริมาณที่มีการกระจายแบบหางยาวไปทางขวา กล่าวคือ หากปริมาณที่มีการกระจายแบบหางยาวนั้นเกินระดับสูงระดับหนึ่ง ความน่าจะเป็นที่จะเกินระดับที่สูงกว่าอื่น ๆ จะเข้าใกล้ 1
การแจกแจงแบบหางยาวทั้งหมดเป็นการแจกแจงแบบหางหนัก แต่ในทางกลับกันนั้นไม่จริง และเป็นไปได้ที่จะสร้างการแจกแจงแบบหางหนักที่ไม่ใช่แบบหางยาว
การแจกแจงแบบซับเอ็กซ์โพเนนเชียล
ส่วนนี้อธิบายถึงแนวคิดของ subexponential ในบริบทของการแจกแจงแบบหางหนัก ในทางกลับกัน การแจกแจงแบบ subexponentialในบริบทของการแจกแจงแบบหางเบาแบบ sub-Gaussianนั้น มีความหมายตรงกันข้ามเกือบทั้งหมด
ความเป็นซับเอ็กซ์โพเนนเชียล (Subexponentiality) ถูกนิยามในแง่ของการสังเคราะห์ (convolution) ของการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่ม อิสระสองตัวที่มีการแจกแจงเหมือนกัน และมีฟังก์ชันการแจกแจงร่วมกันการสังเคราะห์ของตัวแปรสุ่มสอง ตัวนั้น กับตัวมันเอง เขียนแทนด้วยและเรียกว่ากำลังสองของการสังเคราะห์ (convolution square) ถูกนิยามโดยใช้การอินทิเกรตแบบเลเบส-สตีลต์เจส (Lebesgue–Stieltjes integration ) ดังนี้:
และ การสังเคราะห์แบบ n เท่า (n -fold convolution) ถูกกำหนดโดยการอุปนัยตามกฎ:
ฟังก์ชันการกระจายส่วนหางถูกกำหนดดังนี้
การกระจายบนครึ่งเส้นบวกเป็นแบบย่อยเลขชี้กำลัง[ 1 ] [ 5 ] [ 2 ]ถ้า
สิ่งนี้หมายความว่า[ 6 ]สำหรับใดๆ
การตีความเชิงความน่าจะเป็น[ 6 ]ของสิ่งนี้คือ สำหรับผลรวมของตัวแปรสุ่มอิสระที่มี การกระจายร่วมกัน
สิ่งนี้มักเรียกว่าหลักการของการกระโดดครั้งใหญ่ครั้งเดียว[ 7 ]หรือหลักการหายนะ[ 8 ]
การกระจายบนเส้นจำนวนจริงทั้งหมดเป็นแบบซับเอกซ์โพเนนเชียลหากการกระจายนั้น เป็น แบบซับเอกซ์โพเนนเชียล [ 9 ]โดยที่ ฟังก์ชัน ตัวบ่งชี้ของครึ่งเส้นบวกเป็นฟังก์ชัน อื่น ตัวแปร สุ่มที่รองรับบนเส้นจำนวนจริงจะเป็นแบบซับเอกซ์โพเนนเชียลก็ต่อเมื่อเป็นแบบซับเอกซ์โพเนนเชียล
การแจกแจงแบบซับเอ็กซ์โพเนนเชียลทั้งหมดมีหางยาว แต่ก็สามารถสร้างตัวอย่างของการแจกแจงที่มีหางยาวที่ไม่ใช่แบบซับเอ็กซ์โพเนนเชียลได้
การแจกแจงแบบหางหนักทั่วไป
การแจกแจงหางหนักที่ใช้กันทั่วไปทั้งหมดเป็นแบบย่อยเลขชี้กำลัง[ 6 ]
สัตว์ที่มีหางเดียว ได้แก่:
- การแจกแจงแบบพาเรโต ;
- การแจกแจงแบบล อการิทมิกปกติ ;
- การแจกแจงแบบเลวี ;
- การแจกแจงไวบูลที่มีพารามิเตอร์รูปร่างมากกว่า 0 แต่น้อยกว่า 1;
- การแจกแจงแบบเบอร์ร์ ;
- การแจกแจงแบบล็อกโลจิสติก ;
- การแจกแจง แบบล็อกแกมมา ;
- การแจกแจงแบบ Fréchet ;
- การกระจาย แบบq-Gaussian ;
- การแจกแจงแบบ log-Cauchyบางครั้งถูกอธิบายว่ามี "หางที่หนักมาก" เนื่องจากแสดงการลดลงแบบลอการิทึมทำให้เกิดหางที่หนักกว่าการแจกแจงแบบ Pareto [ 10 ] [ 11 ]
สัตว์ที่มีหางสองข้าง ได้แก่:
- การแจกแจงโคชี (Cauchy distribution ) เป็นกรณีพิเศษของการแจกแจงแบบเสถียร (stable distribution) และการแจกแจงแบบที (t-distribution)
- ตระกูลของ การแจกแจงที่เสถียร [ 12 ]ยกเว้นกรณีพิเศษของการแจกแจงปกติภายในตระกูลนั้น การแจกแจงที่เสถียรบางอย่างเป็นแบบด้านเดียว (หรือรองรับโดยครึ่งเส้น) ดูตัวอย่างเช่นการแจกแจง Lévyดูเพิ่มเติมที่แบบจำลองทางการเงินที่มีการแจกแจงแบบหางยาวและการรวมกลุ่มความผันผวน
- การแจกแจงแบบที ( t-distribution )
ความสัมพันธ์กับการแจกแจงแบบหางหนา
การแจกแจงแบบหางหนา (fat-tailed distribution)คือการแจกแจงที่ฟังก์ชันความหนาแน่นความน่าจะเป็น สำหรับค่า x ที่มาก จะเข้าใกล้ศูนย์เมื่อยกกำลังเนื่องจากกำลังดังกล่าวมีค่าต่ำสุดจำกัดโดยฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบเอกซ์โปเนนเชียล ดังนั้นการแจกแจงแบบหางหนาจึงมักเป็นการแจกแจงแบบหางหนัก (heavy-tailed distribution) เสมอ อย่างไรก็ตาม การแจกแจงบางแบบมีหางที่เข้าใกล้ศูนย์ช้ากว่าฟังก์ชันเอกซ์โปเนนเชียล (หมายความว่าเป็นการแจกแจงแบบหางหนัก) แต่เร็วกว่าการยกกำลัง (หมายความว่าไม่ใช่การแจกแจงแบบหางหนา) ตัวอย่างเช่น การแจกแจงแบบลอการิทมิก ปกติ (log-normal distribution ) แต่การแจกแจงแบบหางหนักอื่นๆ อีกมากมาย เช่น การแจกแจง แบบลอการิทมิกโลจิสติ ก (log-logistic distribution) และ การแจกแจง แบบพาเรโต (Pareto distribution) ก็เป็นการแจกแจงแบบหางหนาด้วยเช่นกัน
การประมาณค่าดัชนีหาง
มีแนวทางแบบพาราเมตริก[ 6 ]และแบบไม่พาราเมตริก[ 13 ]สำหรับปัญหาการประมาณค่าดัชนีหาง
ในการประมาณค่าดัชนีส่วนหางโดยใช้วิธีพาราเมตริก ผู้เขียนบางท่านใช้ การแจกแจง GEVหรือการแจกแจงพาเรโตโดยอาจใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด (MLE)
ตัวประมาณดัชนีหางของ Pickand
ด้วยลำดับสุ่มของฟังก์ชันความหนาแน่นอิสระและเหมือนกันโดเมนการดึงดูดสูงสุด[ 14 ] ของความหนาแน่นค่าสุดขั้วทั่วไปโดยที่. ถ้าและ แล้วการประมาณค่าดัชนีหางของ Pickands คือ [ 6 ] [ 14 ]
โดยที่. ตัวประมาณค่านี้ ลู่เข้าสู่ค่า . ในเชิงความน่าจะเป็น
ตัวประมาณดัชนีหางของฮิลล์
ให้เป็นลำดับของตัวแปรสุ่มอิสระและมีการแจกแจงเหมือนกัน โดยมีฟังก์ชันการแจกแจงโดเมนการดึงดูดสูงสุดของการแจกแจงค่าสุดขีดทั่วไปโดยที่เส้นทางตัวอย่างคือโดยที่คือขนาดตัวอย่าง ถ้า เป็นลำดับลำดับกลาง กล่าวคือและแล้ว ตัวประมาณดัชนีหางของ Hill คือ[ 15 ]
โดยที่สถิติลำดับที่-th ของตัวประมาณค่านี้ลู่เข้าสู่ความน่าจะเป็นที่และเป็นแบบปกติเชิงอะซิมโทติกหากถูกจำกัดตามคุณสมบัติการแปรผันปกติลำดับสูงกว่า[ 16 ] [ 17 ]ความสอดคล้องและความเป็นปกติเชิงอะซิมโทติกขยายไปถึงลำดับที่ขึ้นอยู่กันและไม่เป็นเนื้อเดียวกันจำนวนมาก[ 18 ] [ 19 ]โดยไม่คำนึงถึงว่าถูกสังเกตหรือเป็นค่าตกค้างที่คำนวณได้หรือข้อมูลที่กรองจากแบบจำลองและตัวประมาณค่าจำนวนมาก รวมถึงแบบจำลองที่ระบุผิดพลาดและแบบจำลองที่มีข้อผิดพลาดที่ขึ้นอยู่กัน[ 20 ] [ 21 ] [ 22 ]โปรดทราบว่าตัวประมาณค่าดัชนีหางของ Pickand และ Hill มักใช้ลอการิทึมของสถิติลำดับ[ 23 ]
ตัวประมาณอัตราส่วนของดัชนีหาง
ตัวประมาณอัตราส่วน (RE-estimator) ของดัชนีหางได้รับการแนะนำโดย Goldie และ Smith [ 24 ] มันถูกสร้างขึ้นในลักษณะเดียวกับตัวประมาณของ Hill แต่ใช้ "พารามิเตอร์การปรับแต่ง" ที่ไม่ใช่แบบสุ่ม
การเปรียบเทียบตัวประมาณค่าแบบ Hill และแบบ RE สามารถพบได้ใน Novak [ 13 ]
ซอฟต์แวร์
- aest เก็บถาวรเมื่อ 2020-11-25 ที่Wayback Machineเครื่องมือCสำหรับประมาณดัชนีหางหนัก[ 25 ]
การประมาณความหนาแน่นแบบหางหนัก
แนวทางที่ไม่ใช้พารามิเตอร์ในการประมาณฟังก์ชันความหนาแน่นความน่าจะเป็นแบบหางหนักและหางหนักมากได้รับการนำเสนอใน Markovich [ 26 ]แนวทางเหล่านี้ขึ้นอยู่กับแบนด์วิดท์ตัวแปรและตัวประมาณเคอร์เนลแบบหางยาว การแปลงข้อมูลเบื้องต้นเป็นตัวแปรสุ่มใหม่ในช่วงเวลาจำกัดหรืออนันต์ ซึ่งสะดวกกว่าสำหรับการประมาณ จากนั้นจึงแปลงกลับค่าประมาณความหนาแน่นที่ได้รับ และ "แนวทางการประกอบเข้าด้วยกัน" ซึ่งให้แบบจำลองพารามิเตอร์บางอย่างสำหรับหางของความหนาแน่นและแบบจำลองที่ไม่ใช้พารามิเตอร์เพื่อประมาณโหมดของความหนาแน่น ตัวประมาณที่ไม่ใช้พารามิเตอร์ต้องการการเลือกพารามิเตอร์การปรับแต่ง (การทำให้เรียบ) ที่เหมาะสม เช่น แบนด์วิดท์ของตัวประมาณเคอร์เนลและความกว้างของช่องในฮิสโตแกรม วิธีการที่ขับเคลื่อนด้วยข้อมูลที่รู้จักกันดีสำหรับการเลือกดังกล่าว ได้แก่ การตรวจสอบแบบไขว้และการดัดแปลง วิธีการที่อิงตามการลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) และขอบเขตเชิงเส้นกำกับและขอบเขตบน[ 27 ]วิธีความคลาดเคลื่อนซึ่งใช้สถิติแบบไม่พาราเมตริกที่เป็น ที่รู้จักกันดี เช่น สถิติของ Kolmogorov-Smirnov, von Mises และ Anderson-Darling เป็นเมตริกในพื้นที่ของฟังก์ชันการกระจาย (dfs) และควอนไทล์ของสถิติเหล่านี้ถือเป็นความไม่แน่นอนที่ทราบหรือค่าความคลาดเคลื่อน สามารถพบได้ใน[ 26 ] Bootstrap เป็นอีกเครื่องมือหนึ่งในการหาพารามิเตอร์การปรับเรียบโดยใช้การประมาณค่า MSE ที่ไม่ทราบค่าด้วยแผนการเลือกตัวอย่างซ้ำที่แตกต่างกัน ดูเช่น[ 28 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การกระจายแบบหางหนัก
ในทฤษฎีความน่าจะเป็นการแจกแจงแบบหางหนักคือการแจกแจงความน่าจะเป็นที่หางไม่ได้ถูกจำกัดแบบเอกซ์โพเนนเชียล: กล่าวคือ มีหางที่หนักกว่าการแจกแจงแบบเอกซ์โพเนนเชียล โดยคร่าวๆ แล้ว...
นิยามของการแจกแจงแบบหางหนัก
การกระจายตัวของ ตัวแปรสุ่ม X ที่มี ฟังก์ชันการกระจายตัว F กล่าวได้ว่ามีหางหนัก (ขวา) หาก ฟังก์ชันสร้างโมเมนต์ ของ X , M X ( t ) เป็นอนันต์สำหรับ t > 0 ทั้งหมด [ 3 ]
นิยามของการแจกแจงแบบหางยาว
การกระจายตัวของ ตัวแปรสุ่ม X ที่มี ฟังก์ชันการกระจายตัว F กล่าวได้ว่ามีหางยาวทางขวา [ 1 ] ถ้าสำหรับ t > 0 ทั้งหมด
การแจกแจงแบบซับเอ็กซ์โพเนนเชียล
ส่วนนี้อธิบายถึงแนวคิดของ subexponential ในบริบทของการแจกแจงแบบหางหนัก ในทางกลับกัน การแจกแจงแบบ subexponential ในบริบทของ การแจกแจงแบบหางเบาแบบ sub-Gaussian นั้น มีความหมายตรงกันข้ามเกือบทั้งหมด