การกระจายแบบหางหนัก

Q: นิยามของการแจกแจงแบบหางหนัก

การกระจายตัวของ ตัวแปรสุ่ม X ที่มี ฟังก์ชันการกระจายตัว F กล่าวได้ว่ามีหางหนัก (ขวา) หาก ฟังก์ชันสร้างโมเมนต์ ของ X , M X ( t ) เป็นอนันต์สำหรับ t > 0 ทั้งหมด [ 3 ]

Q: นิยามของการแจกแจงแบบหางยาว

การกระจายตัวของ ตัวแปรสุ่ม X ที่มี ฟังก์ชันการกระจายตัว F กล่าวได้ว่ามีหางยาวทางขวา [ 1 ] ถ้าสำหรับ t > 0 ทั้งหมด

ในทฤษฎีความน่าจะเป็นการแจกแจงแบบหางหนักคือการแจกแจงความน่าจะเป็นที่หางไม่ได้ถูกจำกัดแบบเอกซ์โพเนนเชียล: ^{[ 1 ]}กล่าวคือ มีหางที่หนักกว่าการแจกแจงแบบเอกซ์โพเนนเชียล โดยคร่าวๆ แล้ว “หางหนัก” หมายความว่าการแจกแจงลดลงช้ากว่าการแจกแจงแบบเอกซ์โพเนนเชียล ดังนั้นค่าสุดขั้วจึงมีโอกาสเกิดขึ้นได้มากกว่า ในการใช้งานหลายๆ อย่าง หางด้านขวาของการแจกแจงเป็นสิ่งที่น่าสนใจ แต่การแจกแจงอาจมีหางด้านซ้ายที่หนัก หรือทั้งสองหางอาจหนักก็ได้

การแจกแจงแบบหางหนักมีสามประเภทย่อยที่สำคัญ ได้แก่การแจกแจงแบบหางหนาการแจกแจงแบบหางยาวและการแจกแจงแบบซับเอ็กซ์โพเนนเชียลในทางปฏิบัติ การแจกแจงแบบหางหนักที่ใช้กันทั่วไปทั้งหมดจัดอยู่ในกลุ่มซับเอ็กซ์โพเนนเชียล ซึ่งแนะนำโดยJozef Teugels ^{[ 2 ]}

ยังคงมีความเห็นที่แตกต่างกันเกี่ยวกับการใช้คำว่า " หางหนัก " อยู่ มีคำจำกัดความอื่น ๆ อีกสองแบบที่ใช้กันอยู่ ผู้เขียนบางคนใช้คำนี้เพื่ออ้างถึงการแจกแจงที่โมเมนต์กำลังทั้งหมดไม่เป็นค่า จำกัด และบางคนใช้เพื่ออ้างถึงการแจกแจงที่ ความแปรปรวนไม่เป็นค่าจำกัดคำจำกัดความที่ให้ไว้ในบทความนี้เป็นคำจำกัดความที่ใช้กันทั่วไปมากที่สุด และรวมถึงการแจกแจงทั้งหมดที่ครอบคลุมโดยคำจำกัดความทางเลือกอื่น ๆ รวมถึงการแจกแจงเช่นการแจกแจงแบบ ลอการิทมิกปกติ ( log-normal ) ที่มีโมเมนต์กำลังทั้งหมด แต่โดยทั่วไปถือว่าเป็นการแจกแจงแบบหางหนัก (บางครั้ง คำว่า "หางหนัก" ใช้กับทุกการแจกแจงที่มีหางหนักกว่าการแจกแจงแบบปกติ)

คำจำกัดความ

นิยามของการแจกแจงแบบหางหนัก

การกระจายตัวของตัวแปรสุ่มXที่มีฟังก์ชันการกระจายตัวFกล่าวได้ว่ามีหางหนัก (ขวา) หากฟังก์ชันสร้างโมเมนต์ของX , M _X ( t ) เป็นอนันต์สำหรับt > 0 ทั้งหมด ^{[ 3 ]}

นั่นหมายความว่า

\int _{-\infty }^{\infty }e^{tx}\,dF(x)=\infty \quad {\mbox{สำหรับทุก }}t>0.

^{[ 4 ]}

สิ่งนี้เขียนในรูปของฟังก์ชันการกระจายหางได้เช่นกัน

{\overline {F}}(x)\equiv \Pr[X>x]\,

เช่น

\lim _{x\to \infty }e^{tx}{\overline {F}}(x)=\infty \quad {\mbox{สำหรับทุก }}t>0.\,

นิยามของการแจกแจงแบบหางยาว

การกระจายตัวของตัวแปรสุ่มXที่มีฟังก์ชันการกระจายตัวFกล่าวได้ว่ามีหางยาวทางขวา^{[ 1 ]} ถ้าสำหรับ t > 0 ทั้งหมด

\lim _{x\to \infty }\Pr[X>x+t\mid X>x]=1,\,

หรือเทียบเท่า

{\overline {F}}(x+t)\sim {\overline {F}}(x)\quad {\mbox{เมื่อ }}x\to \infty .\,

นี่คือการตีความเชิงสัญชาตญาณสำหรับปริมาณที่มีการกระจายแบบหางยาวไปทางขวา กล่าวคือ หากปริมาณที่มีการกระจายแบบหางยาวนั้นเกินระดับสูงระดับหนึ่ง ความน่าจะเป็นที่จะเกินระดับที่สูงกว่าอื่น ๆ จะเข้าใกล้ 1

การแจกแจงแบบหางยาวทั้งหมดเป็นการแจกแจงแบบหางหนัก แต่ในทางกลับกันนั้นไม่จริง และเป็นไปได้ที่จะสร้างการแจกแจงแบบหางหนักที่ไม่ใช่แบบหางยาว

การแจกแจงแบบซับเอ็กซ์โพเนนเชียล

ส่วนนี้อธิบายถึงแนวคิดของ subexponential ในบริบทของการแจกแจงแบบหางหนัก ในทางกลับกัน การแจกแจงแบบ subexponentialในบริบทของการแจกแจงแบบหางเบาแบบ sub-Gaussianนั้น มีความหมายตรงกันข้ามเกือบทั้งหมด

ความเป็นซับเอ็กซ์โพเนนเชียล (Subexponentiality) ถูกนิยามในแง่ของการสังเคราะห์ (convolution) ของการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่ม อิสระสองตัวที่มีการแจกแจงเหมือนกัน และมีฟังก์ชันการแจกแจงร่วมกันการสังเคราะห์ของตัวแปรสุ่มสอง ตัวนั้น กับตัวมันเอง เขียนแทนด้วยและเรียกว่ากำลังสองของการสังเคราะห์ (convolution square) ถูกนิยามโดยใช้การอินทิเกรตแบบเลเบส-สตีลต์เจส (Lebesgue–Stieltjes integration ) ดังนี้: $X_{1},X_{2}$ $F$ $F$ $F^{*2}$

\Pr[X_{1}+X_{2}\leq x]=F^{*2}(x)=\int _{0}^{x}F(xy)\,dF(y),

และ การสังเคราะห์แบบ n เท่า (n -fold convolution) ถูกกำหนดโดยการอุปนัยตามกฎ: $F^{*n}$

F^{*n}(x)=\int _{0}^{x}F(xy)\,dF^{*n-1}(y).

ฟังก์ชันการกระจายส่วนหางถูกกำหนดดังนี้ ${\overline {F}}$ ${\overline {F}}(x)=1-F(x)$

การกระจายบนครึ่งเส้นบวกเป็นแบบย่อยเลขชี้กำลัง^[¹^]^[⁵^]^[²^]ถ้า $F$

{\overline {F^{*2}}}(x)\sim 2{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .

สิ่งนี้หมายความว่า^{[ 6 ]}สำหรับใดๆ $n\geq 1$

{\overline {F^{*n}}}(x)\sim n{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .

การตีความเชิงความน่าจะเป็น^{[ 6 ]}ของสิ่งนี้คือ สำหรับผลรวมของตัวแปรสุ่มอิสระ ที่มี การกระจายร่วมกัน $n$ $X_{1},\ldots ,X_{n}$ $F$

\Pr[X_{1}+\cdots +X_{n}>x]\sim \Pr[\max(X_{1},\ldots ,X_{n})>x]\quad {\text{as }}x\to \infty .

สิ่งนี้มักเรียกว่าหลักการของการกระโดดครั้งใหญ่ครั้งเดียว^{[ 7 ]}หรือหลักการหายนะ^{[ 8 ]}

การกระจายบนเส้นจำนวนจริงทั้งหมดเป็นแบบซับเอกซ์โพเนนเชียลหากการกระจายนั้น เป็น แบบซับเอกซ์โพเนนเชียล ^[⁹^]โดยที่ ฟังก์ชัน ตัวบ่งชี้ของครึ่งเส้นบวกเป็นฟังก์ชัน อื่น ตัวแปร สุ่มที่รองรับบนเส้นจำนวนจริงจะเป็นแบบซับเอกซ์โพเนนเชียลก็ต่อเมื่อเป็นแบบซับเอกซ์โพเนนเชียล $F$ $FI([0,\infty ))$ $I([0,\infty ))$ $X$ $X^{+}=\max(0,X)$

การแจกแจงแบบซับเอ็กซ์โพเนนเชียลทั้งหมดมีหางยาว แต่ก็สามารถสร้างตัวอย่างของการแจกแจงที่มีหางยาวที่ไม่ใช่แบบซับเอ็กซ์โพเนนเชียลได้

การแจกแจงแบบหางหนักทั่วไป

การแจกแจงหางหนักที่ใช้กันทั่วไปทั้งหมดเป็นแบบย่อยเลขชี้กำลัง^{[ 6 ]}

สัตว์ที่มีหางเดียว ได้แก่:

การแจกแจงแบบพาเรโต ;
การแจกแจงแบบล อการิทมิกปกติ ;
การแจกแจงแบบเลวี ;
การแจกแจงไวบูลที่มีพารามิเตอร์รูปร่างมากกว่า 0 แต่น้อยกว่า 1;
การแจกแจงแบบเบอร์ร์ ;
การแจกแจงแบบล็อกโลจิสติก ;
การแจกแจง แบบล็อกแกมมา ;
การแจกแจงแบบ Fréchet ;
การกระจาย แบบq-Gaussian ;
การแจกแจงแบบ log-Cauchyบางครั้งถูกอธิบายว่ามี "หางที่หนักมาก" เนื่องจากแสดงการลดลงแบบลอการิทึมทำให้เกิดหางที่หนักกว่าการแจกแจงแบบ Pareto ^{[ 10 ]}^{[ 11 ]}

สัตว์ที่มีหางสองข้าง ได้แก่:

การแจกแจงโคชี (Cauchy distribution ) เป็นกรณีพิเศษของการแจกแจงแบบเสถียร (stable distribution) และการแจกแจงแบบที (t-distribution)
ตระกูลของ การแจกแจงที่เสถียร [ ¹²^]ยกเว้นกรณีพิเศษของการแจกแจงปกติภายในตระกูลนั้น การแจกแจงที่เสถียรบางอย่างเป็นแบบด้านเดียว (หรือรองรับโดยครึ่งเส้น) ดูตัวอย่างเช่น^การแจกแจง Lévyดูเพิ่มเติมที่แบบจำลองทางการเงินที่มีการแจกแจงแบบหางยาวและการรวมกลุ่มความผันผวน
การแจกแจงแบบที ( t-distribution )

ความสัมพันธ์กับการแจกแจงแบบหางหนา

การแจกแจงแบบหางหนา (fat-tailed distribution)คือการแจกแจงที่ฟังก์ชันความหนาแน่นความน่าจะเป็น สำหรับค่า x ที่มาก จะเข้าใกล้ศูนย์เมื่อยกกำลังเนื่องจากกำลังดังกล่าวมีค่าต่ำสุดจำกัดโดยฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบเอกซ์โปเนนเชียล ดังนั้นการแจกแจงแบบหางหนาจึงมักเป็นการแจกแจงแบบหางหนัก (heavy-tailed distribution) เสมอ อย่างไรก็ตาม การแจกแจงบางแบบมีหางที่เข้าใกล้ศูนย์ช้ากว่าฟังก์ชันเอกซ์โปเนนเชียล (หมายความว่าเป็นการแจกแจงแบบหางหนัก) แต่เร็วกว่าการยกกำลัง (หมายความว่าไม่ใช่การแจกแจงแบบหางหนา) ตัวอย่างเช่น การแจกแจงแบบลอการิทมิก ปกติ (log-normal distribution ) แต่การแจกแจงแบบหางหนักอื่นๆ อีกมากมาย เช่น การแจกแจง แบบลอการิทมิกโลจิสติ ก (log-logistic distribution) และ การแจกแจง แบบพาเรโต (Pareto distribution) ก็เป็นการแจกแจงแบบหางหนาด้วยเช่นกัน $x^{-a}$

การประมาณค่าดัชนีหาง

มีแนวทางแบบพาราเมตริก^{[ 6 ]}และแบบไม่พาราเมตริก^{[ 13 ]}สำหรับปัญหาการประมาณค่าดัชนีหาง

ในการประมาณค่าดัชนีส่วนหางโดยใช้วิธีพาราเมตริก ผู้เขียนบางท่านใช้ การแจกแจง GEVหรือการแจกแจงพาเรโตโดยอาจใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด (MLE)

ตัวประมาณดัชนีหางของ Pickand

ด้วยลำดับสุ่มของฟังก์ชันความหนาแน่นอิสระและเหมือนกันโดเมนการดึงดูดสูงสุด^[¹⁴^] ของความหนาแน่นค่าสุดขั้วทั่วไปโดยที่. ถ้าและ แล้วการประมาณค่าดัชนีหางของ Pickands คือ ^[⁶^]^[¹⁴^] $(X_{n},n\geq 1)$ $F\in D(H(\xi ))$ $H$ $\xi \in \mathbb {R}$ $\lim _{n\to \infty }k(n)=\infty$ $\lim _{n\to \infty }{\frac {k(n)}{n}}=0$

\xi _{(k(n),n)}^{\text{Pickands}}={\frac {1}{\ln 2}}\ln \left({\frac {X_{(n-k(n)+1,n)}-X_{(n-2k(n)+1,n)}}{X_{(n-2k(n)+1,n)}-X_{(n-4k(n)+1,n)}}}\right),

โดยที่. ตัวประมาณค่านี้ ลู่เข้าสู่ค่า . ในเชิงความน่าจะเป็น $X_{(n-k(n)+1,n)}=\max \left(X_{n-k(n)+1},\ldots ,X_{n}\right)$ $\xi$

ตัวประมาณดัชนีหางของฮิลล์

ให้เป็นลำดับของตัวแปรสุ่มอิสระและมีการแจกแจงเหมือนกัน โดยมีฟังก์ชันการแจกแจงโดเมนการดึงดูดสูงสุดของการแจกแจงค่าสุดขีดทั่วไปโดยที่เส้นทางตัวอย่างคือโดยที่คือขนาดตัวอย่าง ถ้า เป็นลำดับลำดับกลาง กล่าวคือและแล้ว ตัวประมาณดัชนีหางของ Hill คือ^[¹⁵^] $(X_{t},t\geq 1)$ $F\in D(H(\xi ))$ $H$ $\xi \in \mathbb {R}$ ${X_{t}:1\leq t\leq n}$ $n$ $\{k(n)\}$ $k(n)\in \{1,\ldots ,n-1\},$ $k(n)\to \infty$ $k(n)/n\to 0$

\xi _{(k(n),n)}^{\text{Hill}}=\left({\frac {1}{k(n)}}\sum _{i=n-k(n)+1}^{n}\ln(X_{(i,n)})-\ln(X_{(n-k(n)+1,n)})\right)^{-1},

โดยที่สถิติลำดับที่-th ของตัวประมาณค่านี้ลู่เข้าสู่ความน่าจะเป็นที่และเป็นแบบปกติเชิงอะซิมโทติกหาก^ถูกจำกัดตามคุณสมบัติการแปรผันปกติลำดับสูงกว่า^[¹⁶^] [ ¹⁷^]ความสอดคล้องและความเป็นปกติเชิงอะซิมโทติกขยายไปถึงลำดับที่ขึ้นอยู่กันและไม่เป็นเนื้อเดียวกันจำนวนมาก^[¹⁸^]^[¹⁹^]โดยไม่คำนึงถึงว่าถูกสังเกตหรือเป็นค่าตกค้างที่คำนวณได้หรือข้อมูลที่กรองจากแบบจำลองและตัวประมาณค่าจำนวนมาก รวมถึงแบบจำลองที่ระบุผิดพลาดและแบบจำลองที่มีข้อผิดพลาดที่ขึ้นอยู่กัน^[²⁰^]^[²¹^]^[²²^]โปรดทราบว่าตัวประมาณค่าดัชนีหางของ Pickand และ Hill มักใช้ลอการิทึมของสถิติลำดับ^[²³^] $X_{(i,n)}$ $i$ $X_{1},\dots ,X_{n}$ $\xi$ $k(n)\to \infty$ $X_{t}$

ตัวประมาณอัตราส่วนของดัชนีหาง

ตัวประมาณอัตราส่วน (RE-estimator) ของดัชนีหางได้รับการแนะนำโดย Goldie และ Smith ^{[ 24 ]} มันถูกสร้างขึ้นในลักษณะเดียวกับตัวประมาณของ Hill แต่ใช้ "พารามิเตอร์การปรับแต่ง" ที่ไม่ใช่แบบสุ่ม

การเปรียบเทียบตัวประมาณค่าแบบ Hill และแบบ RE สามารถพบได้ใน Novak ^{[ 13 ]}

ซอฟต์แวร์

aest เก็บถาวรเมื่อ 2020-11-25 ที่Wayback Machineเครื่องมือCสำหรับประมาณดัชนีหางหนัก^{[ 25 ]}

การประมาณความหนาแน่นแบบหางหนัก

แนวทางที่ไม่ใช้พารามิเตอร์ในการประมาณฟังก์ชันความหนาแน่นความน่าจะเป็นแบบหางหนักและหางหนักมากได้รับการนำเสนอใน Markovich ^{[ 26 ]}แนวทางเหล่านี้ขึ้นอยู่กับแบนด์วิดท์ตัวแปรและตัวประมาณเคอร์เนลแบบหางยาว การแปลงข้อมูลเบื้องต้นเป็นตัวแปรสุ่มใหม่ในช่วงเวลาจำกัดหรืออนันต์ ซึ่งสะดวกกว่าสำหรับการประมาณ จากนั้นจึงแปลงกลับค่าประมาณความหนาแน่นที่ได้รับ และ "แนวทางการประกอบเข้าด้วยกัน" ซึ่งให้แบบจำลองพารามิเตอร์บางอย่างสำหรับหางของความหนาแน่นและแบบจำลองที่ไม่ใช้พารามิเตอร์เพื่อประมาณโหมดของความหนาแน่น ตัวประมาณที่ไม่ใช้พารามิเตอร์ต้องการการเลือกพารามิเตอร์การปรับแต่ง (การทำให้เรียบ) ที่เหมาะสม เช่น แบนด์วิดท์ของตัวประมาณเคอร์เนลและความกว้างของช่องในฮิสโตแกรม วิธีการที่ขับเคลื่อนด้วยข้อมูลที่รู้จักกันดีสำหรับการเลือกดังกล่าว ได้แก่ การตรวจสอบแบบไขว้และการดัดแปลง วิธีการที่อิงตามการลดค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) และขอบเขตเชิงเส้นกำกับและขอบเขตบน^{[ 27 ]}วิธีความคลาดเคลื่อนซึ่งใช้สถิติแบบไม่พาราเมตริกที่เป็น ที่รู้จักกันดี เช่น สถิติของ Kolmogorov-Smirnov, von Mises และ Anderson-Darling เป็นเมตริกในพื้นที่ของฟังก์ชันการกระจาย (dfs) และควอนไทล์ของสถิติเหล่านี้ถือเป็นความไม่แน่นอนที่ทราบหรือค่าความคลาดเคลื่อน สามารถพบได้ใน^{[ 26 ]} Bootstrap เป็นอีกเครื่องมือหนึ่งในการหาพารามิเตอร์การปรับเรียบโดยใช้การประมาณค่า MSE ที่ไม่ทราบค่าด้วยแผนการเลือกตัวอย่างซ้ำที่แตกต่างกัน ดูเช่น^{[ 28 ]}

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[ 6 ]

[ 7 ]

[ 8 ]

[

[ 10 ]

[ 11 ]

12

[ 13 ]

[

[

ถูก

[

[

[

[

[

[

[

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]