สถิติลำดับ

ในทางสถิติสถิติลำดับที่k ของตัวอย่างทางสถิติจะเท่ากับค่าที่เล็กที่สุดลำดับที่k ของมัน ^[¹^] เมื่อกำหนดตัวอย่างที่มีขนาดสถิติลำดับที่ k จะถูกแทนด้วยโดยที่สถิติลำดับร่วมกับ สถิติ อันดับ ถือเป็นเครื่องมือพื้นฐานที่สุดอย่างหนึ่งใน สถิติ และการอนุมาน แบบไม่ใช้พารามิเตอร์ $n$ $x_{(k)}$ $1\leq k\leq n$

กรณีพิเศษที่สำคัญของสถิติเรียงลำดับ ได้แก่ ค่าต่ำสุดและ ค่า สูงสุดของตัวอย่าง และ (โดยมีข้อจำกัดบางประการที่กล่าวถึงด้านล่าง) ค่ามัธยฐาน ของตัวอย่างและควอนไทล์อื่นๆของ ตัวอย่าง

เมื่อใช้ทฤษฎีความน่าจะเป็นในการวิเคราะห์สถิติเรียงลำดับของตัวอย่างสุ่มจากตัวแปรต่อเนื่องฟังก์ชันการกระจายสะสมจะถูกนำมาใช้เพื่อลดการวิเคราะห์ให้เหลือเพียงกรณีของสถิติเรียงลำดับของตัวแปรสุ่มแบบเอกรูป

สัญลักษณ์และตัวอย่าง

ตัวอย่างเช่น สมมติว่ามีการสังเกตหรือบันทึกตัวเลขสี่ตัว ทำให้ได้ตัวอย่างขนาด 4 ถ้าค่าของตัวอย่างคือ

6, 9, 3, 7

สถิติการสั่งซื้อจะเป็นดังนี้

${\begin{aligned}x_{(1)}&=3\\x_{(2)}&=6\\x_{(3)}&=7\\x_{(4)}&=9\end{aligned}}$

สถิติอันดับแรก (หรือสถิติอันดับที่เล็กที่สุด ) จะมีค่าต่ำสุดของตัวอย่างเสมอ นั่นคือ

$X_{(1)}=\min\{\,X_{1},\ldots ,X_{n}\,\}$

โดยตามธรรมเนียมปฏิบัติทั่วไป เราจะใช้ตัวอักษรพิมพ์ใหญ่เพื่ออ้างถึงตัวแปรสุ่ม และตัวอักษรพิมพ์เล็ก (ดังตัวอย่างข้างต้น) เพื่ออ้างถึงค่าที่สังเกตได้จริง

ในทำนองเดียวกัน สำหรับตัวอย่างขนาด $n$ ค่าสถิติอันดับ ที่ $n$ (หรือค่าสถิติอันดับที่ใหญ่ที่สุด ) คือค่าสูงสุดนั่นคือ

$X_{(n)}=\max\{\,X_{1},\ldots ,X_{n}\,\}.$

ช่วงค่าตัวอย่างคือผลต่างระหว่างค่าสูงสุดและค่าต่ำสุด ซึ่งเป็นฟังก์ชันของสถิติเรียงลำดับ:

${\rm {ช่วง}}\{\,X_{1},\ldots ,X_{n}\,\}=X_{(n)}-X_{(1)}.$

สถิติสำคัญอีกอย่างหนึ่งในการวิเคราะห์ข้อมูลเชิงสำรวจซึ่งมีความเกี่ยวข้องกับสถิติเรียงลำดับโดยตรง คือช่วงควาร์ไทล์ของ ตัวอย่าง

ค่ามัธยฐานของตัวอย่างอาจเป็นหรือไม่เป็นสถิติเรียงลำดับก็ได้ เนื่องจากจะมีค่ากลางเพียงค่าเดียวก็ต่อเมื่อจำนวน การสังเกต $n$ เป็นเลขคี่เท่านั้น กล่าวคือ ถ้า $n = 2m + 1$ สำหรับจำนวนเต็ม $m$ บางตัว ค่ามัธยฐานของตัวอย่างจะเป็นและดังนั้นจึงเป็นสถิติเรียงลำดับ ในทางกลับกัน เมื่อ $n$ เป็นเลขคู่ $n$ $= 2m$ $และ$ มีค่ากลางสองค่า คือและและค่ามัธยฐานของตัวอย่างจะเป็นฟังก์ชันของค่าทั้งสอง (โดยปกติคือค่าเฉลี่ย) ดังนั้นจึงไม่ใช่สถิติเรียงลำดับ ข้อสังเกตที่คล้ายกันนี้ใช้ได้กับควอนไทล์ของตัวอย่างทั้งหมดด้วย $X_{(m+1)}$ $X_{(m)}$ $X_{(m+1)}$

การวิเคราะห์เชิงความน่าจะเป็น

เมื่อกำหนดตัวแปรสุ่มใดๆตัวแปรสุ่มเหล่านั้นจะถูกกำหนดโดยการเรียงลำดับจากน้อยไปมาก $X_{1},X_{2},\ldots ,X_{n}$ $X_{(1)},X_{(2)},\ldots ,X_{(n)}$ $X_{1},X_{2},\ldots ,X_{n}$

กรณีที่ตัวแปรสุ่มเป็นอิสระต่อกันและมีการแจกแจงเหมือนกันจะกล่าวถึงต่อไปนี้ โดยทั่วไปแล้ว ตัวแปรสุ่มสามารถเกิดขึ้นได้จากการสุ่มตัวอย่างจากประชากรมากกว่าหนึ่งกลุ่ม จากนั้นเราจะพิจารณากรณีที่ตัวแปรสุ่มเป็นอิสระต่อกันแต่ไม่จำเป็นต้องมีการแจกแจงเหมือนกัน และการแจกแจงความน่าจะเป็นร่วม ของตัวแปรสุ่มนั้น กำหนดโดย ทฤษฎีบท ของ Bapat–Beg $X_{1},X_{2},\ldots ,X_{n}$ $X_{1},X_{2},\ldots ,X_{n}$

ต่อจากนี้ไป เราจะถือว่าตัวแปรสุ่มที่พิจารณานั้นเป็นตัวแปรต่อเนื่องและในกรณีที่สะดวก เราจะถือว่าตัวแปรเหล่านั้นมีฟังก์ชันความหนาแน่นความน่าจะเป็น (PDF) ด้วย กล่าวคือ เป็นตัวแปรต่อเนื่องโดยสมบูรณ์ส่วนลักษณะเฉพาะของการวิเคราะห์การแจกแจงที่กำหนดมวลให้กับจุดต่างๆ (โดยเฉพาะอย่างยิ่งการแจกแจงแบบไม่ต่อเนื่อง ) จะกล่าวถึงในตอนท้าย

ฟังก์ชันการกระจายสะสมของสถิติลำดับ

สำหรับตัวอย่างสุ่มดังข้างต้นที่มีการแจกแจงสะสมสถิติลำดับสำหรับตัวอย่างนั้นมีการแจกแจงสะสมดังต่อไปนี้^[²^] (โดยที่rระบุสถิติลำดับใด): การพิสูจน์สูตรนี้เป็นเรื่องของการจัดกลุ่ม ล้วนๆ : สำหรับสถิติลำดับที่ th ที่จะเป็นจำนวนตัวอย่างที่เป็นจะต้องอยู่ระหว่างและในกรณีที่เป็นสถิติลำดับที่ใหญ่ที่สุดจะต้องมีตัวอย่าง(แต่ละตัวมีโอกาสเกิดขึ้นอย่างอิสระ) และตัวอย่าง(แต่ละตัวมีโอกาสเกิดขึ้นอย่างอิสระ) สุดท้าย มีหลายวิธีในการเลือกตัวอย่างใดที่เป็นชนิด $F_{X}(x)$ $F_{X_{(r)}}(x)=\sum _{j=r}^{n}{\binom {n}{j}}\left[F_{X}(x)\right]^{j}\left[1-F_{X}(x)\right]^{n-j}$ $r$ $\leq x$ $>x$ $0$ $n-r$ $X_{(j)}$ $\leq x$ $j$ $\leq x$ $F_{X}(x)$ $n-j$ $>x$ $1-F_{X}(x)$ ${\textstyle {\binom {n}{j}}}$ $n$ $\leq x$

ฟังก์ชันความหนาแน่นความน่าจะเป็นที่สอดคล้องกันสามารถหาได้จากผลลัพธ์นี้ และพบว่าเป็นดังนี้

$f_{X_{(r)}}(x)={\frac {n!}{(r-1)!(n-r)!}}f_{X}(x)\left[F_{X}(x)\right]^{r-1}\left[1-F_{X}(x)\right]^{n-r}.$

นอกจากนี้ ยังมีกรณีพิเศษอีกสองกรณี ซึ่งมีฟังก์ชันการกระจายสะสม (CDF) ที่คำนวณได้ง่าย

$F_{X_{(n)}}(x)=\Pr(\max\{\,X_{1},\ldots ,X_{n}\,\}\leq x)=[F_{X}(x)]^{n}$

$F_{X_{(1)}}(x)=\Pr(\min\{\,X_{1},\ldots ,X_{n}\,\}\leq x)=1-[1-F_{X}(x)]^{n}$

ซึ่งสามารถหาได้จากการพิจารณาความน่าจะเป็นอย่างรอบคอบ

การแจกแจงความน่าจะเป็นของสถิติลำดับ

สถิติลำดับที่สุ่มมาจากการแจกแจงแบบเอกรูป

ในส่วนนี้ เราจะแสดงให้เห็นว่าค่าสถิติเรียงลำดับของการแจกแจงเอกรูปบนช่วงหนึ่งหน่วยมีการแจกแจงแบบมาร์จินัลที่อยู่ใน ตระกูล การแจกแจงเบตานอกจากนี้ เรายังนำเสนอวิธีการง่ายๆ ในการหาการแจกแจงร่วมของค่าสถิติเรียงลำดับจำนวนใดๆ และสุดท้าย แปลผลลัพธ์เหล่านี้ไปสู่การแจกแจงต่อเนื่องใดๆ โดยใช้ฟังก์ชันการกระจายสะสม(cdf )

ตลอดทั้งส่วนนี้ เราจะถือว่าเป็นตัวอย่างสุ่ม ที่ได้ มาจากการแจกแจงแบบต่อเนื่องที่มีฟังก์ชันการกระจายสะสม (cdf ) โดยกำหนดให้เราจะได้ตัวอย่างสุ่มที่สอดคล้องกันจากการแจกแจงเอกรูป มาตรฐาน โปรดทราบว่าสถิติเรียงลำดับยังเป็นไปตามเงื่อนไขด้วย $X_{1},X_{2},\ldots ,X_{n}$ $F_{X}$ $U_{i}=F_{X}(X_{i})$ $U_{1},\ldots ,U_{n}$ $U_{(i)}=F_{X}(X_{(i)})$

ฟังก์ชันความหนาแน่นความน่าจะเป็นของสถิติลำดับเท่ากับ^[³^] $U_{(k)}$

$f_{U_{(k)}}(u)={n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}$

นั่นคือ สถิติลำดับที่ kของการแจกแจงแบบเอกรูปเป็นตัวแปรสุ่มที่มีการแจกแจงแบบเบต้า^{[ 3 ]}^{[ 4 ]}

$U_{(k)}\sim \operatorname {Beta} (k,n+1\mathbf {-} k).$

การพิสูจน์ข้อความเหล่านี้มีดังนี้ เพื่อให้ค่าอยู่ระหว่างuและu + duจำเป็นต้องมี องค์ประกอบในตัวอย่าง อย่างน้อย k − 1 ตัวที่เล็กกว่า uและอย่างน้อยหนึ่งตัวอยู่ระหว่างuและu + du ความน่าจะเป็นที่มากกว่าหนึ่งตัวอยู่ในช่วงหลังนี้คือดังนั้นเราต้องคำนวณความน่าจะเป็นที่ค่าสังเกตอย่างน้อยk − 1, 1 และn − kค่าจะตกอยู่ในช่วง, และตามลำดับ ซึ่งเท่ากับ (ดู รายละเอียดเพิ่มเติมในเรื่อง การแจกแจงแบบพหุนาม ) $U_{(k)}$ $O(du^{2})$ $(0,u)$ $(u,u+du)$ $(u+du,1)$

${n! \over (k-1)!(n-k)!}u^{k-1}\cdot du\cdot (1-u-du)^{n-k}$

และผลลัพธ์ก็เป็นเช่นนี้

ค่าเฉลี่ยของการแจกแจงนี้คือk / ( n + 1)

การแจกแจงร่วมของสถิติลำดับของการแจกแจงแบบเอกรูป

ในทำนองเดียวกัน สำหรับi < jฟังก์ชันความหนาแน่นความน่าจะเป็นร่วมของสถิติลำดับสองค่าU _{( i )} < U _{( j )}สามารถแสดงได้ดังนี้

$f_{U_{(i)},U_{(j)}}(u,v)=n!{u^{i-1} \over (i-1)!}{(v-u)^{j-i-1} \over (j-i-1)!}{(1-v)^{n-j} \over (n-j)!}$

ซึ่งก็คือ (โดยพิจารณาถึงเงื่อนไขที่มีลำดับสูงกว่า) ความน่าจะเป็นที่ องค์ประกอบตัวอย่าง i − 1, 1, j − 1 − i , 1 และn − jจะตกอยู่ในช่วง, , , , ตามลำดับ $O(du\,dv)$ $(0,u)$ $(u,u+du)$ $(u+du,v)$ $(v,v+dv)$ $(v+dv,1)$

เราใช้เหตุผลในลักษณะที่คล้ายคลึงกันอย่างสิ้นเชิงเพื่อหาการแจกแจงร่วมลำดับสูงกว่า อาจเป็นเรื่องน่าประหลาดใจที่ความหนาแน่นร่วมของสถิติลำดับที่nกลับมีค่าคงที่ :

$f_{U_{(1)},U_{(2)},\ldots ,U_{(n)}}(u_{1},u_{2},\ldots ,u_{n})=n!.$

วิธีหนึ่งที่จะเข้าใจเรื่องนี้คือ ตัวอย่างที่ไม่ได้เรียงลำดับนั้นมีความหนาแน่นคงที่เท่ากับ 1 และมี ลำดับการเรียงสับเปลี่ยนที่แตกต่างกัน n ! แบบของตัวอย่างที่สอดคล้องกับลำดับสถิติการเรียงลำดับเดียวกัน สิ่งนี้เกี่ยวข้องกับข้อเท็จจริงที่ว่า 1/ n ! คือปริมาตรของบริเวณนอกจากนี้ยังเกี่ยวข้องกับลักษณะเฉพาะอีกประการหนึ่งของสถิติการเรียงลำดับของตัวแปรสุ่มเอกรูป: จากความไม่เท่าเทียมกันของ BRSจะได้ว่าจำนวนสูงสุดที่คาดหวังของตัวแปรสุ่มเอกรูป U(0,1] ที่สามารถเลือกได้จากตัวอย่างขนาด n ที่มีผลรวมไม่เกิน นั้นมีขอบเขตบนโดยซึ่งจึงไม่เปลี่ยนแปลงบนเซตของทั้งหมดที่มีผลคูณคงที่ $0<u_{1}<\cdots <u_{n}<1$ $0<s<n/2$ ${\sqrt {2sn}}$ $s,n$ $sn$

โดยใช้สูตรข้างต้น เราสามารถหาการแจกแจงของช่วงของสถิติเรียงลำดับได้ นั่นคือ การแจกแจงของค่าสูงสุดลบด้วยค่าต่ำสุด โดยทั่วไปแล้ว สำหรับก็มีการแจกแจงแบบเบต้าเช่นกัน: จากสูตรเหล่านี้ เราสามารถหาค่าความแปรปรวนร่วมระหว่างสถิติเรียงลำดับสองตัวได้: สูตรนี้ได้มาจากการสังเกตว่าและเปรียบเทียบว่า กับโดยที่คือการแจกแจงที่แท้จริงของผลต่าง $U_{(n)}-U_{(1)}$ $n\geq k>j\geq 1$ $U_{(k)}-U_{(j)}$ $U_{(k)}-U_{(j)}\sim \operatorname {Beta} (k-j,n-(k-j)+1)$ $\operatorname {Cov} (U_{(k)},U_{(j)})={\frac {j(n-k+1)}{(n+1)^{2}(n+2)}}$ ${\begin{aligned}\operatorname {Var} (U_{(k)}-U_{(j)})&=\operatorname {Var} (U_{(k)})+\operatorname {Var} (U_{(j)})-2\cdot \operatorname {Cov} (U_{(k)},U_{(j)})\\[1ex]&={\frac {k(n-k+1)}{(n+1)^{2}(n+2)}}+{\frac {j(n-j+1)}{(n+1)^{2}(n+2)}}-2\cdot \operatorname {Cov} (U_{(k)},U_{(j)})\end{aligned}}$ $\operatorname {Var} (U)={\frac {(k-j)(n-(k-j)+1)}{(n+1)^{2}(n+2)}}$ $U\sim \operatorname {Beta} (k-j,n-(k-j)+1)$

สถิติลำดับที่สุ่มมาจากการแจกแจงแบบเอกซ์โปเนนเชียล

สำหรับตัวอย่างสุ่มขนาดnจากการแจกแจงเอกซ์โพเนนเชียลที่มีพารามิเตอร์λสถิติเรียงลำดับX ₍_i₎สำหรับi = 1, 2, 3, ..., nแต่ละตัวมีการแจกแจงดังนี้ $X_{1},X_{2},..,X_{n}$

$X_{(i)}{\stackrel {d}{=}}{\frac {1}{\lambda }}\left(\sum _{j=1}^{i}{\frac {Z_{j}}{n-j+1}}\right)$

โดยที่Z _jเป็นตัวแปรสุ่มเอกซ์โพเนนเชียลมาตรฐานแบบ iid (กล่าวคือมีพารามิเตอร์อัตรา 1) ผลลัพธ์นี้ได้รับการตีพิมพ์ครั้งแรกโดยAlfréd Rényi ^{[ 5 ]}^{[ 6 ]}

สถิติลำดับที่สุ่มมาจากการแจกแจงแบบเออร์ลัง

การแปลงลาปลาสของสถิติลำดับอาจสุ่มตัวอย่างจากการกระจาย Erlangผ่านวิธีการนับเส้นทาง^{[ 7 ]}

การแจกแจงร่วมของสถิติลำดับของการแจกแจงแบบต่อเนื่องโดยสมบูรณ์

ถ้าF _Xเป็นฟังก์ชันต่อเนื่องสัมบูรณ์จะมีความหนาแน่นที่และเราสามารถใช้การแทนที่ได้ $dF_{X}(x)=f_{X}(x)\,dx$

$u=F_{X}(x)$

และ

$du=f_{X}(x)\,dx$

เพื่อหาฟังก์ชันความหนาแน่นความน่าจะเป็นต่อไปนี้สำหรับสถิติเรียงลำดับของตัวอย่างขนาดnที่สุ่มมาจากการแจกแจงของX :

$f_{X_{(k)}}(x)={\frac {n!}{(k-1)!(n-k)!}}[F_{X}(x)]^{k-1}[1-F_{X}(x)]^{n-k}f_{X}(x)$

$f_{X_{(j)},X_{(k)}}(x,y)={\frac {n!}{(j-1)!(k-j-1)!(n-k)!}}[F_{X}(x)]^{j-1}[F_{X}(y)-F_{X}(x)]^{k-1-j}[1-F_{X}(y)]^{n-k}f_{X}(x)f_{X}(y)$ ที่ไหน $x\leq y$

$f_{X_{(1)},\ldots ,X_{(n)}}(x_{1},\ldots ,x_{n})=n!f_{X}(x_{1})\cdots f_{X}(x_{n})$ ที่ไหน $x_{1}\leq x_{2}\leq \dots \leq x_{n}.$

การประยุกต์ใช้: ช่วงความเชื่อมั่นสำหรับควอนไทล์

คำถามที่น่าสนใจคือ สถิติเรียงลำดับนั้นมีประสิทธิภาพเพียงใดในการประมาณค่าควอนไทล์ของการกระจายตัวพื้นฐาน

ตัวอย่างที่มีขนาดตัวอย่างเล็ก

กรณีที่ง่ายที่สุดที่จะพิจารณาคือ มัธยฐานของกลุ่มตัวอย่างสามารถประมาณค่ามัธยฐานของประชากรได้ดีเพียงใด

ยกตัวอย่างเช่น พิจารณาตัวอย่างสุ่มขนาด 6 ในกรณีนี้ ค่ามัธยฐานของตัวอย่างมักถูกกำหนดให้เป็นจุดกึ่งกลางของช่วงที่กำหนดโดยสถิติอันดับที่ 3 และ 4 อย่างไรก็ตาม เรารู้จากการอธิบายก่อนหน้านี้ว่า ความน่าจะเป็นที่ช่วงดังกล่าวจะครอบคลุมค่ามัธยฐานของประชากรนั้นคือ

${6 \choose 3}(1/2)^{6}={5 \over 16}\approx 31\%.$

แม้ว่าค่ามัธยฐานของตัวอย่างอาจเป็นค่าประมาณจุด ที่ไม่ขึ้นกับการกระจายตัวที่ดีที่สุด ค่าหนึ่งของค่ามัธยฐานของประชากร แต่ตัวอย่างนี้แสดงให้เห็นว่ามันไม่ใช่ค่าประมาณที่ดีนักในเชิงสัมบูรณ์ ในกรณีนี้ ช่วงความเชื่อมั่นที่ดีกว่าสำหรับค่ามัธยฐานคือช่วงที่กำหนดโดยสถิติอันดับที่ 2 และ 5 ซึ่งมีค่ามัธยฐานของประชากรอยู่ภายในด้วยความน่าจะเป็น

$\left[{6 \choose 2}+{6 \choose 3}+{6 \choose 4}\right](1/2)^{6}={25 \over 32}\approx 78\%.$

ด้วยขนาดตัวอย่างที่เล็กเช่นนี้ หากต้องการความมั่นใจอย่างน้อย 95% จะต้องกล่าวว่าค่ามัธยฐานอยู่ระหว่างค่าต่ำสุดและค่าสูงสุดของข้อมูลทั้ง 6 ค่า ด้วยความน่าจะเป็น 31/32 หรือประมาณ 97% ที่จริงแล้ว ขนาดตัวอย่าง 6 คือขนาดตัวอย่างที่เล็กที่สุดที่ทำให้ช่วงความเชื่อมั่นที่กำหนดโดยค่าต่ำสุดและค่าสูงสุดมีความมั่นใจอย่างน้อย 95% สำหรับค่ามัธยฐานของประชากร

ขนาดตัวอย่างขนาดใหญ่

สำหรับการแจกแจงแบบเอกรูป เมื่อnมีค่าเข้าสู่∞ ค่าควอนไทล์ตัวอย่างที่ p จะมีการแจกแจงแบบปกติเชิงอะซิมโทติก^{เนื่องจาก}สามารถประมาณได้ด้วย

$U_{(\lceil np\rceil )}\sim AN{\left(p,{\frac {p(1-p)}{n}}\right)}.$

สำหรับการกระจายทั่วไปFที่มีความหนาแน่นต่อเนื่องที่ไม่เป็นศูนย์ที่F ⁻¹ ( p ) ความเป็นปกติเชิงอะซิมโทติกที่คล้ายกันก็ใช้ได้เช่นกัน:

$X_{(\lceil np\rceil )}\sim AN{\left(F^{-1}(p),{\frac {p(1-p)}{n[f(F^{-1}(p))]^{2}}}\right)}$

โดยที่fคือฟังก์ชันความหนาแน่นและF ⁻¹คือฟังก์ชันควอนไทล์ที่เกี่ยวข้องกับFหนึ่งในบุคคลแรกที่กล่าวถึงและพิสูจน์ผลลัพธ์นี้คือFrederick Mostellerในบทความสำคัญของเขาในปี 1946 ^{[ 8 ]}การวิจัยเพิ่มเติมนำไปสู่ การแสดงแทนของ Bahadur ในช่วงทศวรรษ 1960 ซึ่งให้ข้อมูลเกี่ยวกับขอบเขตข้อผิดพลาด การลู่เข้าสู่การกระจายแบบปกติยังคงใช้ได้ในความหมายที่แข็งแกร่งกว่า เช่น การลู่เข้าในเอนโทรปีสัมพัทธ์หรือความแตกต่าง KL ^{[ 9 ]}

ข้อสังเกตที่น่าสนใจอย่างหนึ่งคือ ในกรณีที่การกระจายตัวสมมาตร และค่ามัธยฐานของประชากรเท่ากับค่าเฉลี่ยของประชากร ในกรณีนี้ค่าเฉลี่ยของตัวอย่างตามทฤษฎีบทลิมิตกลางจะมีการกระจายแบบปกติเชิงอะซิปโทติกเช่นกัน แต่มีค่าความแปรปรวน เท่ากับ ^σ²/nแทน การวิเคราะห์เชิงอะซิปโทติกนี้ชี้ให้เห็นว่า ค่าเฉลี่ยให้ผลลัพธ์ที่ดีกว่าค่ามัธยฐานในกรณีที่ค่าความโค้ง ต่ำ และในทางกลับกัน ตัวอย่างเช่น ค่ามัธยฐานให้ช่วงความเชื่อมั่นที่ดีกว่าสำหรับการกระจายแบบลาปลาซในขณะที่ค่าเฉลี่ยให้ผลลัพธ์ที่ดีกว่าสำหรับXที่มีการกระจายแบบปกติ

การพิสูจน์

สามารถแสดงให้เห็นได้ว่า

$B(k,n+1-k)\ {\stackrel {\mathrm {d} }{=}}\ {\frac {X}{X+Y}},$

ที่ไหน

$X=\sum _{i=1}^{k}Z_{i},\quad Y=\sum _{i=k+1}^{n+1}Z_{i},$

โดยที่Z _iเป็น ตัวแปรสุ่มเอกซ์ โพเนนเชียลอิสระ ที่มีการแจกแจงเหมือนกันทุกประการ ด้วยอัตรา 1 เนื่องจากX / nและY / nมีการแจกแจงแบบปกติเชิงอะซิมโทติกตามทฤษฎีบทขีดจำกัดส่วนกลาง ผลลัพธ์ของเราจึงได้มาจากการใช้วิธีเดลต้า

ข้อมูลร่วมกันของสถิติการสั่งซื้อ

ข้อมูลร่วมกันและความแตกต่าง fระหว่างสถิติลำดับก็ได้รับการพิจารณาเช่นกัน^{[ 10 ]}ตัวอย่างเช่น หากการแจกแจงหลักเป็นแบบต่อเนื่อง สำหรับทุก ๆ กล่าวอีกนัยหนึ่ง ข้อมูลร่วมกันเป็นอิสระจากการแจกแจงหลัก สำหรับตัวแปรสุ่มแบบไม่ต่อเนื่อง ความเท่าเทียมกันไม่จำเป็นต้องเป็นจริง และเรามีเพียงแค่ $1\leq r,m\leq n$ $I(X_{(r)};X_{(m)})=I(U_{(r)};U_{(m)}),$ $I(X_{(r)};X_{(m)})\leq I(U_{(r)};U_{(m)}),$

ข้อมูลร่วมกันระหว่างสถิติเรียงลำดับสม่ำเสมอจะกำหนดโดย โดย ที่ คือเลขฮาร์มอนิก ที่ $I(U_{(r)};U_{(m)})=T_{m-1}+T_{n-r}-T_{m-r+1}-T_{n}$ $T_{k}=\log(k!)-kH_{k}$ $H_{k}$ $k$

การประยุกต์ใช้: การประมาณความหนาแน่นแบบไม่ใช้พารามิเตอร์

โมเมนต์ของการกระจายสำหรับสถิติอันดับแรกสามารถใช้ในการพัฒนาตัวประมาณความหนาแน่นแบบไม่ใช้พารามิเตอร์ได้^{[ 11 ]}สมมติว่าเราต้องการประมาณความหนาแน่นที่จุดพิจารณาตัวแปรสุ่มซึ่งเป็น iid ที่มีฟังก์ชันการกระจายโดยเฉพาะอย่างยิ่ง $f_{X}$ $x^{*}$ $Y_{i}=|X_{i}-x^{*}|$ $g_{Y}(y)=f_{X}(y+x^{*})+f_{X}(x^{*}-y)$ $f_{X}(x^{*})={\frac {g_{Y}(0)}{2}}$

ค่าที่คาดหวังของสถิติอันดับแรกเมื่อกำหนดตัวอย่างที่มีจำนวนการสังเกตทั้งหมด จะได้ดังนี้ $Y_{(1)}$ $N$

$E(Y_{(1)})={\frac {1}{(N+1)g(0)}}+{\frac {1}{(N+1)(N+2)}}\int _{0}^{1}Q''(z)\delta _{N+1}(z)\,dz$

โดยที่คือฟังก์ชันควอนไทล์ที่เกี่ยวข้องกับการแจกแจงและสมการนี้เมื่อรวมกับ เทคนิค แจ็กไนฟ์จะกลายเป็นพื้นฐานสำหรับอัลกอริธึมการประมาณความหนาแน่นต่อไปนี้ $Q$ $g_{Y}$ $\delta _{N}(z)=(N+1)(1-z)^{N}$

 อินพุต: ตัวอย่างข้อมูลการสังเกตจุดประเมินความหนาแน่น พารามิเตอร์ปรับแต่ง(โดยปกติคือ 1/3) $N$  $\{x_{\ell }\}_{\ell =1}^{M}$  $a\in (0,1)$  ผลลัพธ์: ความหนาแน่นโดยประมาณ ณ จุดประเมิน  $\{{\hat {f}}_{\ell }\}_{\ell =1}^{M}$

 1: ชุดที่ 2: ชุดที่ 3: สร้างเมทริก ซ์ ที่เก็บเซตย่อยที่มีข้อมูลสังเกตการณ์ในแต่ละเซต $m_{N}=\operatorname {round} (N^{1-a})$  $s_{N}={\frac {N}{m_{N}}}$  $s_{N}\times m_{N}$  $M_{ij}$  $m_{N}$  $s_{N}$  4. สร้างเวกเตอร์เพื่อเก็บค่าการประเมินความหนาแน่น ${\hat {f}}$  5: สำหรับdo 6: สำหรับdo 7: ค้นหาระยะทางที่ใกล้ที่สุดไปยังจุดปัจจุบันภายในเซตย่อยที่ th $\ell =1\to M$  $k=1\to m_{N}$  $d_{\ell k}$  $x_{\ell }$  $k$  8: สิ้นสุดสำหรับ 9: คำนวณค่าเฉลี่ยของระยะทางย่อยไปยัง 10: คำนวณค่าประมาณความหนาแน่นที่ 11: สิ้นสุดสำหรับ 12: ส่งคืน $x_{\ell }:d_{\ell }=\sum _{k=1}^{m_{N}}{\frac {d_{\ell k}}{m_{N}}}$  $x_{\ell }:{\hat {f}}_{\ell }={\frac {1}{2(1+s_{N})d_{\ell }}}$  ${\hat {f}}$

ตรงกันข้ามกับพารามิเตอร์การปรับแต่งตามแบนด์วิดท์/ความยาวสำหรับวิธี การแบบ ฮิสโตแกรมและเคอร์เนล พารามิเตอร์การปรับแต่งสำหรับตัวประมาณความหนาแน่นตามสถิติลำดับคือขนาดของชุดย่อยตัวอย่าง ตัวประมาณดังกล่าวมีความแข็งแกร่งกว่าวิธีการแบบฮิสโตแกรมและเคอร์เนล ตัวอย่างเช่น ความหนาแน่นเช่นการแจกแจงโคชี (ซึ่งไม่มีโมเมนต์จำกัด) สามารถอนุมานได้โดยไม่ต้องมีการปรับเปลี่ยนเฉพาะ เช่นแบนด์วิดท์ตาม IQRทั้งนี้เนื่องจากโมเมนต์แรกของสถิติลำดับจะมีอยู่เสมอหากค่าที่คาดหวังของการแจกแจงพื้นฐานมีอยู่ แต่ในทางกลับกันนั้นไม่จำเป็นต้องเป็นจริงเสมอไป^[¹²^]

การจัดการกับตัวแปรแบบไม่ต่อเนื่อง

สมมติว่าเป็นตัวแปรสุ่มอิสระและมีแจกแจงเหมือนกัน (iid) จากการแจกแจงแบบไม่ต่อเนื่อง (discrete distribution) ที่มีฟังก์ชันการแจกแจงสะสม (cumulative distribution function) และฟังก์ชันความน่าจะเป็นมวล (probability mass function ) ในการหาความน่าจะเป็นของสถิติเรียงลำดับ (order statistics) จำเป็นต้องมีค่าสามค่าก่อน ได้แก่ $X_{1},X_{2},\ldots ,X_{n}$ $F(x)$ $f(x)$ $k^{\text{th}}$ ${\begin{aligned}p_{1}&=\Pr(X<x)=F(x)-f(x),\\p_{2}&=\Pr(X=x)=f(x),{\text{ and }}\\p_{3}&=\Pr(X>x)=1-F(x).\end{aligned}}$

ฟังก์ชันการกระจายสะสมของสถิติลำดับสามารถคำนวณได้โดยสังเกตว่า $k^{\text{th}}$

${\begin{aligned}\Pr(X_{(k)}\leq x)&=\Pr({\text{there are at least }}k{\text{ observations less than or equal to }}x),\\&=\Pr({\text{there are at most }}n-k{\text{ observations greater than }}x),\\&=\sum _{j=0}^{n-k}{\binom {n}{j}}p_{3}^{j}(p_{1}+p_{2})^{n-j}.\end{aligned}}$

ในทำนองเดียวกันจะได้รับจาก $P(X_{(k)}<x)$

${\begin{aligned}\Pr(X_{(k)}<x)&=\Pr({\text{there are at least }}k{\text{ observations less than }}x),\\&=\Pr({\text{there are at most }}n-k{\text{ observations greater than or equal to }}x),\\&=\sum _{j=0}^{n-k}{n \choose j}(p_{2}+p_{3})^{j}(p_{1})^{n-j}.\end{aligned}}$

โปรดทราบว่าฟังก์ชันความน่าจะเป็นมวลของคือผลต่างของค่าเหล่านี้ กล่าวคือ $X_{(k)}$

${\begin{aligned}\Pr(X_{(k)}=x)&=\Pr(X_{(k)}\leq x)-\Pr(X_{(k)}<x),\\&=\sum _{j=0}^{n-k}{\binom {n}{j}}\left[p_{3}^{j}(p_{1}+p_{2})^{n-j}-(p_{2}+p_{3})^{j}(p_{1})^{n-j}\right],\\&=\sum _{j=0}^{n-k}{\binom {n}{j}}\left[\left(1-F(x)\right)^{j}F(x)^{n-j}-\left(1-F(x)+f(x)\right)^{j}\left(F(x)-f(x)\right)^{n-j}\right].\end{aligned}}$

การคำนวณสถิติลำดับ

ปัญหาการคำนวณหา องค์ประกอบที่เล็กที่สุด (หรือใหญ่ที่สุด) อันดับที่ kของรายการเรียกว่าปัญหาการเลือก และสามารถแก้ไขได้ด้วยอัลกอริธึมการเลือก แม้ว่าปัญหานี้จะยากสำหรับรายการขนาดใหญ่มาก แต่ก็มีการสร้างอัลกอริธึมการเลือกที่ซับซ้อนขึ้นมาซึ่งสามารถแก้ปัญหานี้ได้ในเวลาที่แปรผันตามจำนวนองค์ประกอบในรายการ แม้ว่ารายการนั้นจะไม่มีลำดับเลยก็ตาม หากข้อมูลถูกจัดเก็บไว้ในโครงสร้างข้อมูลเฉพาะบางอย่าง เวลาที่ใช้สามารถลดลงเหลือ O(log n ) ได้ ในหลายแอปพลิเคชัน จำเป็นต้องใช้สถิติการเรียงลำดับทั้งหมด ในกรณีนี้ สามารถใช้ อัลกอริธึมการเรียงลำดับได้และเวลาที่ใช้จะเป็น O( n log n )

แอปพลิเคชัน

สถิติเชิงลำดับมีการประยุกต์ใช้ในด้านต่างๆ เช่น ทฤษฎีความน่าเชื่อถือ คณิตศาสตร์การเงิน การวิเคราะห์การอยู่รอด ระบาดวิทยา กีฬา การควบคุมคุณภาพ และความเสี่ยงทางคณิตศาสตร์ประกันภัย มีงานวิจัยจำนวนมากที่ศึกษาเกี่ยวกับการประยุกต์ใช้สถิติเชิงลำดับในสาขาเหล่านี้

ตัวอย่างเช่น การประยุกต์ใช้ล่าสุดในความเสี่ยงทางคณิตศาสตร์ประกันภัยสามารถพบได้ใน^{[ 13 ]}ซึ่งมีหลักการเบี้ยประกันภัยแบบถ่วงน้ำหนักบางประการในแง่ของการเรียกร้องค่าสินไหมทดแทนที่บันทึกไว้และการเรียกร้องค่าสินไหมทดแทนที่บันทึกไว้ครั้งที่ k

ดูเพิ่มเติม

แรนกิต
แผนภาพกล่อง
ความไม่เท่าเทียมกันของ BRS
สถิติร่วม (สถิติ)
การแจกแจงแบบฟิชเชอร์-ทิปเพ็ตต์
ทฤษฎีบท Bapat–Begสำหรับสถิติเรียงลำดับของตัวแปรสุ่มอิสระแต่ไม่จำเป็นต้องมีการแจกแจงเหมือนกัน
พหุนามเบิร์นสไตน์
ตัวประมาณค่า L – การรวมเชิงเส้นของสถิติลำดับ
การกระจายขนาดอันดับ
อัลกอริทึมการเลือก

ตัวอย่างของสถิติเชิงลำดับ

ลิงก์ภายนอก

สถิติการสั่งซื้อที่PlanetMathสืบค้นเมื่อ 2 กุมภาพันธ์ 2548
ไวส์สไตน์, เอริค ดับเบิลยู. "สถิติลำดับ" . แมธเวิลด์ .สืบค้นข้อมูลเมื่อวันที่ 2 กุมภาพันธ์ 2548
โค้ด C++ สถิติการสั่งซื้อแบบไดนามิก

[

[

[

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[

[ 13 ]