ทฤษฎีการประมาณค่า

ทฤษฎีการประมาณค่าเป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการประมาณค่าพารามิเตอร์โดยอาศัยข้อมูลเชิงประจักษ์ที่วัดได้ซึ่งมีองค์ประกอบแบบสุ่ม พารามิเตอร์อธิบายการตั้งค่าทางกายภาพพื้นฐานในลักษณะที่ค่าของพารามิเตอร์ ส่งผลต่อการกระจายของข้อมูลที่วัดได้ ตัวประมาณค่า พยายามประมาณค่าพารามิเตอร์ที่ไม่ทราบค่าโดยใช้การวัด ในทฤษฎีการประมาณค่า โดยทั่วไปจะพิจารณาสองแนวทาง: ^{[ 1 ]}

วิธีการเชิงความน่าจะเป็น (ที่อธิบายไว้ในบทความนี้) ถือว่าข้อมูลที่วัดได้เป็นข้อมูลสุ่ม โดยมีการกระจายความน่าจะเป็นขึ้นอยู่กับพารามิเตอร์ที่สนใจ
แนวทางการกำหนดสมาชิกภาพในเซตนั้นตั้งอยู่บนสมมติฐานที่ว่า เวกเตอร์ข้อมูลที่วัดได้เป็นสมาชิกของเซตซึ่งขึ้นอยู่กับเวกเตอร์พารามิเตอร์

ตัวอย่าง

ตัวอย่างเช่น ต้องการประมาณสัดส่วนของประชากรผู้มีสิทธิเลือกตั้งที่จะลงคะแนนให้ผู้สมัครคนใดคนหนึ่ง สัดส่วนนั้นคือพารามิเตอร์ที่ต้องการหา โดยการประมาณค่าจะอิงจากกลุ่มตัวอย่างผู้มีสิทธิเลือกตั้งแบบสุ่มขนาดเล็ก หรืออีกทางหนึ่ง ต้องการประมาณความน่าจะเป็นที่ผู้มีสิทธิเลือกตั้งจะลงคะแนนให้ผู้สมัครคนใดคนหนึ่ง โดยพิจารณาจากลักษณะทางประชากรศาสตร์บางประการ เช่น อายุ

หรือยกตัวอย่างเช่น ในระบบเรดาร์เป้าหมายคือการหาตำแหน่งหรือระยะทางของวัตถุ (เครื่องบิน เรือ ฯลฯ) โดยการวิเคราะห์เวลาการเดินทางไปกลับของคลื่นสะท้อนที่ได้รับจากคลื่นที่ส่งออกไป เนื่องจากคลื่นสะท้อนนั้นปนเปื้อนด้วยสัญญาณรบกวนทางไฟฟ้าอย่างหลีกเลี่ยงไม่ได้ ค่าที่วัดได้จึงกระจายตัวแบบสุ่ม ดังนั้นจึงต้องประมาณเวลาการเดินทาง

ยกตัวอย่างเช่น ในทฤษฎีการสื่อสารทางไฟฟ้า การวัดที่ประกอบด้วยข้อมูลเกี่ยวกับพารามิเตอร์ที่สนใจ มักจะเกี่ยวข้องกับ สัญญาณ รบกวน

พื้นฐาน

สำหรับแบบจำลองที่กำหนด จำเป็นต้องมี "ส่วนประกอบ" ทางสถิติหลายอย่างเพื่อให้สามารถใช้งานตัวประมาณค่าได้ อย่างแรกคือตัวอย่างทางสถิติ – ชุดข้อมูลที่ได้จากเวกเตอร์สุ่ม (RV) ขนาดNซึ่งนำมาใส่ในเวกเตอร์ประการ ที่สอง มีพารามิเตอร์ M ตัวที่ต้องประมาณค่า ประการที่สาม ต้องระบุ ฟังก์ชันความหนาแน่นความน่าจะ เป็นแบบต่อเนื่อง (pdf) หรือแบบไม่ต่อเนื่อง คือฟังก์ชันมวลความน่าจะเป็น (pmf) ของการแจกแจงพื้นฐานที่สร้างข้อมูลนั้นขึ้นมา โดยมีเงื่อนไขขึ้นอยู่กับค่าของพารามิเตอร์ นอกจากนี้ พารามิเตอร์เองก็อาจมีการแจกแจงความน่าจะเป็นได้เช่นกัน (เช่นสถิติแบบเบย์ ) ในกรณีนี้จำเป็นต้องกำหนดความน่าจะเป็นแบบเบย์ หลังจากสร้างแบบจำลองแล้ว เป้าหมายคือการประมาณค่าพารามิเตอร์ โดยค่าประมาณมักจะแสดงด้วยโดยที่ "หมวก" แสดงถึงค่าประมาณ $\mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.$ ${\boldsymbol {\theta }}={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}},$ $p(\mathbf {x} |{\boldsymbol {\theta }}).\,$ $\pi ({\boldsymbol {\theta }}).\,$ ${\hat {\boldsymbol {\theta }}}$

ตัวประมาณค่าที่ใช้กันทั่วไปอย่างหนึ่งคือ ตัวประมาณ ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำสุด (MMSE) ซึ่งใช้ความคลาดเคลื่อนระหว่างค่าพารามิเตอร์ที่ประมาณได้กับค่าจริงของพารามิเตอร์ เป็นเกณฑ์ในการหาค่าที่เหมาะสมที่สุด จากนั้นจะนำค่าความคลาดเคลื่อนนี้ไปยกกำลังสอง และหาค่าที่คาดหวังของค่าที่ยกกำลังสองนี้ให้มีค่าน้อยที่สุดสำหรับตัวประมาณค่า MMSE $\mathbf {e} ={\hat {\boldsymbol {\theta }}}-{\boldsymbol {\theta }}$

ผู้ประเมิน

ตัวประมาณค่า (วิธีการประมาณค่า) ที่ใช้กันทั่วไปและหัวข้อที่เกี่ยวข้อง ได้แก่:

ตัวประมาณค่าความน่าจะเป็นสูงสุด
ตัวประมาณค่าแบบเบย์ส
ตัวประมาณค่าด้วยวิธีโมเมนต์
มุ่งหน้าสู่ Cramér–Rao
กำลังสองน้อยที่สุด
ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำสุด (MMSE) หรือที่รู้จักกันในชื่อ ค่าความคลาดเคลื่อนกำลังสองน้อยที่สุดของเบย์ส (BLSE)
ค่าสูงสุดภายหลัง (MAP)
ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุด (MVUE)
การระบุระบบไม่เชิงเส้น
ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด (สีน้ำเงิน)
ตัวประมาณค่าที่ไม่เอนเอียง — ดูอคติของตัวประมาณค่า
ตัวกรองอนุภาค
มาร์คอฟเชน มอนเตคาร์โล (MCMC)
ตัวกรอง Kalmanและอนุพันธ์ต่างๆ ของตัวกรอง Kalman
ตัวกรองไวเนอร์

ตัวอย่าง

ค่าคงที่ที่ไม่ทราบค่าในสัญญาณรบกวนเกาส์เซียนสีขาวแบบบวก

พิจารณาสัญญาณรับแบบไม่ต่อเนื่อง , , ที่ประกอบด้วยตัวอย่าง อิสระซึ่งประกอบด้วยค่าคงที่ที่ไม่ทราบค่าพร้อมด้วยสัญญาณรบกวนแบบเกาส์เซียนสีขาว (AWGN) ที่มี ค่าเฉลี่ยเป็นศูนย์และความแปรปรวน ที่ทราบค่า ( เช่น , ) เนื่องจากทราบค่าความแปรปรวนแล้ว พารามิเตอร์ที่ไม่ทราบค่าเพียงตัวเดียวคือ $x[n]$ $N$ $A$ $w[n]$ $\sigma ^{2}$ ${\mathcal {N}}(0,\sigma ^{2})$ $A$

ดังนั้นแบบจำลองสำหรับสัญญาณจึงเป็นดังนี้ $x[n]=A+w[n]\quad n=0,1,\dots ,N-1$

ตัวประมาณค่าที่เป็นไปได้สองตัว (จากหลายตัว) สำหรับพารามิเตอร์นี้ได้แก่: $A$

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ ซึ่งก็คือค่าเฉลี่ยของตัวอย่าง

ตัวประมาณค่าทั้งสองนี้มีค่าเฉลี่ยเท่ากับซึ่งสามารถแสดงได้โดยการหาค่าคาดหวังของตัวประมาณค่าแต่ละตัว และ $A$ $\mathrm {E} \left[{\hat {A}}_{1}\right]=\mathrm {E} \left[x[0]\right]=A$ $\mathrm {E} \left[{\hat {A}}_{2}\right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A$

ณ จุดนี้ ตัวประมาณค่าทั้งสองดูเหมือนจะทำงานได้เหมือนกัน อย่างไรก็ตาม ความแตกต่างระหว่างพวกมันจะปรากฏชัดเจนเมื่อเปรียบเทียบค่าความ แปรปรวน $\mathrm {var} \left({\hat {A}}_{1}\right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}$ $\mathrm {var} \left({\hat {A}}_{2}\right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right){\overset {\text{independence}}{=}}{\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}$

ดูเหมือนว่าค่าเฉลี่ยของตัวอย่างจะเป็นตัวประมาณที่ดีกว่า เนื่องจากค่าความแปรปรวนของค่าเฉลี่ยจะต่ำกว่าสำหรับทุก ค่า N ที่มากกว่า 1

ความน่าจะเป็นสูงสุด

จากตัวอย่างเดิมที่ใช้ตัวประมาณค่าความน่าจะเป็นสูงสุด ฟังก์ชันความหนาแน่นความน่าจะเป็น (pdf) ของสัญญาณรบกวนสำหรับตัวอย่างหนึ่งคือ และความน่าจะเป็นของจะกลายเป็น ( สามารถคิดได้ว่าเป็น) โดยความเป็นอิสระความน่าจะเป็นของจะกลาย เป็น การหาลอการิทึมธรรมชาติของ pdf และตัวประมาณค่าความน่าจะเป็นสูงสุดคือ $w[n]$ $p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)$ $x[n]$ $x[n]$ ${\mathcal {N}}(A,\sigma ^{2})$ $p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)$ $\mathbf {x}$ $p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)$ $\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}$ ${\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)$

นำอนุพันธ์ อันดับแรก ของฟังก์ชันลอการิทึมความน่าจะเป็น มาตั้งให้เป็นศูนย์ ${\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]$ $0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA$

ผลลัพธ์ที่ได้คือตัวประมาณค่าความน่าจะเป็นสูงสุด ซึ่งก็คือค่าเฉลี่ยของตัวอย่างนั่นเอง จากตัวอย่างนี้ พบว่าค่าเฉลี่ยของตัวอย่างเป็นตัวประมาณค่าความน่าจะเป็นสูงสุดสำหรับตัวอย่างของพารามิเตอร์คงที่ที่ไม่ทราบค่า ซึ่งถูกรบกวนด้วยสัญญาณรบกวนแบบ AWGN ${\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ $N$

ขอบล่างของ Cramér–Rao

ในการหาขอบเขตล่างของ Cramér–Rao (CRLB) ของตัวประมาณค่าเฉลี่ยตัวอย่าง จำเป็นต้องหา ค่า Fisher information number ก่อน แล้ว จึงคัดลอกมาจากข้างต้น ${\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]$ ${\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]$

การหาอนุพันธ์อันดับสอง และการหาค่าคาดหวังที่เป็นลบนั้นเป็นเรื่องง่าย เนื่องจากตอนนี้มันเป็นค่าคงที่ที่แน่นอนแล้ว ${\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}$ $-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}$

สุดท้าย การนำข้อมูลของฟิชเชอร์มาใช้ส่ง ผลให้ เกิดผลลัพธ์ดังนี้ $\mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}$ $\mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}$

เมื่อเปรียบเทียบกับความแปรปรวนของค่าเฉลี่ยตัวอย่าง (ที่กำหนดไว้ก่อนหน้านี้) จะเห็นได้ว่าค่าเฉลี่ยตัวอย่างเท่ากับขอบเขตล่างของ Cramér–Rao สำหรับทุกค่าของและกล่าวอีกนัยหนึ่ง ค่าเฉลี่ยตัวอย่างคือตัวประมาณค่าที่มีประสิทธิภาพ (ซึ่งจำเป็นต้องมีเพียงหนึ่งเดียว) และด้วยเหตุนี้จึง เป็น ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุด (MVUE) นอกเหนือจากการเป็นตัวประมาณค่า ความน่าจะเป็นสูงสุด ด้วย $N$ $A$

ค่าสูงสุดของการแจกแจงแบบสม่ำเสมอ

หนึ่งในตัวอย่างที่ง่ายที่สุดแต่มีความสำคัญของการประมาณค่าคือ การประมาณค่าสูงสุดของการแจกแจงแบบเอกรูป ตัวอย่างนี้ใช้เป็นแบบฝึกหัดในห้องเรียนและเพื่อแสดงให้เห็นถึงหลักการพื้นฐานของทฤษฎีการประมาณค่า นอกจากนี้ ในกรณีของการประมาณค่าโดยใช้ตัวอย่างเพียงตัวเดียว มันยังแสดงให้เห็นถึงประเด็นเชิงปรัชญาและความเข้าใจผิดที่อาจเกิดขึ้นในการใช้ ตัวประมาณค่า ความน่าจะเป็นสูงสุดและฟังก์ชันความน่าจะเป็น

เมื่อกำหนดการกระจายแบบเอกรูปไม่ต่อเนื่อง ที่มีค่าสูงสุดที่ไม่ทราบ ตัว ประมาณค่า UMVUสำหรับค่าสูงสุดจะกำหนดโดย โดย ที่mคือค่าสูงสุดของตัวอย่างและkคือขนาดของตัวอย่างโดยสุ่มตัวอย่างโดยไม่ใส่คืน^[²^]^[³^]ปัญหานี้เป็นที่รู้จักกันทั่วไปในชื่อปัญหาของรถถังเยอรมันเนื่องจากการประยุกต์ใช้การประมาณค่าสูงสุดในการประมาณการผลิตรถถังเยอรมันในช่วงสงครามโลกครั้งที่สอง $1,2,\dots ,N$ ${\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1$

สูตรนี้สามารถเข้าใจได้โดยสัญชาตญาณดังนี้;

"ค่าสูงสุดของตัวอย่าง บวกกับค่าเฉลี่ยของช่องว่างระหว่างค่าสังเกตในตัวอย่าง"

ช่องว่างที่เพิ่มเข้ามาเพื่อชดเชยอคติเชิงลบของค่าสูงสุดของตัวอย่างในฐานะตัวประมาณค่าสูงสุดของประชากร^{[หมายเหตุ 1 ]}

ค่านี้มีความแปรปรวนเท่ากับ^{[ 2 ]} ดังนั้นค่าเบี่ยงเบนมาตรฐานโดยประมาณคือขนาดเฉลี่ยของช่องว่างระหว่างตัวอย่าง (ของประชากร) เปรียบเทียบข้างต้น นี่สามารถมองได้ว่าเป็นกรณีที่ง่ายมากของ การ ประมาณ ระยะห่างสูงสุด ${\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N$ $N/k$ ${\frac {m}{k}}$

ค่าสูงสุดของตัวอย่างเป็น ตัวประมาณค่า ความน่าจะเป็นสูงสุดสำหรับค่าสูงสุดของประชากร แต่ดังที่ได้กล่าวไว้ข้างต้น ตัวประมาณค่านี้มีอคติ

แอปพลิเคชัน

ทฤษฎีการประมาณค่าจำเป็นต้องใช้ในหลายสาขา ตัวอย่างเช่น:

ข้อมูลที่วัดได้มีแนวโน้มที่จะมีสัญญาณรบกวนหรือความไม่แน่นอน และการใช้หลักความน่าจะ เป็นทางสถิติ จะช่วยให้สามารถหาทางออกที่ดีที่สุด เพื่อดึง ข้อมูล ที่เป็นประโยชน์ออกมาให้ได้มาก ที่สุด

ดูเพิ่มเติม

หมายเหตุ

^ค่าสูงสุดของตัวอย่างจะไม่เกินค่าสูงสุดของประชากร แต่สามารถน้อยกว่าได้ ดังนั้นจึงเป็นตัวประมาณค่าที่ไม่เป็นกลาง กล่าวคือ จะมีแนวโน้มที่จะประมาณค่าสูงสุดของประชากร

ลิงก์ภายนอก

สื่อที่เกี่ยวข้องกับทฤษฎีการประมาณค่าในวิกิมีเดียคอมมอนส์

[4] ค่าสูงสุดของตัวอย่างจะไม่เกินค่าสูงสุดของประชากร แต่สามารถน้อยกว่าได้ ดังนั้นจึงเป็นตัวประมาณค่าที่ไม่เป็นกลาง กล่าวคือ จะมีแนวโน้มที่จะประมาณค่าสูงสุดของประชากร

[ 1 ]

[

[

[หมายเหตุ 1 ]

ทฤษฎีการประมาณค่า

ตัวอย่าง

พื้นฐาน

ผู้ประเมิน

ตัวอย่าง

ค่าคงที่ที่ไม่ทราบค่าในสัญญาณรบกวนเกาส์เซียนสีขาวแบบบวก

ความน่าจะเป็นสูงสุด

ขอบล่างของ Cramér–Rao

ค่าสูงสุดของการแจกแจงแบบสม่ำเสมอ

แอปพลิเคชัน

ดูเพิ่มเติม

หมายเหตุ

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ