สถิติเชิงพารามิเตอร์

Q: ข้อมูลสำคัญเกี่ยวกับ สถิติเชิงพารามิเตอร์

สถิติเชิงพารามิเตอร์เป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการวิเคราะห์และการอนุมานจากข้อมูลโดยสมมติว่าการแจกแจงพื้นฐานซึ่งดึงข้อมูลที่สังเกตได้นั้นสามารถอธิบายได้ด้วยชุดพารามิเตอร์.

สถิติเชิงพารามิเตอร์เป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการวิเคราะห์และการอนุมานจากข้อมูลโดยสมมติว่าการแจกแจงพื้นฐานซึ่งดึงข้อมูลที่สังเกตได้นั้นสามารถอธิบายได้ด้วยชุดพารามิเตอร์ (ที่ไม่ทราบค่า) ที่จำกัด[ 1 ^{] [ 2}^{]ในทาง}ตรงกันข้ามสถิติเชิงไม่พารามิเตอร์ไม่ได้สมมติรูปแบบทางคณิตศาสตร์ที่ชัดเจน (พารามิเตอร์จำกัด) สำหรับการแจกแจงเมื่อสร้างแบบจำลองข้อมูล อย่างไรก็ตาม อาจมีการสมมติบางประการเกี่ยวกับการแจกแจงนั้น เช่น ความต่อเนื่องหรือความสมมาตร หรือแม้แต่รูปร่างทางคณิตศาสตร์ที่ชัดเจน แต่มีแบบจำลองสำหรับพารามิเตอร์การแจกแจงที่ไม่ใช่พารามิเตอร์จำกัด

วิธีการทางสถิติที่รู้จักกันดีส่วนใหญ่เป็นแบบพาราเมตริก^{[ 3 ]}เกี่ยวกับแบบจำลองที่ไม่ใช่พาราเมตริก (และแบบกึ่งพาราเมตริก) เซอร์เดวิด ค็อกซ์กล่าวว่า "โดยทั่วไปแล้วแบบจำลองเหล่านี้มักมีข้อสมมติเกี่ยวกับโครงสร้างและรูปแบบการกระจายน้อยกว่า แต่โดยปกติแล้วจะมีข้อสมมติที่เข้มงวดเกี่ยวกับความเป็นอิสระ" ^{[ 4 ]}

ภาพรวม

เป้าหมายหลักของการอนุมานทางสถิติคือการจัดหาวิธีการเพื่อวิเคราะห์ข้อมูลอย่างเป็นระบบและอนุมานคุณสมบัติของการแจกแจงความน่าจะเป็นที่ดึงข้อมูลมา สมมติฐานพื้นฐานที่อยู่เบื้องหลังสถิติพาราเมตริกคือ การแจกแจงข้อมูลเป็นของตระกูลการแจกแจงทั่วไปที่สามารถกำหนดพารามิเตอร์ได้ด้วยพารามิเตอร์ จำนวนจำกัด ซึ่งไม่ทราบค่า ตระกูลการแจกแจงดังกล่าวเรียกว่าแบบจำลองพาราเมตริกคำถามทั่วไปในบริบทนี้คือ: ^[²^] $\theta _{1},\dots ,\theta _{p}$

การประมาณค่าพารามิเตอร์ : การเลือกพารามิเตอร์แบบใดที่อธิบายข้อมูลที่สังเกตได้ดีที่สุด หรือนำไปสู่การทำนายที่ดีที่สุด?
การประมาณค่าช่วง : ค่าขอบเขตบนและล่างที่เหมาะสมคือค่าใดบ้างเพื่อให้ค่าพารามิเตอร์ "ที่ดีที่สุด" อยู่ในช่วงดังกล่าวด้วยความน่าจะเป็นสูง? ${\overline {T}}$ ${\underline {T}}$ $[{\underline {T}},{\overline {T}}]$
การทดสอบสมมติฐาน : มีความเป็นไปได้หรือไม่ที่ค่าพารามิเตอร์ "ที่ดีที่สุด" จะมีค่าหนึ่ง หรืออยู่ในช่วงค่าหนึ่ง?
การกำหนดแบบจำลองที่ไม่ถูกต้อง : กลุ่มการแจกแจงใดที่เหมาะสมที่จะอธิบายข้อมูลที่สังเกตได้?

การประมาณค่าพารามิเตอร์

ในบริบททั่วไปของการประมาณค่าพารามิเตอร์ ตระกูลการแจกแจงแบบพารามิเตอร์ที่เลือกจะมีฟังก์ชันความหนาแน่นหรือฟังก์ชันมวลความหนาแน่นซึ่งเรียกว่าความน่าจะเป็นที่ขึ้นอยู่กับพารามิเตอร์และจะมีตัวอย่างข้อมูลจำนวนจำกัดที่เป็นอิสระและมีการแจกแจงเหมือนกัน เป้าหมายคือการประมาณค่า(หรือฟังก์ชันของค่าดังกล่าว) โดยอาศัยข้อมูลที่สังเกตได้ $L_{\theta }$ $\theta =(\theta _{1},\dots ,\theta _{p})$ $X_{1},\dots ,X_{n}$ $\theta$

แนวทางความถี่

ในแนวทางความถี่ ข้อมูลจะถือว่ามีการกระจายตามพารามิเตอร์ "จริง" บางตัว เป้าหมายคือการกู้คืนจากข้อมูลที่สังเกตได้^[⁵^]วิธีการประมาณค่าพารามิเตอร์ที่พบบ่อยที่สุดมีดังต่อไปนี้ $L_{\theta ^{*}}$ $\theta ^{*}$ $\theta ^{*}$

การประมาณค่าความน่าจะเป็นสูงสุด (Maximum Likelihood Estimation : MLE): พารามิเตอร์ของแบบจำลองจะถูกเลือกเพื่อให้ความน่าจะเป็น (หรือความหนาแน่นของความน่าจะเป็น) ของการสังเกตที่กำหนดมีค่าสูงสุด ภายใต้สมมติฐานบางประการเกี่ยวกับความน่าจะเป็น MLE จะมีความสอดคล้อง (อย่างแข็งแกร่ง) มีประสิทธิภาพในเชิงอะซิมโทติกและมีการแจกแจงแบบปกติในเชิงอะซิมโทติก
วิธีโมเมนต์ (MoM): ถ้าพารามิเตอร์ของแบบจำลองสามารถแสดงได้ในรูปฟังก์ชันของโมเมนต์ของการแจกแจงแล้วค่าประมาณโมเมนต์ของพารามิเตอร์จะเป็นถ้าฟังก์ชันมีความต่อเนื่องแล้วตัวประมาณโมเมนต์จะมีความสอดคล้องอย่างเข้มแข็ง (เนื่องจากกฎของจำนวนมากที่เข้มแข็ง ) ถ้าฟังก์ชันสามารถหาอนุพันธ์ได้ แล้วตัวประมาณโมเมนต์จะเป็นแบบปกติเชิงอะซิมโทติกด้วย (เนื่องจากทฤษฎีบทลิมิตกลางและวิธีเดลต้า ) $g_{1},\dots ,g_{p}$ $g_{1}\left(\sum _{i=1}^{n}X_{i},\dots ,\sum _{i=1}^{n}X_{i}^{p}\right),\dots ,g_{p}\left(\sum _{i=1}^{n}X_{i},\dots ,\sum _{i=1}^{n}X_{i}^{p}\right)$ $g_{1},\dots ,g_{p}$ $g_{1},\dots ,g_{p}$
การประมาณค่ากำลังสองน้อยที่สุด (LSE): วิธีนี้ใช้กับ การตั้งค่า การถดถอยโดยที่ข้อมูลเกิดขึ้นเป็นคู่ๆ และ ต้องกำหนดฟังก์ชันการถดถอย พารามิเตอร์ของแบบจำลองจะถูกเลือกเพื่อให้ผลรวมของความแตกต่างกำลังสอง ระหว่างข้อมูลที่สังเกตได้และการทำนายของแบบจำลองมีค่าน้อยที่สุด อันที่จริง LSE เป็นกรณีพิเศษของ MLE โดยที่การแจกแจงแบบมีเงื่อนไขของค่า ที่กำหนด มีการแจกแจงแบบปกติ^[⁶^] $(X_{1},Y_{1}),\dots ,(X_{n},Y_{n})$ $f$ $\sum _{i=1}^{n}(Y_{i}-f_{\theta }(X_{i}))^{2}$ $Y$ $X$

แนวทางแบบเบย์เซียน

ใน แนวทางแบบ เบย์เซียนข้อมูลไม่ได้ถูกสมมติว่าสร้างขึ้นโดยการกระจายสำหรับค่าจริงบางค่าแต่ชุดของพารามิเตอร์แบบจำลองที่เป็นไปได้ทั้งหมด (หรือสมเหตุสมผล) จะถูกถ่วงน้ำหนักเบื้องต้นด้วยการกระจายแบบ à-priori ซึ่งสะท้อนถึงความเชื่อเบื้องต้นของนักสถิติ เมื่อพิจารณาจากข้อมูลที่สังเกตได้ การกระจายของพารามิเตอร์จะได้รับการปรับปรุงผ่านกฎของเบย์เซียนทำให้ได้การกระจายแบบ à-posteriori ที่เป็นสัดส่วนกับความน่าจะเป็นคูณด้วยค่าก่อนหน้าดังนั้น ตัวประมาณค่าแบบเบย์เซียนจึงให้ค่าประมาณที่ดีที่สุดโดยพิจารณาจากความเชื่อของนักสถิติ^[⁵^] $L_{\theta ^{*}}$ $\theta ^{*}$ $\pi$ $p_{\theta }$ $L_{\theta }$ $\pi$

การประมาณค่าเฉลี่ยภายหลัง : ตัวประมาณค่าจะหาค่าเฉลี่ยของการแจกแจงภายหลัง
การประมาณค่ามัธยฐานภายหลัง : ตัวประมาณค่าจะใช้ค่ามัธยฐานของการกระจายความน่าจะเป็นภายหลัง
การประมาณค่าสูงสุดภายหลัง (Maximum à-posteriori estimation : MAP): ตัวประมาณค่านี้ใช้พารามิเตอร์ที่ทำให้การแจกแจงภายหลังมีค่าสูงสุด หากการแจกแจงก่อนหน้าเป็นการแจกแจงแบบเอกรูป การประมาณค่า MAP จะเทียบเท่ากับการประมาณค่าความน่าจะเป็นสูงสุด (Maximum likelihood estimation)

ความเหมาะสมที่สุดของตัวประมาณค่า

ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุดอย่างสม่ำเสมอ

ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุดอย่างสม่ำเสมอ (UMVUE) บางครั้งเรียกว่าตัวประมาณค่าที่ไม่เอนเอียงที่ดีที่สุดเช่นกัน^{[ 7 ]}เป็นตัวประมาณค่าที่มีความแปรปรวนต่ำสุดในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมด เนื่องจากการแยกส่วนความเอนเอียงและความแปรปรวนจึงถือว่าเหมาะสมที่สุดในแง่ที่ว่าทำให้ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย น้อยที่สุด ในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมด

สมมติว่าจำเป็นต้องประมาณค่าฟังก์ชันของพารามิเตอร์แบบจำลอง (เช่น ค่าเฉลี่ย ความแปรปรวน ค่ามัธยฐาน หรือตัวมันเอง) โดยทั่วไปแล้ว หากมีตัวประมาณค่า UMVU ที่มีความแปรปรวนจำกัดอยู่ ก็จะต้องมีเพียงหนึ่งเดียวเนื่องจากทฤษฎีบท Rao–Blackwell ^[⁸^]หากมีสถิติเพียงพอที่สมบูรณ์ในแบบจำลองทางสถิติ ที่เลือก ซึ่งมักจะหาได้ง่ายโดยใช้ทฤษฎีบท Neyman–Fisherก็จะเป็นไปตามทฤษฎีบท Lehmann–Scheffé : ตัวประมาณค่าในรูปแบบที่ไม่มีอคติ จะเป็น UMVU โดยอัตโนมัติ หากตัวประมาณค่าดังกล่าวมีความแปรปรวนจำกัดสำหรับทุกค่าก็จะเป็น UMVUE เพียงหนึ่งเดียวด้วย $q(\theta )$ $\theta$ $q(\theta )$ $T$ $f(T)$ $\theta$

ตัวประมาณเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด

ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด (BLUE) คือตัวประมาณค่าที่ไม่เอนเอียงที่มีค่าน้อยที่สุดในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมดที่เป็นเชิงเส้นในข้อมูล กล่าวคือสำหรับสัมประสิทธิ์บางตัวในแง่หนึ่ง BLUE เป็นตัวประมาณค่า UMVU ที่มีข้อจำกัดเพิ่มเติมคือเป็นเชิงเส้น^[⁹^] ${\hat {\theta }}$ ${\hat {\theta }}=\sum _{i=1}^{n}\alpha _{i}X_{i},$ $\alpha _{1},\dots ,\alpha _{n}\in \mathbb {R}$

ในบริบท ของ การถดถอย ทฤษฎีบทเกาส์-มาร์คอฟกล่าวว่า ตัวประมาณค่ากำลังสองน้อยที่สุดเป็นตัวประมาณค่าที่ดีที่สุดเพียงหนึ่งเดียว (BLUE) ทฤษฎีบทนี้ยังแสดงให้เห็น (โดยพิจารณากรณีพิเศษของการถดถอยแบบคงที่) ว่าค่าเฉลี่ยเชิงประจักษ์เป็นตัวประมาณค่าที่ดีที่สุด (BLUE) สำหรับการประมาณค่าเฉลี่ยด้วย

ความไม่เท่าเทียมกันของข้อมูลและตระกูลเลขชี้กำลัง

ใน แบบจำลองทางสถิติ ปกติสามารถแสดงได้ว่าความแปรปรวนของตัวประมาณที่ไม่เอนเอียงไม่สามารถเล็กได้อย่างไม่จำกัด: ตัวประมาณที่ไม่เอนเอียงใดๆของปริมาณนั้นถูกจำกัดจากด้านล่างโดยขอบเขตสากล^[¹⁰^]โดยที่คือเมทริกซ์ข้อมูลของฟิชเชอร์ของแบบจำลองทางสถิติ ด้านขวามือคือสิ่งที่เรียกว่าขอบเขต Cramér– Rao $T$ $q(\theta )$ $\mathrm {Var} _{\theta [T(X)]\geq \nabla q(\theta )I(\theta )^{-1}\nabla q(\theta )^{T},$ $I(\theta )$

ตัวประมาณค่าที่ความแปรปรวนเท่ากับขอบเขต Cramér–Rao เรียกว่ามีประสิทธิภาพและเกือบจะเป็น UMVU เนื่องจากพวกมันลดความแปรปรวนให้น้อยที่สุดเหนือ ตัวประมาณค่าที่ไม่เอนเอียง ปกติ ทั้งหมด (อาจมีตัวประมาณค่าที่ไม่ปกติที่มีความแปรปรวนน้อยกว่า) ในทางตรงกันข้าม ไม่ใช่ทุก UMVUE จะมีประสิทธิภาพ ในความเป็นจริง ตัวประมาณค่าจะมีประสิทธิภาพก็ต่อเมื่อ (i) แบบจำลองทางสถิติเป็นตระกูลเอกซ์โพเนนเชียลและ (ii) เป็นสถิติเพียงพอตามธรรมชาติ^[¹¹^] $T$ $T$

แบบจำลองพาราเมตริก

การเลือกแบบจำลองกล่าวคือ การกระจายความน่าจะเป็นที่สันนิษฐานว่าข้อมูลถูกสุ่มมาจากในปัญหาการประมาณความหนาแน่น หรือความสัมพันธ์เชิงฟังก์ชันที่สันนิษฐานไว้ระหว่างคู่ข้อมูลในปัญหาการถดถอย/การจำแนกประเภท ถือเป็นหัวใจสำคัญของกระบวนการเชิงพาราเมตริก ต่อไปนี้คือรายการแบบจำลองทั่วไปที่ใช้ในทางปฏิบัติ $X$ $Y$

การประมาณความหนาแน่น

กลุ่มการแจกแจง แบบเอกซ์โปเนนเชียล (เช่น การแจกแจงปกติ, การแจกแจงเอกซ์โป เนนเชียล , การแจกแจงล็อกนอร์มัล , การแจกแจงแกมมา , การแจกแจงไคกำลังสอง , การแจกแจงเออร์ลัง , การแจกแจง เบตา , การแจกแจง กัมเบล, การแจกแจงพาเรโต , การแจกแจงทวินาม ( เชิงลบ ) , การแจกแจงปัวซง , การแจกแจงเรขาคณิต )
การแจกแจงลาปลาซ
การกระจายแบบสม่ำเสมอ
การแจกแจงไวบูล

การถดถอย

แบบจำลองเชิงเส้น (กรณีพิเศษของแบบจำลองนี้ ได้แก่ANOVAและANCOVA )
แบบจำลองเชิงเส้นทั่วไป (GLM)
เครือข่ายประสาทเทียม

การจำแนกประเภท

ตัวอย่าง

การแจกแจงแบบปกติทั้งหมดมีรูปร่างทั่วไปเหมือนกันและมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นพารามิเตอร์นั่นหมายความว่าหากทราบค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน และการแจกแจงเป็นแบบปกติ ความน่าจะเป็นที่ค่าสังเกตใดๆ ในอนาคตจะอยู่ในช่วงที่กำหนดก็จะทราบได้เช่นกัน

สมมติว่าเรามีตัวอย่างคะแนนสอบ 99 คะแนน โดยมีค่าเฉลี่ย 100 และส่วนเบี่ยงเบนมาตรฐาน 1 ถ้าเราถือว่าคะแนนสอบทั้ง 99 คะแนนเป็นการสังเกตแบบสุ่มจาก1การแจกแจงปกติ เราจะคาดการณ์ได้ว่ามีโอกาส 1% ที่คะแนนสอบลำดับที่ 100 จะสูงกว่า 102.33 (นั่นคือ ค่าเฉลี่ยบวก 2.33 ส่วนเบี่ยงเบนมาตรฐาน) โดยสมมติว่าคะแนนสอบลำดับที่ 100 มาจากการแจกแจงเดียวกันกับคะแนนอื่นๆ วิธีการทางสถิติแบบพาราเมตริกถูกนำมาใช้ในการคำนวณค่า 2.33 ข้างต้น โดยกำหนดให้มี การสังเกต อิสระ 99 ครั้ง จาก1การแจกแจงปกติเดียวกัน

การ ประมาณค่าแบบ ไม่ใช้พารามิเตอร์ของสิ่งเดียวกันคือค่าสูงสุดของคะแนน 99 อันดับแรก เราไม่จำเป็นต้องสมมติอะไรเกี่ยวกับการกระจายของคะแนนสอบเพื่อที่จะให้เหตุผลว่าก่อนที่เราจะทำการทดสอบนั้น มีโอกาสเท่าๆ กันที่คะแนนสูงสุดจะเป็นคะแนนใดๆ ใน 100 อันดับแรก ดังนั้นจึงมีโอกาส 1% ที่คะแนนลำดับที่ 100 จะสูงกว่าคะแนนใดๆ ใน 99 คะแนนก่อนหน้านั้น

ประวัติศาสตร์

สถิติเชิงพาราเมตริกถูกกล่าวถึงโดยอาร์.เอ. ฟิชเชอร์ในผลงานของเขาเรื่อง วิธีการทางสถิติสำหรับนักวิจัยในปี ค.ศ. 1925 ซึ่งเป็นรากฐานของสถิติสมัยใหม่

ดูเพิ่มเติม

หมายเหตุ

^ Geisser, S. (2006), รูปแบบการอนุมานทางสถิติแบบพาราเมตริก , John Wiley & Sons
^ ^a^b Lehmann & Casella (1998), หน้า 1
^ Cox, DR (2006), หลักการอนุมานทางสถิติ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
^ค็อกซ์ (2006), หน้า 2
^ ^a^b Casella & Berger (2002), หน้า 324
^ Casella & Berger (2002), หน้า 549
^ Casella & Berger (2002), หน้า 334
^ Casella & Berger (2002), หน้า 343
^เลห์มันน์และคาเซลลา (1998), หน้า 184
^เลห์มันน์และคาเซลลา (1998), หน้า 120
^เลห์มันน์และคาเซลลา (1998), หน้า 121

[GeisserJohnson-1] Geisser, S. (2006), รูปแบบการอนุมานทางสถิติแบบพาราเมตริก , John Wiley & Sons

[:1-2] Lehmann & Casella (1998), หน้า 1

[Cox-3] Cox, DR (2006), หลักการอนุมานทางสถิติ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

[4] ค็อกซ์ (2006), หน้า 2

[:0-5] Casella & Berger (2002), หน้า 324

[6] Casella & Berger (2002), หน้า 549

[7] Casella & Berger (2002), หน้า 334

[8] Casella & Berger (2002), หน้า 343

[9] เลห์มันน์และคาเซลลา (1998), หน้า 184

[10] เลห์มันน์และคาเซลลา (1998), หน้า 120

[11] เลห์มันน์และคาเซลลา (1998), หน้า 121

] [ 2

[ 3 ]

[ 4 ]

[

[ 7 ]

[

[

[

[