กลับไปหน้าบทความ

อ่าน 5 นาที

สถิติเชิงพารามิเตอร์

สถิติเชิงพารามิเตอร์เป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการวิเคราะห์และการอนุมานจากข้อมูลโดยสมมติว่าการแจกแจงพื้นฐานซึ่งดึงข้อมูลที่สังเกตได้นั้นสามารถอธิบายได้ด้วยชุดพารามิเตอร์.

สถิติเชิงพารามิเตอร์

สถิติเชิงพารามิเตอร์เป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการวิเคราะห์และการอนุมานจากข้อมูลโดยสมมติว่าการแจกแจงพื้นฐานซึ่งดึงข้อมูลที่สังเกตได้นั้นสามารถอธิบายได้ด้วยชุดพารามิเตอร์ (ที่ไม่ทราบค่า) ที่จำกัด[ 1 ] [ 2 ]ในทางตรงกันข้ามสถิติเชิงไม่พารามิเตอร์ไม่ได้สมมติรูปแบบทางคณิตศาสตร์ที่ชัดเจน (พารามิเตอร์จำกัด) สำหรับการแจกแจงเมื่อสร้างแบบจำลองข้อมูล อย่างไรก็ตาม อาจมีการสมมติบางประการเกี่ยวกับการแจกแจงนั้น เช่น ความต่อเนื่องหรือความสมมาตร หรือแม้แต่รูปร่างทางคณิตศาสตร์ที่ชัดเจน แต่มีแบบจำลองสำหรับพารามิเตอร์การแจกแจงที่ไม่ใช่พารามิเตอร์จำกัด

วิธีการทางสถิติที่รู้จักกันดีส่วนใหญ่เป็นแบบพาราเมตริก[ 3 ]เกี่ยวกับแบบจำลองที่ไม่ใช่พาราเมตริก (และแบบกึ่งพาราเมตริก) เซอร์เดวิด ค็อกซ์กล่าวว่า "โดยทั่วไปแล้วแบบจำลองเหล่านี้มักมีข้อสมมติเกี่ยวกับโครงสร้างและรูปแบบการกระจายน้อยกว่า แต่โดยปกติแล้วจะมีข้อสมมติที่เข้มงวดเกี่ยวกับความเป็นอิสระ" [ 4 ]

ภาพรวม

เป้าหมายหลักของการอนุมานทางสถิติคือการจัดหาวิธีการเพื่อวิเคราะห์ข้อมูลอย่างเป็นระบบและอนุมานคุณสมบัติของการแจกแจงความน่าจะเป็นที่ดึงข้อมูลมา สมมติฐานพื้นฐานที่อยู่เบื้องหลังสถิติพาราเมตริกคือ การแจกแจงข้อมูลเป็นของตระกูลการแจกแจงทั่วไปที่สามารถกำหนดพารามิเตอร์ได้ด้วยพารามิเตอร์ จำนวนจำกัด ซึ่งไม่ทราบค่า ตระกูลการแจกแจงดังกล่าวเรียกว่าแบบจำลองพาราเมตริกคำถามทั่วไปในบริบทนี้คือ: [ 2 ]

  • การประมาณค่าพารามิเตอร์ : การเลือกพารามิเตอร์แบบใดที่อธิบายข้อมูลที่สังเกตได้ดีที่สุด หรือนำไปสู่การทำนายที่ดีที่สุด?
  • การประมาณค่าช่วง : ค่าขอบเขตบนและล่างที่เหมาะสมคือค่าใดบ้างเพื่อให้ค่าพารามิเตอร์ "ที่ดีที่สุด" อยู่ในช่วงดังกล่าวด้วยความน่าจะเป็นสูง?
  • การทดสอบสมมติฐาน : มีความเป็นไปได้หรือไม่ที่ค่าพารามิเตอร์ "ที่ดีที่สุด" จะมีค่าหนึ่ง หรืออยู่ในช่วงค่าหนึ่ง?
  • การกำหนดแบบจำลองที่ไม่ถูกต้อง : กลุ่มการแจกแจงใดที่เหมาะสมที่จะอธิบายข้อมูลที่สังเกตได้?

การประมาณค่าพารามิเตอร์

ในบริบททั่วไปของการประมาณค่าพารามิเตอร์ ตระกูลการแจกแจงแบบพารามิเตอร์ที่เลือกจะมีฟังก์ชันความหนาแน่นหรือฟังก์ชันมวลความหนาแน่นซึ่งเรียกว่าความน่าจะเป็นที่ขึ้นอยู่กับพารามิเตอร์และจะมีตัวอย่างข้อมูลจำนวนจำกัดที่เป็นอิสระและมีการแจกแจงเหมือนกัน เป้าหมายคือการประมาณค่า(หรือฟังก์ชันของค่าดังกล่าว) โดยอาศัยข้อมูลที่สังเกตได้

แนวทางความถี่

ในแนวทางความถี่ ข้อมูลจะถือว่ามีการกระจายตามพารามิเตอร์ "จริง" บางตัว เป้าหมายคือการกู้คืนจากข้อมูลที่สังเกตได้[ 5 ]วิธีการประมาณค่าพารามิเตอร์ที่พบบ่อยที่สุดมีดังต่อไปนี้

  • การประมาณค่าความน่าจะเป็นสูงสุด (Maximum Likelihood Estimation : MLE): พารามิเตอร์ของแบบจำลองจะถูกเลือกเพื่อให้ความน่าจะเป็น (หรือความหนาแน่นของความน่าจะเป็น) ของการสังเกตที่กำหนดมีค่าสูงสุด ภายใต้สมมติฐานบางประการเกี่ยวกับความน่าจะเป็น MLE จะมีความสอดคล้อง (อย่างแข็งแกร่ง) มีประสิทธิภาพในเชิงอะซิมโทติกและมีการแจกแจงแบบปกติในเชิงอะซิมโทติก
  • วิธีโมเมนต์ (MoM): ถ้าพารามิเตอร์ของแบบจำลองสามารถแสดงได้ในรูปฟังก์ชันของโมเมนต์ของการแจกแจงแล้วค่าประมาณโมเมนต์ของพารามิเตอร์จะเป็นถ้าฟังก์ชันมีความต่อเนื่องแล้วตัวประมาณโมเมนต์จะมีความสอดคล้องอย่างเข้มแข็ง (เนื่องจากกฎของจำนวนมากที่เข้มแข็ง ) ถ้าฟังก์ชันสามารถหาอนุพันธ์ได้ แล้วตัวประมาณโมเมนต์จะเป็นแบบปกติเชิงอะซิมโทติกด้วย (เนื่องจากทฤษฎีบทลิมิตกลางและวิธีเดลต้า )
  • การประมาณค่ากำลังสองน้อยที่สุด (LSE): วิธีนี้ใช้กับ การตั้งค่า การถดถอยโดยที่ข้อมูลเกิดขึ้นเป็นคู่ๆ และ ต้องกำหนดฟังก์ชันการถดถอย พารามิเตอร์ของแบบจำลองจะถูกเลือกเพื่อให้ผลรวมของความแตกต่างกำลังสอง ระหว่างข้อมูลที่สังเกตได้และการทำนายของแบบจำลองมีค่าน้อยที่สุด อันที่จริง LSE เป็นกรณีพิเศษของ MLE โดยที่การแจกแจงแบบมีเงื่อนไขของค่า ที่กำหนด มีการแจกแจงแบบปกติ[ 6 ]

แนวทางแบบเบย์เซียน

ใน แนวทางแบบ เบย์เซียนข้อมูลไม่ได้ถูกสมมติว่าสร้างขึ้นโดยการกระจายสำหรับค่าจริงบางค่าแต่ชุดของพารามิเตอร์แบบจำลองที่เป็นไปได้ทั้งหมด (หรือสมเหตุสมผล) จะถูกถ่วงน้ำหนักเบื้องต้นด้วยการกระจายแบบ à-priori ซึ่งสะท้อนถึงความเชื่อเบื้องต้นของนักสถิติ เมื่อพิจารณาจากข้อมูลที่สังเกตได้ การกระจายของพารามิเตอร์จะได้รับการปรับปรุงผ่านกฎของเบย์เซียนทำให้ได้การกระจายแบบ à-posteriori ที่เป็นสัดส่วนกับความน่าจะเป็นคูณด้วยค่าก่อนหน้าดังนั้น ตัวประมาณค่าแบบเบย์เซียนจึงให้ค่าประมาณที่ดีที่สุดโดยพิจารณาจากความเชื่อของนักสถิติ[ 5 ]

ความเหมาะสมที่สุดของตัวประมาณค่า

ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุดอย่างสม่ำเสมอ

ตัวประมาณค่าที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุดอย่างสม่ำเสมอ (UMVUE) บางครั้งเรียกว่าตัวประมาณค่าที่ไม่เอนเอียงที่ดีที่สุดเช่นกัน[ 7 ]เป็นตัวประมาณค่าที่มีความแปรปรวนต่ำสุดในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมด เนื่องจากการแยกส่วนความเอนเอียงและความแปรปรวนจึงถือว่าเหมาะสมที่สุดในแง่ที่ว่าทำให้ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย น้อยที่สุด ในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมด

สมมติว่าจำเป็นต้องประมาณค่าฟังก์ชันของพารามิเตอร์แบบจำลอง (เช่น ค่าเฉลี่ย ความแปรปรวน ค่ามัธยฐาน หรือตัวมันเอง) โดยทั่วไปแล้ว หากมีตัวประมาณค่า UMVU ที่มีความแปรปรวนจำกัดอยู่ ก็จะต้องมีเพียงหนึ่งเดียวเนื่องจากทฤษฎีบท Rao–Blackwell [ 8 ]หากมีสถิติเพียงพอที่สมบูรณ์ในแบบจำลองทางสถิติ ที่เลือก ซึ่งมักจะหาได้ง่ายโดยใช้ทฤษฎีบท Neyman–Fisherก็จะเป็นไปตามทฤษฎีบท Lehmann–Scheffé : ตัวประมาณค่าในรูปแบบที่ไม่มีอคติ จะเป็น UMVU โดยอัตโนมัติ หากตัวประมาณค่าดังกล่าวมีความแปรปรวนจำกัดสำหรับทุกค่าก็จะเป็น UMVUE เพียงหนึ่งเดียวด้วย

ตัวประมาณเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด

ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด (BLUE) คือตัวประมาณค่าที่ไม่เอนเอียงที่มีค่าน้อยที่สุดในบรรดาตัวประมาณค่าที่ไม่เอนเอียงทั้งหมดที่เป็นเชิงเส้นในข้อมูล กล่าวคือสำหรับสัมประสิทธิ์บางตัวในแง่หนึ่ง BLUE เป็นตัวประมาณค่า UMVU ที่มีข้อจำกัดเพิ่มเติมคือเป็นเชิงเส้น[ 9 ]

ในบริบท ของ การถดถอยทฤษฎีบทเกาส์-มาร์คอฟกล่าวว่า ตัวประมาณค่ากำลังสองน้อยที่สุดเป็นตัวประมาณค่าที่ดีที่สุดเพียงหนึ่งเดียว (BLUE) ทฤษฎีบทนี้ยังแสดงให้เห็น (โดยพิจารณากรณีพิเศษของการถดถอยแบบคงที่) ว่าค่าเฉลี่ยเชิงประจักษ์เป็นตัวประมาณค่าที่ดีที่สุด (BLUE) สำหรับการประมาณค่าเฉลี่ยด้วย

ความไม่เท่าเทียมกันของข้อมูลและตระกูลเลขชี้กำลัง

ใน แบบจำลองทางสถิติ ปกติสามารถแสดงได้ว่าความแปรปรวนของตัวประมาณที่ไม่เอนเอียงไม่สามารถเล็กได้อย่างไม่จำกัด: ตัวประมาณที่ไม่เอนเอียงใดๆของปริมาณนั้นถูกจำกัดจากด้านล่างโดยขอบเขตสากล[ 10 ]โดยที่คือเมทริกซ์ข้อมูลของฟิชเชอร์ของแบบจำลองทางสถิติ ด้านขวามือคือสิ่งที่เรียกว่าขอบเขต Cramér– Rao

ตัวประมาณค่าที่ความแปรปรวนเท่ากับขอบเขต Cramér–Rao เรียกว่ามีประสิทธิภาพและเกือบจะเป็น UMVU เนื่องจากพวกมันลดความแปรปรวนให้น้อยที่สุดเหนือ ตัวประมาณค่าที่ไม่เอนเอียง ปกติ ทั้งหมด (อาจมีตัวประมาณค่าที่ไม่ปกติที่มีความแปรปรวนน้อยกว่า) ในทางตรงกันข้าม ไม่ใช่ทุก UMVUE จะมีประสิทธิภาพ ในความเป็นจริง ตัวประมาณค่าจะมีประสิทธิภาพก็ต่อเมื่อ (i) แบบจำลองทางสถิติเป็นตระกูลเอกซ์โพเนนเชียลและ (ii) เป็นสถิติเพียงพอตามธรรมชาติ[ 11 ]

แบบจำลองพาราเมตริก

การเลือกแบบจำลองกล่าวคือ การกระจายความน่าจะเป็นที่สันนิษฐานว่าข้อมูลถูกสุ่มมาจากในปัญหาการประมาณความหนาแน่น หรือความสัมพันธ์เชิงฟังก์ชันที่สันนิษฐานไว้ระหว่างคู่ข้อมูลในปัญหาการถดถอย/การจำแนกประเภท ถือเป็นหัวใจสำคัญของกระบวนการเชิงพาราเมตริก ต่อไปนี้คือรายการแบบจำลองทั่วไปที่ใช้ในทางปฏิบัติ

การประมาณความหนาแน่น

การถดถอย

การจำแนกประเภท

ตัวอย่าง

การแจกแจงแบบปกติทั้งหมดมีรูปร่างทั่วไปเหมือนกันและมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นพารามิเตอร์นั่นหมายความว่าหากทราบค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน และการแจกแจงเป็นแบบปกติ ความน่าจะเป็นที่ค่าสังเกตใดๆ ในอนาคตจะอยู่ในช่วงที่กำหนดก็จะทราบได้เช่นกัน

สมมติว่าเรามีตัวอย่างคะแนนสอบ 99 คะแนน โดยมีค่าเฉลี่ย 100 และส่วนเบี่ยงเบนมาตรฐาน 1 ถ้าเราถือว่าคะแนนสอบทั้ง 99 คะแนนเป็นการสังเกตแบบสุ่มจาก1การแจกแจงปกติ เราจะคาดการณ์ได้ว่ามีโอกาส 1% ที่คะแนนสอบลำดับที่ 100 จะสูงกว่า 102.33 (นั่นคือ ค่าเฉลี่ยบวก 2.33 ส่วนเบี่ยงเบนมาตรฐาน) โดยสมมติว่าคะแนนสอบลำดับที่ 100 มาจากการแจกแจงเดียวกันกับคะแนนอื่นๆ วิธีการทางสถิติแบบพาราเมตริกถูกนำมาใช้ในการคำนวณค่า 2.33 ข้างต้น โดยกำหนดให้มี การสังเกต อิสระ 99 ครั้ง จาก1การแจกแจงปกติเดียวกัน

การ ประมาณค่าแบบ ไม่ใช้พารามิเตอร์ของสิ่งเดียวกันคือค่าสูงสุดของคะแนน 99 อันดับแรก เราไม่จำเป็นต้องสมมติอะไรเกี่ยวกับการกระจายของคะแนนสอบเพื่อที่จะให้เหตุผลว่าก่อนที่เราจะทำการทดสอบนั้น มีโอกาสเท่าๆ กันที่คะแนนสูงสุดจะเป็นคะแนนใดๆ ใน 100 อันดับแรก ดังนั้นจึงมีโอกาส 1% ที่คะแนนลำดับที่ 100 จะสูงกว่าคะแนนใดๆ ใน 99 คะแนนก่อนหน้านั้น

ประวัติศาสตร์

สถิติเชิงพาราเมตริกถูกกล่าวถึงโดยอาร์.เอ. ฟิชเชอร์ในผลงานของเขาเรื่อง วิธีการทางสถิติสำหรับนักวิจัยในปี ค.ศ. 1925 ซึ่งเป็นรากฐานของสถิติสมัยใหม่

ดูเพิ่มเติม

หมายเหตุ

  1. ^ Geisser, S. (2006), รูปแบบการอนุมานทางสถิติแบบพาราเมตริก , John Wiley & Sons
  2. ^ a b Lehmann & Casella (1998), หน้า 1
  3. ^ Cox, DR (2006), หลักการอนุมานทางสถิติ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
  4. ^ค็อกซ์ (2006), หน้า 2
  5. ^ a b Casella & Berger (2002), หน้า 324
  6. ^ Casella & Berger (2002), หน้า 549
  7. ^ Casella & Berger (2002), หน้า 334
  8. ^ Casella & Berger (2002), หน้า 343
  9. ^เลห์มันน์และคาเซลลา (1998), หน้า 184
  10. ^เลห์มันน์และคาเซลลา (1998), หน้า 120
  11. ^เลห์มันน์และคาเซลลา (1998), หน้า 121
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Parametric_statistics&oldid=1359528627 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สถิติเชิงพารามิเตอร์

สถิติเชิงพารามิเตอร์เป็นสาขาหนึ่งของสถิติที่เกี่ยวข้องกับการวิเคราะห์และการอนุมานจากข้อมูลโดยสมมติว่าการแจกแจงพื้นฐานซึ่งดึงข้อมูลที่สังเกตได้นั้นสามารถอธิบายได้ด้วยชุดพารามิเตอร์.

ภาพรวม

เป้าหมายหลักของ การอนุมานทางสถิติ คือการจัดหาวิธีการเพื่อวิเคราะห์ข้อมูลอย่างเป็นระบบและอนุมานคุณสมบัติของการแจกแจงความน่าจะเป็นที่ดึงข้อมูลมา สมมติฐานพื้นฐานที่อยู่เบื้องหลังสถิติพาราเมตริกคือ...

การประมาณค่าพารามิเตอร์

ในบริบททั่วไปของการประมาณค่าพารามิเตอร์ ตระกูลการแจกแจงแบบพารามิเตอร์ที่เลือกจะมีฟังก์ชันความหนาแน่นหรือฟังก์ชันมวลความหนาแน่นซึ่งเรียก ว่าความน่าจะ เป็นที่ขึ้นอยู่กับพารามิเตอร์และจะมีตัวอย่างข้อมูลจำนวนจำกัดที่เป็นอิสระและมีการแจกแจงเหมือนกัน...

แนวทางความถี่

ในแนวทางความถี่ ข้อมูลจะถือว่ามีการกระจายตามพารามิเตอร์ "จริง" บางตัว เป้าหมายคือการกู้คืนจากข้อมูลที่สังเกตได้ [ 5 ] วิธีการประมาณค่าพารามิเตอร์ที่พบบ่อยที่สุดมีดังต่อไปนี้ แอล θ * {\displaystyle L_{\theta ^{*}}} θ * {\displaystyle \theta ^{*}} θ *...