กลับไปหน้าบทความ

อ่าน 14 นาที

สถิติแบบไม่ใช้พารามิเตอร์

สถิติแบบไม่ใช้พารามิเตอร์เป็นประเภทของการวิเคราะห์ทางสถิติที่ตั้งสมมติฐานน้อยที่สุดเกี่ยวกับการกระจาย พื้นฐาน ของข้อมูลที่กำลังศึกษา โดยทั่วไปแบบจำลองเหล่านี้จะมีมิติอนันต์...

สถิติแบบไม่ใช้พารามิเตอร์

สถิติแบบไม่ใช้พารามิเตอร์เป็นประเภทของการวิเคราะห์ทางสถิติที่ตั้งสมมติฐานน้อยที่สุดเกี่ยวกับการกระจาย พื้นฐาน ของข้อมูลที่กำลังศึกษา โดยทั่วไปแบบจำลองเหล่านี้จะมีมิติอนันต์ แทนที่จะเป็นมิติจำกัด เช่นเดียวกับสถิติแบบใช้พารามิเตอร์ [ 1 ] สถิติแบบไม่ใช้พารามิเตอร์สามารถใช้สำหรับสถิติเชิงพรรณนาหรือการอนุมานทางสถิติการทดสอบแบบไม่ใช้พารามิเตอร์มักใช้เมื่อสมมติฐานของการทดสอบแบบใช้พารามิเตอร์ถูกละเมิดอย่างชัดเจน[ 2 ]

คำจำกัดความ

คำว่า "สถิติแบบไม่ใช้พารามิเตอร์" ได้รับการนิยามอย่างไม่แม่นยำในสองลักษณะดังต่อไปนี้:

ความหมายแรกของคำว่า"ไม่พาราเมตริก"เกี่ยวข้องกับเทคนิคที่ไม่ต้องอาศัยข้อมูลที่อยู่ในตระกูลการแจกแจงความน่าจะเป็นแบบพาราเมตริกใดๆ ซึ่งรวมถึงเทคนิคต่างๆ ดังต่อไปนี้:

  • วิธีการที่ไม่ขึ้นกับการกระจายตัวของข้อมูล ซึ่งไม่ขึ้นอยู่กับสมมติฐานว่าข้อมูลนั้นได้มาจากตระกูลการกระจายความน่าจะเป็น แบบพาราเมตริก ที่ กำหนดไว้
  • สถิติถูกนิยามว่าเป็นฟังก์ชันของตัวอย่าง โดยไม่ขึ้นอยู่กับพารามิเตอร์ ใด ๆ

ตัวอย่างหนึ่งคือสถิติเชิงลำดับซึ่งอิงตามการจัดอันดับตามลำดับของข้อมูลสังเกตการณ์

การอภิปรายต่อไปนี้นำมาจากทฤษฎีสถิติขั้นสูงของ Kendall [ 3 ]

สมมติฐานทางสถิติเกี่ยวข้องกับพฤติกรรมของตัวแปรสุ่มที่สังเกตได้... ตัวอย่างเช่น สมมติฐาน (ก) ที่ว่าการแจกแจงแบบปกติมีค่าเฉลี่ยและความแปรปรวนที่ระบุไว้ เป็นสมมติฐานทางสถิติ เช่นเดียวกับสมมติฐาน (ข) ที่ว่าการแจกแจงนั้นมีค่าเฉลี่ยที่กำหนดแต่ความแปรปรวนไม่ระบุ เช่นเดียวกับสมมติฐาน (ค) ที่ว่าการแจกแจงนั้นมีรูปแบบปกติโดยที่ทั้งค่าเฉลี่ยและความแปรปรวนไม่ระบุ และสุดท้าย สมมติฐาน (ง) ที่ว่าการแจกแจงต่อเนื่องสองแบบที่ไม่ระบุนั้นเหมือนกัน ก็เป็นสมมติฐานทางสถิติเช่นกัน

จะสังเกตได้ว่าในตัวอย่าง (a) และ (b) การกระจายตัวของข้อมูลที่สังเกตได้นั้นถือว่าเป็นรูปแบบหนึ่ง (แบบปกติ) และสมมติฐานนั้นเกี่ยวข้องกับค่าของพารามิเตอร์หนึ่งตัวหรือทั้งสองตัวเท่านั้น สมมติฐานเช่นนี้ ด้วยเหตุผลที่ชัดเจน จึงเรียกว่าสมมติฐานแบบพาราเมตริก

สมมติฐาน (c) มีลักษณะที่แตกต่างออกไป เนื่องจากไม่มีการระบุค่าพารามิเตอร์ใดๆ ในข้อความของสมมติฐาน เราอาจเรียกสมมติฐานดังกล่าวว่า สมมติฐานแบบไม่ใช้พารามิเตอร์ (nonparametric ) ได้อย่างเหมาะสม สมมติฐาน (d) ก็เป็นสมมติฐานแบบไม่ใช้พารามิเตอร์เช่นกัน แต่ยิ่งไปกว่านั้น ยังไม่ได้ระบุรูปแบบพื้นฐานของการแจกแจง และอาจเรียกได้ว่า สมมติฐานแบบไม่ขึ้นกับการแจกแจง ( distribution-free ) ได้อย่างเหมาะสม แม้จะมีความแตกต่างเหล่านี้ แต่ในเอกสารทางสถิติโดยทั่วไปมักใช้คำว่า "ไม่ใช้พารามิเตอร์" กับวิธีการทดสอบที่เราเพิ่งเรียกว่า "ไม่ขึ้นกับการแจกแจง" ซึ่งทำให้สูญเสียการจำแนกประเภทที่มีประโยชน์ไป

ความหมายที่สองของคำว่า"ไม่ใช้พารามิเตอร์"เกี่ยวข้องกับเทคนิคที่ไม่ถือว่าโครงสร้างของแบบจำลองนั้นคงที่ โดยทั่วไปแล้ว แบบจำลองจะมีขนาดใหญ่ขึ้นเพื่อรองรับความซับซ้อนของข้อมูล ในเทคนิคเหล่านี้ ตัวแปรแต่ละตัว มัก จะถือว่าอยู่ในกลุ่มการแจกแจงแบบพารามิเตอร์ และมีการตั้งสมมติฐานเกี่ยวกับประเภทของความสัมพันธ์ระหว่างตัวแปรด้วย เทคนิคเหล่านี้ได้แก่:

  • การถดถอยแบบไม่ใช้พารามิเตอร์คือการสร้างแบบจำลองที่พิจารณาโครงสร้างความสัมพันธ์ระหว่างตัวแปรโดยไม่ใช้พารามิเตอร์ แต่กระนั้นก็อาจมีการตั้งสมมติฐานแบบพารามิเตอร์เกี่ยวกับการกระจายของค่าความคลาดเคลื่อนของแบบจำลองได้
  • แบบจำลองเบย์เซียนแบบลำดับชั้นที่ไม่ใช้พารามิเตอร์เช่น แบบจำลองที่อิงตามกระบวนการ Dirichletซึ่งอนุญาตให้จำนวนตัวแปรแฝงเพิ่มขึ้นได้ตามความจำเป็นเพื่อให้เหมาะสมกับข้อมูล แต่ตัวแปรแต่ละตัวยังคงเป็นไปตามการแจกแจงแบบพารามิเตอร์ และแม้แต่กระบวนการที่ควบคุมอัตราการเติบโตของตัวแปรแฝงก็ยังเป็นไปตามการแจกแจงแบบพารามิเตอร์

การใช้งานและวัตถุประสงค์

วิธีการทางสถิติแบบไม่พาราเมตริกถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาประชากรที่มีลำดับ (เช่น บทวิจารณ์ภาพยนตร์ที่ได้รับคะแนนหนึ่งถึงห้าดาว) การใช้วิธีการทางสถิติแบบไม่พาราเมตริกอาจมีความจำเป็นเมื่อข้อมูลมีลำดับแต่ไม่มี การตีความเชิง ตัวเลข ที่ชัดเจน เช่น เมื่อประเมินความชอบในแง่ของระดับการวัดวิธีการทางสถิติแบบไม่พาราเมตริกจะให้ผลลัพธ์เป็นข้อมูลเชิงลำดับ

เนื่องจากวิธีการแบบไม่ใช้พารามิเตอร์นั้นตั้งสมมติฐานน้อยกว่า จึงสามารถนำไปใช้ได้ทั่วไปมากกว่าวิธีการแบบใช้พารามิเตอร์ โดยเฉพาะอย่างยิ่ง สามารถนำไปใช้ในสถานการณ์ที่ทราบข้อมูลเกี่ยวกับแอปพลิเคชันนั้นๆ น้อย นอกจากนี้ เนื่องจากอาศัยสมมติฐานน้อยกว่า วิธีการแบบไม่ใช้พารามิเตอร์จึงมีความแข็งแกร่งกว่า

วิธีการแบบไม่พาราเมตริกบางครั้งถูกมองว่าใช้งานง่ายกว่าและมีความเสถียรกว่าวิธีการแบบพาราเมตริก แม้ว่าข้อสมมติฐานของวิธีการแบบพาราเมตริกจะถูกต้องก็ตาม เนื่องจากวิธีการแบบไม่พาราเมตริกมีลักษณะทั่วไปมากกว่า ทำให้มีโอกาสน้อยที่จะถูกนำไปใช้ผิดวิธีหรือเข้าใจผิด วิธีการแบบไม่พาราเมตริกจึงถือเป็นทางเลือกที่รอบคอบ เพราะจะยังคงใช้งานได้แม้ว่าข้อสมมติฐานจะไม่เป็นไปตามที่กำหนด ในขณะที่วิธีการแบบพาราเมตริกอาจให้ผลลัพธ์ที่ผิดพลาดได้เมื่อข้อสมมติฐานถูกละเมิด

ข้อดีของการทดสอบแบบไม่ใช้พารามิเตอร์คือสามารถนำไป ใช้ได้ในวงกว้างกว่าและมีความแข็งแกร่ง กว่า แต่ ก็มีข้อเสียเช่นกัน กล่าวคือ ในกรณีที่เงื่อนไขของการทดสอบแบบใช้พารามิเตอร์เป็นไปตามที่กำหนด การทดสอบแบบไม่ใช้พารามิเตอร์จะมีกำลังทางสถิติ น้อยกว่า กล่าวอีกนัยหนึ่งคือ อาจต้องใช้ขนาดตัวอย่างที่ใหญ่ขึ้นเพื่อให้ได้ข้อสรุปที่มีระดับความมั่นใจเท่ากัน

แบบจำลองที่ไม่ใช้พารามิเตอร์

แบบจำลองที่ไม่ใช้พารามิเตอร์แตกต่างจาก แบบจำลอง ที่ใช้พารามิเตอร์ตรงที่โครงสร้างของแบบจำลองไม่ได้ถูกกำหนดไว้ล่วงหน้าแต่จะถูกกำหนดจากข้อมูล คำว่า"ไม่ใช้พารามิเตอร์"ไม่ได้หมายความว่าแบบจำลองเหล่านั้นไม่มีพารามิเตอร์เลย แต่หมายความว่าจำนวนและลักษณะของพารามิเตอร์นั้นมีความยืดหยุ่นและไม่ตายตัว

การทดสอบแบบไม่ใช้พารามิเตอร์

วิธีการทางสถิติเชิงอนุมานแบบไม่ใช้พารามิเตอร์ (หรือแบบไม่ขึ้นกับการกระจายตัว ) คือกระบวนการทางคณิตศาสตร์สำหรับการทดสอบสมมติฐานทางสถิติ ซึ่งแตกต่างจากสถิติแบบใช้พารามิเตอร์ตรงที่ไม่ตั้งสมมติฐานใดๆ เกี่ยวกับการกระจายความน่าจะเป็นของตัวแปรที่กำลังประเมิน การทดสอบที่ใช้บ่อยที่สุด ได้แก่

สถิติทางคณิตศาสตร์

ในสถิติทางคณิตศาสตร์แบบจำลองที่ไม่ใช้พารามิเตอร์ถือเป็นแบบจำลองที่ไม่ต้องอาศัยสมมติฐานพารามิเตอร์ของการกระจายข้อมูลที่ไม่ทราบ (ใน ปัญหา การประมาณความหนาแน่น ) หรือของฟังก์ชันการถดถอย (ใน ปัญหา การถดถอย ) ในขณะที่เป้าหมายของแบบจำลองพารามิเตอร์ใดๆ คือการประมาณค่าพารามิเตอร์จำนวนจำกัดแบบจำลองที่ไม่ใช้พารามิเตอร์มีเป้าหมายเพื่อประมาณค่าการกระจายข้อมูล/ฟังก์ชันการถดถอยโดยตรง[ 5 ] [ 6 ]

อย่างไรก็ตาม สำหรับการวิเคราะห์ทางคณิตศาสตร์ วิธีการแบบพาราเมตริกและแบบไม่พาราเมตริกนั้นอยู่ในบริบทเดียวกัน กล่าวคือ สมมติว่าฟังก์ชันที่จะประมาณค่า (การกระจายข้อมูลหรือฟังก์ชันการถดถอย) เป็นส่วนหนึ่งของเซตของฟังก์ชันที่กำหนดโดยเซตของพารามิเตอร์ เราจะค้นหาฟังก์ชัน (ที่วัดได้) ที่ประมาณค่าพารามิเตอร์ "ที่แท้จริง" โดยอาศัยจุดข้อมูลความแตกต่างที่สำคัญระหว่างวิธีการแบบพาราเมตริกและแบบไม่พาราเมตริกคือ ในกรณีแรกจะใช้ค่าพารามิเตอร์สำหรับบางค่าในขณะที่ในกรณีหลังโดยทั่วไปแล้วค่าพารามิเตอร์จะเป็นเซตของฟังก์ชันเป้าหมายที่เป็นไปได้เอง เช่น เซตของฟังก์ชันต่อเนื่องหรือฟังก์ชันที่หาอนุพันธ์ได้

คำถามที่เกี่ยวข้องในสาขานี้เกี่ยวกับการสร้างตัวประมาณค่าที่สมเหตุสมผลความสอดคล้องอัตราการบรรจบกันและความเหมาะสมที่สุด และการประมาณค่าแบบปรับตัวได้[ 6 ]

ความสม่ำเสมอ

เช่นเดียวกับในสถิติเชิงพาราเมตริกคุณสมบัติที่พึงประสงค์สำหรับตัวประมาณค่าคือ ตัวประมาณค่าจะลู่เข้าสู่ฟังก์ชันเป้าหมายเมื่อขนาดตัวอย่างเข้าสู่ค่าอนันต์ นั่นคือ ข้อผิดพลาดในการประมาณค่าจะลู่เข้าสู่ศูนย์ โดยปกติแล้ว การประมาณค่าจะวัดในแง่ของระยะทางนอร์ม - ระหว่างและเนื่องจากตัวประมาณค่าเป็นฟังก์ชันของข้อมูลที่สุ่มเลือกมาการประมาณค่าจึงเป็นตัวแปรสุ่มเช่นกัน ดังนั้นเราจึงแยกแยะโหมดการลู่เข้าที่แตกต่างกันสองแบบ:

ความสอดคล้องที่อ่อนแอ: .

ความสม่ำเสมอสูง: แทบจะแน่นอน

ถ้าตัวประมาณค่ามีความสอดคล้องกันสำหรับตัวประมาณค่ากำลังสองที่สามารถอินทิเกรตได้ ทั้งหมด ก็จะเรียกว่า มีความสอดคล้อง กันแบบสากล[ 5 ]

ตัวประมาณค่าแบบไม่ใช้พารามิเตอร์ทั่วไปจำนวนมากมีความสอดคล้องกันในระดับอ่อน เช่นตัวประมาณค่า Nadarya-Watson , kNNsและ ตัว ประมาณค่าพหุนามเฉพาะที่ บางตัว [ 5 ]

อัตราการบรรจบกันที่เหมาะสมที่สุดของมินิแม็กซ์

หัวข้อสำคัญในการวิเคราะห์ทางสถิติของตัวประมาณค่าแบบไม่ใช้พารามิเตอร์คือ ความเร็วในการลู่เข้าสู่ฟังก์ชันเป้าหมายที่แท้จริงและความเร็วที่ว่านั้นเหมาะสมที่สุดหรือไม่ กล่าวคือ การลู่เข้าเร็วที่สุดเท่าที่จะเป็นไปได้ วิธีที่พบได้บ่อยที่สุดในการวัดความเร็วในการลู่เข้าของตัวประมาณค่าคือ อัตราการลู่เข้า แบบมินิแม็กซ์ซึ่งพิจารณาถึงการสูญเสียที่คาดหวังของตัวประมาณค่าในสถานการณ์ที่เลวร้ายที่สุด ภายใต้สมมติฐานบางประการเกี่ยวกับความเรียบของฟังก์ชันเราสามารถแสดงได้ว่ามีอัตราการลู่เข้าขั้นต่ำที่ไม่มีตัวประมาณค่าใดสามารถต่ำกว่าได้ ดังนั้นตัวประมาณค่าใด ๆ ที่บรรลุอัตราขั้นต่ำนี้จึงเรียกว่าเหมาะสมที่สุด

ในทางคณิตศาสตร์ ฟังก์ชันเป้าหมายจะถือว่าอยู่ในกลุ่มฟังก์ชันบางกลุ่มที่เรียกว่ากลุ่มสมมติฐานซึ่งทำให้เกิดการแจกแจงบนและคุณภาพการประมาณค่าของตัวประมาณจะวัดได้จากฟังก์ชันบางอย่างอัตราการลู่เข้าแบบมินิแม็กซ์ของคือลำดับของจำนวนจริงที่สอดคล้องกับโดยที่แสดงว่าตัวแปรสุ่มซึ่งสุ่มจุดข้อมูล มีการแจกแจง

ขอบล่างสากลของการประมาณค่าสำหรับกลุ่มสมมติฐานคือลำดับที่ค่า ต่ำสุด นั้นได้มาจากตัวประมาณค่าที่เป็นไปได้ทั้งหมด(นั่นคือฟังก์ชันที่วัดได้ ) โดยอิงจากการสังเกต

การวิเคราะห์โดยละเอียดของตัวประมาณค่าแบบไม่ใช้พารามิเตอร์จะแยกออกเป็น การประมาณความหนาแน่นของความน่าจะเป็น และฟังก์ชันการถดถอย

การประมาณความหนาแน่น

โดยทั่วไปแล้ว การประมาณค่าความหนาแน่นจะเกี่ยวข้องกับปริภูมิของฟังก์ชันที่มีบรรทัดฐานเซตย่อยของฟังก์ชันความหนาแน่นและตัวแปรสุ่มอิสระที่กระจายตามมาตรวัดที่มีความหนาแน่นซึ่งเป็นตัวสร้างข้อมูล

ค่าขอบล่างของมินิแม็กซ์เป็นที่ทราบกันดีสำหรับคู่ของคลาสฟังก์ชันและเมตริกการเปรียบเทียบ ที่แตกต่างกัน ตัวเลือกทั่วไปสำหรับค่าขอบล่างได้แก่:

  • : ปริภูมิของฟังก์ชันที่สามารถหาอนุพันธ์ได้ n ครั้ง โดยที่อนุพันธ์สูงสุดเป็นฟังก์ชันเรียบแบบ-Hölder
  • : พื้นที่ของฟังก์ชันเรียบแบบโซโบเลฟ ที่มี อนุพันธ์อ่อน ที่สามารถหาปริพันธ์กำลังสอง ได้
  • : พื้นที่ของฟังก์ชันเรียบแบบเบซอ ฟ

ในความเป็นจริง พื้นที่ Hölder และพื้นที่ Sobolev เป็นกรณีพิเศษของพื้นที่ Besov บางส่วน กล่าวคือสำหรับและ[ 7 ] ดังนั้น การหาขอบเขตล่างภายใต้สมมติฐานความเรียบของ Besov มักจะ เพียงพอ

ตัวเลือกทั่วไปสำหรับคือ: [ 6 ]

ตามทฤษฎีบทของ Scheffé ระยะทางความแปรผันรวมจะ เทียบเท่ากับระยะทาง -distance ของและ

ระดับความเรียบเนียน
[ 8 ][ 9 ][ 8 ]
[ 10 ]- - -

ขอบล่างของ MISE บางครั้งถูกนำไปเปรียบเทียบกับขอบเขต Cramér–Raoจากสถิติเชิงพารามิเตอร์ ซึ่งเป็นขอบล่างสำหรับ ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย ของตัวประมาณค่า ที่ไม่เอนเอียง ปกติของพารามิเตอร์: โดยที่คือข้อมูล Fisherของแบบจำลองเชิงพารามิเตอร์ และคือค่าคงที่บางค่า อัตราแบบไม่ใช้พารามิเตอร์จึงช้ากว่าอัตราแบบใช้พารามิเตอร์โดยเฉพาะในมิติขนาดใหญ่ และเข้าใกล้อัตราแบบใช้พารามิเตอร์เมื่อความเรียบของความหนาแน่นมีแนวโน้มเข้าสู่ค่าอนันต์

ตัวอย่างเช่น ตัวประมาณความหนาแน่นเคอร์เนลบรรลุขอบเขตล่างของ MISE ภายใต้คลาสสมมติฐาน Sobolev ภายใต้การเลือกแบนด์วิดท์ที่เหมาะสม และจึงเหมาะสมที่สุดแบบมินิแม็กซ์[ 6 ]เมื่อไม่นานมานี้โมเดลสร้างแบบอิงคะแนน ยัง แสดงให้เห็นว่าบรรลุอัตราการบรรจบกันแบบมินิแม็กซ์ในความแปรผันทั้งหมดและในระยะทาง Wasserstein-1 สำหรับการกระจายแบบเรียบ -smooth ซึ่งมีขอบเขตห่างจากศูนย์จากด้านล่าง[ 11 ]

การถดถอย

ใน การวิเคราะห์ การถดถอยข้อมูลจะปรากฏเป็นคู่ๆโดยสมมติว่าข้อมูลเป็นอิสระต่อกันและมีการกระจายแบบเดียวกัน และเราสามารถเขียนได้เสมอว่า โดยที่ เป็นฟังก์ชันการถดถอยที่จะประมาณค่า และ เป็นตัวแปรความคลาดเคลื่อน ที่สอดคล้องกับ และโดยทั่วไป ตัวแปรอิสระจะมีค่าอยู่ในลูกบาศก์หน่วยและเป็นจุดที่กำหนดบนตาราง (การออกแบบเชิงกำหนด) หรือมีการกระจายแบบสม่ำเสมอ (การออกแบบเชิงสุ่ม) ดังนั้น

การตั้งค่าข้างต้นใช้ได้กับการจำแนกแบบไบนารีเช่นกัน ในกรณีนั้น ค่าสังเกตจะมีเพียงสองค่า เช่น 0 และ 1 โดยที่และเมื่อกำหนดตัวประมาณค่าของ แล้วตัวจำแนกจะมีรูปแบบนั่นคือ จะจำแนกจุดเป็น 1 ถ้าความน่าจะเป็นที่ประมาณได้ของมากกว่า(และ 0 ในกรณีอื่น) อันที่จริง วิธีการจำแนกหลายวิธีมีรูปแบบดังกล่าว ตัวอย่างเช่นการถดถอยโลจิสติกการวิเคราะห์การจำแนกเชิงเส้นการวิเคราะห์การจำแนกเชิงกำลังสองและ วิธีการ เพื่อนบ้านใกล้ที่สุด k ตัวและเครื่องสนับสนุนเวกเตอร์

จากนั้น สำหรับการวิเคราะห์ทางสถิติ คลาสสมมติฐานจะมีรูปแบบสำหรับปริภูมิฟังก์ชันมาตรฐานบางอย่างและค่าคาดหวังจะคำนวณโดยสัมพันธ์กับการกระจายร่วมของและ(หรือเฉพาะในกรณีที่ เป็นค่าที่แน่นอน)

ในการวิเคราะห์การถดถอยแบบไม่ใช้พารามิเตอร์ ตัวเลือกทั่วไปสำหรับค่าต่างๆ ได้แก่:

  • : ปริภูมิของฟังก์ชันที่สามารถหาอนุพันธ์ได้ n ครั้ง โดยที่อนุพันธ์สูงสุดเป็นฟังก์ชันเรียบแบบ-Hölder
  • : พื้นที่ของฟังก์ชันเรียบแบบโซโบเลฟ ที่มี อนุพันธ์อ่อนที่สามารถอินทิเกรตได้

ตัวเลือกที่นิยมใช้ได้แก่:

  • : ค่าความคลาดเคลื่อนกำลังสองแบบจุดต่อจุด (MSE)
  • : นอร์มลำดับที่ -th
  • ระยะทางบรรทัดฐานสูงสุด

ภายใต้สมมติฐานทางเทคนิคบางประการ ขอบเขตล่างต่อไปนี้เป็นที่ทราบกันดี

ระดับความเรียบเนียน
[ 6 ] (การออกแบบที่กำหนด) [ 6 ] [ 12 ][ 6 ] [ 12 ]
- [ 12 ][ 12 ]

ตัวประมาณ พหุนามท้องถิ่นบางตัวมีค่าเหมาะสมที่สุดแบบมินิแม็กซ์เมื่อพิจารณาภายใต้เงื่อนไขใดๆเมื่อแบนด์วิดท์อยู่ในลำดับ[ 6 ] kNNยังมีค่าเหมาะสมที่สุดแบบมินิแม็กซ์เมื่อพิจารณา MSE ภายใต้เงื่อนไขและเมื่อพิจารณาภายใต้ เงื่อนไข เมื่อจำนวนเพื่อนบ้านที่พิจารณาอยู่ในลำดับและตามลำดับ[ 5 ]

ความสามารถในการปรับตัว

โดยทั่วไปแล้ว การเลือกค่าพารามิเตอร์ของแบบจำลอง (เช่น แบนด์วิดท์สำหรับวิธีการเคอร์เนล หรือจำนวนเพื่อนบ้านสำหรับ kNN) ที่จำเป็นเพื่อให้ได้อัตราการล convergence ที่เหมาะสมที่สุดนั้น มักขึ้นอยู่กับพารามิเตอร์ความเรียบของฟังก์ชันเป้าหมายที่ไม่ทราบค่า ซึ่งหมายความว่า ในทางปฏิบัติ หากไม่มีการประมาณค่าพารามิเตอร์ที่เหมาะสม วิธีการที่กล่าวมาข้างต้นก็จะไม่ใช่วิธีที่ดีที่สุด

แต่สิ่งที่สนใจคือวิธีการที่บรรลุอัตราการบรรจบกันที่เหมาะสมที่สุดแบบมินิแม็กซ์ ไม่เพียงแต่สำหรับพารามิเตอร์ความเรียบเฉพาะตัวหนึ่งเท่านั้น แต่ยังรวมถึงค่าต่างๆ ด้วย ให้คลาสสมมติฐานอยู่ในรูปแบบ(เช่นหรือ) และให้เป็นอัตราการบรรจบกันที่เหมาะสมที่สุดในแล้วตระกูลของตัวประมาณค่าจะเรียกว่าปรับตัวได้ในความหมายของมินิแม็กซ์หากมีค่าคงที่ที่ขึ้นอยู่กับ เท่านั้นที่ทำให้[ 6 ]กล่าวอีกนัยหนึ่งคือ จำเป็นต้องมีตัวประมาณค่าแบบปรับตัวได้เพื่อให้ได้อัตราการบรรจบกันแบบมินิแม็กซ์ในทุกคลาสสมมติฐานแต่โดยไม่ต้องใช้พารามิเตอร์ที่ไม่ทราบค่าเป็นอาร์กิวเมนต์ ตัวประมาณค่าแบบปรับตัวได้มักจะเกิดขึ้นจากการใช้ตัวประมาณค่าที่เหมาะสมที่สุดแบบมินิแม็กซ์สำหรับตระกูลของคลาสสมมติฐาน และโดยการประมาณค่าไฮเปอร์พารามิเตอร์ผ่านกระบวนการระดับสูงกว่า เช่น การประมาณความเสี่ยงที่ไม่เอนเอียงหรือ การตรวจ สอบแบบไขว้[ 5 ] [ 6 ]

ประวัติศาสตร์

สถิติแบบไม่ใช้พารามิเตอร์ในยุคแรกๆ ได้แก่ค่ามัธยฐาน (ศตวรรษที่ 13 หรือก่อนหน้านั้น ใช้ในการประมาณค่าโดยเอ็ดเวิร์ด ไรท์ในปี 1599 ดูค่ามัธยฐาน § ประวัติ ) และการทดสอบเครื่องหมายโดยจอห์น อาร์บัทนอต (1710) ในการวิเคราะห์อัตราส่วนเพศของมนุษย์เมื่อแรกเกิด (ดูการทดสอบเครื่องหมาย § ประวัติ ) [ 13 ] [ 14 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ "สถิติแบบไม่ใช้พารามิเตอร์ทั้งหมด" Springer Texts in Statistics . 2006. doi : 10.1007/0-387-30623-4 . ISBN 978-0-387-25145-5.
  2. ^ Pearce, J; Derrick, B (2019). "การทดสอบเบื้องต้น: ปีศาจแห่งสถิติ?" . Reinvention: An International Journal of Undergraduate Research . 12 (2). doi : 10.31273/reinvention.v12i2.339 .
  3. ^ Stuart A., Ord JK, Arnold S. (1999),ทฤษฎีสถิติขั้นสูงของ Kendall: เล่ม 2A—การอนุมานแบบคลาสสิกและแบบจำลองเชิงเส้นฉบับที่หก §20.2–20.3 ( Arnold )
  4. ^ Adikaram, KKLB; Hussein, MA; Effenberger, M.; Becker, T. (16 พฤศจิกายน 2015). "การระบุความพอดีเชิงเส้นสากล: วิธีการที่ไม่ขึ้นอยู่กับข้อมูล ค่าผิดปกติ และแบบจำลองการกระจายสัญญาณรบกวน และปราศจากการเติมข้อมูลที่ขาดหายหรือถูกลบ" PLOS ONE . ​​10 (11) e0141486. ​​Bibcode : 2015PLoSO..1041486A . doi : 10.1371/journal.pone.0141486 . ISSN 1932-6203 . PMC 4646355 . PMID 26571035 .   
  5. a b c d e Györfi, László; โคห์เลอร์, ไมเคิล; คริซิซัก, อดัม; เดิน, แฮร์โร (2002) ทฤษฎีการถดถอยแบบไม่อิงพารามิเตอร์แบบไม่มีการกระจาย นิวยอร์ก: สปริงเกอร์-แวร์แลกไอเอสบีเอ็น 0-387-95441-4.
  6. ^ a b c d e f g h i j Tsybakov, Alexandre (2009). Introduction to Nonparametric Estimation . Springer. ISBN 978-0-387-79051-0.
  7. ทรีเบล, ฮานส์ (1983) ทฤษฎีปริภูมิฟังก์ชัน . เอกสารทางคณิตศาสตร์ บีร์ฮอเซอร์ แวร์แล็ก. ไอเอสบีเอ็น 9783764313814.
  8. ^ a b Yang, Yuhong; Barron, Andrew (1999). "การกำหนดอัตราการลู่เข้าแบบมินิแม็กซ์ตามทฤษฎีสารสนเทศ" . Annals of Statistics . 27 (5): 1564– 1599.
  9. ^ Niles-Weed, Jonathan; Berthet, Quentin (2022). "การประมาณค่ามินิแม็กซ์ของความหนาแน่นเรียบในระยะทาง Wasserstein" . Annals of Statistics . 50 (3): 1519– 1540.
  10. ^ Boyd, David W.; Steele, J. Michael (1978). "ขอบเขตล่างสำหรับอัตราการประมาณความหนาแน่นแบบไม่ใช้พารามิเตอร์" Annals of Statistics . 6 (4): 932– 934.
  11. ^ Oko, Kazusato; Akiyama, Shunta; Suzuki, Taiji (2023). "แบบจำลองการแพร่กระจายคือตัวประมาณการการกระจายแบบมินิแม็กซ์ที่เหมาะสมที่สุด" . รายงานการประชุมนานาชาติว่าด้วยการเรียนรู้ของเครื่องครั้งที่ 40 . 202 : 26517– 26582.
  12. เอบีซีดีเนมีรอฟสกี้, อาร์คาดี (2000) หัวข้อใน สถิติไม่อิงพารามิเตอร์หน้า  5–31 .
  13. ^ Conover, WJ (1999), "บทที่ 3.4: การทดสอบเครื่องหมาย", สถิติเชิงปฏิบัติแบบไม่ใช้พารามิเตอร์ (ฉบับที่สาม), Wiley, หน้า  157–176 , ISBN 0-471-16068-7
  14. ^ Sprent, P. (1989), วิธีการทางสถิติแบบไม่พาราเมตริกประยุกต์ (ฉบับที่สอง), Chapman & Hall, ISBN 0-412-44980-3

เอกสารอ้างอิงทั่วไป

  • Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "การทดสอบแบบไม่ใช้พารามิเตอร์สำหรับข้อมูลที่สมบูรณ์", ISTE & WILEY: ลอนดอนและโฮโบเคน. ISBN 978-1-84821-269-5.
  • Corder, GW; Foreman, DI (2014). สถิติแบบไม่ใช้พารามิเตอร์: วิธีการทีละขั้นตอน . Wiley. ISBN 978-1-118-84031-3.
  • Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003). การอนุมานทางสถิติแบบไม่ใช้พารามิเตอร์ฉบับที่ 4 สำนักพิมพ์ CRC ISBN 0-8247-4052-1.
  • Hettmansperger, TP; McKean, JW (1998). วิธีการทางสถิติแบบไม่ใช้พารามิเตอร์ที่ทนทาน . ห้องสมุดสถิติของ Kendall. เล่มที่ 5. ลอนดอน: Edward Arnold . ISBN 0-340-54937-8MR 1604954 ​และ ISBNด้วย 0-471-19479-4.
  • Hollander M., Wolfe DA, Chicken E. (2014). วิธีการทางสถิติแบบไม่ใช้พารามิเตอร์ , John Wiley & Sons.
  • เชสกิน, เดวิด เจ. (2003) คู่มือวิธีการทางสถิติแบบพาราเมตริกและไม่พาราเมตริกสำนักพิมพ์ซีอาร์ซีISBN 1-58488-440-1
  • วาสเซอร์แมน, แลร์รี (2007). สถิติแบบไม่ใช้พารามิเตอร์ทั้งหมด , สปริงเกอร์. ISBN 0-387-25145-6.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Nonparametric_statistics&oldid=1358572609 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สถิติแบบไม่ใช้พารามิเตอร์

สถิติแบบไม่ใช้พารามิเตอร์เป็นประเภทของการวิเคราะห์ทางสถิติที่ตั้งสมมติฐานน้อยที่สุดเกี่ยวกับการกระจาย พื้นฐาน ของข้อมูลที่กำลังศึกษา โดยทั่วไปแบบจำลองเหล่านี้จะมีมิติอนันต์...

คำจำกัดความ

คำว่า "สถิติแบบไม่ใช้พารามิเตอร์" ได้รับการนิยามอย่างไม่แม่นยำในสองลักษณะดังต่อไปนี้:

การใช้งานและวัตถุประสงค์

วิธีการทางสถิติแบบไม่พาราเมตริกถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาประชากรที่มีลำดับ (เช่น บทวิจารณ์ภาพยนตร์ที่ได้รับคะแนนหนึ่งถึงห้าดาว) การใช้วิธีการทางสถิติแบบไม่พาราเมตริกอาจมีความจำเป็นเมื่อข้อมูลมี ลำดับ แต่ไม่มี การตีความเชิง ตัวเลข ที่ชัดเจน เช่น...

แบบจำลองที่ไม่ใช้พารามิเตอร์

แบบจำลองที่ไม่ใช้พารามิเตอร์ แตกต่างจาก แบบจำลอง ที่ใช้พารามิเตอร์ ตรงที่โครงสร้างของแบบจำลองไม่ได้ถูกกำหนดไว้ ล่วงหน้า แต่จะถูกกำหนดจากข้อมูล คำว่า "ไม่ใช้พารามิเตอร์" ไม่ได้หมายความว่าแบบจำลองเหล่านั้นไม่มีพารามิเตอร์เลย...