กลับไปหน้าบทความ

อ่าน 4 นาที

มัลโลว์สซีพี

ข้อผิดพลาด CS1: ละเว้นเป็นระยะๆ/Regression diagnostics/การเลือกตัวแปรการถดถอย

ในทางสถิติ ค่าของMallows ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า...

มัลโลว์สซีพี

ในทางสถิติ ค่าของMallows [ 1 ] [ 2 ]ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า โดยใช้กำลังสองน้อยที่สุดแบบธรรมดาโดยจะนำไปใช้ในบริบทของการเลือกแบบจำลอง ซึ่งมี ตัวแปรทำนายจำนวนหนึ่งสำหรับทำนายผลลัพธ์บางอย่าง และเป้าหมายคือการหาแบบจำลองที่ดีที่สุดโดยใช้ตัวแปรทำนายย่อยบางส่วน ค่าที่น้อยหมายความว่าแบบจำลองมีความแม่นยำค่อนข้างสูง

เกณฑ์ของ Mallows นั้น 'เทียบเท่าโดยพื้นฐาน' [ 3 ]กับเกณฑ์ข้อมูลของ Akaikeในกรณีของการถดถอยเชิงเส้น ความเท่าเทียมกันนี้เป็นเพียงเชิงอะซิมโทติกเท่านั้นAkaike [ 4 ]ตั้งข้อสังเกตว่าต้องอาศัยการตัดสินใจเชิงอัตวิสัยในการเลือกค่าประมาณความแปรปรวนที่เกี่ยวข้องกับการตอบสนองแต่ละรายการในแบบจำลองเชิงเส้น (โดยทั่วไปจะใช้สัญลักษณ์)

คำจำกัดความและคุณสมบัติ

งาน ของ Mallows กล่าวถึงปัญหาการโอเวอร์ฟิตติ้ง (overfitting ) ซึ่งสถิติการเลือกแบบจำลอง เช่น ผลรวมกำลังสองของค่าคลาดเคลื่อน (residual sum of squares) จะมีค่าน้อยลงเสมอเมื่อเพิ่มตัวแปรเข้าไปในแบบจำลองมากขึ้น ดังนั้น หากเราต้องการเลือกแบบจำลองที่ให้ผลรวมกำลังสองของค่าคลาดเคลื่อนน้อยที่สุด แบบจำลองที่รวมตัวแปรทั้งหมดก็จะถูกเลือกเสมอ แต่สถิติที่คำนวณจากข้อมูลตัวอย่าง จะประมาณค่าผล รวมกำลังสองของข้อผิดพลาดในการทำนาย (SSPE) เป็นเป้าหมาย ของ ประชากร

โดยที่คือค่าที่ได้จากการประมาณจากแบบจำลองการถดถอยสำหรับกรณีที่i , E ( Y i  |  X i ) คือค่าที่คาดหวังสำหรับ กรณีที่ iและคือความแปรปรวนของข้อผิดพลาด (ถือว่าคงที่ในทุกกรณี) ค่าเฉลี่ยกำลังสองของข้อผิดพลาดในการทำนาย (MSPE) จะไม่ลดลงโดยอัตโนมัติเมื่อมีการเพิ่มตัวแปรมากขึ้น แบบจำลองที่เหมาะสมที่สุดภายใต้เกณฑ์นี้คือแบบจำลองประนีประนอมที่ได้รับอิทธิพลจากขนาดของกลุ่มตัวอย่างขนาดผลกระทบของตัวทำนายต่างๆ และระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรเหล่านั้น

ถ้า เลือก ตัวแปรอิสระp ตัว จากชุด ตัวแปรอิสระ k ตัวโดยที่k > pค่าสถิติสำหรับชุดตัวแปรอิสระนั้นจะถูกกำหนดดังนี้:

ที่ไหน

คำจำกัดความทางเลือก

เมื่อพิจารณาแบบจำลองเชิงเส้น เช่น:

ที่ไหน:

  • คือค่าสัมประสิทธิ์สำหรับตัวแปรทำนาย
  • แสดงถึงข้อผิดพลาด

เวอร์ชันอื่นของสามารถกำหนดได้ดังนี้: [ 5 ]

ที่ไหน

  • RSS คือผลรวมกำลังสองของค่าความคลาดเคลื่อนบนชุดข้อมูลฝึกฝน
  • pคือจำนวนตัวแปรทำนาย
  • และหมายถึงค่าประมาณของความแปรปรวนที่เกี่ยวข้องกับแต่ละการตอบสนองในแบบจำลองเชิงเส้น (ซึ่งประมาณจากแบบจำลองที่มีตัวแปรทำนายทั้งหมด)

โปรดทราบว่าเวอร์ชันนี้ไม่ได้ให้ค่าที่เทียบเท่ากับเวอร์ชันก่อนหน้า แต่แบบจำลองที่มีค่าต่ำที่สุดจากคำจำกัดความนี้จะเป็นแบบจำลองเดียวกันกับแบบจำลองที่มีค่าต่ำที่สุดจากคำจำกัดความก่อนหน้า ด้วย

ข้อจำกัด

เกณฑ์ดังกล่าวมีข้อจำกัดหลักสองประการ[ 6 ]

  1. การประมาณค่า นี้ใช้ได้เฉพาะกับขนาดตัวอย่างขนาดใหญ่เท่านั้น
  2. ' ไม่สามารถจัดการกับชุดโมเดลที่ซับซ้อนได้ เช่น ในปัญหาการเลือกตัวแปร (หรือการเลือกคุณลักษณะ ) [ 6 ]

การใช้งานจริง

สถิติ นี้มักใช้เป็นกฎการหยุดสำหรับรูปแบบต่างๆ ของการถดถอยแบบทีละขั้นตอน Mallows เสนอสถิตินี้เป็นเกณฑ์สำหรับการเลือกการถดถอยย่อยทางเลือกมากมาย ภายใต้แบบจำลองที่ไม่ประสบปัญหาการขาดความเหมาะสม (อคติ) ที่เห็นได้ชัดจะมีค่าคาดหวังเกือบเท่ากับpมิฉะนั้น ค่าคาดหวังจะประมาณPบวกกับพจน์อคติที่เป็นบวก อย่างไรก็ตาม แม้ว่าจะมีค่าคาดหวังมากกว่าหรือเท่ากับp ก็ไม่มีอะไรที่จะป้องกันC p < pหรือแม้แต่ในกรณีที่รุนแรง มีการแนะนำว่าควรเลือกชุดย่อยที่มีค่าเข้าใกล้p [ 7 ]จากข้างต้น สำหรับรายการชุดย่อยที่เรียงลำดับตามp ที่เพิ่มขึ้น ในทางปฏิบัติ สามารถปรับอคติที่เป็นบวกได้โดยการเลือกแบบจำลองจากรายการชุดย่อยที่เรียงลำดับไว้เช่น

เนื่องจากสถิติที่ได้จากตัวอย่างเป็นการประมาณค่า MSPE การนำไปใช้ในการเลือกแบบจำลองจึงไม่ได้ป้องกันการเกิดภาวะโอเวอร์ฟิตติ้งได้อย่างสมบูรณ์ ตัวอย่างเช่น เป็นไปได้ว่าแบบจำลองที่เลือกจะเป็นแบบจำลองที่ค่าตัวอย่างต่ำกว่าความเป็นจริงอย่างมากเมื่อเทียบกับค่า MSPE

โดยทั่วไป แล้ว สถิติการเลือกแบบจำลองจะไม่ถูกนำมาใช้โดยไม่พิจารณาอย่างรอบคอบ แต่จะมีการพิจารณาข้อมูลเกี่ยวกับสาขาการประยุกต์ใช้ วัตถุประสงค์การใช้งานของแบบจำลอง และอคติที่ทราบในข้อมูล ในกระบวนการเลือกแบบจำลองด้วย

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Chow, Gregory C. (1983). เศรษฐศาสตร์เชิงปริมาณ . นิวยอร์ก: McGraw-Hill. หน้า  291–293 . ISBN 978-0-07-010847-9.
  • Hocking, RR (1976). "การวิเคราะห์และการเลือกตัวแปรในการถดถอยเชิงเส้น". Biometrics . 32 (1): 1– 50. CiteSeerX  10.1.1.472.4742 . doi : 10.2307/2529336 . JSTOR  2529336 .
  • Judge, George G.; Griffiths, William E.; Hill, R. Carter; Lee, Tsoung-Chao (1980). ทฤษฎีและการปฏิบัติของเศรษฐศาสตร์เชิงปริมาณ . นิวยอร์ก: Wiley. หน้า  417–423 . ISBN 978-0-471-05938-7.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Mallows%27s_Cp&oldid=1326939476 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ มัลโลว์สซีพี

ในทางสถิติ ค่าของMallows ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า...

คำจำกัดความและคุณสมบัติ

งาน ของ Mallows กล่าวถึงปัญหา การโอเวอร์ฟิตติ้ง (overfitting ) ซึ่งสถิติการเลือกแบบจำลอง เช่น ผลรวมกำลังสองของค่าคลาดเคลื่อน (residual sum of squares) จะมีค่าน้อยลงเสมอเมื่อเพิ่มตัวแปรเข้าไปในแบบจำลองมากขึ้น ดังนั้น...

ข้อจำกัด

เกณฑ์ดังกล่าวมีข้อจำกัดหลักสองประการ [ 6 ] ซี พี {\displaystyle C_{p}}

การใช้งานจริง

สถิติ นี้มักใช้เป็นกฎการหยุดสำหรับรูปแบบต่างๆ ของ การถดถอยแบบทีละขั้นตอน Mallows เสนอสถิตินี้เป็นเกณฑ์สำหรับการเลือกการถดถอยย่อยทางเลือกมากมาย ภายใต้แบบจำลองที่ไม่ประสบปัญหาการขาดความเหมาะสม (อคติ) ที่เห็นได้ชัดจะมีค่าคาดหวังเกือบเท่ากับ p มิฉะนั้น...