อ่าน 4 นาที
มัลโลว์สซีพี
ข้อผิดพลาด CS1: ละเว้นเป็นระยะๆ/Regression diagnostics/การเลือกตัวแปรการถดถอย
ในทางสถิติ ค่าของMallows ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า...
มัลโลว์สซีพี
ในทางสถิติ ค่าของMallows [ 1 ] [ 2 ]ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า โดยใช้กำลังสองน้อยที่สุดแบบธรรมดาโดยจะนำไปใช้ในบริบทของการเลือกแบบจำลอง ซึ่งมี ตัวแปรทำนายจำนวนหนึ่งสำหรับทำนายผลลัพธ์บางอย่าง และเป้าหมายคือการหาแบบจำลองที่ดีที่สุดโดยใช้ตัวแปรทำนายย่อยบางส่วน ค่าที่น้อยหมายความว่าแบบจำลองมีความแม่นยำค่อนข้างสูง
เกณฑ์ของ Mallows นั้น 'เทียบเท่าโดยพื้นฐาน' [ 3 ]กับเกณฑ์ข้อมูลของ Akaikeในกรณีของการถดถอยเชิงเส้น ความเท่าเทียมกันนี้เป็นเพียงเชิงอะซิมโทติกเท่านั้นAkaike [ 4 ]ตั้งข้อสังเกตว่าต้องอาศัยการตัดสินใจเชิงอัตวิสัยในการเลือกค่าประมาณความแปรปรวนที่เกี่ยวข้องกับการตอบสนองแต่ละรายการในแบบจำลองเชิงเส้น (โดยทั่วไปจะใช้สัญลักษณ์)
คำจำกัดความและคุณสมบัติ
งาน ของ Mallows กล่าวถึงปัญหาการโอเวอร์ฟิตติ้ง (overfitting ) ซึ่งสถิติการเลือกแบบจำลอง เช่น ผลรวมกำลังสองของค่าคลาดเคลื่อน (residual sum of squares) จะมีค่าน้อยลงเสมอเมื่อเพิ่มตัวแปรเข้าไปในแบบจำลองมากขึ้น ดังนั้น หากเราต้องการเลือกแบบจำลองที่ให้ผลรวมกำลังสองของค่าคลาดเคลื่อนน้อยที่สุด แบบจำลองที่รวมตัวแปรทั้งหมดก็จะถูกเลือกเสมอ แต่สถิติที่คำนวณจากข้อมูลตัวอย่าง จะประมาณค่าผล รวมกำลังสองของข้อผิดพลาดในการทำนาย (SSPE) เป็นเป้าหมาย ของ ประชากร
โดยที่คือค่าที่ได้จากการประมาณจากแบบจำลองการถดถอยสำหรับกรณีที่i , E ( Y i | X i ) คือค่าที่คาดหวังสำหรับ กรณีที่ iและคือความแปรปรวนของข้อผิดพลาด (ถือว่าคงที่ในทุกกรณี) ค่าเฉลี่ยกำลังสองของข้อผิดพลาดในการทำนาย (MSPE) จะไม่ลดลงโดยอัตโนมัติเมื่อมีการเพิ่มตัวแปรมากขึ้น แบบจำลองที่เหมาะสมที่สุดภายใต้เกณฑ์นี้คือแบบจำลองประนีประนอมที่ได้รับอิทธิพลจากขนาดของกลุ่มตัวอย่างขนาดผลกระทบของตัวทำนายต่างๆ และระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรเหล่านั้น
ถ้า เลือก ตัวแปรอิสระp ตัว จากชุด ตัวแปรอิสระ k ตัวโดยที่k > pค่าสถิติสำหรับชุดตัวแปรอิสระนั้นจะถูกกำหนดดังนี้:
ที่ไหน
- คือผลรวมกำลังสองของความคลาดเคลื่อนสำหรับแบบจำลองที่มีตัวแปรอิสระp ตัว
- คือ ค่า ที่คาดการณ์ได้ของ การสังเกตครั้งที่ iของYจากตัวแปรอิสระp ตัว
- S 2คือการประมาณค่าความแปรปรวนของค่าตกค้างหลังจากการถดถอยบนชุดตัวแปรอิสระk ตัว ที่สมบูรณ์ และสามารถประมาณค่าได้โดย [ 1 ]
- และNคือขนาด ของกลุ่ม ตัวอย่าง
คำจำกัดความทางเลือก
เมื่อพิจารณาแบบจำลองเชิงเส้น เช่น:
ที่ไหน:
- คือค่าสัมประสิทธิ์สำหรับตัวแปรทำนาย
- แสดงถึงข้อผิดพลาด
เวอร์ชันอื่นของสามารถกำหนดได้ดังนี้: [ 5 ]
ที่ไหน
- RSS คือผลรวมกำลังสองของค่าความคลาดเคลื่อนบนชุดข้อมูลฝึกฝน
- pคือจำนวนตัวแปรทำนาย
- และหมายถึงค่าประมาณของความแปรปรวนที่เกี่ยวข้องกับแต่ละการตอบสนองในแบบจำลองเชิงเส้น (ซึ่งประมาณจากแบบจำลองที่มีตัวแปรทำนายทั้งหมด)
โปรดทราบว่าเวอร์ชันนี้ไม่ได้ให้ค่าที่เทียบเท่ากับเวอร์ชันก่อนหน้า แต่แบบจำลองที่มีค่าต่ำที่สุดจากคำจำกัดความนี้จะเป็นแบบจำลองเดียวกันกับแบบจำลองที่มีค่าต่ำที่สุดจากคำจำกัดความก่อนหน้า ด้วย
ข้อจำกัด
เกณฑ์ดังกล่าวมีข้อจำกัดหลักสองประการ[ 6 ]
- การประมาณค่า นี้ใช้ได้เฉพาะกับขนาดตัวอย่างขนาดใหญ่เท่านั้น
- ' ไม่สามารถจัดการกับชุดโมเดลที่ซับซ้อนได้ เช่น ในปัญหาการเลือกตัวแปร (หรือการเลือกคุณลักษณะ ) [ 6 ]
การใช้งานจริง
สถิติ นี้มักใช้เป็นกฎการหยุดสำหรับรูปแบบต่างๆ ของการถดถอยแบบทีละขั้นตอน Mallows เสนอสถิตินี้เป็นเกณฑ์สำหรับการเลือกการถดถอยย่อยทางเลือกมากมาย ภายใต้แบบจำลองที่ไม่ประสบปัญหาการขาดความเหมาะสม (อคติ) ที่เห็นได้ชัดจะมีค่าคาดหวังเกือบเท่ากับpมิฉะนั้น ค่าคาดหวังจะประมาณPบวกกับพจน์อคติที่เป็นบวก อย่างไรก็ตาม แม้ว่าจะมีค่าคาดหวังมากกว่าหรือเท่ากับp ก็ไม่มีอะไรที่จะป้องกันC p < pหรือแม้แต่ในกรณีที่รุนแรง มีการแนะนำว่าควรเลือกชุดย่อยที่มีค่าเข้าใกล้p [ 7 ]จากข้างต้น สำหรับรายการชุดย่อยที่เรียงลำดับตามp ที่เพิ่มขึ้น ในทางปฏิบัติ สามารถปรับอคติที่เป็นบวกได้โดยการเลือกแบบจำลองจากรายการชุดย่อยที่เรียงลำดับไว้เช่น
เนื่องจากสถิติที่ได้จากตัวอย่างเป็นการประมาณค่า MSPE การนำไปใช้ในการเลือกแบบจำลองจึงไม่ได้ป้องกันการเกิดภาวะโอเวอร์ฟิตติ้งได้อย่างสมบูรณ์ ตัวอย่างเช่น เป็นไปได้ว่าแบบจำลองที่เลือกจะเป็นแบบจำลองที่ค่าตัวอย่างต่ำกว่าความเป็นจริงอย่างมากเมื่อเทียบกับค่า MSPE
โดยทั่วไป แล้ว สถิติการเลือกแบบจำลองจะไม่ถูกนำมาใช้โดยไม่พิจารณาอย่างรอบคอบ แต่จะมีการพิจารณาข้อมูลเกี่ยวกับสาขาการประยุกต์ใช้ วัตถุประสงค์การใช้งานของแบบจำลอง และอคติที่ทราบในข้อมูล ในกระบวนการเลือกแบบจำลองด้วย
ดูเพิ่มเติม
อ่านเพิ่มเติม
- Chow, Gregory C. (1983). เศรษฐศาสตร์เชิงปริมาณ . นิวยอร์ก: McGraw-Hill. หน้า 291–293 . ISBN 978-0-07-010847-9.
- Hocking, RR (1976). "การวิเคราะห์และการเลือกตัวแปรในการถดถอยเชิงเส้น". Biometrics . 32 (1): 1– 50. CiteSeerX 10.1.1.472.4742 . doi : 10.2307/2529336 . JSTOR 2529336 .
- Judge, George G.; Griffiths, William E.; Hill, R. Carter; Lee, Tsoung-Chao (1980). ทฤษฎีและการปฏิบัติของเศรษฐศาสตร์เชิงปริมาณ . นิวยอร์ก: Wiley. หน้า 417–423 . ISBN 978-0-471-05938-7.
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ มัลโลว์สซีพี
ในทางสถิติ ค่าของMallows ซึ่งตั้งชื่อตามColin Lingwood Mallowsใช้ในการประเมินความเหมาะสมของแบบจำลองการถดถอย ที่ประมาณค่า...
คำจำกัดความและคุณสมบัติ
งาน ของ Mallows กล่าวถึงปัญหา การโอเวอร์ฟิตติ้ง (overfitting ) ซึ่งสถิติการเลือกแบบจำลอง เช่น ผลรวมกำลังสองของค่าคลาดเคลื่อน (residual sum of squares) จะมีค่าน้อยลงเสมอเมื่อเพิ่มตัวแปรเข้าไปในแบบจำลองมากขึ้น ดังนั้น...
ข้อจำกัด
เกณฑ์ดังกล่าวมีข้อจำกัดหลักสองประการ [ 6 ] ซี พี {\displaystyle C_{p}}
การใช้งานจริง
สถิติ นี้มักใช้เป็นกฎการหยุดสำหรับรูปแบบต่างๆ ของ การถดถอยแบบทีละขั้นตอน Mallows เสนอสถิตินี้เป็นเกณฑ์สำหรับการเลือกการถดถอยย่อยทางเลือกมากมาย ภายใต้แบบจำลองที่ไม่ประสบปัญหาการขาดความเหมาะสม (อคติ) ที่เห็นได้ชัดจะมีค่าคาดหวังเกือบเท่ากับ p มิฉะนั้น...