กลับไปหน้าบทความ

อ่าน 6 นาที

แบบจำลองทางสถิติ

แบบจำลองทางสถิติเป็นแบบจำลองทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานทางสถิติเกี่ยวกับการสร้างข้อมูลตัวอย่าง (และข้อมูลที่คล้ายกันจากประชากร ขนาดใหญ่ )...

แบบจำลองทางสถิติ

แบบจำลองทางสถิติเป็นแบบจำลองทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานทางสถิติเกี่ยวกับการสร้างข้อมูลตัวอย่าง (และข้อมูลที่คล้ายกันจากประชากร ขนาดใหญ่ ) แบบจำลองทางสถิติแสดงถึงกระบวนการสร้างข้อมูลซึ่ง มักจะอยู่ในรูปแบบอุดมคติ [ 1 ]เมื่อกล่าวถึงความน่าจะเป็น โดยเฉพาะ คำที่เกี่ยวข้องคือแบบจำลองความน่าจะเป็น การทดสอบสมมติฐานทางสถิติทั้งหมดและตัวประมาณค่าทางสถิติ ทั้งหมด ได้มาจากการใช้แบบจำลองทางสถิติ โดยทั่วไปแล้ว แบบจำลองทางสถิติเป็นส่วนหนึ่งของรากฐานของการอนุมานทางสถิติ แบบจำลอง ทางสถิติมักจะระบุเป็นความสัมพันธ์ทางคณิตศาสตร์ระหว่างตัวแปรสุ่ม หนึ่งตัวหรือมากกว่า กับตัวแปรที่ไม่ใช่สุ่มอื่นๆ ดังนั้น แบบจำลองทางสถิติจึงเป็น "การแสดงทฤษฎีอย่างเป็นทางการ" ( เฮอร์แมน อาเดอร์อ้างคำพูดของเคนเนธ โบเลน ) [ 2 ]

การแนะนำ

โดยทั่วไปแล้ว แบบจำลองทางสถิติอาจคิดได้ว่าเป็นสมมติฐานทางสถิติ (หรือชุดของสมมติฐานทางสถิติ) ที่มีคุณสมบัติบางประการ คือ สมมติฐานนั้นช่วยให้เราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ ใดๆ ได้ ตัวอย่างเช่น ลองพิจารณา ลูกเต๋าหกด้านธรรมดาคู่หนึ่งเราจะศึกษาถึงสมมติฐานทางสถิติสองแบบที่แตกต่างกันเกี่ยวกับลูกเต๋าคู่นี้

ข้อสมมติฐานทางสถิติข้อแรกคือ: สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่หน้าแต่ละหน้า (1, 2, 3, 4, 5 และ 6) จะออกมาคือ1/6จากสมมติฐานนั้น เราสามารถคำนวณความน่าจะเป็นที่ลูกเต๋าทั้งสองลูกจะออกเลข 5 ได้ ดังนี้:1/6×1/6=1/36โดย ทั่วไป แล้วเราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ เช่น (1 และ 2) หรือ (3 และ 3) หรือ (5 และ 6) สมมติฐานทางสถิติอีกแบบหนึ่งคือ สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่หน้า 5 จะออกมาคือ1/8(เนื่องจากลูกเต๋ามีน้ำหนัก ) จากสมมติฐานนั้น เราสามารถคำนวณความน่าจะเป็นที่ลูกเต๋าทั้งสองลูกจะออกเลข 5 ได้ :1/8×1/8=1/64อย่างไรก็ตาม เราไม่สามารถคำนวณความน่าจะ เป็น ของเหตุการณ์อื่นที่ไม่ใช่เหตุการณ์สำคัญได้ เนื่องจากความน่าจะเป็นของด้านอื่นๆ นั้นไม่เป็นที่ทราบแน่ชัด

ข้อสมมติทางสถิติข้อแรกถือเป็นแบบจำลองทางสถิติ เพราะด้วยข้อสมมตินี้เพียงอย่างเดียว เราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ ส่วนข้อสมมติทางสถิติข้อที่สองไม่ถือเป็นแบบจำลองทางสถิติ เพราะด้วยข้อสมมตินี้เพียงอย่างเดียว เราไม่สามารถคำนวณความน่าจะเป็นของทุกเหตุการณ์ได้ ในตัวอย่างข้างต้น ด้วยข้อสมมติข้อแรก การคำนวณความน่าจะเป็นของเหตุการณ์นั้นง่าย แต่ในตัวอย่างอื่นๆ การคำนวณอาจยาก หรือแม้แต่เป็นไปไม่ได้ในทางปฏิบัติ (เช่น อาจต้องใช้เวลาคำนวณหลายล้านปี) สำหรับข้อสมมติที่จะถือเป็นแบบจำลองทางสถิติ ความยากลำบากเช่นนี้เป็นที่ยอมรับได้ การคำนวณไม่จำเป็นต้องทำได้จริง เพียงแค่เป็นไปได้ในทางทฤษฎีก็พอ

คำจำกัดความอย่างเป็นทางการ

ในทางคณิตศาสตร์ แบบจำลองทางสถิติคือคู่ ( ) โดยที่คือเซตของการสังเกตที่เป็นไปได้ กล่าวคือปริภูมิของตัวอย่างและคือเซตของการแจกแจงความน่าจะเป็นบน[ 3 ]เซตแสดงถึงแบบจำลองทั้งหมดที่ถือว่าเป็นไปได้ เซตนี้มักจะถูกกำหนดพารามิเตอร์: เซตกำหนดพารามิเตอร์ของแบบจำลอง หากการกำหนดพารามิเตอร์เป็นเช่นนั้น ค่าพารามิเตอร์ที่แตกต่างกันทำให้เกิดการแจกแจงที่แตกต่างกัน กล่าวคือ(กล่าวอีกนัยหนึ่ง การแมปเป็นแบบหนึ่งต่อหนึ่ง ) จะกล่าวได้ว่าสามารถระบุได้[ 3 ]

ในบางกรณี โมเดลอาจมีความซับซ้อนมากกว่านี้

  • ในสถิติแบบเบย์เซียน แบบจำลองจะถูกขยายโดยการ เพิ่มการแจกแจงความน่าจะเป็นเหนือพื้นที่พารามิเตอร์
  • แบบจำลองทางสถิติบางครั้งสามารถแยกแยะชุดการแจกแจงความน่าจะเป็นได้สองชุด ชุดแรกคือชุดของแบบจำลองที่ใช้ในการอนุมาน ชุดที่สองคือชุดของแบบจำลองที่อาจสร้างข้อมูลได้ ซึ่งมีขนาดใหญ่กว่ามากแบบจำลองทางสถิติดังกล่าวมีความสำคัญในการตรวจสอบว่ากระบวนการที่กำหนดนั้นมีความแข็งแกร่งกล่าวคือ ไม่ก่อให้เกิดข้อผิดพลาดร้ายแรงเมื่อสมมติฐานเกี่ยวกับข้อมูลไม่ถูกต้อง

ตัวอย่าง

สมมติว่าเรามีประชากรเด็กกลุ่มหนึ่ง โดยที่อายุของเด็กกระจายตัวอย่างสม่ำเสมอในประชากร ความสูงของเด็กจะมี ความสัมพันธ์ แบบสุ่มกับอายุ เช่น เมื่อเรารู้ว่าเด็กคนหนึ่งอายุ 7 ปี โอกาสที่เด็กคนนั้นจะสูง 1.5 เมตรก็จะมีมากขึ้น เราสามารถกำหนดความสัมพันธ์นั้นใน แบบจำลอง การถดถอยเชิงเส้นได้ดังนี้: ความสูงi  = b 0  + b 1อายุi  + ε iโดยที่b 0คือค่าคงที่b 1คือพารามิเตอร์ที่ใช้คูณอายุเพื่อทำนายความสูง ε iคือค่าความคลาดเคลื่อน และiแทนตัวเด็ก ซึ่งหมายความว่าความสูงถูกทำนายโดยอายุ โดยมีค่าความคลาดเคลื่อนอยู่บ้าง

แบบจำลองที่ยอมรับได้ต้องสอดคล้องกับจุดข้อมูลทั้งหมด ดังนั้น เส้นตรง (ความสูงi  = b 0  + b 1อายุi ) จึงไม่สามารถยอมรับได้สำหรับแบบจำลองของข้อมูล เว้นแต่ว่ามันจะพอดีกับจุดข้อมูลทั้งหมดอย่างแม่นยำ กล่าวคือ จุดข้อมูลทั้งหมดอยู่บนเส้นตรงนั้นอย่างสมบูรณ์ ต้องมีพจน์ความคลาดเคลื่อน ε iรวมอยู่ในสมการด้วย เพื่อให้แบบจำลองสอดคล้องกับจุดข้อมูลทั้งหมด ในการอนุมานทางสถิติเราจำเป็นต้องสมมติการแจกแจงความน่าจะเป็นสำหรับ ε i ก่อน ตัวอย่างเช่น เราอาจสมมติว่าการแจกแจง ε iเป็น แบบเกาส์ เซียนอิสระและมีการแจกแจงเหมือนกัน (iid) โดยมีค่าเฉลี่ยเป็นศูนย์ ในกรณีนี้ แบบจำลองจะมีพารามิเตอร์ 3 ตัว ได้แก่b 0 , b 1และความแปรปรวนของการแจกแจงแบบเกาส์เซียน เราสามารถระบุแบบจำลองอย่างเป็นทางการในรูปแบบ ( ) ได้ดังนี้ ปริภูมิของตัวอย่าง ของแบบจำลองของเราประกอบด้วยเซตของคู่ที่เป็นไปได้ทั้งหมด (อายุ ความสูง) แต่ละค่าที่เป็นไปได้ของ = ( b 0 , b 1 , σ 2 ) จะกำหนดการกระจายบน; ให้ใช้สัญลักษณ์ แทนการกระจายนั้นถ้าคือเซตของค่าที่เป็นไปได้ทั้งหมดของ แล้ว(การกำหนดพารามิเตอร์สามารถระบุได้ และตรวจสอบได้ง่าย)

ในตัวอย่างนี้ แบบจำลองถูกกำหนดโดย (1) การระบุและ (2) การสมมติบางประการที่เกี่ยวข้องกับ มีข้อสมมติสองประการคือ ความสูงสามารถประมาณได้ด้วยฟังก์ชันเชิงเส้นของอายุ และข้อผิดพลาดในการประมาณนั้นมีการกระจายแบบเกาส์เซียนอิสระและเหมือนกัน ข้อสมมติเหล่านี้เพียงพอที่จะระบุ—ตามที่จำเป็นต้องทำ

ข้อสังเกตทั่วไป

แบบจำลองทางสถิติเป็น แบบจำลองทางคณิตศาสตร์ประเภทพิเศษสิ่งที่ทำให้แบบจำลองทางสถิติแตกต่างจากแบบจำลองทางคณิตศาสตร์อื่นๆ คือ แบบจำลองทางสถิติเป็นแบบไม่ กำหนด (non- deterministic ) ดังนั้น ในแบบจำลองทางสถิติที่ระบุผ่านสมการทางคณิตศาสตร์ ตัวแปรบางตัวไม่มีค่าที่แน่นอน แต่มีเพียงการแจกแจงความน่าจะเป็น กล่าวคือ ตัวแปรบางตัวเป็นตัวแปรสุ่ม (stochastic variables ) ในตัวอย่างข้างต้นเกี่ยวกับความสูงของเด็ก ε เป็นตัวแปรสุ่ม หากไม่มีตัวแปรสุ่มนี้ แบบจำลองจะเป็นแบบกำหนด (deterministic) แบบจำลองทางสถิติมักถูกนำมาใช้แม้ว่ากระบวนการสร้างข้อมูลที่กำลังจำลองจะเป็นแบบกำหนดก็ตาม ตัวอย่างเช่นการโยนเหรียญโดยหลักการแล้วเป็นกระบวนการแบบกำหนด แต่โดยทั่วไปแล้วมักจำลองเป็นแบบสุ่ม (ผ่านกระบวนการเบอร์นูลลี ) การเลือกแบบจำลองทางสถิติที่เหมาะสมเพื่อแสดงกระบวนการสร้างข้อมูลที่กำหนดนั้นบางครั้งยากมาก และอาจต้องมีความรู้ทั้งในกระบวนการและการวิเคราะห์ทางสถิติที่เกี่ยวข้อง ในทำนองเดียวกัน นักสถิติเซอร์เดวิด ค็อกซ์กล่าวว่า "การแปลจากปัญหาเนื้อหาไปสู่แบบจำลองทางสถิติมักจะเป็นส่วนที่สำคัญที่สุดของการวิเคราะห์" [ 4 ]

ตามที่ Konishi & Kitagawa กล่าวไว้ แบบจำลองทางสถิติมีวัตถุประสงค์สามประการ: [ 5 ]

  1. การคาดการณ์
  2. การสกัดข้อมูล
  3. คำอธิบายโครงสร้างสุ่ม

วัตถุประสงค์ทั้งสามประการนั้นโดยพื้นฐานแล้วเหมือนกับวัตถุประสงค์สามประการที่ Friendly & Meyer ระบุไว้ ได้แก่ การทำนาย การประเมิน และการบรรยาย[ 6 ]

มิติของแบบจำลอง

สมมติว่าเรามีแบบจำลองทางสถิติ ( ) ที่มีในสัญลักษณ์ เราเขียนว่าโดยที่kเป็นจำนวนเต็มบวก ( แทนจำนวนจริง ; ในทางทฤษฎีสามารถใช้เซตอื่นได้) ในที่นี้kเรียกว่ามิติของแบบจำลอง แบบจำลองจะเรียกว่าเป็นแบบจำลองพาราเมตริกถ้ามีมิติจำกัด ตัวอย่างเช่น ถ้าเราสมมติว่าข้อมูลมาจากการแจกแจงแบบเกาส์เซียน แบบเอกตัวแปร แสดงว่าเรากำลังสมมติว่า

.

ในตัวอย่างนี้ มิติkเท่ากับ 2 อีกตัวอย่างหนึ่ง สมมติว่าข้อมูลประกอบด้วยจุด ( x , y ) ที่เราถือว่ามีการกระจายตามเส้นตรงที่มีค่าคลาดเคลื่อนแบบเกาส์เซียนอิสระและมีการแจกแจงเหมือนกัน (โดยมีค่าเฉลี่ยเป็นศูนย์) ซึ่งจะนำไปสู่แบบจำลองทางสถิติแบบเดียวกับที่ใช้ในตัวอย่างความสูงของเด็ก มิติของแบบจำลองทางสถิติคือ 3 ได้แก่ จุดตัดแกน y ของเส้นตรง ความชันของเส้นตรง และความแปรปรวนของการแจกแจงของค่าคลาดเคลื่อน (โปรดทราบว่าเซตของเส้นตรงที่เป็นไปได้ทั้งหมดมีมิติ 2 แม้ว่าในทางเรขาคณิต เส้นตรงจะมีมิติ 1 ก็ตาม)

แม้ว่าในทางทฤษฎีแล้วพารามิเตอร์จะเป็นพารามิเตอร์เดียวที่มีมิติkแต่บางครั้งก็ถือว่าประกอบด้วยพารามิเตอร์แยกกันk ตัว ตัวอย่างเช่น สำหรับการแจกแจงแบบเกาส์เซียนแบบตัวแปรเดียว พารามิเตอร์จะเป็นพารามิเตอร์เดียวที่มีมิติ 2 แต่โดยทั่วไปมักถือว่าประกอบด้วยพารามิเตอร์แยกกัน 2 ตัว คือ ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน แบบจำลองทางสถิติเรียกว่าแบบไม่พาราเมตริกหากชุดพารามิเตอร์มีมิติอนันต์ แบบจำลองทางสถิติเรียกว่าแบบกึ่งพาราเมตริกหากมีทั้งพารามิเตอร์ที่มีมิติจำกัดและอนันต์ ในทางทฤษฎี ถ้าkคือมิติของและnคือจำนวนตัวอย่าง ทั้งแบบจำลองกึ่งพาราเมตริกและแบบไม่พาราเมตริกจะมีเมื่อถ้าเมื่อแบบจำลองจะเป็นแบบกึ่งพาราเมตริก มิฉะนั้น แบบจำลองจะเป็นแบบไม่พาราเมตริก

แบบจำลองพาราเมตริกเป็นแบบจำลองทางสถิติที่ใช้กันมากที่สุด ในส่วนของแบบจำลองกึ่งพาราเมตริกและแบบจำลองไม่พาราเมตริกเซอร์เดวิด ค็อกซ์กล่าวว่า "โดยทั่วไปแล้วแบบจำลองเหล่านี้จะมีข้อสมมติเกี่ยวกับโครงสร้างและรูปแบบการกระจายน้อยกว่า แต่โดยปกติแล้วจะมีข้อสมมติที่เข้มงวดเกี่ยวกับความเป็นอิสระ" [ 7 ]

โมเดลแบบซ้อนกัน

แบบจำลองทางสถิติสองแบบจะซ้อนกันหากแบบจำลองแรกสามารถแปลงเป็นแบบจำลองที่สองได้โดยการกำหนดข้อจำกัดให้กับพารามิเตอร์ของแบบจำลองแรก ตัวอย่างเช่น เซตของการแจกแจงแบบเกาส์เซียนทั้งหมด มีเซตของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์ซ้อนอยู่ภายใน กล่าวคือ เรากำหนดข้อจำกัดให้กับค่าเฉลี่ยในเซตของการแจกแจงแบบเกาส์เซียนทั้งหมดเพื่อให้ได้การแจกแจงที่มีค่าเฉลี่ยเป็นศูนย์ ตัวอย่างที่สองคือแบบจำลองกำลังสอง

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩(0, σ 2 )

ภายในนั้นมีแบบจำลองเชิงเส้นซ้อนอยู่

y  = b 0  + b 1 x  + ε, ε ~ 𝒩(0, σ 2 )

—เรากำหนดให้พารามิเตอร์b 2เท่ากับ 0

ในทั้งสองตัวอย่างนั้น แบบจำลองแรกมีมิติสูงกว่าแบบจำลองที่สอง (ในตัวอย่างแรก แบบจำลองที่มีค่าเฉลี่ยเป็นศูนย์มีมิติ 1) ซึ่งมักจะเป็นเช่นนั้น แต่ก็ไม่เสมอไป ตัวอย่างเช่น ในกรณีที่แบบจำลองมีมิติเท่ากัน ชุดของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นบวกจะอยู่ภายในชุดของการแจกแจงแบบเกาส์เซียนทั้งหมด ซึ่งทั้งสองชุดมีมิติ 2 เท่ากัน

การเปรียบเทียบโมเดล

การเปรียบเทียบแบบจำลองทางสถิติเป็นพื้นฐานสำคัญสำหรับงานอนุมานทางสถิติหลายด้านKonishi & Kitagawa (2008 , หน้า 75) กล่าวว่า "ปัญหาส่วนใหญ่ในงานอนุมานทางสถิติสามารถพิจารณาได้ว่าเป็นปัญหาที่เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติ โดยทั่วไปแล้วจะถูกกำหนดในรูปแบบของการเปรียบเทียบแบบจำลองทางสถิติหลายแบบ" เกณฑ์ทั่วไปสำหรับการเปรียบเทียบแบบจำลอง ได้แก่ปัจจัยเบย์สเกณฑ์สารสนเทศของอะไคเกะและการทดสอบอัตราส่วนความน่าจะเป็นรวมถึงการขยายความของมัน คือความน่าจะเป็นสัมพัทธ์

อีกวิธีหนึ่งในการเปรียบเทียบแบบจำลองทางสถิติสองแบบคือผ่านแนวคิดเรื่องความบกพร่อง ที่ Lucien Le Camนำเสนอ[ 8 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ค็อกซ์ 2006 , หน้า 178
  2. ^ Adèr 2008 , หน้า  280
  3. ^ a b McCullagh 2002
  4. ^ค็อกซ์ 2006 , หน้า 197
  5. โคนิชิและคิตากาว่า 2008 , §1.1
  6. ^ Friendly & Meyer 2016 , §11.6
  7. ^ค็อกซ์ 2006 , หน้า 2
  8. ^ Le Cam, Lucien (1964). "ความเพียงพอและความเพียงพอโดยประมาณ" . Annals of Mathematical Statistics . 35 (4). Institute of Mathematical Statistics : 1429. doi : 10.1214/aoms/1177700372 .

อ่านเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Statistical_model&oldid=1359301522 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แบบจำลองทางสถิติ

แบบจำลองทางสถิติเป็นแบบจำลองทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานทางสถิติเกี่ยวกับการสร้างข้อมูลตัวอย่าง (และข้อมูลที่คล้ายกันจากประชากร ขนาดใหญ่ )...

การแนะนำ

โดยทั่วไปแล้ว แบบจำลองทางสถิติอาจคิดได้ว่าเป็น สมมติฐานทางสถิติ (หรือชุดของสมมติฐานทางสถิติ) ที่มีคุณสมบัติบางประการ คือ สมมติฐานนั้นช่วยให้เราสามารถคำนวณความน่าจะเป็นของ เหตุการณ์ ใดๆ ได้ ตัวอย่างเช่น ลองพิจารณา ลูกเต๋าหก...

คำจำกัดความอย่างเป็นทางการ

ในทางคณิตศาสตร์ แบบจำลองทางสถิติคือคู่ ( ) โดยที่คือเซตของการสังเกตที่เป็นไปได้ กล่าวคือปริภูมิ ของตัวอย่าง และคือเซตของ การแจกแจงความน่าจะเป็น บน [ 3 ] เซตแสดงถึงแบบจำลองทั้งหมดที่ถือว่าเป็นไปได้ เซตนี้มักจะถูกกำหนดพารามิเตอร์: เซตกำหนด พารามิเตอร์...

ตัวอย่าง

สมมติว่าเรามีประชากรเด็กกลุ่มหนึ่ง โดยที่อายุของเด็กกระจายตัวอย่าง สม่ำเสมอ ในประชากร ความสูงของเด็กจะมี ความสัมพันธ์ แบบสุ่ม กับอายุ เช่น เมื่อเรารู้ว่าเด็กคนหนึ่งอายุ 7 ปี โอกาสที่เด็กคนนั้นจะสูง 1.