แบบจำลองทางสถิติ

แบบจำลองทางสถิติเป็นแบบจำลองทางคณิตศาสตร์ที่รวบรวมชุดสมมติฐานทางสถิติเกี่ยวกับการสร้างข้อมูลตัวอย่าง (และข้อมูลที่คล้ายกันจากประชากร ขนาดใหญ่ ) แบบจำลองทางสถิติแสดงถึงกระบวนการสร้างข้อมูลซึ่ง มักจะอยู่ในรูปแบบอุดมคติ ^{[ 1 ]}เมื่อกล่าวถึงความน่าจะเป็น โดยเฉพาะ คำที่เกี่ยวข้องคือแบบจำลองความน่าจะเป็น การทดสอบสมมติฐานทางสถิติทั้งหมดและตัวประมาณค่าทางสถิติ ทั้งหมด ได้มาจากการใช้แบบจำลองทางสถิติ โดยทั่วไปแล้ว แบบจำลองทางสถิติเป็นส่วนหนึ่งของรากฐานของการอนุมานทางสถิติ แบบจำลอง ทางสถิติมักจะระบุเป็นความสัมพันธ์ทางคณิตศาสตร์ระหว่างตัวแปรสุ่ม หนึ่งตัวหรือมากกว่า กับตัวแปรที่ไม่ใช่สุ่มอื่นๆ ดังนั้น แบบจำลองทางสถิติจึงเป็น "การแสดงทฤษฎีอย่างเป็นทางการ" ( เฮอร์แมน อาเดอร์อ้างคำพูดของเคนเนธ โบเลน ) ^{[ 2 ]}

การแนะนำ

โดยทั่วไปแล้ว แบบจำลองทางสถิติอาจคิดได้ว่าเป็นสมมติฐานทางสถิติ (หรือชุดของสมมติฐานทางสถิติ) ที่มีคุณสมบัติบางประการ คือ สมมติฐานนั้นช่วยให้เราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ ใดๆ ได้ ตัวอย่างเช่น ลองพิจารณา ลูกเต๋าหกด้านธรรมดาคู่หนึ่งเราจะศึกษาถึงสมมติฐานทางสถิติสองแบบที่แตกต่างกันเกี่ยวกับลูกเต๋าคู่นี้

ข้อสมมติฐานทางสถิติข้อแรกคือ: สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่หน้าแต่ละหน้า (1, 2, 3, 4, 5 และ 6) จะออกมาคือ⁠1/6จากสมมติฐานนั้น เราสามารถคำนวณความน่าจะเป็นที่ลูกเต๋าทั้งสองลูกจะออกเลข 5 ได้ ดังนี้:1/6×1/6=1/36โดย ทั่วไป แล้วเราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ เช่น (1 และ 2) หรือ (3 และ 3) หรือ (5 และ 6) สมมติฐานทางสถิติอีกแบบหนึ่งคือ สำหรับลูกเต๋าแต่ละลูก ความน่าจะเป็นที่หน้า 5 จะออกมาคือ1/8(เนื่องจากลูกเต๋ามีน้ำหนัก ) จากสมมติฐานนั้น เราสามารถคำนวณความน่าจะเป็นที่ลูกเต๋าทั้งสองลูกจะออกเลข 5 ได้ :1/8×1/8=1/64อย่างไรก็ตาม เราไม่สามารถคำนวณความน่าจะ เป็น ของเหตุการณ์อื่นที่ไม่ใช่เหตุการณ์สำคัญได้ เนื่องจากความน่าจะเป็นของด้านอื่นๆ นั้นไม่เป็นที่ทราบแน่ชัด

ข้อสมมติทางสถิติข้อแรกถือเป็นแบบจำลองทางสถิติ เพราะด้วยข้อสมมตินี้เพียงอย่างเดียว เราสามารถคำนวณความน่าจะเป็นของเหตุการณ์ใดๆ ก็ได้ ส่วนข้อสมมติทางสถิติข้อที่สองไม่ถือเป็นแบบจำลองทางสถิติ เพราะด้วยข้อสมมตินี้เพียงอย่างเดียว เราไม่สามารถคำนวณความน่าจะเป็นของทุกเหตุการณ์ได้ ในตัวอย่างข้างต้น ด้วยข้อสมมติข้อแรก การคำนวณความน่าจะเป็นของเหตุการณ์นั้นง่าย แต่ในตัวอย่างอื่นๆ การคำนวณอาจยาก หรือแม้แต่เป็นไปไม่ได้ในทางปฏิบัติ (เช่น อาจต้องใช้เวลาคำนวณหลายล้านปี) สำหรับข้อสมมติที่จะถือเป็นแบบจำลองทางสถิติ ความยากลำบากเช่นนี้เป็นที่ยอมรับได้ การคำนวณไม่จำเป็นต้องทำได้จริง เพียงแค่เป็นไปได้ในทางทฤษฎีก็พอ

คำจำกัดความอย่างเป็นทางการ

ในทางคณิตศาสตร์ แบบจำลองทางสถิติคือคู่ ( ) โดยที่คือเซตของการสังเกตที่เป็นไปได้ กล่าวคือปริภูมิของตัวอย่างและคือเซตของการแจกแจงความน่าจะเป็นบน^[³^]เซตแสดงถึงแบบจำลองทั้งหมดที่ถือว่าเป็นไปได้ เซตนี้มักจะถูกกำหนดพารามิเตอร์: เซตกำหนดพารามิเตอร์ของแบบจำลอง หากการกำหนดพารามิเตอร์เป็นเช่นนั้น ค่าพารามิเตอร์ที่แตกต่างกันทำให้เกิดการแจกแจงที่แตกต่างกัน กล่าวคือ(กล่าวอีกนัยหนึ่ง การแมปเป็นแบบหนึ่งต่อหนึ่ง ) จะกล่าวได้ว่าสามารถระบุได้^[³^] $S,{\mathcal {P}}$ $S$ ${\mathcal {P}}$ $S$ ${\mathcal {P}}$ ${\mathcal {P}}=\{F_{\theta }:\theta \in \Theta \}$ $\Theta$ $F_{\theta _{1}}=F_{\theta _{2}}\ลูกศรขวา \theta _{1}=\theta _{2}$

ในบางกรณี โมเดลอาจมีความซับซ้อนมากกว่านี้

ในสถิติแบบเบย์เซียน แบบจำลองจะถูกขยายโดยการ เพิ่มการแจกแจงความน่าจะเป็นเหนือพื้นที่พารามิเตอร์ $\Theta$
แบบจำลองทางสถิติบางครั้งสามารถแยกแยะชุดการแจกแจงความน่าจะเป็นได้สองชุด ชุดแรกคือชุดของแบบจำลองที่ใช้ในการอนุมาน ชุดที่สองคือชุดของแบบจำลองที่อาจสร้างข้อมูลได้ ซึ่งมีขนาดใหญ่กว่ามากแบบจำลองทางสถิติดังกล่าวมีความสำคัญในการตรวจสอบว่ากระบวนการที่กำหนดนั้นมีความแข็งแกร่งกล่าวคือ ไม่ก่อให้เกิดข้อผิดพลาดร้ายแรงเมื่อสมมติฐานเกี่ยวกับข้อมูลไม่ถูกต้อง ${\mathcal {Q}}=\{F_{\theta }:\theta \in \Theta \}$ ${\mathcal {P}}=\{F_{\lambda }:\lambda \in \Lambda \}$ ${\mathcal {Q}}$

ตัวอย่าง

สมมติว่าเรามีประชากรเด็กกลุ่มหนึ่ง โดยที่อายุของเด็กกระจายตัวอย่างสม่ำเสมอในประชากร ความสูงของเด็กจะมี ความสัมพันธ์ แบบสุ่มกับอายุ เช่น เมื่อเรารู้ว่าเด็กคนหนึ่งอายุ 7 ปี โอกาสที่เด็กคนนั้นจะสูง 1.5 เมตรก็จะมีมากขึ้น เราสามารถกำหนดความสัมพันธ์นั้นใน แบบจำลอง การถดถอยเชิงเส้นได้ดังนี้: ความสูง_i = b ₀ + b ₁อายุ_i + ε _iโดยที่b ₀คือค่าคงที่b ₁คือพารามิเตอร์ที่ใช้คูณอายุเพื่อทำนายความสูง ε _iคือค่าความคลาดเคลื่อน และiแทนตัวเด็ก ซึ่งหมายความว่าความสูงถูกทำนายโดยอายุ โดยมีค่าความคลาดเคลื่อนอยู่บ้าง

แบบจำลองที่ยอมรับได้ต้องสอดคล้องกับจุดข้อมูลทั้งหมด ดังนั้น เส้นตรง (ความสูง_i = b ₀ + b ₁อายุ_i ) จึงไม่สามารถยอมรับได้สำหรับแบบจำลองของข้อมูล เว้นแต่ว่ามันจะพอดีกับจุดข้อมูลทั้งหมดอย่างแม่นยำ กล่าวคือ จุดข้อมูลทั้งหมดอยู่บนเส้นตรงนั้นอย่างสมบูรณ์ ต้องมีพจน์ความคลาดเคลื่อน ε _iรวมอยู่ในสมการด้วย เพื่อให้แบบจำลองสอดคล้องกับจุดข้อมูลทั้งหมด ในการอนุมานทางสถิติเราจำเป็นต้องสมมติการแจกแจงความน่าจะเป็นสำหรับ ε _i ก่อน ตัวอย่างเช่น เราอาจสมมติว่าการแจกแจง ε _iเป็น แบบเกาส์ เซียนอิสระและมีการแจกแจงเหมือนกัน (iid) โดยมีค่าเฉลี่ยเป็นศูนย์ ในกรณีนี้ แบบจำลองจะมีพารามิเตอร์ 3 ตัว ได้แก่b ₀ , b ₁และความแปรปรวนของการแจกแจงแบบเกาส์เซียน เราสามารถระบุแบบจำลองอย่างเป็นทางการในรูปแบบ ( ) ได้ดังนี้ ปริภูมิของตัวอย่าง ของแบบจำลองของเราประกอบด้วยเซตของคู่ที่เป็นไปได้ทั้งหมด (อายุ ความสูง) แต่ละค่าที่เป็นไปได้ของ = ( b ₀ , b ₁ , σ ² ) จะกำหนดการกระจายบน; ให้ใช้สัญลักษณ์ แทนการกระจายนั้นถ้าคือเซตของค่าที่เป็นไปได้ทั้งหมดของ แล้ว(การกำหนดพารามิเตอร์สามารถระบุได้ และตรวจสอบได้ง่าย) $S,{\mathcal {P}}$ $S$ $\theta$ $S$ $F_{\theta }$ $\Theta$ $\theta$ ${\mathcal {P}}=\{F_{\theta }:\theta \in \Theta \}$

ในตัวอย่างนี้ แบบจำลองถูกกำหนดโดย (1) การระบุและ (2) การสมมติบางประการที่เกี่ยวข้องกับ มีข้อสมมติสองประการคือ ความสูงสามารถประมาณได้ด้วยฟังก์ชันเชิงเส้นของอายุ และข้อผิดพลาดในการประมาณนั้นมีการกระจายแบบเกาส์เซียนอิสระและเหมือนกัน ข้อสมมติเหล่านี้เพียงพอที่จะระบุ—ตามที่จำเป็นต้องทำ $S$ ${\mathcal {P}}$ ${\mathcal {P}}$

ข้อสังเกตทั่วไป

แบบจำลองทางสถิติเป็น แบบจำลองทางคณิตศาสตร์ประเภทพิเศษสิ่งที่ทำให้แบบจำลองทางสถิติแตกต่างจากแบบจำลองทางคณิตศาสตร์อื่นๆ คือ แบบจำลองทางสถิติเป็นแบบไม่ กำหนด (non- deterministic ) ดังนั้น ในแบบจำลองทางสถิติที่ระบุผ่านสมการทางคณิตศาสตร์ ตัวแปรบางตัวไม่มีค่าที่แน่นอน แต่มีเพียงการแจกแจงความน่าจะเป็น กล่าวคือ ตัวแปรบางตัวเป็นตัวแปรสุ่ม (stochastic variables ) ในตัวอย่างข้างต้นเกี่ยวกับความสูงของเด็ก ε เป็นตัวแปรสุ่ม หากไม่มีตัวแปรสุ่มนี้ แบบจำลองจะเป็นแบบกำหนด (deterministic) แบบจำลองทางสถิติมักถูกนำมาใช้แม้ว่ากระบวนการสร้างข้อมูลที่กำลังจำลองจะเป็นแบบกำหนดก็ตาม ตัวอย่างเช่นการโยนเหรียญโดยหลักการแล้วเป็นกระบวนการแบบกำหนด แต่โดยทั่วไปแล้วมักจำลองเป็นแบบสุ่ม (ผ่านกระบวนการเบอร์นูลลี ) การเลือกแบบจำลองทางสถิติที่เหมาะสมเพื่อแสดงกระบวนการสร้างข้อมูลที่กำหนดนั้นบางครั้งยากมาก และอาจต้องมีความรู้ทั้งในกระบวนการและการวิเคราะห์ทางสถิติที่เกี่ยวข้อง ในทำนองเดียวกัน นักสถิติเซอร์เดวิด ค็อกซ์กล่าวว่า "การแปลจากปัญหาเนื้อหาไปสู่แบบจำลองทางสถิติมักจะเป็นส่วนที่สำคัญที่สุดของการวิเคราะห์" ^{[ 4 ]}

ตามที่ Konishi & Kitagawa กล่าวไว้ แบบจำลองทางสถิติมีวัตถุประสงค์สามประการ: ^{[ 5 ]}

การคาดการณ์
การสกัดข้อมูล
คำอธิบายโครงสร้างสุ่ม

วัตถุประสงค์ทั้งสามประการนั้นโดยพื้นฐานแล้วเหมือนกับวัตถุประสงค์สามประการที่ Friendly & Meyer ระบุไว้ ได้แก่ การทำนาย การประเมิน และการบรรยาย^{[ 6 ]}

มิติของแบบจำลอง

สมมติว่าเรามีแบบจำลองทางสถิติ ( ) ที่มีในสัญลักษณ์ เราเขียนว่าโดยที่ $k$ เป็นจำนวนเต็มบวก ( แทนจำนวนจริง ; ในทางทฤษฎีสามารถใช้เซตอื่นได้) ในที่นี้ $k$ เรียกว่ามิติของแบบจำลอง แบบจำลองจะเรียกว่าเป็นแบบจำลองพาราเมตริกถ้ามีมิติจำกัด ตัวอย่างเช่น ถ้าเราสมมติว่าข้อมูลมาจากการแจกแจงแบบเกาส์เซียน แบบเอกตัวแปร แสดงว่าเรากำลังสมมติว่า $S,{\mathcal {P}}$ ${\mathcal {P}}=\{F_{\theta }:\theta \in \Theta \}$ $\Theta \subseteq \mathbb {R} ^{k}$ $\mathbb {R}$ $\Theta$

{\mathcal {P}}=\left\{F_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

.

ในตัวอย่างนี้ มิติ $k$ เท่ากับ 2 อีกตัวอย่างหนึ่ง สมมติว่าข้อมูลประกอบด้วยจุด ( $x$ , $y$ ) ที่เราถือว่ามีการกระจายตามเส้นตรงที่มีค่าคลาดเคลื่อนแบบเกาส์เซียนอิสระและมีการแจกแจงเหมือนกัน (โดยมีค่าเฉลี่ยเป็นศูนย์) ซึ่งจะนำไปสู่แบบจำลองทางสถิติแบบเดียวกับที่ใช้ในตัวอย่างความสูงของเด็ก มิติของแบบจำลองทางสถิติคือ 3 ได้แก่ จุดตัดแกน y ของเส้นตรง ความชันของเส้นตรง และความแปรปรวนของการแจกแจงของค่าคลาดเคลื่อน (โปรดทราบว่าเซตของเส้นตรงที่เป็นไปได้ทั้งหมดมีมิติ 2 แม้ว่าในทางเรขาคณิต เส้นตรงจะมีมิติ 1 ก็ตาม)

แม้ว่าในทางทฤษฎีแล้วพารามิเตอร์จะเป็นพารามิเตอร์เดียวที่มีมิติ $k$ แต่บางครั้งก็ถือว่าประกอบด้วยพารามิเตอร์แยกกัน $k$ ตัว ตัวอย่างเช่น สำหรับการแจกแจงแบบเกาส์เซียนแบบตัวแปรเดียว พารามิเตอร์จะเป็นพารามิเตอร์เดียวที่มีมิติ 2 แต่โดยทั่วไปมักถือว่าประกอบด้วยพารามิเตอร์แยกกัน 2 ตัว คือ ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน แบบจำลองทางสถิติเรียกว่าแบบไม่พาราเมตริกหากชุดพารามิเตอร์มีมิติอนันต์ แบบจำลองทางสถิติเรียกว่าแบบกึ่งพาราเมตริกหากมีทั้งพารามิเตอร์ที่มีมิติจำกัดและอนันต์ ในทางทฤษฎี ถ้า $k$ คือมิติของและ $n$ คือจำนวนตัวอย่าง ทั้งแบบจำลองกึ่งพาราเมตริกและแบบไม่พาราเมตริกจะมีเมื่อถ้าเมื่อแบบจำลองจะเป็นแบบกึ่งพาราเมตริก มิฉะนั้น แบบจำลองจะเป็นแบบไม่พาราเมตริก $\theta \in \Theta$ $\theta$ $\Theta$ $\Theta$ $k\ลูกศรขวา \infty$ $n\rightarrow \infty$ $k/n\rightarrow 0$ $n\rightarrow \infty$

แบบจำลองพาราเมตริกเป็นแบบจำลองทางสถิติที่ใช้กันมากที่สุด ในส่วนของแบบจำลองกึ่งพาราเมตริกและแบบจำลองไม่พาราเมตริกเซอร์เดวิด ค็อกซ์กล่าวว่า "โดยทั่วไปแล้วแบบจำลองเหล่านี้จะมีข้อสมมติเกี่ยวกับโครงสร้างและรูปแบบการกระจายน้อยกว่า แต่โดยปกติแล้วจะมีข้อสมมติที่เข้มงวดเกี่ยวกับความเป็นอิสระ" ^{[ 7 ]}

โมเดลแบบซ้อนกัน

แบบจำลองทางสถิติสองแบบจะซ้อนกันหากแบบจำลองแรกสามารถแปลงเป็นแบบจำลองที่สองได้โดยการกำหนดข้อจำกัดให้กับพารามิเตอร์ของแบบจำลองแรก ตัวอย่างเช่น เซตของการแจกแจงแบบเกาส์เซียนทั้งหมด มีเซตของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์ซ้อนอยู่ภายใน กล่าวคือ เรากำหนดข้อจำกัดให้กับค่าเฉลี่ยในเซตของการแจกแจงแบบเกาส์เซียนทั้งหมดเพื่อให้ได้การแจกแจงที่มีค่าเฉลี่ยเป็นศูนย์ ตัวอย่างที่สองคือแบบจำลองกำลังสอง

y = b 0 + b 1 x + b 2 x 2 + ε, ε ~ 𝒩(0, σ 2)

ภายในนั้นมีแบบจำลองเชิงเส้นซ้อนอยู่

y = b 0 + b 1 x + ε, ε ~ 𝒩(0, σ 2)

—เรากำหนดให้พารามิเตอร์ $b 2$ เท่ากับ 0

ในทั้งสองตัวอย่างนั้น แบบจำลองแรกมีมิติสูงกว่าแบบจำลองที่สอง (ในตัวอย่างแรก แบบจำลองที่มีค่าเฉลี่ยเป็นศูนย์มีมิติ 1) ซึ่งมักจะเป็นเช่นนั้น แต่ก็ไม่เสมอไป ตัวอย่างเช่น ในกรณีที่แบบจำลองมีมิติเท่ากัน ชุดของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นบวกจะอยู่ภายในชุดของการแจกแจงแบบเกาส์เซียนทั้งหมด ซึ่งทั้งสองชุดมีมิติ 2 เท่ากัน

การเปรียบเทียบโมเดล

การเปรียบเทียบแบบจำลองทางสถิติเป็นพื้นฐานสำคัญสำหรับงานอนุมานทางสถิติหลายด้านKonishi & Kitagawa (2008 , หน้า 75) กล่าวว่า "ปัญหาส่วนใหญ่ในงานอนุมานทางสถิติสามารถพิจารณาได้ว่าเป็นปัญหาที่เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติ โดยทั่วไปแล้วจะถูกกำหนดในรูปแบบของการเปรียบเทียบแบบจำลองทางสถิติหลายแบบ" เกณฑ์ทั่วไปสำหรับการเปรียบเทียบแบบจำลอง ได้แก่R² ปัจจัยเบย์สเกณฑ์สารสนเทศของอะไคเกะและการทดสอบอัตราส่วนความน่าจะเป็นรวมถึงการขยายความของมัน คือ^ความ น่าจะเป็นสัมพัทธ์

อีกวิธีหนึ่งในการเปรียบเทียบแบบจำลองทางสถิติสองแบบคือผ่านแนวคิดเรื่องความบกพร่อง ที่ Lucien Le Camนำเสนอ^{[ 8 ]}

ดูเพิ่มเติม

หมายเหตุ

^ค็อกซ์ 2006 , หน้า 178
^ Adèr 2008 , หน้า 280
^ ^a ^b McCullagh 2002
^ค็อกซ์ 2006 , หน้า 197
↑โคนิชิและคิตากาว่า 2008 , §1.1
^ Friendly & Meyer 2016 , §11.6
^ค็อกซ์ 2006 , หน้า 2
^ Le Cam, Lucien (1964). "ความเพียงพอและความเพียงพอโดยประมาณ" . Annals of Mathematical Statistics . 35 (4). Institute of Mathematical Statistics : 1429. doi : 10.1214/aoms/1177700372 .

อ่านเพิ่มเติม

เดวิสัน, เอซี (2008), แบบจำลองทางสถิติ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
Drton, M.; Sullivant, S. (2007), " แบบจำลองทางสถิติเชิงพีชคณิต" (PDF) , Statistica Sinica , 17 : 1273–1297
ฟรีดแมน, ดีเอ (2009), แบบจำลองทางสถิติ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
Helland, IS (2010), ขั้นตอนสู่พื้นฐานที่เป็นเอกภาพสำหรับแบบจำลองและวิธีการทางวิทยาศาสตร์ , World Scientific
Kroese, DP ; Chan, JCC (2014), การสร้างแบบจำลองและการคำนวณทางสถิติ , Springer
Shmueli, G. (2010), "จะอธิบายหรือจะทำนาย?", Statistical Science , 25 (3): 289– 310, arXiv : 1101.0891 , doi : 10.1214/10-STS330 , S2CID 15900983

[1] ค็อกซ์ 2006 , หน้า 178

[2] Adèr 2008 , หน้า 280

[McCullagh-3] McCullagh 2002

[4] ค็อกซ์ 2006 , หน้า 197

[5] โคนิชิและคิตากาว่า 2008 , §1.1

[6] Friendly & Meyer 2016 , §11.6

[7] ค็อกซ์ 2006 , หน้า 2

[8] Le Cam, Lucien (1964). "ความเพียงพอและความเพียงพอโดยประมาณ" . Annals of Mathematical Statistics . 35 (4). Institute of Mathematical Statistics : 1429. doi : 10.1214/aoms/1177700372 .

[ 1 ]

[ 2 ]

[

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]