ฟังก์ชันความน่าจะเป็น

Q: การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง

ให้เป็น ตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่ มีฟังก์ชันความน่าจะเป็น ขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} พี {\textstyle p} θ {\textstyle \theta }

Q: การแจกแจงความน่าจะเป็นแบบต่อเนื่อง

ให้เป็น ตัวแปรสุ่ม ที่มี การแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ ด้วย ฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} เอฟ {\textstyle f} x {\textstyle x} θ {\textstyle \theta }

ฟังก์ชันความน่าจะเป็น (มักเรียกง่ายๆ ว่าความน่าจะเป็น ) วัดว่าแบบจำลองทางสถิติอธิบายข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า พารามิเตอร์ ต่างๆ ของแบบจำลอง ฟังก์ชันนี้สร้างขึ้นจากความน่าจะเป็นร่วมของการแจกแจงของตัวแปรสุ่มที่ (สันนิษฐานว่า) สร้างการสังเกต^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}เมื่อประเมินจากจุดข้อมูลจริง ฟังก์ชันนี้จะกลายเป็นฟังก์ชันของพารามิเตอร์ของแบบจำลองเท่านั้น

ในการประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุดพารามิเตอร์หรือตัวแปรของแบบจำลองที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุดจะทำหน้าที่เป็นค่าประมาณจุดสำหรับพารามิเตอร์ที่ไม่ทราบค่า ในขณะที่ข้อมูลของฟิชเชอร์ (ซึ่งมักประมาณได้จากเมทริกซ์เฮสเซียน ของฟังก์ชันความน่าจะเป็นที่จุดสูงสุด) จะบ่งบอกถึง ความแม่นยำของการประมาณค่า

ในทางตรงกันข้าม ในสถิติแบบเบย์เซียนค่าประมาณที่สนใจคือค่าผกผันของความน่าจะเป็น ซึ่งก็คือความน่าจะเป็นภายหลังของพารามิเตอร์ที่กำหนดโดยข้อมูลที่สังเกตได้ ซึ่งคำนวณผ่านกฎของเบย์ส^{[ 4 ]}

คำนิยาม

ฟังก์ชันความน่าจะเป็น ซึ่งกำหนดโดยพารามิเตอร์ (ซึ่งอาจเป็นพารามิเตอร์หลายตัว) มักจะถูกกำหนดแตกต่างกันสำหรับฟังก์ชันความน่าจะเป็น แบบไม่ต่อเนื่องและแบบต่อเนื่อง (คำจำกัดความทั่วไปเพิ่มเติมจะกล่าวถึงด้านล่าง) เมื่อกำหนดฟังก์ชันความหนาแน่นหรือมวลของความน่าจะเป็นแล้ว ${\textstyle \theta }$

$x\mapsto f(x\mid \theta ),$

โดยที่เป็นค่าที่เกิดขึ้นจริงของตัวแปรสุ่มฟังก์ชันความน่าจะเป็น มักเขียนในรูปแบบนี้ ${\textstyle x}$ ${\textstyle X}$ $\theta \mapsto f(x\mid \theta ),$ ${\mathcal {L}}(\theta \mid x).$

กล่าวอีกนัยหนึ่ง เมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความหนาแน่นความน่าจะเป็น และเมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความน่าจะเป็นแบบมีเงื่อนไข ในแบบจำลองความถี่นิยม มักจะหลีกเลี่ยง การใช้สัญลักษณ์และใช้หรือ แทน เพื่อบ่งชี้ว่า ถือเป็นปริมาณที่ไม่ทราบค่าคงที่ แทนที่จะเป็นตัวแปรสุ่มที่ขึ้นอยู่กับ ${\textstyle f(x\mid \theta )}$ ${\textstyle x}$ ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle x}$ ${\textstyle f(x\mid \theta )}$ ${\textstyle f(x;\theta )}$ ${\textstyle f(x,\theta )}$ ${\textstyle \theta }$

ฟังก์ชันความน่าจะเป็นไม่ได้ระบุความน่าจะเป็นที่เป็นความจริง เมื่อพิจารณาจากตัวอย่างที่สังเกตได้การตีความเช่นนี้เป็นข้อผิดพลาดที่พบได้บ่อย ซึ่งอาจส่งผลร้ายแรง (ดูข้อผิดพลาดของอัยการ ) ${\textstyle \theta }$ ${\textstyle X=x}$

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง

ให้เป็นตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่มีฟังก์ชันความน่าจะเป็นขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน ${\textstyle X}$ ${\textstyle p}$ ${\textstyle \theta }$

${\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x)={\text{Pr}}\{X=x\mid \Theta =\theta \},$

ฟังก์ชันความน่าจะเป็น (likelihood function) ซึ่งพิจารณาจากค่าที่เป็นไปได้ของพารามิเตอร์เชิงกำหนดแต่ไม่ทราบค่าคือฟังก์ชันความน่าจะ เป็น (likelihood function) เมื่อกำหนดผลลัพธ์ของตัวแปรสุ่มบางครั้งความน่าจะเป็นของ "ค่าของสำหรับค่าพารามิเตอร์" จะเขียนเป็น $P$ $($ $X$ $=$ $x$ $|$ $θ$ $)$ หรือ $P$ $($ $X$ $=$ $x$ $;$ $θ$ $)$ ความน่าจะเป็น (likelihood) คือความน่าจะเป็นที่ผลลัพธ์เฉพาะอย่างหนึ่งจะถูกสังเกตเมื่อค่าที่แท้จริงของพารามิเตอร์คือซึ่งเทียบเท่ากับมวลความน่าจะเป็นบนไม่ใช่ความหนาแน่นความน่าจะเป็นเหนือพารามิเตอร์ความน่าจะเป็น (likelihood ) ไม่ควรสับสนกับซึ่งเป็นความน่าจะเป็นภายหลัง (posterior probability) ของเมื่อกำหนดข้อมูลแล้ว ${\textstyle \theta }$ ${\textstyle \Theta }$ ${\textstyle x}$ ${\textstyle X}$ ${\textstyle x}$ ${\textstyle X}$ ${\textstyle \theta }$ ${\textstyle x}$ ${\textstyle \theta }$ ${\textstyle x}$ ${\textstyle \theta }$ ${\textstyle {\mathcal {L}}(\theta \mid x)}$ ${\textstyle P(\theta \mid x)}$ ${\textstyle \theta }$ ${\textstyle x}$

ตัวอย่าง

รูปที่ 1 ฟังก์ชันความน่าจะเป็น ( ) สำหรับความน่าจะเป็นที่เหรียญจะออกหัว (โดยไม่มีความรู้ล่วงหน้าเกี่ยวกับความยุติธรรมของเหรียญ) โดยที่เราได้สังเกตเห็น HH แล้ว ${\textstyle p_{\text{H}}^{2}}$

รูปที่ 2 ฟังก์ชันความน่าจะเป็น ( ) สำหรับความน่าจะเป็นที่เหรียญจะออกหัว (โดยไม่มีความรู้ล่วงหน้าเกี่ยวกับความยุติธรรมของเหรียญ) โดยที่เราได้สังเกต HHT แล้ว ${\textstyle p_{\text{H}}^{2}(1-p_{\text{H}})}$

ลองพิจารณาแบบจำลองทางสถิติอย่างง่ายของการโยนเหรียญ: พารามิเตอร์เดียวที่แสดงถึง "ความยุติธรรม" ของเหรียญ พารามิเตอร์นี้คือความน่าจะเป็นที่เหรียญจะออกหัว ("H") เมื่อโยนสามารถมีค่าใดก็ได้ในช่วง 0.0 ถึง 1.0 สำหรับเหรียญที่ยุติธรรมอย่าง สมบูรณ์ . ${\textstyle p_{\text{H}}}$ ${\textstyle p_{\text{H}}}$ ${\textstyle p_{\text{H}}=0.5}$

ลองนึกภาพการโยนเหรียญที่ยุติธรรมสองครั้ง และสังเกตเห็นว่าได้หัวทั้งสองครั้ง ("HH") สมมติว่าการโยนเหรียญแต่ละครั้งเป็นการสุ่มแบบอิสระและ มีการกระจายเหมือนกัน (iid) ดังนั้นความน่าจะเป็นที่จะสังเกตเห็น HH คือ

$P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.$

ในทำนองเดียวกัน ความน่าจะเป็นของการสังเกตเห็น "HH" โดยสมมติว่าคือ ${\textstyle p_{\text{H}}=0.5}$

${\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.$

นี่ไม่ใช่สิ่งเดียวกับการกล่าวว่า ซึ่ง เป็น ข้อสรุปที่สามารถได้มาโดยใช้ทฤษฎีบทของเบย์ส เท่านั้น โดยอาศัยความรู้เกี่ยวกับความน่าจะเป็นส่วนย่อยและ ${\textstyle P(p_{\text{H}}=0.5\mid {\text{HH}})=0.25}$ ${\textstyle P(p_{\text{H}}=0.5)}$ ${\textstyle P({\text{HH}})}$

ทีนี้สมมติว่าเหรียญนั้นไม่ใช่เหรียญยุติธรรม แต่เป็นเหรียญอื่นดังนั้นความน่าจะเป็นที่จะได้หัวสองครั้งในการโยนสองครั้งคือ ${\textstyle p_{\text{H}}=0.3}$

$P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.$

เพราะฉะนั้น

${\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.$

โดยทั่วไปแล้ว สำหรับแต่ละค่าของเราสามารถคำนวณความน่าจะเป็นที่สอดคล้องกันได้ ผลลัพธ์ของการคำนวณดังกล่าวแสดงอยู่ในรูปที่ 1 อินทิกรัลของในช่วง [0, 1] มีค่าเท่ากับ 1/3 ความน่าจะเป็นไม่จำเป็นต้องมีอินทิกรัลหรือผลรวมเท่ากับหนึ่งในปริภูมิพารามิเตอร์ ${\textstyle p_{\text{H}}}$ ${\textstyle {\mathcal {L}}}$

การแจกแจงความน่าจะเป็นแบบต่อเนื่อง

ให้เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ด้วยฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน ${\textstyle X}$ ${\textstyle f}$ ${\textstyle x}$ ${\textstyle \theta }$

${\mathcal {L}}(\theta \mid x)=f_{\theta }(x),$

เมื่อพิจารณาว่าเป็นฟังก์ชันของ จะ เป็นฟังก์ชันความน่าจะเป็น (ของโดยกำหนดผลลัพธ์ ) อีกครั้งไม่ใช่ฟังก์ชันความหนาแน่นความน่าจะเป็นหรือฟังก์ชันมวลเหนือแม้ว่าจะเป็นฟังก์ชันของโดยกำหนดการสังเกตก็ตาม ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle X=x}$ ${\textstyle {\mathcal {L}}}$ ${\textstyle \theta }$ ${\textstyle \theta }$ ${\textstyle X=x}$

ความสัมพันธ์ระหว่างฟังก์ชันความน่าจะเป็นและฟังก์ชันความหนาแน่นของความน่าจะเป็น

การใช้ความหนาแน่นของความน่าจะเป็นในการระบุฟังก์ชันความน่าจะเป็นข้างต้นนั้นมีเหตุผลดังนี้ เมื่อกำหนดค่าสังเกตความน่าจะเป็นสำหรับช่วงโดยที่เป็นค่าคงที่ จะกำหนดโดยสังเกตว่า เนื่องจากเป็นค่าบวกและคงที่ เนื่องจาก ${\textstyle x_{j}}$ ${\textstyle [x_{j},x_{j}+h]}$ ${\textstyle h>0}$ ${\textstyle {\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])}$ $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h]),$ ${\textstyle h}$ ${\begin{aligned}\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}{+}h])&=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}{+}h\mid \theta )\\&=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,\end{aligned}}$

โดยที่ฟังก์ชันความหนาแน่นของความน่าจะเป็นคือ จึงสรุปได้ว่า ${\textstyle f(x\mid \theta )}$

$\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx.$

ทฤษฎีบทพื้นฐานข้อ แรกของแคลคูลัสกล่าวว่า $\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=f(x_{j}\mid \theta ).$

แล้ว ${\begin{aligned}\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})&=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},\,x_{j}{+}h])\right]\\[4pt]&=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]\\[4pt]&=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ).\end{aligned}}$

ดังนั้น การเพิ่มความหนาแน่นของความน่าจะเป็นให้สูงสุด จึงเท่ากับการเพิ่มโอกาสของการสังเกตเฉพาะนั้นให้สูงสุด $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ),$ ${\textstyle x_{j}}$ ${\textstyle x_{j}}$

โดยทั่วไป

ในทฤษฎีความน่าจะเป็นเชิงการวัดฟังก์ชันความหนาแน่นถูกกำหนดให้เป็นอนุพันธ์ Radon–Nikodymของการกระจายความน่าจะเป็นที่สัมพันธ์กับการวัดที่ครอบงำร่วมกัน^{[ 5 ]}ฟังก์ชันความน่าจะเป็นคือความหนาแน่นนี้ที่ตีความว่าเป็นฟังก์ชันของพารามิเตอร์ แทนที่จะเป็นตัวแปรสุ่ม^{[ 6 ]}ดังนั้น เราสามารถสร้างฟังก์ชันความน่าจะเป็นสำหรับการกระจายใดๆ ก็ได้ ไม่ว่าจะเป็นแบบไม่ต่อเนื่อง แบบต่อเนื่อง แบบผสม หรือแบบอื่นๆ (ความน่าจะเป็นจะเปรียบเทียบกันได้ เช่น สำหรับการประมาณค่าพารามิเตอร์ ก็ต่อเมื่อเป็นอนุพันธ์ Radon–Nikodym ที่สัมพันธ์กับการวัดที่ครอบงำเดียวกันเท่านั้น)

การอภิปรายข้างต้นเกี่ยวกับความน่าจะเป็นสำหรับตัวแปรสุ่มแบบไม่ต่อเนื่องใช้มาตรวัดการนับซึ่งความหนาแน่นของความน่าจะเป็น ณ ผลลัพธ์ใด ๆ จะเท่ากับความน่าจะเป็นของผลลัพธ์นั้น

ความน่าจะเป็นสำหรับการกระจายแบบผสมระหว่างต่อเนื่องและไม่ต่อเนื่อง

วิธีการข้างต้นสามารถขยายได้อย่างง่ายๆ เพื่อพิจารณาการแจกแจงที่มีทั้งส่วนประกอบแบบไม่ต่อเนื่องและแบบต่อเนื่อง สมมติว่าการแจกแจงประกอบด้วยมวลความน่าจะเป็นแบบไม่ต่อเนื่องจำนวนหนึ่งและความหนาแน่นโดยที่ผลรวมของค่าทั้งหมดที่บวกกับอินทิกรัลของจะเท่ากับหนึ่งเสมอ สมมติว่าสามารถแยกแยะการสังเกตที่สอดคล้องกับมวลความน่าจะเป็นแบบไม่ต่อเนื่องหนึ่งออกจากการสังเกตที่สอดคล้องกับส่วนประกอบความหนาแน่นได้ ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบต่อเนื่องสามารถจัดการได้ในลักษณะที่แสดงไว้ข้างต้น สำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่อง ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่องก็คือ โดย ที่คือดัชนีของมวลความน่าจะเป็นแบบไม่ต่อเนื่องที่สอดคล้องกับการสังเกตเนื่องจาก1 การเพิ่มมวลความน่าจะเป็น (หรือความน่าจะเป็น) ที่ ให้สูงสุดเท่ากับการเพิ่มความน่าจะเป็นของการสังเกตเฉพาะนั้นให้สูงสุด ${\textstyle p_{k}(\theta )}$ ${\textstyle f(x\mid \theta )}$ ${\textstyle p}$ ${\textstyle f}$ ${\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),$ ${\textstyle k}$ ${\textstyle x}$ ${\textstyle x}$

ข้อเท็จจริงที่ว่าฟังก์ชันความน่าจะเป็นสามารถกำหนดได้ในลักษณะที่รวมส่วนประกอบที่ไม่สอดคล้องกัน (ความหนาแน่นและมวลความน่าจะเป็น) เกิดขึ้นจากวิธีการที่ฟังก์ชันความน่าจะเป็นถูกกำหนดโดยมีค่าคงที่สัดส่วน ซึ่ง "ค่าคงที่" นี้สามารถเปลี่ยนแปลงได้ตามการสังเกตแต่ ไม่เปลี่ยนแปลงตามพารามิเตอร์ ${\textstyle x}$ ${\textstyle \theta }$

เงื่อนไขความสม่ำเสมอ

ในบริบทของการประมาณค่าพารามิเตอร์ ฟังก์ชันความน่าจะเป็นมักจะถือว่าเป็นไปตามเงื่อนไขบางประการที่เรียกว่าเงื่อนไขความสม่ำเสมอ เงื่อนไขเหล่านี้ถูกสมมติขึ้นในการพิสูจน์ต่างๆ ที่เกี่ยวข้องกับฟังก์ชันความน่าจะเป็น และจำเป็นต้องได้รับการตรวจสอบในแต่ละการใช้งานเฉพาะ สำหรับการประมาณค่าความน่าจะเป็นสูงสุด การมีอยู่ของค่าสูงสุดทั่วโลกของฟังก์ชันความน่าจะเป็นนั้นมีความสำคัญอย่างยิ่ง ตามทฤษฎีบทค่าสุดขีดเพียงพอแล้วที่ฟังก์ชันความน่าจะเป็นจะต่อเนื่องบน ปริภูมิพารามิเตอร์ แบบกระชับเพื่อให้ตัวประมาณค่าความน่าจะเป็นสูงสุดมีอยู่^{[ 7 ]}ในขณะที่สมมติฐานความต่อเนื่องมักจะเป็นไปตามเงื่อนไข สมมติฐานความกระชับเกี่ยวกับปริภูมิพารามิเตอร์มักจะไม่เป็นไปตามเงื่อนไข เนื่องจากขอบเขตของค่าพารามิเตอร์ที่แท้จริงอาจไม่เป็นที่รู้จัก ในกรณีนั้นความเว้าของฟังก์ชันความน่าจะเป็นมีบทบาทสำคัญ

โดยเฉพาะอย่างยิ่ง หากฟังก์ชันความน่าจะเป็นสามารถหาอนุพันธ์อันดับสองได้อย่างต่อเนื่องบนปริภูมิพารามิเตอร์k มิติ ที่ถือว่าเป็นเซตย่อยที่เชื่อมต่อกัน แบบเปิดจะมีค่าสูงสุดที่ไม่ซ้ำกันหากเมทริกซ์ของอนุพันธ์อันดับสองเป็น เมทริกซ์ บวกกำหนดสำหรับทุกค่าที่เกรเดียนต์เป็นศูนย์ และหากฟังก์ชันความน่าจะเป็นเข้าใกล้ค่าคงที่บนขอบของปริภูมิพารามิเตอร์ กล่าวคือ ซึ่งอาจรวมถึงจุดที่อนันต์หากไม่จำกัด Mäkeläinen และผู้เขียนร่วมพิสูจน์ผลลัพธ์นี้โดยใช้ทฤษฎี Morseในขณะที่อ้างถึงคุณสมบัติทางผ่านภูเขาอย่างไม่เป็นทางการ^[⁸^] Mascarenhas กล่าวถึงการพิสูจน์ของพวกเขาอีกครั้งโดยใช้ทฤษฎีบททางผ่านภูเขา^[⁹^] ${\textstyle \Theta }$ ${\textstyle \mathbb {R} ^{k}\,,}$ ${\textstyle {\hat {\theta }}\in \Theta }$ $\mathbf {H} (\theta )\equiv \left[\,{\frac {\partial ^{2}L}{\partial \theta _{i}\,\partial \theta _{j}}}\,\right]_{i,j=1,1}^{n_{\mathrm {i} },n_{\mathrm {j} }}\;$ ${\textstyle \theta \in \Theta }$ ${\textstyle \nabla L\equiv \left[{\frac {\partial L}{\partial \theta _{i}}}\right]_{i=1}^{n_{\mathrm {i} }}}$ ${\textstyle \partial \Theta ,}$ $\lim _{\theta \to \partial \Theta }L(\theta )=0\;,$ ${\textstyle \Theta }$

ในการพิสูจน์ความสอดคล้องและความปกติเชิงอะซิมโทติกของตัวประมาณค่าความน่าจะเป็นสูงสุด มีการตั้งสมมติฐานเพิ่มเติมเกี่ยวกับความหนาแน่นของความน่าจะเป็นที่เป็นพื้นฐานของฟังก์ชันความน่าจะเป็นเฉพาะ เงื่อนไขเหล่านี้ได้รับการกำหนดขึ้นครั้งแรกโดย Chanda ^{[ 10 ]}โดยเฉพาะอย่างยิ่ง สำหรับเกือบทุก ๆ และสำหรับทุก ๆ จะต้องมีอยู่สำหรับทุก ๆเพื่อให้แน่ใจว่ามีการขยายอนุกรมเทย์เลอร์ประการที่สอง สำหรับเกือบทุก ๆและสำหรับทุก ๆจะต้องเป็น โดย ที่เป็นเช่นนั้นความมีขอบเขตของอนุพันธ์นี้จำเป็นเพื่อให้สามารถหาอนุพันธ์ภายใต้เครื่องหมายอินทิกรัลได้และสุดท้าย ถือว่า เมทริก ซ์ ข้อมูล เป็นเมทริกซ์บวกแน่นอนและมีค่าจำกัด ซึ่งทำให้มั่นใจได้ว่าคะแนนมีความแปรปรวนจำกัด^[¹¹^] ${\textstyle x}$ ${\textstyle \,\theta \in \Theta \,,}$ ${\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\,$ ${\textstyle \,r,s,t=1,2,\ldots ,k\,}$ ${\textstyle x}$ ${\textstyle \,\theta \in \Theta \,}$ $\left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\,\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\right|<H_{rst}(x)$ ${\textstyle H}$ ${\textstyle \,\int _{-\infty }^{\infty }H_{rst}(z)\,dz\leq M<\infty \;.}$ $\mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}\ {\frac {\partial \log f}{\partial \theta _{s}}}\ f\,dz$ ${\textstyle \,\left|\mathbf {I} (\theta )\right|\,}$

เงื่อนไขข้างต้นนั้นเพียงพอ แต่ไม่ใช่เงื่อนไขที่จำเป็น กล่าวคือ แบบจำลองที่ไม่ตรงตามเงื่อนไขความสม่ำเสมอเหล่านี้ อาจจะมีหรือไม่มีตัวประมาณค่าความน่าจะเป็นสูงสุดของคุณสมบัติที่กล่าวถึงข้างต้นก็ได้ นอกจากนี้ ในกรณีที่การสังเกตการณ์ไม่ได้กระจายตัวอย่างเป็นอิสระหรือกระจายตัวอย่างเหมือนกัน อาจจำเป็นต้องสมมติคุณสมบัติเพิ่มเติมอีกด้วย

ในสถิติแบบเบย์เซียน เงื่อนไขความสม่ำเสมอที่เกือบจะเหมือนกันจะถูกกำหนดให้กับฟังก์ชันความน่าจะเป็นเพื่อพิสูจน์ความเป็นปกติเชิงอะซิมโทติกของความน่าจะเป็นภายหลัง^{[ 12 ]}^{[ 13 ]}และด้วยเหตุนี้จึงพิสูจน์การประมาณค่าลาปลาสของความน่าจะเป็นภายหลังในตัวอย่างขนาดใหญ่^{[ 14 ]}

อัตราส่วนความน่าจะเป็นและความน่าจะเป็นสัมพัทธ์

อัตราส่วนความน่าจะเป็น

อัตราส่วนความน่าจะเป็นคือ อัตราส่วนของความน่าจะเป็นสองค่าใดๆ ที่กำหนดไว้ ซึ่งมักเขียนในรูปแบบ: $\Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}.$

อัตราส่วนความน่าจะเป็นเป็นหัวใจสำคัญของสถิติเชิงความน่าจะเป็น : กฎแห่งความน่าจะเป็นระบุว่า ระดับที่ข้อมูล (ซึ่งถือเป็นหลักฐาน) สนับสนุนค่าพารามิเตอร์หนึ่งเมื่อเทียบกับอีกค่าหนึ่งนั้น วัดได้จากอัตราส่วนความน่าจะเป็น

ในการอนุมานแบบความถี่อัตราส่วนความน่าจะเป็นเป็นพื้นฐานสำหรับสถิติการทดสอบซึ่งเรียกว่าการทดสอบอัตราส่วนความน่าจะเป็นตามทฤษฎีบทของNeyman–Pearsonนี่คือ การทดสอบ ที่มีประสิทธิภาพ ที่สุด สำหรับการเปรียบเทียบสมมติฐานง่ายๆ สองข้อที่ระดับนัยสำคัญ ที่กำหนด การทดสอบอื่นๆ อีกมากมายสามารถมองได้ว่าเป็นการทดสอบอัตราส่วนความน่าจะเป็นหรือการประมาณค่าของ การทดสอบดังกล่าว ^{[ 15 ]}การแจกแจงแบบอะซิมโทติกของอัตราส่วนลอการิทึมความน่าจะเป็น ซึ่งถือเป็นสถิติการทดสอบนั้น ได้รับจากทฤษฎีบทของ Wilks

อัตราส่วนความน่าจะเป็นมีความสำคัญอย่างยิ่งในการอนุมานแบบเบย์เซียนซึ่งรู้จักกันในชื่อปัจจัยเบย์และใช้ในกฎของเบย์ กฎของเบย์กล่าว ในรูปของอัตราต่อรองว่า อัตราต่อ รองภายหลังของทางเลือกสองทาง⁠ ⁠ $A_{1}$ และ⁠ ⁠ $A_{2}$ เมื่อกำหนดเหตุการณ์⁠ ⁠ $B$ แล้ว คือ อัตราต่อรอง ก่อนหน้าคูณด้วยอัตราส่วนความน่าจะเป็น ในรูปสมการ: $O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).$

อัตราส่วนความน่าจะเป็นไม่ได้ถูกนำมาใช้โดยตรงในสถิติที่อิงตาม AIC แต่สิ่งที่นำมาใช้คือความน่าจะเป็นสัมพัทธ์ของแบบจำลอง (ดูด้านล่าง)

ในเวชศาสตร์เชิงประจักษ์อัตราส่วนความน่าจะเป็นถูกนำมาใช้ในการทดสอบวินิจฉัยเพื่อประเมินคุณค่าของการทำการทดสอบวินิจฉัย นั้น ๆ

ฟังก์ชันความน่าจะเป็นสัมพัทธ์

เนื่องจากค่าจริงของฟังก์ชันความน่าจะเป็นขึ้นอยู่กับตัวอย่าง จึงมักสะดวกที่จะใช้การวัดแบบมาตรฐาน สมมติว่าค่าประมาณความน่าจะเป็นสูงสุดสำหรับพารามิเตอร์ $θ$ คือความน่าจะเป็นสัมพัทธ์ของ ค่า $θ$ อื่นๆ อาจพบได้โดยการเปรียบเทียบความน่าจะเป็นของค่าอื่นๆ เหล่านั้นกับความน่าจะเป็นของ ความน่าจะเป็นสัมพัทธ์ของθ $ถูก$ กำหนดให้เป็น^[¹⁶^]^[¹⁷^]^[¹⁸^]^[¹⁹^]^[²⁰^] ดังนั้น ความน่าจะเป็นสัมพัทธ์คืออัตราส่วนความน่าจะเป็น (ที่กล่าวถึงข้างต้น) โดยมีตัวหารคงที่ซึ่งสอดคล้องกับการทำให้ความน่าจะเป็นเป็นมาตรฐานเพื่อให้มีค่าสูงสุดเท่ากับ 1 ${\textstyle {\hat {\theta }}}$ ${\textstyle {\hat {\theta }}}$ $R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.$ ${\textstyle {\mathcal {L}}({\hat {\theta }})}$

ภูมิภาคความน่าจะเป็น

ขอบเขตความน่าจะเป็นคือเซตของค่าทั้งหมดของ $θ$ ที่มีความน่าจะเป็นสัมพัทธ์มากกว่าหรือเท่ากับเกณฑ์ที่กำหนด ในแง่ของเปอร์เซ็นต์ ขอบเขตความน่าจะเป็น $p$ %สำหรับ $θ$ ถูกกำหนดให้เป็น^{[ 16 ]}^{[ 18 ]}^{[ 21 ]}

$\left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.$

ถ้า $θ$ เป็นพารามิเตอร์จริงตัวเดียว บริเวณความน่าจะเป็น $p$ % มักจะประกอบด้วยช่วงของค่าจริง ถ้าบริเวณนั้นประกอบด้วยช่วง ก็จะเรียกว่าช่วงความน่าจะเป็น^{[ 16 ]}^{[ 18 ]}^{[ 22 ]}

ช่วงความน่าจะเป็น และโดยทั่วไปคือบริเวณความน่าจะเป็น ใช้สำหรับการประมาณค่าช่วงในสถิติแบบความน่าจะเป็น: คล้ายกับช่วงความเชื่อมั่นในสถิติแบบความถี่ และช่วงความน่าเชื่อถือในสถิติแบบเบย์ ช่วงความน่าจะเป็นจะถูกตีความโดยตรงในแง่ของความน่าจะเป็นสัมพัทธ์ ไม่ใช่ในแง่ของความน่าจะเป็นของการครอบคลุม (แบบความถี่) หรือความน่าจะเป็นภายหลัง (แบบเบย์)

เมื่อกำหนดแบบจำลองแล้ว ช่วงความน่าจะเป็นสามารถเปรียบเทียบกับช่วงความเชื่อมั่นได้ หาก $θ$ เป็นพารามิเตอร์จริงตัวเดียว ภายใต้เงื่อนไขบางประการ ช่วงความน่าจะเป็น 14.65% (ประมาณความน่าจะเป็น 1:7) สำหรับ $θ$ จะเท่ากับช่วงความเชื่อมั่น 95% (ความน่าจะเป็นในการครอบคลุม 19/20) ^{[ 16 ]}^{[ 21 ]}ในสูตรที่แตกต่างกันเล็กน้อยซึ่งเหมาะสมกับการใช้ลอการิทึมความน่าจะเป็น (ดูทฤษฎีบทของ Wilks ) สถิติการทดสอบจะเป็นสองเท่าของความแตกต่างในลอการิทึมความน่าจะเป็น และการกระจายความน่าจะเป็นของสถิติการทดสอบจะเป็นการกระจายแบบไคกำลังสอง โดยประมาณ โดยมีองศาอิสระ (df) เท่ากับความแตกต่างของ df ระหว่างสองแบบจำลอง (ดังนั้น ช่วงความน่าจะเป็น $e$ ⁻²จึงเหมือนกับช่วงความเชื่อมั่น 0.954 โดยสมมติว่าความแตกต่างของ df เท่ากับ 1) ^{[ 21 ]}^{[ 22 ]}

ความน่าจะเป็นที่กำจัดพารามิเตอร์ที่ไม่พึงประสงค์

ในหลายกรณี ความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์มากกว่าหนึ่งตัว แต่ความสนใจจะมุ่งเน้นไปที่การประมาณค่าของพารามิเตอร์เพียงตัวเดียว หรืออย่างมากก็เพียงไม่กี่ตัว โดยถือว่าพารามิเตอร์อื่นๆ เป็นพารามิเตอร์ที่ไม่สำคัญมีแนวทางทางเลือกหลายวิธีที่ได้รับการพัฒนาขึ้นเพื่อกำจัดพารามิเตอร์ที่ไม่สำคัญเหล่านี้ เพื่อให้สามารถเขียนความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์ที่สนใจเพียงตัวเดียวได้ แนวทางหลักๆ ได้แก่ ความน่าจะเป็นแบบโปรไฟล์ แบบมีเงื่อนไข และแบบมาร์จินัล^{[ 23 ]}^{[ 24 ]}แนวทางเหล่านี้ยังมีประโยชน์เมื่อจำเป็นต้องลดพื้นผิวความน่าจะเป็นที่มีมิติสูงให้เหลือเพียงหนึ่งหรือสองตัวพารามิเตอร์ที่สนใจ เพื่อให้สามารถสร้างกราฟได้

ความน่าจะเป็นของโปรไฟล์

เป็นไปได้ที่จะลดมิติลงโดยการรวมฟังก์ชันความน่าจะเป็นสำหรับพารามิเตอร์ย่อยโดยการแสดงพารามิเตอร์ที่ไม่พึงประสงค์เป็นฟังก์ชันของพารามิเตอร์ที่สนใจและแทนที่ในฟังก์ชันความน่าจะเป็น^{[ 25 ]}^{[ 26 ]}โดยทั่วไป สำหรับฟังก์ชันความน่าจะเป็นที่ขึ้นอยู่กับเวกเตอร์พารามิเตอร์ที่สามารถแบ่งออกเป็นและสามารถกำหนดความสอดคล้องได้อย่างชัดเจน การรวมจะช่วยลดภาระการคำนวณของปัญหาการเพิ่มค่าสูงสุดดั้งเดิม^[²⁷^] ${\textstyle \mathbf {\theta } }$ ${\textstyle \mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)}$ ${\textstyle \mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)}$

ตัวอย่างเช่น ในการถดถอยเชิงเส้นที่มีข้อผิดพลาดแบบกระจายปกติเวกเตอร์สัมประสิทธิ์สามารถแบ่งออกเป็น(และด้วยเหตุนี้เมทริกซ์การออกแบบ ) การหาค่าสูงสุดของ เทียบกับ จะได้ ฟังก์ชันค่าที่เหมาะสมที่สุดโดยใช้ผลลัพธ์นี้ ตัวประมาณค่าความน่าจะเป็นสูงสุดสำหรับสามารถหาได้จาก โดยที่คือเมทริกซ์การฉายภาพของผลลัพธ์นี้เรียกว่าทฤษฎีบท Frisch–Waugh–Lovell ${\textstyle \mathbf {y} =\mathbf {X} \beta +u}$ ${\textstyle \beta =\left[\beta _{1}:\beta _{2}\right]}$ ${\textstyle \mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]}$ ${\textstyle \beta _{2}}$ ${\textstyle \beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)}$ ${\textstyle \beta _{1}}$ ${\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y}$ ${\textstyle \mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}}$ ${\textstyle \mathbf {X} _{2}}$

เนื่องจากในเชิงกราฟิก กระบวนการความเข้มข้นเทียบเท่ากับการตัดพื้นผิวความน่าจะเป็นตามสันของค่าพารามิเตอร์รบกวนที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุด สร้างโปรไฟล์ไอโซเมตริกของฟังก์ชันความน่าจะเป็นสำหรับค่าที่กำหนดผลลัพธ์ของกระบวนการนี้จึงเรียกว่าโปรไฟล์ความน่าจะเป็น [ ²⁸^]^[²⁹^]^{นอกจาก}จะนำมาแสดงเป็นกราฟแล้ว โปรไฟล์ความน่าจะเป็นยังสามารถใช้ในการคำนวณช่วงความเชื่อ มั่น ซึ่งมักจะมีคุณสมบัติที่ดีกว่าสำหรับตัวอย่างขนาดเล็กเมื่อเทียบกับช่วงความเชื่อมั่นที่คำนวณจาก ค่าความคลาดเคลื่อนมาตรฐานเชิงอะซิมโทติกจากความน่าจะเป็นแบบเต็ม^[³⁰^]^[³¹^] ${\textstyle \beta _{2}}$ ${\textstyle \beta _{1}}$

ความน่าจะเป็นแบบมีเงื่อนไข

บางครั้งอาจสามารถหาค่าสถิติที่เพียงพอสำหรับพารามิเตอร์รบกวนได้ และการกำหนดเงื่อนไขตามค่าสถิตินี้จะส่งผลให้ความน่าจะเป็นไม่ขึ้นอยู่กับพารามิเตอร์รบกวน^{[ 32 ]}

ตัวอย่างหนึ่งเกิดขึ้นในตาราง 2×2 ซึ่งการกำหนดเงื่อนไขโดยพิจารณาจากผลรวมขอบทั้งสี่ด้านจะนำไปสู่ความน่าจะเป็นแบบมีเงื่อนไขโดยอิงจากการกระจายแบบไฮเปอร์จีโอเมตริกที่ไม่เป็นศูนย์กลาง รูปแบบ การกำหนดเงื่อนไขนี้ยังเป็นพื้นฐานสำหรับการทดสอบความแม่นยำของฟิชเชอร์ อีกด้วย

ความน่าจะเป็นแบบมาร์จินัล

บางครั้งเราสามารถกำจัดพารามิเตอร์ที่ไม่พึงประสงค์ได้โดยพิจารณาความน่าจะเป็นโดยอาศัยข้อมูลเพียงบางส่วนเท่านั้น เช่น การใช้ชุดลำดับแทนค่าตัวเลข อีกตัวอย่างหนึ่งเกิดขึ้นใน แบบจำลอง ผสมเชิงเส้น (linear mixed models ) ซึ่งการพิจารณาความน่าจะเป็นสำหรับค่าความคลาดเคลื่อนหลังจากปรับค่าผลกระทบคงที่แล้ว จะนำไปสู่ การประมาณค่าความน่าจะเป็น สูงสุดของค่าความคลาดเคลื่อนของส่วนประกอบความแปรปรวน

ความน่าจะเป็นบางส่วน

ความน่าจะเป็นบางส่วนเป็นการปรับเปลี่ยนความน่าจะเป็นแบบเต็มเพื่อให้พารามิเตอร์เพียงบางส่วน (พารามิเตอร์ที่สนใจ) ปรากฏอยู่ในนั้น^{[ 33 ]}เป็นองค์ประกอบสำคัญของแบบจำลองความเสี่ยงตามสัดส่วน : โดยใช้ข้อจำกัดบนฟังก์ชันความเสี่ยง ความน่าจะเป็นจะไม่ประกอบด้วยรูปร่างของความเสี่ยงเมื่อเวลาผ่านไป

ผลคูณของความน่าจะเป็น

ความน่าจะเป็น เมื่อพิจารณาเหตุการณ์อิสระ สองเหตุการณ์ขึ้นไป จะเป็นผลคูณของความน่าจะเป็นของแต่ละเหตุการณ์: ซึ่งเป็นผลมาจากนิยามของความเป็นอิสระในความน่าจะเป็น: ความน่าจะเป็นของการเกิดเหตุการณ์อิสระสองเหตุการณ์ เมื่อพิจารณาแบบจำลอง จะเป็นผลคูณของความน่าจะเป็น $\Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2}).$

สิ่งนี้มีความสำคัญเป็นพิเศษเมื่อเหตุการณ์มาจากตัวแปรสุ่มอิสระและมีการกระจายแบบเดียวกันเช่น การสังเกตอิสระหรือการสุ่มตัวอย่างแบบมีการแทนที่ในสถานการณ์เช่นนี้ ฟังก์ชันความน่าจะเป็นจะแยกออกเป็นผลคูณของฟังก์ชันความน่าจะเป็นแต่ละตัว

ผลคูณที่ว่างเปล่ามีค่าเท่ากับ 1 ซึ่งสอดคล้องกับความน่าจะเป็น 1 เมื่อไม่มีเหตุการณ์ใดเกิดขึ้น: ก่อนที่จะมีข้อมูลใดๆ ความน่าจะเป็นจะเท่ากับ 1 เสมอ นี่คล้ายกับไพรเออร์แบบเอกรูปในสถิติแบบเบย์เซียน แต่ในสถิติแบบความน่าจะเป็น นี่ไม่ใช่ไพรเออร์ที่ไม่เหมาะสมเพราะความน่าจะเป็นไม่ได้ถูกรวมเข้าด้วยกัน

ความน่าจะเป็นล็อก

ฟังก์ชันลอการิทึมความน่าจะเป็นคือลอการิทึมของฟังก์ชันความน่าจะเป็น ซึ่งมักจะใช้ตัวอักษร $l$ ตัวเล็ก หรือ⁠ ⁠ แทน $\ell$ เพื่อให้แตกต่างจากตัวอักษร $L$ ตัวใหญ่ หรือ ⁠ สำหรับความน่าจะเป็น เนื่องจากลอการิทึมเป็น ฟังก์ชัน ที่เพิ่มขึ้นอย่างเคร่งครัดการหาค่าสูงสุดของความน่าจะเป็นจึงเทียบเท่ากับการหาค่าสูงสุดของลอการิทึมความน่าจะเป็น แต่เพื่อวัตถุประสงค์ในทางปฏิบัติ การทำงานกับฟังก์ชันลอการิทึมความน่าจะเป็นในการประมาณค่าความน่าจะเป็นสูงสุดนั้น สะดวกกว่า โดยเฉพาะอย่างยิ่งเนื่องจากการแจกแจงความน่าจะ เป็นทั่วไปส่วนใหญ่ —โดยเฉพาะ^{ตระกูล}เอกซ์โพเนนเชียล —เป็นเพียงการเว้าแบบลอการิทึม เท่านั้น [ ³⁴^]^[³⁵^]และความเว้าของฟังก์ชันเป้าหมายมีบทบาทสำคัญในการ หา ค่า สูงสุด ${\textstyle {\mathcal {L}}}$

เนื่องจากแต่ละเหตุการณ์เป็นอิสระต่อกัน ค่าลอการิทึมความน่าจะเป็นโดยรวมของการเกิดร่วมกันจึงเท่ากับผลรวมของค่าลอการิทึมความน่าจะเป็นของแต่ละเหตุการณ์ ซึ่งคล้ายคลึงกับข้อเท็จจริงที่ว่าค่าลอการิทึมความน่าจะเป็น โดยรวม คือผลรวมของค่าลอการิทึมความน่าจะเป็นของแต่ละเหตุการณ์ นอกจากความสะดวกทางคณิตศาสตร์แล้ว กระบวนการบวกค่าลอการิทึมความน่าจะเป็นยังมีการตีความที่เข้าใจง่าย ซึ่งมักแสดงออกในรูปของ "การสนับสนุน" จากข้อมูล เมื่อประมาณค่าพารามิเตอร์โดยใช้ค่าลอการิทึมความน่าจะเป็นสำหรับการประมาณค่าความน่าจะเป็นสูงสุดจุดข้อมูลแต่ละจุดจะถูกนำมาใช้โดยการบวกเข้ากับค่าลอการิทึมความน่าจะเป็นทั้งหมด เนื่องจากข้อมูลสามารถมองได้ว่าเป็นหลักฐานที่สนับสนุนพารามิเตอร์ที่ประมาณค่าไว้ กระบวนการนี้จึงสามารถตีความได้ว่า "การสนับสนุนจากหลักฐานอิสระที่บวกกัน"และค่าลอการิทึมความน่าจะเป็นคือ "น้ำหนักของหลักฐาน" หากตีความค่าลบของลอการิทึมความน่าจะเป็นว่าเป็นปริมาณข้อมูลหรือความน่าประหลาดใจการสนับสนุน (ลอการิทึมความน่าจะเป็น) ของแบบจำลอง เมื่อพิจารณาจากเหตุการณ์หนึ่งๆ จะเป็นค่าลบของความน่าประหลาดใจของเหตุการณ์นั้น เมื่อพิจารณาจากแบบจำลอง กล่าวคือ แบบจำลองได้รับการสนับสนุนจากเหตุการณ์หนึ่งๆ ในระดับที่เหตุการณ์นั้นไม่น่าประหลาดใจ เมื่อพิจารณาจากแบบจำลอง

ค่าลอการิทึมของอัตราส่วนความน่าจะเป็นเท่ากับผลต่างของค่าลอการิทึมความน่าจะเป็น: $\log {\frac {{\mathcal {L}}(A)}{{\mathcal {L}}(B)}}=\log {\mathcal {L}}(A)-\log {\mathcal {L}}(B)=\ell (A)-\ell (B).$

เช่นเดียวกับที่ค่าความน่าจะเป็นเมื่อไม่มีเหตุการณ์เกิดขึ้นจะมีค่าเป็น 1 ค่าลอการิทึมของความน่าจะเป็นเมื่อไม่มีเหตุการณ์เกิดขึ้นจะมีค่าเป็น 0 ซึ่งสอดคล้องกับค่าของผลรวมที่ว่างเปล่า กล่าวคือ หากไม่มีข้อมูล ก็ไม่มีหลักฐานสนับสนุนแบบจำลองใดๆ

กราฟ

กราฟของลอการิทึมความน่าจะเป็นเรียกว่าเส้นโค้งสนับสนุน (ใน กรณี ตัวแปรเดียว ) ^{[ 36 ]} ในกรณีตัวแปรหลายตัว แนวคิดนี้จะขยายไปสู่พื้นผิวสนับสนุนเหนือพื้นที่พารามิเตอร์มันมีความสัมพันธ์กับ แต่แตกต่างจาก การสนับสนุนของ การ กระจาย

คำนี้ถูกบัญญัติโดยAWF Edwards ^{[ 36 ]}ในบริบทของการทดสอบสมมติฐานทางสถิติกล่าวคือ ข้อมูล "สนับสนุน" สมมติฐานหนึ่ง (หรือค่าพารามิเตอร์) ที่กำลังทดสอบมากกว่าสมมติฐานอื่นหรือไม่

ฟังก์ชันลอการิทึมความน่าจะเป็นที่แสดงในกราฟนั้นใช้ในการคำนวณคะแนน (ความชันของลอการิทึมความน่าจะเป็น) และข้อมูลฟิชเชอร์ (ความโค้งของลอการิทึมความน่าจะเป็น) ดังนั้น กราฟจึงสามารถตีความได้โดยตรงในบริบทของการประมาณค่าความน่าจะเป็นสูงสุดและการทดสอบอัตราส่วนความน่าจะเป็น

สมการความน่าจะเป็น

ถ้าฟังก์ชันลอการิทึมความน่าจะเป็นเป็นฟังก์ชัน เรียบ เกรเดียนต์ของฟังก์ชันเทียบกับพารามิเตอร์ ซึ่งเรียกว่าสกอร์และเขียนแทนด้วยจะมีอยู่และช่วยให้สามารถใช้แคลคูลัสเชิงอนุพันธ์ได้ วิธีพื้นฐานในการหาค่าสูงสุดของฟังก์ชันที่หาอนุพันธ์ได้คือการหาจุดนิ่ง (จุดที่อนุพันธ์เป็นศูนย์) เนื่องจากอนุพันธ์ของผลรวมคือผลรวมของอนุพันธ์ แต่การหาอนุพันธ์ของผลคูณต้องใช้กฎผลคูณดังนั้นจึงง่ายกว่าที่จะคำนวณจุดนิ่งของลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระมากกว่าลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระ ${\textstyle s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )}$

สมการที่กำหนดโดยจุดนิ่งของฟังก์ชันคะแนนทำหน้าที่เป็นสมการประมาณค่าสำหรับตัวประมาณค่าความน่าจะเป็นสูงสุด ในแง่นั้น ตัวประมาณค่าความน่าจะเป็นสูงสุดถูกกำหนดโดยปริยายโดยค่าที่ของฟังก์ชันผกผันโดยที่คือปริภูมิยุคลิดมิติdและคือปริภูมิพารามิเตอร์ การใช้ทฤษฎีบทฟังก์ชันผกผันสามารถแสดงได้ว่าถูกกำหนดไว้อย่างดีในบริเวณใกล้เคียงแบบเปิดรอบ ๆด้วยความน่าจะเป็นที่เข้าใกล้หนึ่ง และเป็นการประมาณค่าที่สอดคล้องกันของผลที่ตามมาคือมีลำดับเช่นนั้นที่ เกือบ ^จะแน่นอนในเชิงอะซิมโทติกและ^[³⁷ ] ผลลัพธ์ที่คล้ายกันสามารถสร้างขึ้นได้โดยใช้ทฤษฎีบทของโรลล์^[³⁸^]^[³⁹^] $s_{n}(\theta )=\mathbf {0}$ ${\textstyle \mathbf {0} }$ ${\textstyle s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta }$ ${\textstyle \mathbb {E} ^{d}}$ ${\textstyle \Theta }$ ${\textstyle s_{n}^{-1}}$ ${\textstyle \mathbf {0} }$ ${\textstyle {\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )}$ ${\textstyle \theta }$ ${\textstyle \left\{{\hat {\theta }}_{n}\right\}}$ ${\textstyle s_{n}({\hat {\theta }}_{n})=\mathbf {0} }$ ${\textstyle {\hat {\theta }}_{n}\xrightarrow {\text{p}} \theta _{0}}$

อนุพันธ์อันดับสองที่ประเมินที่ เรียกว่าข้อมูลฟิชเชอร์จะกำหนดความโค้งของพื้นผิวความน่าจะเป็น^[⁴⁰^]และด้วยเหตุนี้จึงบ่งชี้ความแม่นยำของการประมาณค่า^[⁴¹^] ${\textstyle {\hat {\theta }}}$

ตระกูลเลขชี้กำลัง

ฟังก์ชัน ความน่าจะเป็นล็อก ( log-likelihood) มีประโยชน์อย่างยิ่งสำหรับตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล ซึ่งรวมถึงการแจกแจงความน่าจะเป็นแบบพาราเมตริก ทั่วไปหลายๆ แบบ ฟังก์ชันการแจกแจงความน่าจะเป็น (และดังนั้นฟังก์ชันความน่าจะเป็นล็อก) สำหรับตระกูลเอกซ์โปเนนเชียลประกอบด้วยผลคูณของตัวประกอบที่เกี่ยวข้องกับ การยกกำลัง ล็อกของฟังก์ชันดังกล่าวเป็นผลรวมของผลคูณ ซึ่งง่ายต่อการหาอนุพันธ์มากกว่าฟังก์ชันดั้งเดิม

กลุ่มฟังก์ชันเอกซ์โพเนนเชียล คือกลุ่มฟังก์ชันที่มีฟังก์ชันความหนาแน่นความน่าจะเป็นอยู่ในรูปแบบ (สำหรับบางฟังก์ชัน เขียนแทนผลคูณภายใน ): ${\textstyle \langle -,-\rangle }$

$p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.$

แต่ละคำเหล่านี้มีการตีความ^{[ a ]}แต่การเปลี่ยนจากความน่าจะเป็นเป็นความน่าจะเป็นแบบมีเงื่อนไขและการหาค่าลอการิทึมจะให้ผลรวมดังนี้:

$\ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).$

และแต่ละค่าสอดคล้องกับการเปลี่ยนพิกัดดังนั้นในพิกัดเหล่านี้ ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โปเนนเชียลจึงกำหนดโดยสูตรอย่างง่ายดังนี้ : ${\textstyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}$ ${\textstyle h(x)}$

$\ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).$

กล่าวโดยสรุป ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โพเนนเชียลคือผลคูณภายในของพารามิเตอร์ธรรมชาติและสถิติเพียงพอ ${\boldsymbol {\eta }}$ ลบด้วยตัวประกอบ $\mathbf {T} (x)$ การทำให้เป็นมาตรฐาน ( ฟังก์ชันการแบ่งส่วนลอการิทึม ) ดังนั้น ตัวอย่างเช่น ค่าประมาณความน่าจะ เป็น $A({\boldsymbol {\eta }})$ สูงสุดสามารถ คำนวณ ได้โดยการหาอนุพันธ์ของสถิติเพียงพอ $T$ และฟังก์ชันการแบ่งส่วนลอการิทึม $A$

ตัวอย่าง: การแจกแจงแกมมา

การแจกแจงแกมมาเป็นตระกูลการแจกแจงเอกซ์โพเนนเชียลที่มีพารามิเตอร์สองตัว คือและฟังก์ชันความน่าจะเป็นคือ ${\textstyle \alpha }$ ${\textstyle \beta }$

${\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.$

การหาค่าประมาณความน่าจะเป็นสูงสุดของสำหรับค่าที่สังเกตได้เพียงค่าเดียวดูเหมือนจะเป็นเรื่องยาก แต่การใช้ลอการิทึมนั้นง่ายกว่ามาก: ${\textstyle \beta }$ ${\textstyle x}$

$\log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,$

เพื่อเพิ่มค่าลอการิทึมความน่าจะเป็นให้สูงสุด เราจึงทำการหาอนุพันธ์ย่อยเทียบกับ ตัวแปร : ${\textstyle \beta }$

${\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.$

หากมีการสังเกตการณ์อิสระหลายครั้งค่าลอการิทึมความน่าจะเป็นร่วมจะเป็นผลรวมของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ และอนุพันธ์ของผลรวมนี้จะเป็นผลรวมของอนุพันธ์ของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ: ${\textstyle x_{1},\ldots ,x_{n}}$

${\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\&={\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}\\&={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}$

เพื่อให้ขั้นตอนการหาค่าสูงสุดของลอการิทึมความน่าจะเป็นร่วมเสร็จสมบูรณ์ สมการจะถูกกำหนดให้เป็นศูนย์และแก้หาค่า: ${\textstyle \beta }$

${\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.$

ในที่นี้หมายถึงค่าประมาณความน่าจะเป็นสูงสุด และคือค่าเฉลี่ยตัวอย่างของข้อมูลสังเกตการณ์ ${\textstyle {\widehat {\beta }}}$ ${\textstyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$

ภูมิหลังและการตีความ

ข้อสังเกตทางประวัติศาสตร์

คำว่า "likelihood" ถูกใช้ในภาษาอังกฤษมาอย่างน้อยตั้งแต่ปลายยุคกลางของอังกฤษ [ ^{42 ] การ}ใช้คำนี้อย่างเป็นทางการเพื่ออ้างถึงฟังก์ชัน เฉพาะ ในสถิติทางคณิตศาสตร์นั้นได้รับการเสนอโดย^Ronald Fisher [ ⁴³^]ในเอกสารวิจัยสองฉบับที่ตีพิมพ์ในปี 1921 ^[⁴⁴^]และ 1922 ^[⁴⁵^]เอกสารปี 1921 ได้นำเสนอสิ่งที่ปัจจุบันเรียกว่า "likelihood interval" ส่วนเอกสารปี 1922 ได้นำเสนอคำว่า " method of maximum likelihood " อ้างอิงจาก Fisher:

ในปี พ.ศ. 2465 ข้าพเจ้าได้เสนอคำว่า 'ความน่าจะเป็น' โดยพิจารณาจากข้อเท็จจริงที่ว่า ในส่วนที่เกี่ยวกับ [พารามิเตอร์] นั้น มันไม่ใช่ความน่าจะเป็น และไม่เป็นไปตามกฎของความน่าจะเป็น ในขณะเดียวกันก็มีความสัมพันธ์กับปัญหาของการเลือกอย่างมีเหตุผลระหว่างค่าที่เป็นไปได้ของ [พารามิเตอร์] ในลักษณะที่คล้ายกับที่ความน่าจะเป็นมีต่อปัญหาของการทำนายเหตุการณ์ในเกมเสี่ยงโชค . . . อย่างไรก็ตาม ในส่วนที่เกี่ยวกับการตัดสินใจทางจิตวิทยา ความน่าจะเป็นมีความคล้ายคลึงกับความน่าจะเป็นอยู่บ้าง แต่แนวคิดทั้งสองนั้นแตกต่างกันโดยสิ้นเชิง . . ." ^{[ 46 ]}

ไม่ควรสับสนระหว่างแนวคิดเรื่องความน่าจะเป็นกับความน่าจะเป็น ดังที่เซอร์โรนัลด์ ฟิชเชอร์ได้กล่าวไว้

ฉันเน้นย้ำเรื่องนี้เพราะถึงแม้ฉันจะเน้นย้ำถึงความแตกต่างระหว่างความน่าจะเป็นและความน่าจะเป็นมาโดยตลอด แต่ก็ยังมีแนวโน้มที่จะปฏิบัติต่อความน่าจะเป็นราวกับว่าเป็นความน่าจะเป็นชนิดหนึ่ง ผลลัพธ์แรกคือมีมาตรวัดความเชื่อที่มีเหตุผลสองแบบที่เหมาะสมกับกรณีต่างๆ กัน เมื่อเรารู้ประชากร เราสามารถแสดงความรู้ที่ไม่สมบูรณ์หรือความคาดหวังเกี่ยวกับตัวอย่างในแง่ของความน่าจะเป็นได้ เมื่อเรารู้ตัวอย่าง เราสามารถแสดงความรู้ที่ไม่สมบูรณ์เกี่ยวกับประชากรในแง่ของความน่าจะเป็นได้^{[ 47 ]}

การคิดค้นความน่าจะเป็นเชิงสถิติของฟิชเชอร์เป็นการตอบโต้รูปแบบการให้เหตุผลก่อนหน้านี้ที่เรียก ว่าความ น่าจะเป็นผกผัน^{[ 48 ]}การใช้คำว่า "ความน่าจะเป็น" ของเขาทำให้ความหมายของคำนี้ถูกกำหนดไว้ในสถิติทางคณิตศาสตร์

AWF Edwards (1972) ได้วางรากฐานเชิงสัจพจน์สำหรับการใช้ค่าอัตราส่วนลอการิทึมความน่าจะเป็นเป็นมาตรวัดการสนับสนุนเชิงสัมพัทธ์สำหรับสมมติฐานหนึ่งเทียบกับอีกสมมติฐานหนึ่งฟังก์ชันการสนับสนุนจึงเป็นลอการิทึมธรรมชาติของฟังก์ชันความน่าจะเป็น ทั้งสองคำนี้ใช้ในวิชาพันธุศาสตร์เชิงวิวัฒนาการแต่ไม่ได้นำมาใช้ในการพิจารณาหลักฐานทางสถิติโดยทั่วไป^{[ 49 ]}

การตีความภายใต้พื้นฐานที่แตกต่างกัน

ในหมู่นักสถิติ ยังไม่มีฉันทามติเกี่ยวกับพื้นฐานของสถิติที่ควรจะเป็น มีกระบวนทัศน์หลักสี่ประการที่ได้รับการเสนอให้เป็นพื้นฐาน ได้แก่ความถี่นิยม เบ ย์เซียนนิยม ความน่าจะเป็นนิยมและอิงตาม AIC ^{[ 50 ]}สำหรับแต่ละพื้นฐานที่เสนอ การตีความความน่าจะเป็นจะแตกต่างกัน การตีความทั้งสี่แบบจะอธิบายไว้ในหัวข้อย่อยด้านล่าง

การตีความแบบความถี่

การตีความแบบเบย์เซียน

ในการอนุมานแบบเบย์เซียนแม้ว่าเราจะสามารถพูดถึงความน่าจะเป็นของข้อเสนอหรือตัวแปรสุ่ม ใดๆ เมื่อกำหนดตัวแปรสุ่มอื่นได้ เช่น ความน่าจะเป็นของค่าพารามิเตอร์หรือแบบจำลองทางสถิติ (ดูความน่าจะเป็นแบบมาร์จินัล ) เมื่อกำหนดข้อมูลที่ระบุหรือหลักฐานอื่นๆ^{[ 51 ]}^{[ 52 ]}^{[ 53 ]}^{[ 54 ]}ฟังก์ชันความน่าจะเป็นยังคงเป็นเอนทิตีเดียวกัน โดยมีการตีความเพิ่มเติมคือ (i) ความหนาแน่นแบบมีเงื่อนไขของข้อมูลเมื่อกำหนดพารามิเตอร์ (เนื่องจากพารามิเตอร์เป็นตัวแปรสุ่ม) และ (ii) การวัดหรือปริมาณข้อมูลที่ได้จากข้อมูลเกี่ยวกับค่าพารามิเตอร์หรือแม้แต่แบบจำลอง^{[ 51 ]}^{[ 52 ]}^{[ 53 ]}^{[ 54 ]}^{[ 55 ]}เนื่องจากการนำโครงสร้างความน่าจะเป็นมาใช้ในพื้นที่พารามิเตอร์หรือในชุดของแบบจำลอง จึงเป็นไปได้ที่ค่าพารามิเตอร์หรือแบบจำลองทางสถิติจะมีค่าความน่าจะเป็นสูงสำหรับข้อมูลที่กำหนด แต่มีความน่าจะ เป็นต่ำ หรือในทางกลับกัน^{[ 53 ]}^{[ 55 ]}กรณีนี้มักเกิดขึ้นในบริบททางการแพทย์^{[ 56 ]}ตามกฎของเบย์สความน่าจะเป็นเมื่อมองเป็นความหนาแน่นแบบมีเงื่อนไขสามารถคูณด้วย ความหนาแน่น ความน่าจะเป็นก่อนหน้าของพารามิเตอร์แล้วทำให้เป็นมาตรฐาน เพื่อให้ได้ความหนาแน่นความน่าจะเป็นภายหลัง^{[ 51 ]}^{[ 52 ]}^{[ 53 ]}^{[ 54 ]}^{[ 55 ]}โดยทั่วไปแล้ว ความน่าจะเป็นของปริมาณที่ไม่ทราบค่า เมื่อกำหนดปริมาณที่ไม่ทราบค่าอีกปริมาณหนึ่ง จะเป็นสัดส่วนกับความน่าจะเป็น ของปริมาณที่ไม่ทราบค่า เมื่อ กำหนดปริมาณที่ไม่ทราบ ค่าอีกปริมาณหนึ่ง^[⁵¹^]^[⁵²^]^[⁵³^]^[⁵⁴^]^[⁵⁵^] ${\textstyle X}$ ${\textstyle Y}$ ${\textstyle Y}$ ${\textstyle X}$

การตีความแบบความน่าจะเป็น

ในสถิติเชิงความถี่ ฟังก์ชันความน่าจะเป็นนั้นเป็นสถิติที่สรุปผลจากตัวอย่างเดียวจากประชากร โดยค่าที่คำนวณได้ขึ้นอยู่กับการเลือกพารามิเตอร์หลายตัวθ ₁ ... θ _pโดยที่pคือจำนวนพารามิเตอร์ในแบบจำลองทางสถิติ ที่เลือกไว้แล้ว ค่าของความน่าจะเป็นทำหน้าที่เป็นตัวชี้วัดคุณภาพของการเลือกพารามิเตอร์ และชุดพารามิเตอร์ที่มีความน่าจะเป็นสูงสุดคือตัวเลือกที่ดีที่สุด เมื่อพิจารณาจากข้อมูลที่มีอยู่

การคำนวณความน่าจะเป็นโดยเฉพาะเจาะจงคือความน่าจะเป็นที่ตัวอย่างที่สังเกตได้จะถูกกำหนด โดยสมมติว่าแบบจำลองที่เลือกและค่าของพารามิเตอร์ต่างๆθให้ค่าประมาณที่แม่นยำของการกระจายความถี่ของประชากรที่ตัวอย่างที่สังเกตได้ถูกดึงมา โดยทั่วไปแล้ว การเลือกพารามิเตอร์ที่ดีคือพารามิเตอร์ที่ทำให้ตัวอย่างที่สังเกตได้จริงมีความน่าจะเป็นสูงสุดที่เป็นไปได้หลังจากการวิเคราะห์เสร็จสิ้นทฤษฎีบทของ Wilksแสดงให้เห็นถึงปริมาณของกฎเชิงอนุมานโดยแสดงให้เห็นว่าความแตกต่างในลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ของการประมาณค่าและลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ "ที่แท้จริง" (แต่ไม่ทราบ) ของประชากรนั้นมีการกระจาย แบบ χ² ในเชิงอะซิม ^โทติก

ค่าประมาณความน่าจะเป็นสูงสุดของแต่ละตัวอย่างอิสระเป็นค่าประมาณที่แยกจากกันของชุดพารามิเตอร์ "ที่แท้จริง" ที่อธิบายประชากรที่สุ่มตัวอย่าง ค่าประมาณที่ต่อเนื่องจากตัวอย่างอิสระจำนวนมากจะรวมกลุ่มกัน โดยชุดค่าพารามิเตอร์ "ที่แท้จริง" ของประชากรจะซ่อนอยู่ตรงกลาง ค่าต่างของลอการิทึมของค่าประมาณความน่าจะเป็นสูงสุดและค่าความน่าจะเป็นของชุดพารามิเตอร์ที่อยู่ติดกันสามารถใช้ในการวาดขอบเขตความเชื่อมั่นบนกราฟที่มีพิกัดเป็นพารามิเตอร์θ ₁ ... θ _pขอบเขตนี้ล้อมรอบค่าประมาณความน่าจะเป็นสูงสุด และจุดทั้งหมด (ชุดพารามิเตอร์) ภายในขอบเขตนั้นจะแตกต่างกันไม่เกินค่าลอการิทึมของความน่าจะเป็นด้วยค่าคงที่ค่าหนึ่งการแจกแจง χ²ที่กำหนดโดยทฤษฎีบทของ Wilks จะแปลงค่าต่างของลอการิทึมของความน่าจะเป็นในขอบเขตนั้นให้เป็น "ความเชื่อมั่น" ว่าชุดพารามิเตอร์ " ^ที่แท้จริง" ของประชากรอยู่ภายในนั้น ศิลปะของการเลือกค่าต่างของลอการิทึมของความน่าจะเป็นที่คงที่คือการทำให้ความเชื่อมั่นสูงในระดับที่ยอมรับได้ ในขณะที่ยังคงรักษาขอบเขตให้เล็กในระดับที่ยอมรับได้ (ช่วงของค่าประมาณที่แคบ)

เมื่อมีการสังเกตข้อมูลมากขึ้น แทนที่จะใช้ข้อมูลเหล่านั้นเพื่อประมาณค่าแบบอิสระ ข้อมูลเหล่านั้นสามารถนำมารวมกับตัวอย่างก่อนหน้าเพื่อสร้างตัวอย่างรวมเดียว และตัวอย่างขนาดใหญ่นั้นอาจนำไปใช้ในการประมาณค่าความน่าจะเป็นสูงสุดใหม่ได้ เมื่อขนาดของตัวอย่างรวมเพิ่มขึ้น ขนาดของบริเวณความน่าจะเป็นที่มีความเชื่อมั่นเท่าเดิมจะหดตัวลง ในที่สุด ขนาดของบริเวณความเชื่อมั่นจะใกล้เคียงกับจุดเดียว หรือประชากรทั้งหมดได้รับการสุ่มตัวอย่างแล้ว ในทั้งสองกรณี ชุดพารามิเตอร์ที่ประมาณค่าได้จะเหมือนกับชุดพารามิเตอร์ของประชากรโดยพื้นฐาน

การตีความตาม AIC

ภายใต้ กรอบแนวคิด AICความน่าจะเป็นจะถูกตีความภายในบริบทของทฤษฎีสารสนเทศ^{[ 57 ]}^{[ 58 ]}^{[ 59 ]}

ดูเพิ่มเติม

หมายเหตุ

^ดูตระกูลเลขชี้กำลัง § การตีความ

อ่านเพิ่มเติม

Azzalini, Adelchi (1996). "ความน่าจะเป็น" การอนุมานทางสถิติบนพื้นฐานของความน่าจะเป็น Chapman and Hall. หน้า 17–50 . ISBN 0-412-60650-X.
Boos, Dennis D.; Stefanski, LA ( 2013). " การสร้างและการประมาณค่าความน่าจะเป็น" การอนุมานทางสถิติที่จำเป็น: ทฤษฎีและวิธีการนิวยอร์ก: Springer หน้า 27–124 doi : 10.1007/978-1-4614-4818-1_2 ISBN 978-1-4614-4817-4.
Edwards, AWF (1992) [1972]. ความน่าจะเป็น (ฉบับขยาย). สำนักพิมพ์มหาวิทยาลัยจอห์นส์ ฮอปกินส์ISBN 0-8018-4443-6.
คิง, แกรี่ (1989). "แบบจำลองความน่าจะเป็นของการอนุมาน" . การรวมวิธีการทางการเมือง: ทฤษฎีความน่าจะเป็นของการอนุมานทางสถิติ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. หน้า 59–94 . ISBN 0-521-36697-6.
Richard, Mark; Vecer, Jan (1 กุมภาพันธ์ 2021). "การทดสอบประสิทธิภาพของตลาดการทำนาย: แนวทางมาร์ติงเกล อัตราส่วนความน่าจะเป็น และการวิเคราะห์ปัจจัยเบย์ส"ความเสี่ยง9 ( 2): 31. doi : 10.3390/risks9020031 . hdl : 10419/258120 .
ลินด์ซีย์, เจ.เค. (1996). "ความน่าจะเป็น" . การอนุมานทางสถิติเชิงพาราเมตริก . สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด. หน้า 69–139 . ISBN 0-19-852359-9.
โรห์เด, ชาร์ลส์ เอ. (2014). การอนุมานทางสถิติเบื้องต้นด้วยฟังก์ชันความน่าจะเป็น . เบอร์ลิน: สปริงเกอร์. ISBN 978-3-319-10460-7.
รอยัล, ริชาร์ด (1997). หลักฐานทางสถิติ: แบบจำลองความน่าจะเป็น . ลอนดอน: แชปแมน แอนด์ ฮอลล์. ISBN 0-412-04411-0.
วอร์ด, ไมเคิล ดี. ; อาลควิสต์, จอห์น เอส. (2018). "ฟังก์ชันความน่าจะเป็น: การเจาะลึกยิ่งขึ้น"ความน่าจะเป็นสูงสุดสำหรับสังคมศาสตร์: กลยุทธ์สำหรับการวิเคราะห์สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์หน้า 21–28 . ISBN 978-1-316-63682-4.

ลิงก์ภายนอก

ฟังก์ชันความน่าจะเป็นที่ Planetmath
"ค่าความน่าจะเป็นล็อก" . Statlect .

[42] ดูตระกูลเลขชี้กำลัง § การตีความ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[

[

[ 10 ]

[

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[

[

[

[

[

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[

28

29

[

[

[ 32 ]

[ 33 ]

ตระกูล

[

[ 36 ]

จะ

[

[

[

[

[ a ]

42 ] การ

Ronald

[

[

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]