อ่าน 27 นาที
ฟังก์ชันความน่าจะเป็น
ฟังก์ชัน ความน่าจะเป็น (มักเรียกง่ายๆ ว่า ความน่าจะเป็น ) วัดว่า แบบจำลองทางสถิติ อธิบาย ข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า...
ฟังก์ชันความน่าจะเป็น
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| สถิติแบบเบย์เซียน |
|---|
| ความน่าจะเป็นภายหลัง = ความน่าจะเป็น × ความน่าจะเป็น ก่อนหน้า ÷ หลักฐาน |
| พื้นหลัง |
| การสร้างแบบจำลอง |
| การประมาณค่าด้านหลัง |
| ผู้ประเมิน |
| การประมาณหลักฐาน |
| การประเมินแบบจำลอง |
ฟังก์ชันความน่าจะเป็น (มักเรียกง่ายๆ ว่าความน่าจะเป็น ) วัดว่าแบบจำลองทางสถิติอธิบายข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า พารามิเตอร์ ต่างๆ ของแบบจำลอง ฟังก์ชันนี้สร้างขึ้นจากความน่าจะเป็นร่วมของการแจกแจงของตัวแปรสุ่มที่ (สันนิษฐานว่า) สร้างการสังเกต[ 1 ] [ 2 ] [ 3 ]เมื่อประเมินจากจุดข้อมูลจริง ฟังก์ชันนี้จะกลายเป็นฟังก์ชันของพารามิเตอร์ของแบบจำลองเท่านั้น
ในการประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุดพารามิเตอร์หรือตัวแปรของแบบจำลองที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุดจะทำหน้าที่เป็นค่าประมาณจุดสำหรับพารามิเตอร์ที่ไม่ทราบค่า ในขณะที่ข้อมูลของฟิชเชอร์ (ซึ่งมักประมาณได้จากเมทริกซ์เฮสเซียน ของฟังก์ชันความน่าจะเป็นที่จุดสูงสุด) จะบ่งบอกถึง ความแม่นยำของการประมาณค่า
ในทางตรงกันข้าม ในสถิติแบบเบย์เซียนค่าประมาณที่สนใจคือค่าผกผันของความน่าจะเป็น ซึ่งก็คือความน่าจะเป็นภายหลังของพารามิเตอร์ที่กำหนดโดยข้อมูลที่สังเกตได้ ซึ่งคำนวณผ่านกฎของเบย์ส[ 4 ]
คำนิยาม
ฟังก์ชันความน่าจะเป็น ซึ่งกำหนดโดยพารามิเตอร์ (ซึ่งอาจเป็นพารามิเตอร์หลายตัว) มักจะถูกกำหนดแตกต่างกันสำหรับฟังก์ชันความน่าจะเป็นแบบไม่ต่อเนื่องและแบบต่อเนื่อง (คำจำกัดความทั่วไปเพิ่มเติมจะกล่าวถึงด้านล่าง) เมื่อกำหนดฟังก์ชันความหนาแน่นหรือมวลของความน่าจะเป็นแล้ว
โดยที่เป็นค่าที่เกิดขึ้นจริงของตัวแปรสุ่มฟังก์ชันความน่าจะเป็น มักเขียนในรูปแบบนี้
กล่าวอีกนัยหนึ่ง เมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความหนาแน่นความน่าจะเป็น และเมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความน่าจะเป็นแบบมีเงื่อนไข ในแบบจำลองความถี่นิยม มักจะหลีกเลี่ยง การใช้สัญลักษณ์และใช้หรือ แทน เพื่อบ่งชี้ว่า ถือเป็นปริมาณที่ไม่ทราบค่าคงที่ แทนที่จะเป็นตัวแปรสุ่มที่ขึ้นอยู่กับ
ฟังก์ชันความน่าจะเป็นไม่ได้ระบุความน่าจะเป็นที่เป็นความจริง เมื่อพิจารณาจากตัวอย่างที่สังเกตได้การตีความเช่นนี้เป็นข้อผิดพลาดที่พบได้บ่อย ซึ่งอาจส่งผลร้ายแรง (ดูข้อผิดพลาดของอัยการ )
การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง
ให้เป็นตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่มีฟังก์ชันความน่าจะเป็นขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน
ฟังก์ชันความน่าจะเป็น (likelihood function) ซึ่งพิจารณาจากค่าที่เป็นไปได้ของพารามิเตอร์เชิงกำหนดแต่ไม่ทราบค่าคือฟังก์ชันความน่าจะ เป็น (likelihood function) เมื่อกำหนดผลลัพธ์ของตัวแปรสุ่มบางครั้งความน่าจะเป็นของ "ค่าของสำหรับค่าพารามิเตอร์" จะเขียนเป็นP ( X = x | θ )หรือP ( X = x ; θ )ความน่าจะเป็น (likelihood) คือความน่าจะเป็นที่ผลลัพธ์เฉพาะอย่างหนึ่งจะถูกสังเกตเมื่อค่าที่แท้จริงของพารามิเตอร์คือซึ่งเทียบเท่ากับมวลความน่าจะเป็นบนไม่ใช่ความหนาแน่นความน่าจะเป็นเหนือพารามิเตอร์ความน่าจะเป็น (likelihood ) ไม่ควรสับสนกับซึ่งเป็นความน่าจะเป็นภายหลัง (posterior probability) ของเมื่อกำหนดข้อมูลแล้ว
ตัวอย่าง


ลองพิจารณาแบบจำลองทางสถิติอย่างง่ายของการโยนเหรียญ: พารามิเตอร์เดียวที่แสดงถึง "ความยุติธรรม" ของเหรียญ พารามิเตอร์นี้คือความน่าจะเป็นที่เหรียญจะออกหัว ("H") เมื่อโยนสามารถมีค่าใดก็ได้ในช่วง 0.0 ถึง 1.0 สำหรับเหรียญที่ยุติธรรมอย่าง สมบูรณ์ .
ลองนึกภาพการโยนเหรียญที่ยุติธรรมสองครั้ง และสังเกตเห็นว่าได้หัวทั้งสองครั้ง ("HH") สมมติว่าการโยนเหรียญแต่ละครั้งเป็นการสุ่มแบบอิสระและ มีการกระจายเหมือนกัน (iid) ดังนั้นความน่าจะเป็นที่จะสังเกตเห็น HH คือ
ในทำนองเดียวกัน ความน่าจะเป็นของการสังเกตเห็น "HH" โดยสมมติว่าคือ
นี่ไม่ใช่สิ่งเดียวกับการกล่าวว่า ซึ่ง เป็น ข้อสรุปที่สามารถได้มาโดยใช้ทฤษฎีบทของเบย์ส เท่านั้น โดยอาศัยความรู้เกี่ยวกับความน่าจะเป็นส่วนย่อยและ
สมมติว่าเหรียญนั้นไม่ใช่เหรียญยุติธรรม แต่เป็นเหรียญอื่นดังนั้นความน่าจะเป็นที่จะได้หัวสองครั้งในการโยนสองครั้งคือ
เพราะฉะนั้น
โดยทั่วไปแล้ว สำหรับแต่ละค่าของเราสามารถคำนวณความน่าจะเป็นที่สอดคล้องกันได้ ผลลัพธ์ของการคำนวณดังกล่าวแสดงอยู่ในรูปที่ 1 อินทิกรัลของในช่วง [0, 1] มีค่าเท่ากับ 1/3 ความน่าจะเป็นไม่จำเป็นต้องมีอินทิกรัลหรือผลรวมเท่ากับหนึ่งในปริภูมิพารามิเตอร์
การแจกแจงความน่าจะเป็นแบบต่อเนื่อง
ให้เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ด้วยฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน
เมื่อพิจารณาว่าเป็นฟังก์ชันของ จะ เป็นฟังก์ชันความน่าจะเป็น (ของโดยกำหนดผลลัพธ์ ) อีกครั้งไม่ใช่ฟังก์ชันความหนาแน่นความน่าจะเป็นหรือฟังก์ชันมวลเหนือแม้ว่าจะเป็นฟังก์ชันของโดยกำหนดการสังเกตก็ตาม
ความสัมพันธ์ระหว่างฟังก์ชันความน่าจะเป็นและฟังก์ชันความหนาแน่นของความน่าจะเป็น
การใช้ความหนาแน่นของความน่าจะเป็นในการระบุฟังก์ชันความน่าจะเป็นข้างต้นนั้นมีเหตุผลดังนี้ เมื่อกำหนดค่าสังเกตความน่าจะเป็นสำหรับช่วงโดยที่เป็นค่าคงที่ จะกำหนดโดยสังเกตว่า เนื่องจากเป็นค่าบวกและคงที่ เนื่องจาก
โดยที่ฟังก์ชันความหนาแน่นของความน่าจะเป็นคือ จึงสรุปได้ว่า
ทฤษฎีบทพื้นฐานข้อ แรกของแคลคูลัสกล่าวว่า
แล้ว
ดังนั้น การเพิ่มความหนาแน่นของความน่าจะเป็นให้สูงสุด จึงเท่ากับการเพิ่มโอกาสของการสังเกตเฉพาะนั้นให้สูงสุด
โดยทั่วไป
ในทฤษฎีความน่าจะเป็นเชิงการวัดฟังก์ชันความหนาแน่นถูกกำหนดให้เป็นอนุพันธ์ Radon–Nikodymของการกระจายความน่าจะเป็นที่สัมพันธ์กับการวัดที่ครอบงำร่วมกัน[ 5 ]ฟังก์ชันความน่าจะเป็นคือความหนาแน่นนี้ที่ตีความว่าเป็นฟังก์ชันของพารามิเตอร์ แทนที่จะเป็นตัวแปรสุ่ม[ 6 ]ดังนั้น เราสามารถสร้างฟังก์ชันความน่าจะเป็นสำหรับการกระจายใดๆ ก็ได้ ไม่ว่าจะเป็นแบบไม่ต่อเนื่อง แบบต่อเนื่อง แบบผสม หรือแบบอื่นๆ (ความน่าจะเป็นจะเปรียบเทียบกันได้ เช่น สำหรับการประมาณค่าพารามิเตอร์ ก็ต่อเมื่อเป็นอนุพันธ์ Radon–Nikodym ที่สัมพันธ์กับการวัดที่ครอบงำเดียวกันเท่านั้น)
การอภิปรายข้างต้นเกี่ยวกับความน่าจะเป็นสำหรับตัวแปรสุ่มแบบไม่ต่อเนื่องใช้มาตรวัดการนับซึ่งความหนาแน่นของความน่าจะเป็น ณ ผลลัพธ์ใด ๆ จะเท่ากับความน่าจะเป็นของผลลัพธ์นั้น
ความน่าจะเป็นสำหรับการกระจายแบบผสมระหว่างต่อเนื่องและไม่ต่อเนื่อง
วิธีการข้างต้นสามารถขยายได้อย่างง่ายๆ เพื่อพิจารณาการแจกแจงที่มีทั้งส่วนประกอบแบบไม่ต่อเนื่องและแบบต่อเนื่อง สมมติว่าการแจกแจงประกอบด้วยมวลความน่าจะเป็นแบบไม่ต่อเนื่องจำนวนหนึ่งและความหนาแน่นโดยที่ผลรวมของค่าทั้งหมดที่บวกกับอินทิกรัลของจะเท่ากับหนึ่งเสมอ สมมติว่าสามารถแยกแยะการสังเกตที่สอดคล้องกับมวลความน่าจะเป็นแบบไม่ต่อเนื่องหนึ่งออกจากการสังเกตที่สอดคล้องกับส่วนประกอบความหนาแน่นได้ ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบต่อเนื่องสามารถจัดการได้ในลักษณะที่แสดงไว้ข้างต้น สำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่อง ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่องก็คือ โดย ที่คือดัชนีของมวลความน่าจะเป็นแบบไม่ต่อเนื่องที่สอดคล้องกับการสังเกตเนื่องจาก1 การเพิ่มมวลความน่าจะเป็น (หรือความน่าจะเป็น) ที่ ให้สูงสุดเท่ากับการเพิ่มความน่าจะเป็นของการสังเกตเฉพาะนั้นให้สูงสุด
ข้อเท็จจริงที่ว่าฟังก์ชันความน่าจะเป็นสามารถกำหนดได้ในลักษณะที่รวมส่วนประกอบที่ไม่สอดคล้องกัน (ความหนาแน่นและมวลความน่าจะเป็น) เกิดขึ้นจากวิธีการที่ฟังก์ชันความน่าจะเป็นถูกกำหนดโดยมีค่าคงที่สัดส่วน ซึ่ง "ค่าคงที่" นี้สามารถเปลี่ยนแปลงได้ตามการสังเกตแต่ ไม่เปลี่ยนแปลงตามพารามิเตอร์
เงื่อนไขความสม่ำเสมอ
ในบริบทของการประมาณค่าพารามิเตอร์ ฟังก์ชันความน่าจะเป็นมักจะถือว่าเป็นไปตามเงื่อนไขบางประการที่เรียกว่าเงื่อนไขความสม่ำเสมอ เงื่อนไขเหล่านี้ถูกสมมติขึ้นในการพิสูจน์ต่างๆ ที่เกี่ยวข้องกับฟังก์ชันความน่าจะเป็น และจำเป็นต้องได้รับการตรวจสอบในแต่ละการใช้งานเฉพาะ สำหรับการประมาณค่าความน่าจะเป็นสูงสุด การมีอยู่ของค่าสูงสุดทั่วโลกของฟังก์ชันความน่าจะเป็นนั้นมีความสำคัญอย่างยิ่ง ตามทฤษฎีบทค่าสุดขีดเพียงพอแล้วที่ฟังก์ชันความน่าจะเป็นจะต่อเนื่องบน ปริภูมิพารามิเตอร์ แบบกระชับเพื่อให้ตัวประมาณค่าความน่าจะเป็นสูงสุดมีอยู่[ 7 ]ในขณะที่สมมติฐานความต่อเนื่องมักจะเป็นไปตามเงื่อนไข สมมติฐานความกระชับเกี่ยวกับปริภูมิพารามิเตอร์มักจะไม่เป็นไปตามเงื่อนไข เนื่องจากขอบเขตของค่าพารามิเตอร์ที่แท้จริงอาจไม่เป็นที่รู้จัก ในกรณีนั้นความเว้าของฟังก์ชันความน่าจะเป็นมีบทบาทสำคัญ
โดยเฉพาะอย่างยิ่ง หากฟังก์ชันความน่าจะเป็นสามารถหาอนุพันธ์อันดับสองได้อย่างต่อเนื่องบนปริภูมิพารามิเตอร์k มิติ ที่ถือว่าเป็นเซตย่อยที่เชื่อมต่อกันแบบเปิดจะมีค่าสูงสุดที่ไม่ซ้ำกันหากเมทริกซ์ของอนุพันธ์อันดับสองเป็น เมทริกซ์ บวกกำหนดสำหรับทุกค่าที่เกรเดียนต์เป็นศูนย์ และหากฟังก์ชันความน่าจะเป็นเข้าใกล้ค่าคงที่บนขอบของปริภูมิพารามิเตอร์ กล่าวคือ ซึ่งอาจรวมถึงจุดที่อนันต์หากไม่จำกัด Mäkeläinen และผู้เขียนร่วมพิสูจน์ผลลัพธ์นี้โดยใช้ทฤษฎี Morseในขณะที่อ้างถึงคุณสมบัติทางผ่านภูเขาอย่างไม่เป็นทางการ[ 8 ] Mascarenhas กล่าวถึงการพิสูจน์ของพวกเขาอีกครั้งโดยใช้ทฤษฎีบททางผ่านภูเขา[ 9 ]
ในการพิสูจน์ความสอดคล้องและความปกติเชิงอะซิมโทติกของตัวประมาณค่าความน่าจะเป็นสูงสุด มีการตั้งสมมติฐานเพิ่มเติมเกี่ยวกับความหนาแน่นของความน่าจะเป็นที่เป็นพื้นฐานของฟังก์ชันความน่าจะเป็นเฉพาะ เงื่อนไขเหล่านี้ได้รับการกำหนดขึ้นครั้งแรกโดย Chanda [ 10 ]โดยเฉพาะอย่างยิ่ง สำหรับเกือบทุก ๆ และสำหรับทุก ๆ จะต้องมีอยู่สำหรับทุก ๆเพื่อให้แน่ใจว่ามีการขยายอนุกรมเทย์เลอร์ประการที่สอง สำหรับเกือบทุก ๆและสำหรับทุก ๆจะต้องเป็น โดย ที่เป็นเช่นนั้นความมีขอบเขตของอนุพันธ์นี้จำเป็นเพื่อให้สามารถหาอนุพันธ์ภายใต้เครื่องหมายอินทิกรัลได้และสุดท้าย ถือว่า เมทริก ซ์ ข้อมูล เป็นเมทริกซ์บวกแน่นอนและมีค่าจำกัด ซึ่งทำให้มั่นใจได้ว่าคะแนนมีความแปรปรวนจำกัด[ 11 ]
เงื่อนไขข้างต้นนั้นเพียงพอ แต่ไม่ใช่เงื่อนไขที่จำเป็น กล่าวคือ แบบจำลองที่ไม่ตรงตามเงื่อนไขความสม่ำเสมอเหล่านี้ อาจจะมีหรือไม่มีตัวประมาณค่าความน่าจะเป็นสูงสุดของคุณสมบัติที่กล่าวถึงข้างต้นก็ได้ นอกจากนี้ ในกรณีที่การสังเกตการณ์ไม่ได้กระจายตัวอย่างเป็นอิสระหรือกระจายตัวอย่างเหมือนกัน อาจจำเป็นต้องสมมติคุณสมบัติเพิ่มเติมอีกด้วย
ในสถิติแบบเบย์เซียน เงื่อนไขความสม่ำเสมอที่เกือบจะเหมือนกันจะถูกกำหนดให้กับฟังก์ชันความน่าจะเป็นเพื่อพิสูจน์ความเป็นปกติเชิงอะซิมโทติกของความน่าจะเป็นภายหลัง[ 12 ] [ 13 ]และด้วยเหตุนี้จึงพิสูจน์การประมาณค่าลาปลาสของความน่าจะเป็นภายหลังในตัวอย่างขนาดใหญ่[ 14 ]
อัตราส่วนความน่าจะเป็นและความน่าจะเป็นสัมพัทธ์
อัตราส่วนความน่าจะเป็น
อัตราส่วนความน่าจะเป็นคือ อัตราส่วนของความน่าจะเป็นสองค่าใดๆ ที่กำหนดไว้ ซึ่งมักเขียนในรูปแบบ:
อัตราส่วนความน่าจะเป็นเป็นหัวใจสำคัญของสถิติเชิงความน่าจะเป็น : กฎแห่งความน่าจะเป็นระบุว่า ระดับที่ข้อมูล (ซึ่งถือเป็นหลักฐาน) สนับสนุนค่าพารามิเตอร์หนึ่งเมื่อเทียบกับอีกค่าหนึ่งนั้น วัดได้จากอัตราส่วนความน่าจะเป็น
ในการอนุมานแบบความถี่อัตราส่วนความน่าจะเป็นเป็นพื้นฐานสำหรับสถิติการทดสอบซึ่งเรียกว่าการทดสอบอัตราส่วนความน่าจะเป็นตามทฤษฎีบทของNeyman–Pearsonนี่คือ การทดสอบ ที่มีประสิทธิภาพ ที่สุด สำหรับการเปรียบเทียบสมมติฐานง่ายๆ สองข้อที่ระดับนัยสำคัญ ที่กำหนด การทดสอบอื่นๆ อีกมากมายสามารถมองได้ว่าเป็นการทดสอบอัตราส่วนความน่าจะเป็นหรือการประมาณค่าของ การทดสอบดังกล่าว [ 15 ]การแจกแจงแบบอะซิมโทติกของอัตราส่วนลอการิทึมความน่าจะเป็น ซึ่งถือเป็นสถิติการทดสอบนั้น ได้รับจากทฤษฎีบทของ Wilks
อัตราส่วนความน่าจะเป็นมีความสำคัญอย่างยิ่งในการอนุมานแบบเบย์เซียนซึ่งรู้จักกันในชื่อปัจจัยเบย์และใช้ในกฎของเบย์ กฎของเบย์กล่าว ในรูปของอัตราต่อรองว่า อัตราต่อ รองภายหลังของทางเลือกสองทาง และ เมื่อกำหนดเหตุการณ์ แล้ว คือ อัตราต่อรอง ก่อนหน้าคูณด้วยอัตราส่วนความน่าจะเป็น ในรูปสมการ:
อัตราส่วนความน่าจะเป็นไม่ได้ถูกนำมาใช้โดยตรงในสถิติที่อิงตาม AIC แต่สิ่งที่นำมาใช้คือความน่าจะเป็นสัมพัทธ์ของแบบจำลอง (ดูด้านล่าง)
ในเวชศาสตร์เชิงประจักษ์อัตราส่วนความน่าจะเป็นถูกนำมาใช้ในการทดสอบวินิจฉัยเพื่อประเมินคุณค่าของการทำการทดสอบวินิจฉัย นั้น ๆ
ฟังก์ชันความน่าจะเป็นสัมพัทธ์
เนื่องจากค่าจริงของฟังก์ชันความน่าจะเป็นขึ้นอยู่กับตัวอย่าง จึงมักสะดวกที่จะใช้การวัดแบบมาตรฐาน สมมติว่าค่าประมาณความน่าจะเป็นสูงสุดสำหรับพารามิเตอร์θคือความน่าจะเป็นสัมพัทธ์ของ ค่า θ อื่นๆ อาจพบได้โดยการเปรียบเทียบความน่าจะเป็นของค่าอื่นๆ เหล่านั้นกับความน่าจะเป็นของ ความน่าจะเป็นสัมพัทธ์ของθ ถูกกำหนดให้เป็น[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] ดังนั้น ความน่าจะเป็นสัมพัทธ์คืออัตราส่วนความน่าจะเป็น (ที่กล่าวถึงข้างต้น) โดยมีตัวหารคงที่ซึ่งสอดคล้องกับการทำให้ความน่าจะเป็นเป็นมาตรฐานเพื่อให้มีค่าสูงสุดเท่ากับ 1
ภูมิภาคความน่าจะเป็น
ขอบเขตความน่าจะเป็นคือเซตของค่าทั้งหมดของθที่มีความน่าจะเป็นสัมพัทธ์มากกว่าหรือเท่ากับเกณฑ์ที่กำหนด ในแง่ของเปอร์เซ็นต์ ขอบเขตความน่าจะเป็น p %สำหรับθถูกกำหนดให้เป็น[ 16 ] [ 18 ] [ 21 ]
ถ้าθเป็นพารามิเตอร์จริงตัวเดียว บริเวณความน่าจะเป็น p % มักจะประกอบด้วยช่วงของค่าจริง ถ้าบริเวณนั้นประกอบด้วยช่วง ก็จะเรียกว่าช่วงความน่าจะเป็น[ 16 ] [ 18 ] [ 22 ]
ช่วงความน่าจะเป็น และโดยทั่วไปคือบริเวณความน่าจะเป็น ใช้สำหรับการประมาณค่าช่วงในสถิติแบบความน่าจะเป็น: คล้ายกับช่วงความเชื่อมั่นในสถิติแบบความถี่ และช่วงความน่าเชื่อถือในสถิติแบบเบย์ ช่วงความน่าจะเป็นจะถูกตีความโดยตรงในแง่ของความน่าจะเป็นสัมพัทธ์ ไม่ใช่ในแง่ของความน่าจะเป็นของการครอบคลุม (แบบความถี่) หรือความน่าจะเป็นภายหลัง (แบบเบย์)
เมื่อกำหนดแบบจำลองแล้ว ช่วงความน่าจะเป็นสามารถเปรียบเทียบกับช่วงความเชื่อมั่นได้ หากθเป็นพารามิเตอร์จริงตัวเดียว ภายใต้เงื่อนไขบางประการ ช่วงความน่าจะเป็น 14.65% (ประมาณความน่าจะเป็น 1:7) สำหรับθจะเท่ากับช่วงความเชื่อมั่น 95% (ความน่าจะเป็นในการครอบคลุม 19/20) [ 16 ] [ 21 ]ในสูตรที่แตกต่างกันเล็กน้อยซึ่งเหมาะสมกับการใช้ลอการิทึมความน่าจะเป็น (ดูทฤษฎีบทของ Wilks ) สถิติการทดสอบจะเป็นสองเท่าของความแตกต่างในลอการิทึมความน่าจะเป็น และการกระจายความน่าจะเป็นของสถิติการทดสอบจะเป็นการกระจายแบบไคกำลังสอง โดยประมาณ โดยมีองศาอิสระ (df) เท่ากับความแตกต่างของ df ระหว่างสองแบบจำลอง (ดังนั้น ช่วงความน่าจะเป็น e −2จึงเหมือนกับช่วงความเชื่อมั่น 0.954 โดยสมมติว่าความแตกต่างของ df เท่ากับ 1) [ 21 ] [ 22 ]
ความน่าจะเป็นที่กำจัดพารามิเตอร์ที่ไม่พึงประสงค์
ในหลายกรณี ความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์มากกว่าหนึ่งตัว แต่ความสนใจจะมุ่งเน้นไปที่การประมาณค่าของพารามิเตอร์เพียงตัวเดียว หรืออย่างมากก็เพียงไม่กี่ตัว โดยถือว่าพารามิเตอร์อื่นๆ เป็นพารามิเตอร์ที่ไม่สำคัญมีแนวทางทางเลือกหลายวิธีที่ได้รับการพัฒนาขึ้นเพื่อกำจัดพารามิเตอร์ที่ไม่สำคัญเหล่านี้ เพื่อให้สามารถเขียนความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์ที่สนใจเพียงตัวเดียวได้ แนวทางหลักๆ ได้แก่ ความน่าจะเป็นแบบโปรไฟล์ แบบมีเงื่อนไข และแบบมาร์จินัล[ 23 ] [ 24 ]แนวทางเหล่านี้ยังมีประโยชน์เมื่อจำเป็นต้องลดพื้นผิวความน่าจะเป็นที่มีมิติสูงให้เหลือเพียงหนึ่งหรือสองตัวพารามิเตอร์ที่สนใจ เพื่อให้สามารถสร้างกราฟได้
ความน่าจะเป็นของโปรไฟล์
เป็นไปได้ที่จะลดมิติลงโดยการรวมฟังก์ชันความน่าจะเป็นสำหรับพารามิเตอร์ย่อยโดยการแสดงพารามิเตอร์ที่ไม่พึงประสงค์เป็นฟังก์ชันของพารามิเตอร์ที่สนใจและแทนที่ในฟังก์ชันความน่าจะเป็น[ 25 ] [ 26 ]โดยทั่วไป สำหรับฟังก์ชันความน่าจะเป็นที่ขึ้นอยู่กับเวกเตอร์พารามิเตอร์ที่สามารถแบ่งออกเป็นและสามารถกำหนดความสอดคล้องได้อย่างชัดเจน การรวมจะช่วยลดภาระการคำนวณของปัญหาการเพิ่มค่าสูงสุดดั้งเดิม[ 27 ]
ตัวอย่างเช่น ในการถดถอยเชิงเส้นที่มีข้อผิดพลาดแบบกระจายปกติเวกเตอร์สัมประสิทธิ์สามารถแบ่งออกเป็น(และด้วยเหตุนี้เมทริกซ์การออกแบบ ) การหาค่าสูงสุดของ เทียบกับ จะได้ ฟังก์ชันค่าที่เหมาะสมที่สุดโดยใช้ผลลัพธ์นี้ ตัวประมาณค่าความน่าจะเป็นสูงสุดสำหรับสามารถหาได้จาก โดยที่คือเมทริกซ์การฉายภาพของผลลัพธ์นี้เรียกว่าทฤษฎีบท Frisch–Waugh–Lovell
เนื่องจากในเชิงกราฟิก กระบวนการความเข้มข้นเทียบเท่ากับการตัดพื้นผิวความน่าจะเป็นตามสันของค่าพารามิเตอร์รบกวนที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุด สร้างโปรไฟล์ไอโซเมตริกของฟังก์ชันความน่าจะเป็นสำหรับค่าที่กำหนดผลลัพธ์ของกระบวนการนี้จึงเรียกว่าโปรไฟล์ความน่าจะเป็น [ 28 ] [ 29 ] นอกจากจะนำมาแสดงเป็นกราฟแล้ว โปรไฟล์ความน่าจะเป็นยังสามารถใช้ในการคำนวณช่วงความเชื่อ มั่น ซึ่งมักจะมีคุณสมบัติที่ดีกว่าสำหรับตัวอย่างขนาดเล็กเมื่อเทียบกับช่วงความเชื่อมั่นที่คำนวณจาก ค่าความคลาดเคลื่อนมาตรฐานเชิงอะซิมโทติกจากความน่าจะเป็นแบบเต็ม[ 30 ] [ 31 ]
ความน่าจะเป็นแบบมีเงื่อนไข
บางครั้งอาจสามารถหาค่าสถิติที่เพียงพอสำหรับพารามิเตอร์รบกวนได้ และการกำหนดเงื่อนไขตามค่าสถิตินี้จะส่งผลให้ความน่าจะเป็นไม่ขึ้นอยู่กับพารามิเตอร์รบกวน[ 32 ]
ตัวอย่างหนึ่งเกิดขึ้นในตาราง 2×2 ซึ่งการกำหนดเงื่อนไขโดยพิจารณาจากผลรวมขอบทั้งสี่ด้านจะนำไปสู่ความน่าจะเป็นแบบมีเงื่อนไขโดยอิงจากการกระจายแบบไฮเปอร์จีโอเมตริกที่ไม่เป็นศูนย์กลาง รูปแบบ การกำหนดเงื่อนไขนี้ยังเป็นพื้นฐานสำหรับการทดสอบความแม่นยำของฟิชเชอร์ อีกด้วย
ความน่าจะเป็นแบบมาร์จินัล
บางครั้งเราสามารถกำจัดพารามิเตอร์ที่ไม่พึงประสงค์ได้โดยพิจารณาความน่าจะเป็นโดยอาศัยข้อมูลเพียงบางส่วนเท่านั้น เช่น การใช้ชุดลำดับแทนค่าตัวเลข อีกตัวอย่างหนึ่งเกิดขึ้นใน แบบจำลอง ผสมเชิงเส้น (linear mixed models ) ซึ่งการพิจารณาความน่าจะเป็นสำหรับค่าความคลาดเคลื่อนหลังจากปรับค่าผลกระทบคงที่แล้ว จะนำไปสู่ การประมาณค่าความน่าจะเป็น สูงสุดของค่าความคลาดเคลื่อนของส่วนประกอบความแปรปรวน
ความน่าจะเป็นบางส่วน
ความน่าจะเป็นบางส่วนเป็นการปรับเปลี่ยนความน่าจะเป็นแบบเต็มเพื่อให้พารามิเตอร์เพียงบางส่วน (พารามิเตอร์ที่สนใจ) ปรากฏอยู่ในนั้น[ 33 ]เป็นองค์ประกอบสำคัญของแบบจำลองความเสี่ยงตามสัดส่วน : โดยใช้ข้อจำกัดบนฟังก์ชันความเสี่ยง ความน่าจะเป็นจะไม่ประกอบด้วยรูปร่างของความเสี่ยงเมื่อเวลาผ่านไป
ผลคูณของความน่าจะเป็น
ความน่าจะเป็น เมื่อพิจารณาเหตุการณ์อิสระ สองเหตุการณ์ขึ้นไป จะเป็นผลคูณของความน่าจะเป็นของแต่ละเหตุการณ์: ซึ่งเป็นผลมาจากนิยามของความเป็นอิสระในความน่าจะเป็น: ความน่าจะเป็นของการเกิดเหตุการณ์อิสระสองเหตุการณ์ เมื่อพิจารณาแบบจำลอง จะเป็นผลคูณของความน่าจะเป็น
สิ่งนี้มีความสำคัญเป็นพิเศษเมื่อเหตุการณ์มาจากตัวแปรสุ่มอิสระและมีการกระจายแบบเดียวกันเช่น การสังเกตอิสระหรือการสุ่มตัวอย่างแบบมีการแทนที่ในสถานการณ์เช่นนี้ ฟังก์ชันความน่าจะเป็นจะแยกออกเป็นผลคูณของฟังก์ชันความน่าจะเป็นแต่ละตัว
ผลคูณที่ว่างเปล่ามีค่าเท่ากับ 1 ซึ่งสอดคล้องกับความน่าจะเป็น 1 เมื่อไม่มีเหตุการณ์ใดเกิดขึ้น: ก่อนที่จะมีข้อมูลใดๆ ความน่าจะเป็นจะเท่ากับ 1 เสมอ นี่คล้ายกับไพรเออร์แบบเอกรูปในสถิติแบบเบย์เซียน แต่ในสถิติแบบความน่าจะเป็น นี่ไม่ใช่ไพรเออร์ที่ไม่เหมาะสมเพราะความน่าจะเป็นไม่ได้ถูกรวมเข้าด้วยกัน
ความน่าจะเป็นล็อก
Log-likelihood function is the logarithm of the likelihood function, often denoted by a lowercase l or , to contrast with the uppercase L or for the likelihood. Because logarithms are strictly increasing functions, maximizing the likelihood is equivalent to maximizing the log-likelihood. But for practical purposes it is more convenient to work with the log-likelihood function in maximum likelihood estimation, in particular since most common probability distributions—notably the exponential family—are only logarithmically concave,[34][35] and concavity of the objective function plays a key role in the maximization.
Given the independence of each event, the overall log-likelihood of intersection equals the sum of the log-likelihoods of the individual events. This is analogous to the fact that the overall log-probability is the sum of the log-probability of the individual events. In addition to the mathematical convenience from this, the adding process of log-likelihood has an intuitive interpretation, as often expressed as "support" from the data. When the parameters are estimated using the log-likelihood for the maximum likelihood estimation, each data point is used by being added to the total log-likelihood. As the data can be viewed as an evidence that support the estimated parameters, this process can be interpreted as "support from independent evidence adds", and the log-likelihood is the "weight of evidence". Interpreting negative log-probability as information content or surprisal, the support (log-likelihood) of a model, given an event, is the negative of the surprisal of the event, given the model: a model is supported by an event to the extent that the event is unsurprising, given the model.
A logarithm of a likelihood ratio is equal to the difference of the log-likelihoods:
Just as the likelihood, given no event, being 1, the log-likelihood, given no event, is 0, which corresponds to the value of the empty sum: without any data, there is no support for any models.
Graph
กราฟของลอการิทึมความน่าจะเป็นเรียกว่าเส้นโค้งสนับสนุน (ใน กรณี ตัวแปรเดียว ) [ 36 ] ในกรณีตัวแปรหลายตัว แนวคิดนี้จะขยายไปสู่พื้นผิวสนับสนุนเหนือพื้นที่พารามิเตอร์มันมีความสัมพันธ์กับ แต่แตกต่างจาก การสนับสนุนของ การ กระจาย
คำนี้ถูกบัญญัติโดยAWF Edwards [ 36 ]ในบริบทของการทดสอบสมมติฐานทางสถิติกล่าวคือ ข้อมูล "สนับสนุน" สมมติฐานหนึ่ง (หรือค่าพารามิเตอร์) ที่กำลังทดสอบมากกว่าสมมติฐานอื่นหรือไม่
ฟังก์ชันลอการิทึมความน่าจะเป็นที่แสดงในกราฟนั้นใช้ในการคำนวณคะแนน (ความชันของลอการิทึมความน่าจะเป็น) และข้อมูลฟิชเชอร์ (ความโค้งของลอการิทึมความน่าจะเป็น) ดังนั้น กราฟจึงสามารถตีความได้โดยตรงในบริบทของการประมาณค่าความน่าจะเป็นสูงสุดและการทดสอบอัตราส่วนความน่าจะเป็น
สมการความน่าจะเป็น
ถ้าฟังก์ชันลอการิทึมความน่าจะเป็นเป็นฟังก์ชันเรียบ เกรเดียนต์ของฟังก์ชันเทียบกับพารามิเตอร์ ซึ่งเรียกว่าสกอร์และเขียนแทนด้วยจะมีอยู่และช่วยให้สามารถใช้แคลคูลัสเชิงอนุพันธ์ได้ วิธีพื้นฐานในการหาค่าสูงสุดของฟังก์ชันที่หาอนุพันธ์ได้คือการหาจุดนิ่ง (จุดที่อนุพันธ์เป็นศูนย์) เนื่องจากอนุพันธ์ของผลรวมคือผลรวมของอนุพันธ์ แต่การหาอนุพันธ์ของผลคูณต้องใช้กฎผลคูณดังนั้นจึงง่ายกว่าที่จะคำนวณจุดนิ่งของลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระมากกว่าลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระ
สมการที่กำหนดโดยจุดนิ่งของฟังก์ชันคะแนนทำหน้าที่เป็นสมการประมาณค่าสำหรับตัวประมาณค่าความน่าจะเป็นสูงสุด ในแง่นั้น ตัวประมาณค่าความน่าจะเป็นสูงสุดถูกกำหนดโดยปริยายโดยค่าที่ของฟังก์ชันผกผันโดยที่คือปริภูมิยุคลิดมิติdและคือปริภูมิพารามิเตอร์ การใช้ทฤษฎีบทฟังก์ชันผกผันสามารถแสดงได้ว่าถูกกำหนดไว้อย่างดีในบริเวณใกล้เคียงแบบเปิดรอบ ๆด้วยความน่าจะเป็นที่เข้าใกล้หนึ่ง และเป็นการประมาณค่าที่สอดคล้องกันของผลที่ตามมาคือมีลำดับเช่นนั้นที่ เกือบ จะแน่นอนในเชิงอะซิมโทติกและ[ 37 ] ผลลัพธ์ที่คล้ายกันสามารถสร้างขึ้นได้โดยใช้ทฤษฎีบทของโรลล์[ 38 ] [ 39 ]
อนุพันธ์อันดับสองที่ประเมิน ณซึ่งเรียกว่าข้อมูลของฟิชเชอร์จะกำหนดความโค้งของพื้นผิวความน่าจะเป็น[ 40 ]และด้วยเหตุนี้จึงบ่งชี้ความแม่นยำของการประมาณค่า[ 41 ]
ตระกูลเลขชี้กำลัง
ฟังก์ชัน ความน่าจะเป็นล็อก ( log-likelihood) มีประโยชน์อย่างยิ่งสำหรับตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล ซึ่งรวมถึงการแจกแจงความน่าจะเป็นแบบพาราเมตริก ทั่วไปหลายๆ แบบ ฟังก์ชันการแจกแจงความน่าจะเป็น (และดังนั้นฟังก์ชันความน่าจะเป็นล็อก) สำหรับตระกูลเอกซ์โปเนนเชียลประกอบด้วยผลคูณของตัวประกอบที่เกี่ยวข้องกับ การยกกำลัง ล็อกของฟังก์ชันดังกล่าวเป็นผลรวมของผลคูณ ซึ่งง่ายต่อการหาอนุพันธ์มากกว่าฟังก์ชันดั้งเดิม
กลุ่มฟังก์ชันเอกซ์โพเนนเชียล คือกลุ่มฟังก์ชันที่มีฟังก์ชันความหนาแน่นความน่าจะเป็นอยู่ในรูปแบบ (สำหรับบางฟังก์ชัน เขียนแทนผลคูณภายใน ):
แต่ละคำเหล่านี้มีการตีความ[ a ]แต่การเปลี่ยนจากความน่าจะเป็นเป็นความน่าจะเป็นแบบมีเงื่อนไขและการหาค่าลอการิทึมจะให้ผลรวมดังนี้:
และแต่ละค่าสอดคล้องกับการเปลี่ยนพิกัดดังนั้นในพิกัดเหล่านี้ ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โปเนนเชียลจึงกำหนดโดยสูตรอย่างง่ายดังนี้ :
กล่าวโดยสรุป ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โพเนนเชียลคือผลคูณภายในของพารามิเตอร์ธรรมชาติและสถิติเพียงพอลบด้วยตัวประกอบการทำให้เป็นมาตรฐาน ( ฟังก์ชันการแบ่งส่วนลอการิทึม ) ดังนั้น ตัวอย่างเช่น ค่าประมาณความน่าจะ เป็น สูงสุดสามารถ คำนวณ ได้โดยการหาอนุพันธ์ของสถิติเพียงพอTและฟังก์ชันการแบ่งส่วนลอการิทึมA
ตัวอย่าง: การแจกแจงแกมมา
การแจกแจงแกมมาเป็นตระกูลการแจกแจงเอกซ์โพเนนเชียลที่มีพารามิเตอร์สองตัว คือและฟังก์ชันความน่าจะเป็นคือ
การหาค่าประมาณความน่าจะเป็นสูงสุดของสำหรับค่าที่สังเกตได้เพียงค่าเดียวดูเหมือนจะเป็นเรื่องยาก แต่การใช้ลอการิทึมนั้นง่ายกว่ามาก:
เพื่อเพิ่มค่าลอการิทึมความน่าจะเป็นให้สูงสุด เราจึงทำการหาอนุพันธ์ย่อยเทียบกับ ตัวแปร :
หากมีการสังเกตการณ์อิสระหลายครั้งค่าลอการิทึมความน่าจะเป็นร่วมจะเป็นผลรวมของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ และอนุพันธ์ของผลรวมนี้จะเป็นผลรวมของอนุพันธ์ของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ:
เพื่อให้ขั้นตอนการหาค่าสูงสุดของลอการิทึมความน่าจะเป็นร่วมเสร็จสมบูรณ์ สมการจะถูกกำหนดให้เป็นศูนย์และแก้หาค่า:
ในที่นี้หมายถึงค่าประมาณความน่าจะเป็นสูงสุด และคือค่าเฉลี่ยตัวอย่างของข้อมูลสังเกตการณ์
ภูมิหลังและการตีความ
ข้อสังเกตทางประวัติศาสตร์
คำว่า "likelihood" ถูกใช้ในภาษาอังกฤษมาอย่างน้อยตั้งแต่ปลายยุคกลางของอังกฤษ [ 42 ] การใช้คำนี้อย่างเป็นทางการเพื่ออ้างถึงฟังก์ชัน เฉพาะ ในสถิติทางคณิตศาสตร์นั้นได้รับการเสนอโดยRonald Fisher [ 43 ]ในเอกสารวิจัยสองฉบับที่ตีพิมพ์ในปี 1921 [ 44 ]และ 1922 [ 45 ]เอกสารปี 1921 ได้นำเสนอสิ่งที่ปัจจุบันเรียกว่า "likelihood interval" ส่วนเอกสารปี 1922 ได้นำเสนอคำว่า " method of maximum likelihood " อ้างอิงจาก Fisher:
ในปี พ.ศ. 2465 ข้าพเจ้าได้เสนอคำว่า 'ความน่าจะเป็น' โดยพิจารณาจากข้อเท็จจริงที่ว่า ในส่วนที่เกี่ยวกับ [พารามิเตอร์] นั้น มันไม่ใช่ความน่าจะเป็น และไม่เป็นไปตามกฎของความน่าจะเป็น ในขณะเดียวกันก็มีความสัมพันธ์กับปัญหาของการเลือกอย่างมีเหตุผลระหว่างค่าที่เป็นไปได้ของ [พารามิเตอร์] ในลักษณะที่คล้ายกับที่ความน่าจะเป็นมีต่อปัญหาของการทำนายเหตุการณ์ในเกมเสี่ยงโชค . . . อย่างไรก็ตาม ในส่วนที่เกี่ยวกับการตัดสินใจทางจิตวิทยา ความน่าจะเป็นมีความคล้ายคลึงกับความน่าจะเป็นอยู่บ้าง แต่แนวคิดทั้งสองนั้นแตกต่างกันโดยสิ้นเชิง . . ." [ 46 ]
The concept of likelihood should not be confused with probability as mentioned by Sir Ronald Fisher
I stress this because in spite of the emphasis that I have always laid upon the difference between probability and likelihood there is still a tendency to treat likelihood as though it were a sort of probability. The first result is thus that there are two different measures of rational belief appropriate to different cases. Knowing the population we can express our incomplete knowledge of, or expectation of, the sample in terms of probability; knowing the sample we can express our incomplete knowledge of the population in terms of likelihood.[47]
Fisher's invention of statistical likelihood was in reaction against an earlier form of reasoning called inverse probability.[48] His use of the term "likelihood" fixed the meaning of the term within mathematical statistics.
A. W. F. Edwards (1972) established the axiomatic basis for use of the log-likelihood ratio as a measure of relative support for one hypothesis against another. The support function is then the natural logarithm of the likelihood function. Both terms are used in phylogenetics, but were not adopted in a general treatment of the topic of statistical evidence.[49]
Interpretations under different foundations
Among statisticians, there is no consensus about what the foundation of statistics should be. There are four main paradigms that have been proposed for the foundation: frequentism, Bayesianism, likelihoodism, and AIC-based.[50] For each of the proposed foundations, the interpretation of likelihood is different. The four interpretations are described in the subsections below.
Frequentist interpretation
Bayesian interpretation
ในการอนุมานแบบเบย์เซียนแม้ว่าเราจะสามารถพูดถึงความน่าจะเป็นของข้อเสนอหรือตัวแปรสุ่ม ใดๆ เมื่อกำหนดตัวแปรสุ่มอื่นได้ เช่น ความน่าจะเป็นของค่าพารามิเตอร์หรือแบบจำลองทางสถิติ (ดูความน่าจะเป็นแบบมาร์จินัล ) เมื่อกำหนดข้อมูลที่ระบุหรือหลักฐานอื่นๆ[ 51 ] [ 52 ] [ 53 ] [ 54 ]ฟังก์ชันความน่าจะเป็นยังคงเป็นเอนทิตีเดียวกัน โดยมีการตีความเพิ่มเติมคือ (i) ความหนาแน่นแบบมีเงื่อนไขของข้อมูลเมื่อกำหนดพารามิเตอร์ (เนื่องจากพารามิเตอร์เป็นตัวแปรสุ่ม) และ (ii) การวัดหรือปริมาณข้อมูลที่ได้จากข้อมูลเกี่ยวกับค่าพารามิเตอร์หรือแม้แต่แบบจำลอง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]เนื่องจากการนำโครงสร้างความน่าจะเป็นมาใช้ในพื้นที่พารามิเตอร์หรือในชุดของแบบจำลอง จึงเป็นไปได้ที่ค่าพารามิเตอร์หรือแบบจำลองทางสถิติจะมีค่าความน่าจะเป็นสูงสำหรับข้อมูลที่กำหนด แต่มีความน่าจะ เป็นต่ำ หรือในทางกลับกัน[ 53 ] [ 55 ]กรณีนี้มักเกิดขึ้นในบริบททางการแพทย์[ 56 ]ตามกฎของเบย์สความน่าจะเป็นเมื่อมองเป็นความหนาแน่นแบบมีเงื่อนไขสามารถคูณด้วย ความหนาแน่น ความน่าจะเป็นก่อนหน้าของพารามิเตอร์แล้วทำให้เป็นมาตรฐาน เพื่อให้ได้ความหนาแน่นความน่าจะเป็นภายหลัง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]โดยทั่วไปแล้ว ความน่าจะเป็นของปริมาณที่ไม่ทราบค่า เมื่อกำหนดปริมาณที่ไม่ทราบค่าอีกปริมาณหนึ่ง จะเป็นสัดส่วนกับความน่าจะเป็น ของปริมาณที่ไม่ทราบค่า เมื่อ กำหนดปริมาณที่ไม่ทราบ ค่าอีกปริมาณหนึ่ง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]
การตีความแบบความน่าจะเป็น
ในสถิติเชิงความถี่ ฟังก์ชันความน่าจะเป็นนั้นเป็นสถิติที่สรุปผลจากตัวอย่างเดียวจากประชากร โดยค่าที่คำนวณได้ขึ้นอยู่กับการเลือกพารามิเตอร์หลายตัวθ 1 ... θ pโดยที่pคือจำนวนพารามิเตอร์ในแบบจำลองทางสถิติ ที่เลือกไว้แล้ว ค่าของความน่าจะเป็นทำหน้าที่เป็นตัวชี้วัดคุณภาพของการเลือกพารามิเตอร์ และชุดพารามิเตอร์ที่มีความน่าจะเป็นสูงสุดคือตัวเลือกที่ดีที่สุด เมื่อพิจารณาจากข้อมูลที่มีอยู่
การคำนวณความน่าจะเป็นโดยเฉพาะเจาะจงคือความน่าจะเป็นที่ตัวอย่างที่สังเกตได้จะถูกกำหนด โดยสมมติว่าแบบจำลองที่เลือกและค่าของพารามิเตอร์ต่างๆθให้ค่าประมาณที่แม่นยำของการกระจายความถี่ของประชากรที่ตัวอย่างที่สังเกตได้ถูกดึงมา โดยทั่วไปแล้ว การเลือกพารามิเตอร์ที่ดีคือพารามิเตอร์ที่ทำให้ตัวอย่างที่สังเกตได้จริงมีความน่าจะเป็นสูงสุดที่เป็นไปได้หลังจากการวิเคราะห์เสร็จสิ้นทฤษฎีบทของ Wilksแสดงให้เห็นถึงปริมาณของกฎเชิงอนุมานโดยแสดงให้เห็นว่าความแตกต่างในลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ของการประมาณค่าและลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ "ที่แท้จริง" (แต่ไม่ทราบ) ของประชากรนั้นมีการกระจาย แบบ χ² ในเชิงอะซิม โทติก
ค่าประมาณความน่าจะเป็นสูงสุดของแต่ละตัวอย่างอิสระเป็นค่าประมาณที่แยกจากกันของชุดพารามิเตอร์ "ที่แท้จริง" ที่อธิบายประชากรที่สุ่มตัวอย่าง ค่าประมาณที่ต่อเนื่องจากตัวอย่างอิสระจำนวนมากจะรวมกลุ่มกัน โดยชุดค่าพารามิเตอร์ "ที่แท้จริง" ของประชากรจะซ่อนอยู่ตรงกลาง ค่าต่างของลอการิทึมของค่าประมาณความน่าจะเป็นสูงสุดและค่าความน่าจะเป็นของชุดพารามิเตอร์ที่อยู่ติดกันสามารถใช้ในการวาดขอบเขตความเชื่อมั่นบนกราฟที่มีพิกัดเป็นพารามิเตอร์θ 1 ... θ pขอบเขตนี้ล้อมรอบค่าประมาณความน่าจะเป็นสูงสุด และจุดทั้งหมด (ชุดพารามิเตอร์) ภายในขอบเขตนั้นจะแตกต่างกันไม่เกินค่าลอการิทึมของความน่าจะเป็นด้วยค่าคงที่ค่าหนึ่งการแจกแจงχ²ที่กำหนดโดยทฤษฎีบทของ Wilks จะแปลงค่าต่างของลอการิทึมของความน่าจะเป็นในขอบเขตนั้นให้เป็น "ความเชื่อมั่น" ว่าชุดพารามิเตอร์ " ที่แท้จริง" ของประชากรอยู่ภายในนั้น ศิลปะของการเลือกค่าต่างของลอการิทึมของความน่าจะเป็นที่คงที่คือการทำให้ความเชื่อมั่นสูงในระดับที่ยอมรับได้ ในขณะที่ยังคงรักษาขอบเขตให้เล็กในระดับที่ยอมรับได้ (ช่วงของค่าประมาณที่แคบ)
เมื่อมีการสังเกตข้อมูลมากขึ้น แทนที่จะใช้ข้อมูลเหล่านั้นเพื่อประมาณค่าแบบอิสระ ข้อมูลเหล่านั้นสามารถนำมารวมกับตัวอย่างก่อนหน้าเพื่อสร้างตัวอย่างรวมเดียว และตัวอย่างขนาดใหญ่นั้นอาจนำไปใช้ในการประมาณค่าความน่าจะเป็นสูงสุดใหม่ได้ เมื่อขนาดของตัวอย่างรวมเพิ่มขึ้น ขนาดของบริเวณความน่าจะเป็นที่มีความเชื่อมั่นเท่าเดิมจะหดตัวลง ในที่สุด ขนาดของบริเวณความเชื่อมั่นจะใกล้เคียงกับจุดเดียว หรือประชากรทั้งหมดได้รับการสุ่มตัวอย่างแล้ว ในทั้งสองกรณี ชุดพารามิเตอร์ที่ประมาณค่าได้จะเหมือนกับชุดพารามิเตอร์ของประชากรโดยพื้นฐาน
การตีความตาม AIC
ภายใต้ กรอบแนวคิด AICความน่าจะเป็นจะถูกตีความภายในบริบทของทฤษฎีสารสนเทศ[ 57 ] [ 58 ] [ 59 ]
ดูเพิ่มเติม
หมายเหตุ
อ่านเพิ่มเติม
- Azzalini, Adelchi (1996). "Likelihood". Statistical Inference Based on the Likelihood. Chapman and Hall. pp. 17–50. ISBN 0-412-60650-X.
- Boos, Dennis D.; Stefanski, L. A. (2013). "Likelihood Construction and Estimation". Essential Statistical Inference : Theory and Methods. New York: Springer. pp. 27–124. doi:10.1007/978-1-4614-4818-1_2. ISBN 978-1-4614-4817-4.
- Edwards, A. W. F. (1992) [1972]. Likelihood (Expanded ed.). Johns Hopkins University Press. ISBN 0-8018-4443-6.
- King, Gary (1989). "The Likelihood Model of Inference". Unifying Political Methodology : the Likehood Theory of Statistical Inference. Cambridge University Press. pp. 59–94. ISBN 0-521-36697-6.
- Richard, Mark; Vecer, Jan (1 February 2021). "Efficiency Testing of Prediction Markets: Martingale Approach, Likelihood Ratio and Bayes Factor Analysis". Risks. 9 (2): 31. doi:10.3390/risks9020031. hdl:10419/258120.
- Lindsey, J. K. (1996). "Likelihood". Parametric Statistical Inference. Oxford University Press. pp. 69–139. ISBN 0-19-852359-9.
- Rohde, Charles A. (2014). Introductory Statistical Inference with the Likelihood Function. Berlin: Springer. ISBN 978-3-319-10460-7.
- Royall, Richard (1997). Statistical Evidence : A Likelihood Paradigm. London: Chapman & Hall. ISBN 0-412-04411-0.
- Ward, Michael D.; Ahlquist, John S. (2018). "The Likelihood Function: A Deeper Dive". Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. pp. 21–28. ISBN 978-1-316-63682-4.
External links
- Likelihood function at Planetmath
- "Log-likelihood". Statlect.
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันความน่าจะเป็น
ฟังก์ชัน ความน่าจะเป็น (มักเรียกง่ายๆ ว่า ความน่าจะเป็น ) วัดว่า แบบจำลองทางสถิติ อธิบาย ข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า...
คำนิยาม
ฟังก์ชันความน่าจะเป็น ซึ่งกำหนดโดยพารามิเตอร์ (ซึ่งอาจเป็นพารามิเตอร์หลายตัว) มักจะถูกกำหนดแตกต่างกันสำหรับ ฟังก์ชันความน่าจะเป็น แบบไม่ต่อเนื่องและแบบต่อเนื่อง (คำจำกัดความทั่วไปเพิ่มเติมจะกล่าวถึงด้านล่าง)...
การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง
ให้เป็น ตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่ มีฟังก์ชันความน่าจะเป็น ขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} พี {\textstyle p} θ {\textstyle \theta }
การแจกแจงความน่าจะเป็นแบบต่อเนื่อง
ให้เป็น ตัวแปรสุ่ม ที่มี การแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ ด้วย ฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} เอฟ {\textstyle f} x {\textstyle x} θ {\textstyle \theta }