กลับไปหน้าบทความ

อ่าน 25 นาที

ฟังก์ชันความน่าจะเป็น

ฟังก์ชันความน่าจะเป็น (มักเรียกง่ายๆ ว่าความน่าจะเป็น ) วัดว่าแบบจำลองทางสถิติอธิบายข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า พารามิเตอร์...

ฟังก์ชันความน่าจะเป็น

ฟังก์ชันความน่าจะเป็น (มักเรียกง่ายๆ ว่าความน่าจะเป็น ) วัดว่าแบบจำลองทางสถิติอธิบายข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า พารามิเตอร์ ต่างๆ ของแบบจำลอง ฟังก์ชันนี้สร้างขึ้นจากความน่าจะเป็นร่วมของการแจกแจงของตัวแปรสุ่มที่ (สันนิษฐานว่า) สร้างการสังเกต[ 1 ] [ 2 ] [ 3 ]เมื่อประเมินจากจุดข้อมูลจริง ฟังก์ชันนี้จะกลายเป็นฟังก์ชันของพารามิเตอร์ของแบบจำลองเท่านั้น

ในการประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุดพารามิเตอร์หรือตัวแปรของแบบจำลองที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุดจะทำหน้าที่เป็นค่าประมาณจุดสำหรับพารามิเตอร์ที่ไม่ทราบค่า ในขณะที่ข้อมูลของฟิชเชอร์ (ซึ่งมักประมาณได้จากเมทริกซ์เฮสเซียน ของฟังก์ชันความน่าจะเป็นที่จุดสูงสุด) จะบ่งบอกถึง ความแม่นยำของการประมาณค่า

ในทางตรงกันข้าม ในสถิติแบบเบย์เซียนค่าประมาณที่สนใจคือค่าผกผันของความน่าจะเป็น ซึ่งก็คือความน่าจะเป็นภายหลังของพารามิเตอร์ที่กำหนดโดยข้อมูลที่สังเกตได้ ซึ่งคำนวณผ่านกฎของเบย์[ 4 ]

คำนิยาม

ฟังก์ชันความน่าจะเป็น ซึ่งกำหนดโดยพารามิเตอร์ (ซึ่งอาจเป็นพารามิเตอร์หลายตัว) มักจะถูกกำหนดแตกต่างกันสำหรับฟังก์ชันความน่าจะเป็นแบบไม่ต่อเนื่องและแบบต่อเนื่อง (คำจำกัดความทั่วไปเพิ่มเติมจะกล่าวถึงด้านล่าง) เมื่อกำหนดฟังก์ชันความหนาแน่นหรือมวลของความน่าจะเป็นแล้ว

โดยที่เป็นค่าที่เกิดขึ้นจริงของตัวแปรสุ่มฟังก์ชันความน่าจะเป็น มักเขียนในรูปแบบนี้

กล่าวอีกนัยหนึ่ง เมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความหนาแน่นความน่าจะเป็น และเมื่อมองว่า เป็นฟังก์ชันของโดยที่ คงที่ มันคือฟังก์ชันความน่าจะเป็นแบบมีเงื่อนไข ในแบบจำลองความถี่นิยม มักจะหลีกเลี่ยง การใช้สัญลักษณ์และใช้หรือ แทน เพื่อบ่งชี้ว่า ถือเป็นปริมาณที่ไม่ทราบค่าคงที่ แทนที่จะเป็นตัวแปรสุ่มที่ขึ้นอยู่กับ

ฟังก์ชันความน่าจะเป็นไม่ได้ระบุความน่าจะเป็นที่เป็นความจริง เมื่อพิจารณาจากตัวอย่างที่สังเกตได้การตีความเช่นนี้เป็นข้อผิดพลาดที่พบได้บ่อย ซึ่งอาจส่งผลร้ายแรง (ดูข้อผิดพลาดของอัยการ )

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง

ให้เป็นตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่มีฟังก์ชันความน่าจะเป็นขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน

ฟังก์ชันความน่าจะเป็น (likelihood function) ซึ่งพิจารณาจากค่าที่เป็นไปได้ของพารามิเตอร์เชิงกำหนดแต่ไม่ทราบค่าคือฟังก์ชันความน่าจะ เป็น (likelihood function) เมื่อกำหนดผลลัพธ์ของตัวแปรสุ่มบางครั้งความน่าจะเป็นของ "ค่าของสำหรับค่าพารามิเตอร์" จะเขียนเป็นP ( X = x | θ )หรือP ( X = x ; θ )ความน่าจะเป็น (likelihood) คือความน่าจะเป็นที่ผลลัพธ์เฉพาะอย่างหนึ่งจะถูกสังเกตเมื่อค่าที่แท้จริงของพารามิเตอร์คือซึ่งเทียบเท่ากับมวลความน่าจะเป็นบนไม่ใช่ความหนาแน่นความน่าจะเป็นเหนือพารามิเตอร์ความน่าจะเป็น (likelihood ) ไม่ควรสับสนกับซึ่งเป็นความน่าจะเป็นภายหลัง (posterior probability) ของเมื่อกำหนดข้อมูลแล้ว

ตัวอย่าง

รูปที่ 1 ฟังก์ชันความน่าจะเป็น ( ) สำหรับความน่าจะเป็นที่เหรียญจะออกหัว (โดยไม่มีความรู้ล่วงหน้าเกี่ยวกับความยุติธรรมของเหรียญ) โดยที่เราได้สังเกตเห็น HH แล้ว
รูปที่ 2 ฟังก์ชันความน่าจะเป็น ( ) สำหรับความน่าจะเป็นที่เหรียญจะออกหัว (โดยไม่มีความรู้ล่วงหน้าเกี่ยวกับความยุติธรรมของเหรียญ) โดยที่เราได้สังเกต HHT แล้ว

ลองพิจารณาแบบจำลองทางสถิติอย่างง่ายของการโยนเหรียญ: พารามิเตอร์เดียวที่แสดงถึง "ความยุติธรรม" ของเหรียญ พารามิเตอร์นี้คือความน่าจะเป็นที่เหรียญจะออกหัว ("H") เมื่อโยนสามารถมีค่าใดก็ได้ในช่วง 0.0 ถึง 1.0 สำหรับเหรียญที่ยุติธรรมอย่าง สมบูรณ์ .

ลองนึกภาพการโยนเหรียญที่ยุติธรรมสองครั้ง และสังเกตเห็นว่าได้หัวทั้งสองครั้ง ("HH") สมมติว่าการโยนเหรียญแต่ละครั้งเป็นการสุ่มแบบอิสระและ มีการกระจายเหมือนกัน (iid) ดังนั้นความน่าจะเป็นที่จะสังเกตเห็น HH คือ

ในทำนองเดียวกัน ความน่าจะเป็นของการสังเกตเห็น "HH" โดยสมมติว่าคือ

นี่ไม่ใช่สิ่งเดียวกับการกล่าวว่า ซึ่ง เป็น ข้อสรุปที่สามารถได้มาโดยใช้ทฤษฎีบทของเบย์ส เท่านั้น โดยอาศัยความรู้เกี่ยวกับความน่าจะเป็นส่วนย่อยและ

ทีนี้สมมติว่าเหรียญนั้นไม่ใช่เหรียญยุติธรรม แต่เป็นเหรียญอื่นดังนั้นความน่าจะเป็นที่จะได้หัวสองครั้งในการโยนสองครั้งคือ

เพราะฉะนั้น

โดยทั่วไปแล้ว สำหรับแต่ละค่าของเราสามารถคำนวณความน่าจะเป็นที่สอดคล้องกันได้ ผลลัพธ์ของการคำนวณดังกล่าวแสดงอยู่ในรูปที่ 1 อินทิกรัลของในช่วง [0, 1] มีค่าเท่ากับ 1/3 ความน่าจะเป็นไม่จำเป็นต้องมีอินทิกรัลหรือผลรวมเท่ากับหนึ่งในปริภูมิพารามิเตอร์

การแจกแจงความน่าจะเป็นแบบต่อเนื่อง

ให้เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ด้วยฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน

เมื่อพิจารณาว่าเป็นฟังก์ชันของ จะ เป็นฟังก์ชันความน่าจะเป็น (ของโดยกำหนดผลลัพธ์ ) อีกครั้งไม่ใช่ฟังก์ชันความหนาแน่นความน่าจะเป็นหรือฟังก์ชันมวลเหนือแม้ว่าจะเป็นฟังก์ชันของโดยกำหนดการสังเกตก็ตาม

ความสัมพันธ์ระหว่างฟังก์ชันความน่าจะเป็นและฟังก์ชันความหนาแน่นของความน่าจะเป็น

การใช้ความหนาแน่นของความน่าจะเป็นในการระบุฟังก์ชันความน่าจะเป็นข้างต้นนั้นมีเหตุผลดังนี้ เมื่อกำหนดค่าสังเกตความน่าจะเป็นสำหรับช่วงโดยที่เป็นค่าคงที่ จะกำหนดโดยสังเกตว่า เนื่องจากเป็นค่าบวกและคงที่ เนื่องจาก

โดยที่ฟังก์ชันความหนาแน่นของความน่าจะเป็นคือ จึงสรุปได้ว่า

ทฤษฎีบทพื้นฐานข้อ แรกของแคลคูลัสกล่าวว่า

แล้ว

ดังนั้น การเพิ่มความหนาแน่นของความน่าจะเป็นให้สูงสุด จึงเท่ากับการเพิ่มโอกาสของการสังเกตเฉพาะนั้นให้สูงสุด

โดยทั่วไป

ในทฤษฎีความน่าจะเป็นเชิงการวัดฟังก์ชันความหนาแน่นถูกกำหนดให้เป็นอนุพันธ์ Radon–Nikodymของการกระจายความน่าจะเป็นที่สัมพันธ์กับการวัดที่ครอบงำร่วมกัน[ 5 ]ฟังก์ชันความน่าจะเป็นคือความหนาแน่นนี้ที่ตีความว่าเป็นฟังก์ชันของพารามิเตอร์ แทนที่จะเป็นตัวแปรสุ่ม[ 6 ]ดังนั้น เราสามารถสร้างฟังก์ชันความน่าจะเป็นสำหรับการกระจายใดๆ ก็ได้ ไม่ว่าจะเป็นแบบไม่ต่อเนื่อง แบบต่อเนื่อง แบบผสม หรือแบบอื่นๆ (ความน่าจะเป็นจะเปรียบเทียบกันได้ เช่น สำหรับการประมาณค่าพารามิเตอร์ ก็ต่อเมื่อเป็นอนุพันธ์ Radon–Nikodym ที่สัมพันธ์กับการวัดที่ครอบงำเดียวกันเท่านั้น)

การอภิปรายข้างต้นเกี่ยวกับความน่าจะเป็นสำหรับตัวแปรสุ่มแบบไม่ต่อเนื่องใช้มาตรวัดการนับซึ่งความหนาแน่นของความน่าจะเป็น ณ ผลลัพธ์ใด ๆ จะเท่ากับความน่าจะเป็นของผลลัพธ์นั้น

ความน่าจะเป็นสำหรับการกระจายแบบผสมระหว่างต่อเนื่องและไม่ต่อเนื่อง

วิธีการข้างต้นสามารถขยายได้อย่างง่ายๆ เพื่อพิจารณาการแจกแจงที่มีทั้งส่วนประกอบแบบไม่ต่อเนื่องและแบบต่อเนื่อง สมมติว่าการแจกแจงประกอบด้วยมวลความน่าจะเป็นแบบไม่ต่อเนื่องจำนวนหนึ่งและความหนาแน่นโดยที่ผลรวมของค่าทั้งหมดที่บวกกับอินทิกรัลของจะเท่ากับหนึ่งเสมอ สมมติว่าสามารถแยกแยะการสังเกตที่สอดคล้องกับมวลความน่าจะเป็นแบบไม่ต่อเนื่องหนึ่งออกจากการสังเกตที่สอดคล้องกับส่วนประกอบความหนาแน่นได้ ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบต่อเนื่องสามารถจัดการได้ในลักษณะที่แสดงไว้ข้างต้น สำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่อง ฟังก์ชันความน่าจะเป็นสำหรับการสังเกตจากส่วนประกอบแบบไม่ต่อเนื่องก็คือ โดย ที่คือดัชนีของมวลความน่าจะเป็นแบบไม่ต่อเนื่องที่สอดคล้องกับการสังเกตเนื่องจาก1 การเพิ่มมวลความน่าจะเป็น (หรือความน่าจะเป็น) ที่ ให้สูงสุดเท่ากับการเพิ่มความน่าจะเป็นของการสังเกตเฉพาะนั้นให้สูงสุด

ข้อเท็จจริงที่ว่าฟังก์ชันความน่าจะเป็นสามารถกำหนดได้ในลักษณะที่รวมส่วนประกอบที่ไม่สอดคล้องกัน (ความหนาแน่นและมวลความน่าจะเป็น) เกิดขึ้นจากวิธีการที่ฟังก์ชันความน่าจะเป็นถูกกำหนดโดยมีค่าคงที่สัดส่วน ซึ่ง "ค่าคงที่" นี้สามารถเปลี่ยนแปลงได้ตามการสังเกตแต่ ไม่เปลี่ยนแปลงตามพารามิเตอร์

เงื่อนไขความสม่ำเสมอ

ในบริบทของการประมาณค่าพารามิเตอร์ ฟังก์ชันความน่าจะเป็นมักจะถือว่าเป็นไปตามเงื่อนไขบางประการที่เรียกว่าเงื่อนไขความสม่ำเสมอ เงื่อนไขเหล่านี้ถูกสมมติขึ้นในการพิสูจน์ต่างๆ ที่เกี่ยวข้องกับฟังก์ชันความน่าจะเป็น และจำเป็นต้องได้รับการตรวจสอบในแต่ละการใช้งานเฉพาะ สำหรับการประมาณค่าความน่าจะเป็นสูงสุด การมีอยู่ของค่าสูงสุดทั่วโลกของฟังก์ชันความน่าจะเป็นนั้นมีความสำคัญอย่างยิ่ง ตามทฤษฎีบทค่าสุดขีดเพียงพอแล้วที่ฟังก์ชันความน่าจะเป็นจะต่อเนื่องบน ปริภูมิพารามิเตอร์ แบบกระชับเพื่อให้ตัวประมาณค่าความน่าจะเป็นสูงสุดมีอยู่[ 7 ]ในขณะที่สมมติฐานความต่อเนื่องมักจะเป็นไปตามเงื่อนไข สมมติฐานความกระชับเกี่ยวกับปริภูมิพารามิเตอร์มักจะไม่เป็นไปตามเงื่อนไข เนื่องจากขอบเขตของค่าพารามิเตอร์ที่แท้จริงอาจไม่เป็นที่รู้จัก ในกรณีนั้นความเว้าของฟังก์ชันความน่าจะเป็นมีบทบาทสำคัญ

โดยเฉพาะอย่างยิ่ง หากฟังก์ชันความน่าจะเป็นสามารถหาอนุพันธ์อันดับสองได้อย่างต่อเนื่องบนปริภูมิพารามิเตอร์k มิติ ที่ถือว่าเป็นเซตย่อยที่เชื่อมต่อกันแบบเปิดจะมีค่าสูงสุดที่ไม่ซ้ำกันหากเมทริกซ์ของอนุพันธ์อันดับสองเป็น เมทริกซ์ บวกกำหนดสำหรับทุกค่าที่เกรเดียนต์เป็นศูนย์ และหากฟังก์ชันความน่าจะเป็นเข้าใกล้ค่าคงที่บนขอบของปริภูมิพารามิเตอร์ กล่าวคือ ซึ่งอาจรวมถึงจุดที่อนันต์หากไม่จำกัด Mäkeläinen และผู้เขียนร่วมพิสูจน์ผลลัพธ์นี้โดยใช้ทฤษฎี Morseในขณะที่อ้างถึงคุณสมบัติทางผ่านภูเขาอย่างไม่เป็นทางการ[ 8 ] Mascarenhas กล่าวถึงการพิสูจน์ของพวกเขาอีกครั้งโดยใช้ทฤษฎีบททางผ่านภูเขา[ 9 ]

ในการพิสูจน์ความสอดคล้องและความปกติเชิงอะซิมโทติกของตัวประมาณค่าความน่าจะเป็นสูงสุด มีการตั้งสมมติฐานเพิ่มเติมเกี่ยวกับความหนาแน่นของความน่าจะเป็นที่เป็นพื้นฐานของฟังก์ชันความน่าจะเป็นเฉพาะ เงื่อนไขเหล่านี้ได้รับการกำหนดขึ้นครั้งแรกโดย Chanda [ 10 ]โดยเฉพาะอย่างยิ่ง สำหรับเกือบทุก ๆ และสำหรับทุก ๆ จะต้องมีอยู่สำหรับทุก ๆเพื่อให้แน่ใจว่ามีการขยายอนุกรมเทย์เลอร์ประการที่สอง สำหรับเกือบทุก ๆและสำหรับทุก ๆจะต้องเป็น โดย ที่เป็นเช่นนั้นความมีขอบเขตของอนุพันธ์นี้จำเป็นเพื่อให้สามารถหาอนุพันธ์ภายใต้เครื่องหมายอินทิกรัลได้และสุดท้าย ถือว่า เมทริก ซ์ ข้อมูล เป็นเมทริกซ์บวกแน่นอนและมีค่าจำกัด ซึ่งทำให้มั่นใจได้ว่าคะแนนมีความแปรปรวนจำกัด[ 11 ]

เงื่อนไขข้างต้นนั้นเพียงพอ แต่ไม่ใช่เงื่อนไขที่จำเป็น กล่าวคือ แบบจำลองที่ไม่ตรงตามเงื่อนไขความสม่ำเสมอเหล่านี้ อาจจะมีหรือไม่มีตัวประมาณค่าความน่าจะเป็นสูงสุดของคุณสมบัติที่กล่าวถึงข้างต้นก็ได้ นอกจากนี้ ในกรณีที่การสังเกตการณ์ไม่ได้กระจายตัวอย่างเป็นอิสระหรือกระจายตัวอย่างเหมือนกัน อาจจำเป็นต้องสมมติคุณสมบัติเพิ่มเติมอีกด้วย

ในสถิติแบบเบย์เซียน เงื่อนไขความสม่ำเสมอที่เกือบจะเหมือนกันจะถูกกำหนดให้กับฟังก์ชันความน่าจะเป็นเพื่อพิสูจน์ความเป็นปกติเชิงอะซิมโทติกของความน่าจะเป็นภายหลัง[ 12 ] [ 13 ]และด้วยเหตุนี้จึงพิสูจน์การประมาณค่าลาปลาสของความน่าจะเป็นภายหลังในตัวอย่างขนาดใหญ่[ 14 ]

อัตราส่วนความน่าจะเป็นและความน่าจะเป็นสัมพัทธ์

อัตราส่วนความน่าจะเป็น

อัตราส่วนความน่าจะเป็นคือ อัตราส่วนของความน่าจะเป็นสองค่าใดๆ ที่กำหนดไว้ ซึ่งมักเขียนในรูปแบบ:

อัตราส่วนความน่าจะเป็นเป็นหัวใจสำคัญของสถิติเชิงความน่าจะเป็น : กฎแห่งความน่าจะเป็นระบุว่า ระดับที่ข้อมูล (ซึ่งถือเป็นหลักฐาน) สนับสนุนค่าพารามิเตอร์หนึ่งเมื่อเทียบกับอีกค่าหนึ่งนั้น วัดได้จากอัตราส่วนความน่าจะเป็น

ในการอนุมานแบบความถี่อัตราส่วนความน่าจะเป็นเป็นพื้นฐานสำหรับสถิติการทดสอบซึ่งเรียกว่าการทดสอบอัตราส่วนความน่าจะเป็นตามทฤษฎีบทของNeyman–Pearsonนี่คือ การทดสอบ ที่มีประสิทธิภาพ ที่สุด สำหรับการเปรียบเทียบสมมติฐานง่ายๆ สองข้อที่ระดับนัยสำคัญ ที่กำหนด การทดสอบอื่นๆ อีกมากมายสามารถมองได้ว่าเป็นการทดสอบอัตราส่วนความน่าจะเป็นหรือการประมาณค่าของ การทดสอบดังกล่าว [ 15 ]การแจกแจงแบบอะซิมโทติกของอัตราส่วนลอการิทึมความน่าจะเป็น ซึ่งถือเป็นสถิติการทดสอบนั้น ได้รับจากทฤษฎีบทของ Wilks

อัตราส่วนความน่าจะเป็นมีความสำคัญอย่างยิ่งในการอนุมานแบบเบย์เซียนซึ่งรู้จักกันในชื่อปัจจัยเบย์และใช้ในกฎของเบย์ กฎของเบย์กล่าว ในรูปของอัตราต่อรองว่า อัตราต่อ รองภายหลังของทางเลือกสองทาง⁠ ⁠และ⁠ ⁠เมื่อกำหนดเหตุการณ์⁠ ⁠ แล้ว คือ อัตราต่อรอง ก่อนหน้าคูณด้วยอัตราส่วนความน่าจะเป็น ในรูปสมการ:

อัตราส่วนความน่าจะเป็นไม่ได้ถูกนำมาใช้โดยตรงในสถิติที่อิงตาม AIC แต่สิ่งที่นำมาใช้คือความน่าจะเป็นสัมพัทธ์ของแบบจำลอง (ดูด้านล่าง)

ในเวชศาสตร์เชิงประจักษ์อัตราส่วนความน่าจะเป็นถูกนำมาใช้ในการทดสอบวินิจฉัยเพื่อประเมินคุณค่าของการทำการทดสอบวินิจฉัย นั้น ๆ

ฟังก์ชันความน่าจะเป็นสัมพัทธ์

เนื่องจากค่าจริงของฟังก์ชันความน่าจะเป็นขึ้นอยู่กับตัวอย่าง จึงมักสะดวกที่จะใช้การวัดแบบมาตรฐาน สมมติว่าค่าประมาณความน่าจะเป็นสูงสุดสำหรับพารามิเตอร์θคือความน่าจะเป็นสัมพัทธ์ของ ค่า θ อื่นๆ อาจพบได้โดยการเปรียบเทียบความน่าจะเป็นของค่าอื่นๆ เหล่านั้นกับความน่าจะเป็นของ ความน่าจะเป็นสัมพัทธ์ของθ ถูกกำหนดให้เป็น[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] ดังนั้น ความน่าจะเป็นสัมพัทธ์คืออัตราส่วนความน่าจะเป็น (ที่กล่าวถึงข้างต้น) โดยมีตัวหารคงที่ซึ่งสอดคล้องกับการทำให้ความน่าจะเป็นเป็นมาตรฐานเพื่อให้มีค่าสูงสุดเท่ากับ 1

ภูมิภาคความน่าจะเป็น

ขอบเขตความน่าจะเป็นคือเซตของค่าทั้งหมดของθที่มีความน่าจะเป็นสัมพัทธ์มากกว่าหรือเท่ากับเกณฑ์ที่กำหนด ในแง่ของเปอร์เซ็นต์ ขอบเขตความน่าจะเป็น p %สำหรับθถูกกำหนดให้เป็น[ 16 ] [ 18 ] [ 21 ]

ถ้าθเป็นพารามิเตอร์จริงตัวเดียว บริเวณความน่าจะเป็น p % มักจะประกอบด้วยช่วงของค่าจริง ถ้าบริเวณนั้นประกอบด้วยช่วง ก็จะเรียกว่าช่วงความน่าจะเป็น[ 16 ] [ 18 ] [ 22 ]

ช่วงความน่าจะเป็น และโดยทั่วไปคือบริเวณความน่าจะเป็น ใช้สำหรับการประมาณค่าช่วงในสถิติแบบความน่าจะเป็น: คล้ายกับช่วงความเชื่อมั่นในสถิติแบบความถี่ และช่วงความน่าเชื่อถือในสถิติแบบเบย์ ช่วงความน่าจะเป็นจะถูกตีความโดยตรงในแง่ของความน่าจะเป็นสัมพัทธ์ ไม่ใช่ในแง่ของความน่าจะเป็นของการครอบคลุม (แบบความถี่) หรือความน่าจะเป็นภายหลัง (แบบเบย์)

เมื่อกำหนดแบบจำลองแล้ว ช่วงความน่าจะเป็นสามารถเปรียบเทียบกับช่วงความเชื่อมั่นได้ หากθเป็นพารามิเตอร์จริงตัวเดียว ภายใต้เงื่อนไขบางประการ ช่วงความน่าจะเป็น 14.65% (ประมาณความน่าจะเป็น 1:7) สำหรับθจะเท่ากับช่วงความเชื่อมั่น 95% (ความน่าจะเป็นในการครอบคลุม 19/20) [ 16 ] [ 21 ]ในสูตรที่แตกต่างกันเล็กน้อยซึ่งเหมาะสมกับการใช้ลอการิทึมความน่าจะเป็น (ดูทฤษฎีบทของ Wilks ) สถิติการทดสอบจะเป็นสองเท่าของความแตกต่างในลอการิทึมความน่าจะเป็น และการกระจายความน่าจะเป็นของสถิติการทดสอบจะเป็นการกระจายแบบไคกำลังสอง โดยประมาณ โดยมีองศาอิสระ (df) เท่ากับความแตกต่างของ df ระหว่างสองแบบจำลอง (ดังนั้น ช่วงความน่าจะเป็น e −2จึงเหมือนกับช่วงความเชื่อมั่น 0.954 โดยสมมติว่าความแตกต่างของ df เท่ากับ 1) [ 21 ] [ 22 ]

ความน่าจะเป็นที่กำจัดพารามิเตอร์ที่ไม่พึงประสงค์

ในหลายกรณี ความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์มากกว่าหนึ่งตัว แต่ความสนใจจะมุ่งเน้นไปที่การประมาณค่าของพารามิเตอร์เพียงตัวเดียว หรืออย่างมากก็เพียงไม่กี่ตัว โดยถือว่าพารามิเตอร์อื่นๆ เป็นพารามิเตอร์ที่ไม่สำคัญมีแนวทางทางเลือกหลายวิธีที่ได้รับการพัฒนาขึ้นเพื่อกำจัดพารามิเตอร์ที่ไม่สำคัญเหล่านี้ เพื่อให้สามารถเขียนความน่าจะเป็นเป็นฟังก์ชันของพารามิเตอร์ที่สนใจเพียงตัวเดียวได้ แนวทางหลักๆ ได้แก่ ความน่าจะเป็นแบบโปรไฟล์ แบบมีเงื่อนไข และแบบมาร์จินัล[ 23 ] [ 24 ]แนวทางเหล่านี้ยังมีประโยชน์เมื่อจำเป็นต้องลดพื้นผิวความน่าจะเป็นที่มีมิติสูงให้เหลือเพียงหนึ่งหรือสองตัวพารามิเตอร์ที่สนใจ เพื่อให้สามารถสร้างกราฟได้

ความน่าจะเป็นของโปรไฟล์

เป็นไปได้ที่จะลดมิติลงโดยการรวมฟังก์ชันความน่าจะเป็นสำหรับพารามิเตอร์ย่อยโดยการแสดงพารามิเตอร์ที่ไม่พึงประสงค์เป็นฟังก์ชันของพารามิเตอร์ที่สนใจและแทนที่ในฟังก์ชันความน่าจะเป็น[ 25 ] [ 26 ]โดยทั่วไป สำหรับฟังก์ชันความน่าจะเป็นที่ขึ้นอยู่กับเวกเตอร์พารามิเตอร์ที่สามารถแบ่งออกเป็นและสามารถกำหนดความสอดคล้องได้อย่างชัดเจน การรวมจะช่วยลดภาระการคำนวณของปัญหาการเพิ่มค่าสูงสุดดั้งเดิม[ 27 ]

ตัวอย่างเช่น ในการถดถอยเชิงเส้นที่มีข้อผิดพลาดแบบกระจายปกติเวกเตอร์สัมประสิทธิ์สามารถแบ่งออกเป็น(และด้วยเหตุนี้เมทริกซ์การออกแบบ ) การหาค่าสูงสุดของ เทียบกับ จะได้ ฟังก์ชันค่าที่เหมาะสมที่สุดโดยใช้ผลลัพธ์นี้ ตัวประมาณค่าความน่าจะเป็นสูงสุดสำหรับสามารถหาได้จาก โดยที่คือเมทริกซ์การฉายภาพของผลลัพธ์นี้เรียกว่าทฤษฎีบท Frisch–Waugh–Lovell

เนื่องจากในเชิงกราฟิก กระบวนการความเข้มข้นเทียบเท่ากับการตัดพื้นผิวความน่าจะเป็นตามสันของค่าพารามิเตอร์รบกวนที่ทำให้ฟังก์ชันความน่าจะเป็นสูงสุด สร้างโปรไฟล์ไอโซเมตริกของฟังก์ชันความน่าจะเป็นสำหรับค่าที่กำหนดผลลัพธ์ของกระบวนการนี้จึงเรียกว่าโปรไฟล์ความน่าจะเป็น [ 28 ] [ 29 ] นอกจากจะนำมาแสดงเป็นกราฟแล้ว โปรไฟล์ความน่าจะเป็นยังสามารถใช้ในการคำนวณช่วงความเชื่อ มั่น ซึ่งมักจะมีคุณสมบัติที่ดีกว่าสำหรับตัวอย่างขนาดเล็กเมื่อเทียบกับช่วงความเชื่อมั่นที่คำนวณจาก ค่าความคลาดเคลื่อนมาตรฐานเชิงอะซิมโทติกจากความน่าจะเป็นแบบเต็ม[ 30 ] [ 31 ]

ความน่าจะเป็นแบบมีเงื่อนไข

บางครั้งอาจสามารถหาค่าสถิติที่เพียงพอสำหรับพารามิเตอร์รบกวนได้ และการกำหนดเงื่อนไขตามค่าสถิตินี้จะส่งผลให้ความน่าจะเป็นไม่ขึ้นอยู่กับพารามิเตอร์รบกวน[ 32 ]

ตัวอย่างหนึ่งเกิดขึ้นในตาราง 2×2 ซึ่งการกำหนดเงื่อนไขโดยพิจารณาจากผลรวมขอบทั้งสี่ด้านจะนำไปสู่ความน่าจะเป็นแบบมีเงื่อนไขโดยอิงจากการกระจายแบบไฮเปอร์จีโอเมตริกที่ไม่เป็นศูนย์กลาง รูปแบบ การกำหนดเงื่อนไขนี้ยังเป็นพื้นฐานสำหรับการทดสอบความแม่นยำของฟิชเชอร์ อีกด้วย

ความน่าจะเป็นแบบมาร์จินัล

บางครั้งเราสามารถกำจัดพารามิเตอร์ที่ไม่พึงประสงค์ได้โดยพิจารณาความน่าจะเป็นโดยอาศัยข้อมูลเพียงบางส่วนเท่านั้น เช่น การใช้ชุดลำดับแทนค่าตัวเลข อีกตัวอย่างหนึ่งเกิดขึ้นใน แบบจำลอง ผสมเชิงเส้น (linear mixed models ) ซึ่งการพิจารณาความน่าจะเป็นสำหรับค่าความคลาดเคลื่อนหลังจากปรับค่าผลกระทบคงที่แล้ว จะนำไปสู่ การประมาณค่าความน่าจะเป็น สูงสุดของค่าความคลาดเคลื่อนของส่วนประกอบความแปรปรวน

ความน่าจะเป็นบางส่วน

ความน่าจะเป็นบางส่วนเป็นการปรับเปลี่ยนความน่าจะเป็นแบบเต็มเพื่อให้พารามิเตอร์เพียงบางส่วน (พารามิเตอร์ที่สนใจ) ปรากฏอยู่ในนั้น[ 33 ]เป็นองค์ประกอบสำคัญของแบบจำลองความเสี่ยงตามสัดส่วน : โดยใช้ข้อจำกัดบนฟังก์ชันความเสี่ยง ความน่าจะเป็นจะไม่ประกอบด้วยรูปร่างของความเสี่ยงเมื่อเวลาผ่านไป

ผลคูณของความน่าจะเป็น

ความน่าจะเป็น เมื่อพิจารณาเหตุการณ์อิสระ สองเหตุการณ์ขึ้นไป จะเป็นผลคูณของความน่าจะเป็นของแต่ละเหตุการณ์: ซึ่งเป็นผลมาจากนิยามของความเป็นอิสระในความน่าจะเป็น: ความน่าจะเป็นของการเกิดเหตุการณ์อิสระสองเหตุการณ์ เมื่อพิจารณาแบบจำลอง จะเป็นผลคูณของความน่าจะเป็น

สิ่งนี้มีความสำคัญเป็นพิเศษเมื่อเหตุการณ์มาจากตัวแปรสุ่มอิสระและมีการกระจายแบบเดียวกันเช่น การสังเกตอิสระหรือการสุ่มตัวอย่างแบบมีการแทนที่ในสถานการณ์เช่นนี้ ฟังก์ชันความน่าจะเป็นจะแยกออกเป็นผลคูณของฟังก์ชันความน่าจะเป็นแต่ละตัว

ผลคูณที่ว่างเปล่ามีค่าเท่ากับ 1 ซึ่งสอดคล้องกับความน่าจะเป็น 1 เมื่อไม่มีเหตุการณ์ใดเกิดขึ้น: ก่อนที่จะมีข้อมูลใดๆ ความน่าจะเป็นจะเท่ากับ 1 เสมอ นี่คล้ายกับไพรเออร์แบบเอกรูปในสถิติแบบเบย์เซียน แต่ในสถิติแบบความน่าจะเป็น นี่ไม่ใช่ไพรเออร์ที่ไม่เหมาะสมเพราะความน่าจะเป็นไม่ได้ถูกรวมเข้าด้วยกัน

ความน่าจะเป็นล็อก

ฟังก์ชันลอการิทึมความน่าจะเป็นคือลอการิทึมของฟังก์ชันความน่าจะเป็น ซึ่งมักจะใช้ตัวอักษรl ตัวเล็ก หรือ⁠ ⁠ แทนเพื่อให้แตกต่างจากตัวอักษรL ตัวใหญ่ หรือ ⁠ สำหรับความน่าจะเป็น เนื่องจากลอการิทึมเป็น ฟังก์ชัน ที่เพิ่มขึ้นอย่างเคร่งครัดการหาค่าสูงสุดของความน่าจะเป็นจึงเทียบเท่ากับการหาค่าสูงสุดของลอการิทึมความน่าจะเป็น แต่เพื่อวัตถุประสงค์ในทางปฏิบัติ การทำงานกับฟังก์ชันลอการิทึมความน่าจะเป็นในการประมาณค่าความน่าจะเป็นสูงสุดนั้น สะดวกกว่า โดยเฉพาะอย่างยิ่งเนื่องจากการแจกแจงความน่าจะ เป็นทั่วไปส่วนใหญ่ —โดยเฉพาะตระกูลเอกซ์โพเนนเชียล —เป็นเพียงการเว้าแบบลอการิทึม เท่านั้น [ 34 ] [ 35 ]และความเว้าของฟังก์ชันเป้าหมายมีบทบาทสำคัญในการ หา ค่า สูงสุด

เนื่องจากแต่ละเหตุการณ์เป็นอิสระต่อกัน ค่าลอการิทึมความน่าจะเป็นโดยรวมของการเกิดร่วมกันจึงเท่ากับผลรวมของค่าลอการิทึมความน่าจะเป็นของแต่ละเหตุการณ์ ซึ่งคล้ายคลึงกับข้อเท็จจริงที่ว่าค่าลอการิทึมความน่าจะเป็น โดยรวม คือผลรวมของค่าลอการิทึมความน่าจะเป็นของแต่ละเหตุการณ์ นอกจากความสะดวกทางคณิตศาสตร์แล้ว กระบวนการบวกค่าลอการิทึมความน่าจะเป็นยังมีการตีความที่เข้าใจง่าย ซึ่งมักแสดงออกในรูปของ "การสนับสนุน" จากข้อมูล เมื่อประมาณค่าพารามิเตอร์โดยใช้ค่าลอการิทึมความน่าจะเป็นสำหรับการประมาณค่าความน่าจะเป็นสูงสุดจุดข้อมูลแต่ละจุดจะถูกนำมาใช้โดยการบวกเข้ากับค่าลอการิทึมความน่าจะเป็นทั้งหมด เนื่องจากข้อมูลสามารถมองได้ว่าเป็นหลักฐานที่สนับสนุนพารามิเตอร์ที่ประมาณค่าไว้ กระบวนการนี้จึงสามารถตีความได้ว่า "การสนับสนุนจากหลักฐานอิสระที่บวกกัน"และค่าลอการิทึมความน่าจะเป็นคือ "น้ำหนักของหลักฐาน" หากตีความค่าลบของลอการิทึมความน่าจะเป็นว่าเป็นปริมาณข้อมูลหรือความน่าประหลาดใจการสนับสนุน (ลอการิทึมความน่าจะเป็น) ของแบบจำลอง เมื่อพิจารณาจากเหตุการณ์หนึ่งๆ จะเป็นค่าลบของความน่าประหลาดใจของเหตุการณ์นั้น เมื่อพิจารณาจากแบบจำลอง กล่าวคือ แบบจำลองได้รับการสนับสนุนจากเหตุการณ์หนึ่งๆ ในระดับที่เหตุการณ์นั้นไม่น่าประหลาดใจ เมื่อพิจารณาจากแบบจำลอง

ค่าลอการิทึมของอัตราส่วนความน่าจะเป็นเท่ากับผลต่างของค่าลอการิทึมความน่าจะเป็น:

เช่นเดียวกับที่ค่าความน่าจะเป็นเมื่อไม่มีเหตุการณ์เกิดขึ้นจะมีค่าเป็น 1 ค่าลอการิทึมของความน่าจะเป็นเมื่อไม่มีเหตุการณ์เกิดขึ้นจะมีค่าเป็น 0 ซึ่งสอดคล้องกับค่าของผลรวมที่ว่างเปล่า กล่าวคือ หากไม่มีข้อมูล ก็ไม่มีหลักฐานสนับสนุนแบบจำลองใดๆ

กราฟ

กราฟของลอการิทึมความน่าจะเป็นเรียกว่าเส้นโค้งสนับสนุน (ใน กรณี ตัวแปรเดียว ) [ 36 ] ในกรณีตัวแปรหลายตัว แนวคิดนี้จะขยายไปสู่พื้นผิวสนับสนุนเหนือพื้นที่พารามิเตอร์มันมีความสัมพันธ์กับ แต่แตกต่างจาก การสนับสนุนของ การ กระจาย

คำนี้ถูกบัญญัติโดยAWF Edwards [ 36 ]ในบริบทของการทดสอบสมมติฐานทางสถิติกล่าวคือ ข้อมูล "สนับสนุน" สมมติฐานหนึ่ง (หรือค่าพารามิเตอร์) ที่กำลังทดสอบมากกว่าสมมติฐานอื่นหรือไม่

ฟังก์ชันลอการิทึมความน่าจะเป็นที่แสดงในกราฟนั้นใช้ในการคำนวณคะแนน (ความชันของลอการิทึมความน่าจะเป็น) และข้อมูลฟิชเชอร์ (ความโค้งของลอการิทึมความน่าจะเป็น) ดังนั้น กราฟจึงสามารถตีความได้โดยตรงในบริบทของการประมาณค่าความน่าจะเป็นสูงสุดและการทดสอบอัตราส่วนความน่าจะเป็น

สมการความน่าจะเป็น

ถ้าฟังก์ชันลอการิทึมความน่าจะเป็นเป็นฟังก์ชันเรียบ เกรเดียนต์ของฟังก์ชันเทียบกับพารามิเตอร์ ซึ่งเรียกว่าสกอร์และเขียนแทนด้วยจะมีอยู่และช่วยให้สามารถใช้แคลคูลัสเชิงอนุพันธ์ได้ วิธีพื้นฐานในการหาค่าสูงสุดของฟังก์ชันที่หาอนุพันธ์ได้คือการหาจุดนิ่ง (จุดที่อนุพันธ์เป็นศูนย์) เนื่องจากอนุพันธ์ของผลรวมคือผลรวมของอนุพันธ์ แต่การหาอนุพันธ์ของผลคูณต้องใช้กฎผลคูณดังนั้นจึงง่ายกว่าที่จะคำนวณจุดนิ่งของลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระมากกว่าลอการิทึมความน่าจะเป็นของเหตุการณ์อิสระ

สมการที่กำหนดโดยจุดนิ่งของฟังก์ชันคะแนนทำหน้าที่เป็นสมการประมาณค่าสำหรับตัวประมาณค่าความน่าจะเป็นสูงสุด ในแง่นั้น ตัวประมาณค่าความน่าจะเป็นสูงสุดถูกกำหนดโดยปริยายโดยค่าที่ของฟังก์ชันผกผันโดยที่คือปริภูมิยุคลิดมิติdและคือปริภูมิพารามิเตอร์ การใช้ทฤษฎีบทฟังก์ชันผกผันสามารถแสดงได้ว่าถูกกำหนดไว้อย่างดีในบริเวณใกล้เคียงแบบเปิดรอบ ๆด้วยความน่าจะเป็นที่เข้าใกล้หนึ่ง และเป็นการประมาณค่าที่สอดคล้องกันของผลที่ตามมาคือมีลำดับเช่นนั้นที่ เกือบ จะแน่นอนในเชิงอะซิมโทติกและ[ 37 ] ผลลัพธ์ที่คล้ายกันสามารถสร้างขึ้นได้โดยใช้ทฤษฎีบทของโรลล์[ 38 ] [ 39 ]

อนุพันธ์อันดับสองที่ประเมินที่ เรียกว่าข้อมูลฟิชเชอร์จะกำหนดความโค้งของพื้นผิวความน่าจะเป็น[ 40 ]และด้วยเหตุนี้จึงบ่งชี้ความแม่นยำของการประมาณค่า[ 41 ]

ตระกูลเลขชี้กำลัง

ฟังก์ชัน ความน่าจะเป็นล็อก ( log-likelihood) มีประโยชน์อย่างยิ่งสำหรับตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล ซึ่งรวมถึงการแจกแจงความน่าจะเป็นแบบพาราเมตริก ทั่วไปหลายๆ แบบ ฟังก์ชันการแจกแจงความน่าจะเป็น (และดังนั้นฟังก์ชันความน่าจะเป็นล็อก) สำหรับตระกูลเอกซ์โปเนนเชียลประกอบด้วยผลคูณของตัวประกอบที่เกี่ยวข้องกับ การยกกำลัง ล็อกของฟังก์ชันดังกล่าวเป็นผลรวมของผลคูณ ซึ่งง่ายต่อการหาอนุพันธ์มากกว่าฟังก์ชันดั้งเดิม

กลุ่มฟังก์ชันเอกซ์โพเนนเชียล คือกลุ่มฟังก์ชันที่มีฟังก์ชันความหนาแน่นความน่าจะเป็นอยู่ในรูปแบบ (สำหรับบางฟังก์ชัน เขียนแทนผลคูณภายใน ):

แต่ละคำเหล่านี้มีการตีความ[ a ]แต่การเปลี่ยนจากความน่าจะเป็นเป็นความน่าจะเป็นแบบมีเงื่อนไขและการหาค่าลอการิทึมจะให้ผลรวมดังนี้:

และแต่ละค่าสอดคล้องกับการเปลี่ยนพิกัดดังนั้นในพิกัดเหล่านี้ ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โปเนนเชียลจึงกำหนดโดยสูตรอย่างง่ายดังนี้ :

กล่าวโดยสรุป ค่าลอการิทึมความน่าจะเป็นของตระกูลเอกซ์โพเนนเชียลคือผลคูณภายในของพารามิเตอร์ธรรมชาติและสถิติเพียงพอลบด้วยตัวประกอบการทำให้เป็นมาตรฐาน ( ฟังก์ชันการแบ่งส่วนลอการิทึม ) ดังนั้น ตัวอย่างเช่น ค่าประมาณความน่าจะ เป็น สูงสุดสามารถ คำนวณ ได้โดยการหาอนุพันธ์ของสถิติเพียงพอTและฟังก์ชันการแบ่งส่วนลอการิทึมA

ตัวอย่าง: การแจกแจงแกมมา

การแจกแจงแกมมาเป็นตระกูลการแจกแจงเอกซ์โพเนนเชียลที่มีพารามิเตอร์สองตัว คือและฟังก์ชันความน่าจะเป็นคือ

การหาค่าประมาณความน่าจะเป็นสูงสุดของสำหรับค่าที่สังเกตได้เพียงค่าเดียวดูเหมือนจะเป็นเรื่องยาก แต่การใช้ลอการิทึมนั้นง่ายกว่ามาก:

เพื่อเพิ่มค่าลอการิทึมความน่าจะเป็นให้สูงสุด เราจึงทำการหาอนุพันธ์ย่อยเทียบกับ ตัวแปร :

หากมีการสังเกตการณ์อิสระหลายครั้งค่าลอการิทึมความน่าจะเป็นร่วมจะเป็นผลรวมของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ และอนุพันธ์ของผลรวมนี้จะเป็นผลรวมของอนุพันธ์ของค่าลอการิทึมความน่าจะเป็นแต่ละรายการ:

เพื่อให้ขั้นตอนการหาค่าสูงสุดของลอการิทึมความน่าจะเป็นร่วมเสร็จสมบูรณ์ สมการจะถูกกำหนดให้เป็นศูนย์และแก้หาค่า:

ในที่นี้หมายถึงค่าประมาณความน่าจะเป็นสูงสุด และคือค่าเฉลี่ยตัวอย่างของข้อมูลสังเกตการณ์

ภูมิหลังและการตีความ

ข้อสังเกตทางประวัติศาสตร์

คำว่า "likelihood" ถูกใช้ในภาษาอังกฤษมาอย่างน้อยตั้งแต่ปลายยุคกลางของอังกฤษ [ 42 ] การใช้คำนี้อย่างเป็นทางการเพื่ออ้างถึงฟังก์ชัน เฉพาะ ในสถิติทางคณิตศาสตร์นั้นได้รับการเสนอโดยRonald Fisher [ 43 ]ในเอกสารวิจัยสองฉบับที่ตีพิมพ์ในปี 1921 [ 44 ]และ 1922 [ 45 ]เอกสารปี 1921 ได้นำเสนอสิ่งที่ปัจจุบันเรียกว่า "likelihood interval" ส่วนเอกสารปี 1922 ได้นำเสนอคำว่า " method of maximum likelihood " อ้างอิงจาก Fisher:

ในปี พ.ศ. 2465 ข้าพเจ้าได้เสนอคำว่า 'ความน่าจะเป็น' โดยพิจารณาจากข้อเท็จจริงที่ว่า ในส่วนที่เกี่ยวกับ [พารามิเตอร์] นั้น มันไม่ใช่ความน่าจะเป็น และไม่เป็นไปตามกฎของความน่าจะเป็น ในขณะเดียวกันก็มีความสัมพันธ์กับปัญหาของการเลือกอย่างมีเหตุผลระหว่างค่าที่เป็นไปได้ของ [พารามิเตอร์] ในลักษณะที่คล้ายกับที่ความน่าจะเป็นมีต่อปัญหาของการทำนายเหตุการณ์ในเกมเสี่ยงโชค . . . อย่างไรก็ตาม ในส่วนที่เกี่ยวกับการตัดสินใจทางจิตวิทยา ความน่าจะเป็นมีความคล้ายคลึงกับความน่าจะเป็นอยู่บ้าง แต่แนวคิดทั้งสองนั้นแตกต่างกันโดยสิ้นเชิง . . ." [ 46 ]

ไม่ควรสับสนระหว่างแนวคิดเรื่องความน่าจะเป็นกับความน่าจะเป็น ดังที่เซอร์โรนัลด์ ฟิชเชอร์ได้กล่าวไว้

ฉันเน้นย้ำเรื่องนี้เพราะถึงแม้ฉันจะเน้นย้ำถึงความแตกต่างระหว่างความน่าจะเป็นและความน่าจะเป็นมาโดยตลอด แต่ก็ยังมีแนวโน้มที่จะปฏิบัติต่อความน่าจะเป็นราวกับว่าเป็นความน่าจะเป็นชนิดหนึ่ง ผลลัพธ์แรกคือมีมาตรวัดความเชื่อที่มีเหตุผลสองแบบที่เหมาะสมกับกรณีต่างๆ กัน เมื่อเรารู้ประชากร เราสามารถแสดงความรู้ที่ไม่สมบูรณ์หรือความคาดหวังเกี่ยวกับตัวอย่างในแง่ของความน่าจะเป็นได้ เมื่อเรารู้ตัวอย่าง เราสามารถแสดงความรู้ที่ไม่สมบูรณ์เกี่ยวกับประชากรในแง่ของความน่าจะเป็นได้[ 47 ]

การคิดค้นความน่าจะเป็นเชิงสถิติของฟิชเชอร์เป็นการตอบโต้รูปแบบการให้เหตุผลก่อนหน้านี้ที่เรียก ว่าความ น่าจะเป็นผกผัน[ 48 ]การใช้คำว่า "ความน่าจะเป็น" ของเขาทำให้ความหมายของคำนี้ถูกกำหนดไว้ในสถิติทางคณิตศาสตร์

AWF Edwards (1972) ได้วางรากฐานเชิงสัจพจน์สำหรับการใช้ค่าอัตราส่วนลอการิทึมความน่าจะเป็นเป็นมาตรวัดการสนับสนุนเชิงสัมพัทธ์สำหรับสมมติฐานหนึ่งเทียบกับอีกสมมติฐานหนึ่งฟังก์ชันการสนับสนุนจึงเป็นลอการิทึมธรรมชาติของฟังก์ชันความน่าจะเป็น ทั้งสองคำนี้ใช้ในวิชาพันธุศาสตร์เชิงวิวัฒนาการแต่ไม่ได้นำมาใช้ในการพิจารณาหลักฐานทางสถิติโดยทั่วไป[ 49 ]

การตีความภายใต้พื้นฐานที่แตกต่างกัน

ในหมู่นักสถิติ ยังไม่มีฉันทามติเกี่ยวกับพื้นฐานของสถิติที่ควรจะเป็น มีกระบวนทัศน์หลักสี่ประการที่ได้รับการเสนอให้เป็นพื้นฐาน ได้แก่ความถี่นิยม เบ ย์เซียนนิยมความน่าจะเป็นนิยมและอิงตาม AIC [ 50 ]สำหรับแต่ละพื้นฐานที่เสนอ การตีความความน่าจะเป็นจะแตกต่างกัน การตีความทั้งสี่แบบจะอธิบายไว้ในหัวข้อย่อยด้านล่าง

การตีความแบบความถี่

การตีความแบบเบย์เซียน

ในการอนุมานแบบเบย์เซียนแม้ว่าเราจะสามารถพูดถึงความน่าจะเป็นของข้อเสนอหรือตัวแปรสุ่ม ใดๆ เมื่อกำหนดตัวแปรสุ่มอื่นได้ เช่น ความน่าจะเป็นของค่าพารามิเตอร์หรือแบบจำลองทางสถิติ (ดูความน่าจะเป็นแบบมาร์จินัล ) เมื่อกำหนดข้อมูลที่ระบุหรือหลักฐานอื่นๆ[ 51 ] [ 52 ] [ 53 ] [ 54 ]ฟังก์ชันความน่าจะเป็นยังคงเป็นเอนทิตีเดียวกัน โดยมีการตีความเพิ่มเติมคือ (i) ความหนาแน่นแบบมีเงื่อนไขของข้อมูลเมื่อกำหนดพารามิเตอร์ (เนื่องจากพารามิเตอร์เป็นตัวแปรสุ่ม) และ (ii) การวัดหรือปริมาณข้อมูลที่ได้จากข้อมูลเกี่ยวกับค่าพารามิเตอร์หรือแม้แต่แบบจำลอง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]เนื่องจากการนำโครงสร้างความน่าจะเป็นมาใช้ในพื้นที่พารามิเตอร์หรือในชุดของแบบจำลอง จึงเป็นไปได้ที่ค่าพารามิเตอร์หรือแบบจำลองทางสถิติจะมีค่าความน่าจะเป็นสูงสำหรับข้อมูลที่กำหนด แต่มีความน่าจะ เป็นต่ำ หรือในทางกลับกัน[ 53 ] [ 55 ]กรณีนี้มักเกิดขึ้นในบริบททางการแพทย์[ 56 ]ตามกฎของเบย์สความน่าจะเป็นเมื่อมองเป็นความหนาแน่นแบบมีเงื่อนไขสามารถคูณด้วย ความหนาแน่น ความน่าจะเป็นก่อนหน้าของพารามิเตอร์แล้วทำให้เป็นมาตรฐาน เพื่อให้ได้ความหนาแน่นความน่าจะเป็นภายหลัง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]โดยทั่วไปแล้ว ความน่าจะเป็นของปริมาณที่ไม่ทราบค่า เมื่อกำหนดปริมาณที่ไม่ทราบค่าอีกปริมาณหนึ่ง จะเป็นสัดส่วนกับความน่าจะเป็น ของปริมาณที่ไม่ทราบค่า เมื่อ กำหนดปริมาณที่ไม่ทราบ ค่าอีกปริมาณหนึ่ง[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ]

การตีความแบบความน่าจะเป็น

ในสถิติเชิงความถี่ ฟังก์ชันความน่าจะเป็นนั้นเป็นสถิติที่สรุปผลจากตัวอย่างเดียวจากประชากร โดยค่าที่คำนวณได้ขึ้นอยู่กับการเลือกพารามิเตอร์หลายตัวθ 1 ... θ pโดยที่pคือจำนวนพารามิเตอร์ในแบบจำลองทางสถิติ ที่เลือกไว้แล้ว ค่าของความน่าจะเป็นทำหน้าที่เป็นตัวชี้วัดคุณภาพของการเลือกพารามิเตอร์ และชุดพารามิเตอร์ที่มีความน่าจะเป็นสูงสุดคือตัวเลือกที่ดีที่สุด เมื่อพิจารณาจากข้อมูลที่มีอยู่

การคำนวณความน่าจะเป็นโดยเฉพาะเจาะจงคือความน่าจะเป็นที่ตัวอย่างที่สังเกตได้จะถูกกำหนด โดยสมมติว่าแบบจำลองที่เลือกและค่าของพารามิเตอร์ต่างๆθให้ค่าประมาณที่แม่นยำของการกระจายความถี่ของประชากรที่ตัวอย่างที่สังเกตได้ถูกดึงมา โดยทั่วไปแล้ว การเลือกพารามิเตอร์ที่ดีคือพารามิเตอร์ที่ทำให้ตัวอย่างที่สังเกตได้จริงมีความน่าจะเป็นสูงสุดที่เป็นไปได้หลังจากการวิเคราะห์เสร็จสิ้นทฤษฎีบทของ Wilksแสดงให้เห็นถึงปริมาณของกฎเชิงอนุมานโดยแสดงให้เห็นว่าความแตกต่างในลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ของการประมาณค่าและลอการิทึมของความน่าจะเป็นที่สร้างขึ้นจากค่าพารามิเตอร์ "ที่แท้จริง" (แต่ไม่ทราบ) ของประชากรนั้นมีการกระจาย แบบ χ² ในเชิงอะซิม โทติก

ค่าประมาณความน่าจะเป็นสูงสุดของแต่ละตัวอย่างอิสระเป็นค่าประมาณที่แยกจากกันของชุดพารามิเตอร์ "ที่แท้จริง" ที่อธิบายประชากรที่สุ่มตัวอย่าง ค่าประมาณที่ต่อเนื่องจากตัวอย่างอิสระจำนวนมากจะรวมกลุ่มกัน โดยชุดค่าพารามิเตอร์ "ที่แท้จริง" ของประชากรจะซ่อนอยู่ตรงกลาง ค่าต่างของลอการิทึมของค่าประมาณความน่าจะเป็นสูงสุดและค่าความน่าจะเป็นของชุดพารามิเตอร์ที่อยู่ติดกันสามารถใช้ในการวาดขอบเขตความเชื่อมั่นบนกราฟที่มีพิกัดเป็นพารามิเตอร์θ 1 ... θ pขอบเขตนี้ล้อมรอบค่าประมาณความน่าจะเป็นสูงสุด และจุดทั้งหมด (ชุดพารามิเตอร์) ภายในขอบเขตนั้นจะแตกต่างกันไม่เกินค่าลอการิทึมของความน่าจะเป็นด้วยค่าคงที่ค่าหนึ่งการแจกแจงχ²ที่กำหนดโดยทฤษฎีบทของ Wilks จะแปลงค่าต่างของลอการิทึมของความน่าจะเป็นในขอบเขตนั้นให้เป็น "ความเชื่อมั่น" ว่าชุดพารามิเตอร์ " ที่แท้จริง" ของประชากรอยู่ภายในนั้น ศิลปะของการเลือกค่าต่างของลอการิทึมของความน่าจะเป็นที่คงที่คือการทำให้ความเชื่อมั่นสูงในระดับที่ยอมรับได้ ในขณะที่ยังคงรักษาขอบเขตให้เล็กในระดับที่ยอมรับได้ (ช่วงของค่าประมาณที่แคบ)

เมื่อมีการสังเกตข้อมูลมากขึ้น แทนที่จะใช้ข้อมูลเหล่านั้นเพื่อประมาณค่าแบบอิสระ ข้อมูลเหล่านั้นสามารถนำมารวมกับตัวอย่างก่อนหน้าเพื่อสร้างตัวอย่างรวมเดียว และตัวอย่างขนาดใหญ่นั้นอาจนำไปใช้ในการประมาณค่าความน่าจะเป็นสูงสุดใหม่ได้ เมื่อขนาดของตัวอย่างรวมเพิ่มขึ้น ขนาดของบริเวณความน่าจะเป็นที่มีความเชื่อมั่นเท่าเดิมจะหดตัวลง ในที่สุด ขนาดของบริเวณความเชื่อมั่นจะใกล้เคียงกับจุดเดียว หรือประชากรทั้งหมดได้รับการสุ่มตัวอย่างแล้ว ในทั้งสองกรณี ชุดพารามิเตอร์ที่ประมาณค่าได้จะเหมือนกับชุดพารามิเตอร์ของประชากรโดยพื้นฐาน

การตีความตาม AIC

ภายใต้ กรอบแนวคิด AICความน่าจะเป็นจะถูกตีความภายในบริบทของทฤษฎีสารสนเทศ[ 57 ] [ 58 ] [ 59 ]

ดูเพิ่มเติม

หมายเหตุ

อ่านเพิ่มเติม

  • Azzalini, Adelchi (1996). "ความน่าจะเป็น" การอนุมานทางสถิติบนพื้นฐานของความน่าจะเป็น Chapman and Hall. หน้า  17–50 . ISBN 0-412-60650-X.
  • Boos, Dennis D.; Stefanski, LA ( 2013). " การสร้างและการประมาณค่าความน่าจะเป็น" การอนุมานทางสถิติที่จำเป็น: ทฤษฎีและวิธีการนิวยอร์ก: Springer หน้า  27–124 doi : 10.1007/978-1-4614-4818-1_2 ISBN 978-1-4614-4817-4.
  • Edwards, AWF (1992) [1972]. ความน่าจะเป็น (ฉบับขยาย). สำนักพิมพ์มหาวิทยาลัยจอห์นส์ ฮอปกินส์ISBN 0-8018-4443-6.
  • คิง, แกรี่ (1989). "แบบจำลองความน่าจะเป็นของการอนุมาน" . การรวมวิธีการทางการเมือง: ทฤษฎีความน่าจะเป็นของการอนุมานทางสถิติ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. หน้า  59–94 . ISBN 0-521-36697-6.
  • Richard, Mark; Vecer, Jan (1 กุมภาพันธ์ 2021). "การทดสอบประสิทธิภาพของตลาดการทำนาย: แนวทางมาร์ติงเกล อัตราส่วนความน่าจะเป็น และการวิเคราะห์ปัจจัยเบย์ส"ความเสี่ยง9 ( 2): 31. doi : 10.3390/risks9020031 . hdl : 10419/258120 .
  • ลินด์ซีย์, เจ.เค. (1996). "ความน่าจะเป็น" . การอนุมานทางสถิติเชิงพาราเมตริก . สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด. หน้า  69–139 . ISBN 0-19-852359-9.
  • โรห์เด, ชาร์ลส์ เอ. (2014). การอนุมานทางสถิติเบื้องต้นด้วยฟังก์ชันความน่าจะเป็น . เบอร์ลิน: สปริงเกอร์. ISBN 978-3-319-10460-7.
  • รอยัล, ริชาร์ด (1997). หลักฐานทางสถิติ: แบบจำลองความน่าจะเป็น . ลอนดอน: แชปแมน แอนด์ ฮอลล์. ISBN 0-412-04411-0.
  • วอร์ด, ไมเคิล ดี. ; อาลควิสต์, จอห์น เอส. (2018). "ฟังก์ชันความน่าจะเป็น: การเจาะลึกยิ่งขึ้น"ความน่าจะเป็นสูงสุดสำหรับสังคมศาสตร์: กลยุทธ์สำหรับการวิเคราะห์สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์หน้า  21–28 . ISBN 978-1-316-63682-4.
  • ฟังก์ชันความน่าจะเป็นที่ Planetmath
  • "ค่าความน่าจะเป็นล็อก" . Statlect .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Likelihood_function&oldid=1359301061 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันความน่าจะเป็น

ฟังก์ชันความน่าจะเป็น (มักเรียกง่ายๆ ว่าความน่าจะเป็น ) วัดว่าแบบจำลองทางสถิติอธิบายข้อมูลที่สังเกตได้ ดีเพียงใด โดยคำนวณความน่าจะเป็นของการเห็นข้อมูลนั้นภายใต้ ค่า พารามิเตอร์...

คำนิยาม

ฟังก์ชันความน่าจะเป็น ซึ่งกำหนดโดยพารามิเตอร์ (ซึ่งอาจเป็นพารามิเตอร์หลายตัว) มักจะถูกกำหนดแตกต่างกันสำหรับ ฟังก์ชันความน่าจะเป็น แบบไม่ต่อเนื่องและแบบต่อเนื่อง (คำจำกัดความทั่วไปเพิ่มเติมจะกล่าวถึงด้านล่าง)...

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง

ให้เป็น ตัวแปรสุ่มแบบไม่ ต่อเนื่อง ที่ มีฟังก์ชันความน่าจะเป็น ขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} พี {\textstyle p} θ {\textstyle \theta }

การแจกแจงความน่าจะเป็นแบบต่อเนื่อง

ให้เป็น ตัวแปรสุ่ม ที่มี การแจกแจงความน่าจะเป็นแบบต่อเนื่องโดยสมบูรณ์ ด้วย ฟังก์ชันความหนาแน่น (ฟังก์ชันของ) ซึ่งขึ้นอยู่กับพารามิเตอร์แล้วฟังก์ชัน X {\textstyle X} เอฟ {\textstyle f} x {\textstyle x} θ {\textstyle \theta }