การอนุมานแบบเบย์เซียน

การอนุมานแบบเบย์เซียน ( / ˈ b eɪ z i ə n / BAY -zee-ənหรือ/ ˈ b eɪ ʒ ən / BAY -zhən ) ^{[ 1 ]}เป็นวิธีการอนุมานทางสถิติที่ ใช้ ทฤษฎีบทของเบย์สในการคำนวณความน่าจะเป็นของสมมติฐาน โดยพิจารณาจากหลักฐาน ก่อนหน้า และปรับปรุงให้ทันสมัยเมื่อ มี ข้อมูล เพิ่มเติม เข้ามา โดยพื้นฐานแล้ว การอนุมานแบบเบย์เซียนใช้การแจกแจงก่อนหน้าเพื่อประมาณความน่าจะเป็นภายหลังการอนุมานแบบเบย์เซียนเป็นเทคนิคที่สำคัญในทางสถิติโดยเฉพาะอย่างยิ่งในสถิติทางคณิตศาสตร์การปรับปรุงแบบเบย์เซียนมีความสำคัญอย่างยิ่งในการวิเคราะห์แบบไดนามิกของลำดับข้อมูลการอนุมานแบบเบย์เซียนมีการประยุกต์ใช้ในกิจกรรมที่หลากหลาย รวมถึงวิทยาศาสตร์วิศวกรรมปรัชญาการแพทย์กีฬาจิตวิทยา^[²^]และกฎหมายในปรัชญาของทฤษฎีการตัดสินใจ การอนุมานแบบเบย์เซียนมี ความเกี่ยวข้องอย่างใกล้ชิดกับความน่าจะเป็นเชิงอัตวิสัย ซึ่งมักเรียกว่า " ความน่าจะเป็นแบบเบย์เซียน "

บทนำเกี่ยวกับกฎของเบย์ส

คำอธิบายอย่างเป็นทางการ

ตารางความน่าจะเป็น
สมมติฐาน หลักฐาน	สอดคล้องกับสมมติฐาน $H$	ขัดแย้งกับสมมติฐาน $\neg H$	ทั้งหมด
มีหลักฐาน $E$	$P(H\|E)\cdot P(E)$ $=P(E\|H)\cdot P(H)$	$P(\neg H\|E)\cdot P(E)$ $=P(E\|\neg H)\cdot P(\neg H)$	⁠ ⁠ $P(E)$
ไม่มีหลักฐาน $\neg E$	$P(H\|\neg E)\cdot P(\neg E)$ $=P(\neg E\|H)\cdot P(H)$	$P(\neg H\|\neg E)\cdot P(\neg E)$ $=P(\neg E\|\neg H)\cdot P(\neg H)$	$P(\neg E)$ = $1-P(E)$

ทั้งหมด	⁠ ⁠ $P(H)$	$P(\neg H)=1-P(H)$	1

การอนุมานแบบเบย์เซียนได้มาจากความน่าจะเป็นภายหลัง (posterior probability)ซึ่งเป็นผลมาจากสองปัจจัยเบื้องต้นได้แก่ความน่าจะเป็นก่อนหน้า (prior probability ) และ " ฟังก์ชันความน่าจะเป็น " (likelihood function ) ที่ได้มาจาก แบบจำลองทางสถิติสำหรับข้อมูลที่สังเกตได้ การอนุมานแบบเบย์เซียนคำนวณความน่าจะเป็นภายหลังตามทฤษฎีบทของเบย์ส :

$P(H\mid E)={\frac {P(E\mid H)\cdot P(H)}{P(E)}},$

ที่ไหน

$H$ หมายถึงสมมติฐาน ใดๆ ที่ความน่าจะเป็นอาจได้รับผลกระทบจากข้อมูล (ซึ่งต่อไปนี้จะเรียกว่าหลักฐาน ) บ่อยครั้งที่มีสมมติฐานที่แข่งขันกัน และงานที่ต้องทำคือการพิจารณาว่าสมมติฐานใดมีความน่าจะเป็นมากที่สุด
$P(H)$ ความน่าจะเป็นก่อนหน้าคือการประมาณความน่าจะเป็นของสมมติฐานก่อนที่ จะมีการสังเกต ข้อมูลหรือหลักฐานในปัจจุบัน $H$ $E$
$E$ หลักฐานดังกล่าว สอดคล้องกับข้อมูลใหม่ที่ไม่ได้ใช้ในการคำนวณความน่าจะเป็นก่อนหน้า
$P(H\mid E)$ ความน่าจะเป็นภายหลัง (posterior probability ) คือความน่าจะเป็นของสมมติฐานหนึ่งเมื่อพิจารณาจากหลักฐานที่สังเกตได้ นี่คือสิ่งที่เราต้องการทราบ: ความน่าจะเป็นของสมมติฐานหนึ่งเมื่อพิจารณาจากหลักฐานที่สังเกตได้ $H$ $E$ $E$
$P(E\mid H)$ ความน่าจะเป็นของการสังเกตสิ่งที่กำหนดเรียกว่าความน่าจะเป็นแบบมีเงื่อนไข (likelihood ) โดยเป็นฟังก์ชันของโดย ที่ค่าคงที่ มันบ่ง ชี้ถึงความสอดคล้องของหลักฐานกับสมมติฐานที่กำหนด ฟังก์ชันความน่าจะเป็นแบบมีเงื่อนไขเป็นฟังก์ชันของหลักฐานในขณะที่ความน่าจะเป็นภายหลังเป็นฟังก์ชันของสมมติฐาน $E$ $H$ $E$ $H$ $E$ $H$
$P(E)$ บางครั้งเรียกว่าความน่าจะเป็นส่วนเพิ่มหรือ "หลักฐานแบบจำลอง" ปัจจัยนี้จะเหมือนกันสำหรับสมมติฐานที่เป็นไปได้ทั้งหมดที่กำลังพิจารณา (ดังจะเห็นได้จากข้อเท็จจริงที่ว่าสมมติฐานไม่ได้ปรากฏอยู่ที่ใดในสัญลักษณ์ ซึ่งแตกต่างจากปัจจัยอื่นๆ ทั้งหมด) ดังนั้นจึงไม่นำมาพิจารณาในการกำหนดความน่าจะเป็นสัมพัทธ์ของสมมติฐานต่างๆ $H$
$P(E)>0$ (มิฉะนั้นก็จะมี...) $0/0$

สำหรับค่าต่างๆ ของมีเพียงปัจจัยและซึ่งอยู่ในตัวเศษเท่านั้นที่มีผลต่อค่าของ กล่าวคือ ความน่าจะเป็นภายหลังของสมมติฐานเป็นสัดส่วนกับความน่าจะเป็นก่อนหน้า (ความเป็นไปได้โดยธรรมชาติ) และความน่าจะเป็นที่ได้มาใหม่ (ความเข้ากันได้กับหลักฐานที่สังเกตได้ใหม่) $H$ $P(H)$ $P(E\mid H)$ $P(H\mid E)$

ในกรณีที่("ไม่ใช่") การปฏิเสธเชิงตรรกะของเป็นความน่าจะเป็นที่ถูกต้อง กฎของเบย์สสามารถเขียนใหม่ได้ดังนี้: $\neg H$ $H$ $H$

${\begin{aligned}P(H\mid E)&={\frac {P(E\mid H)P(H)}{P(E)}}\\\\&={\frac {P(E\mid H)P(H)}{P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)}}\\\\&={\frac {1}{1+\left({\frac {1}{P(H)}}-1\right){\frac {P(E\mid \neg H)}{P(E\mid H)}}}}\\\end{aligned}}$

เพราะ

$P(E)=P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)$

และ

$P(H)+P(\neg H)=1.$

สิ่งนี้จะดึงความสนใจไปที่คำศัพท์

$\left({\tfrac {1}{P(H)}}-1\right){\tfrac {P(E\mid \neg H)}{P(E\mid H)}}.$

ถ้าค่าของเทอมนั้นประมาณ 1 ความน่าจะเป็นของสมมติฐานเมื่อพิจารณาจากหลักฐานจะอยู่ที่ประมาณ50% หรือมีโอกาสเท่ากันหรือไม่มีโอกาสเลย ถ้าค่าของเทอมนั้นเล็กมาก ใกล้เคียงกับศูนย์ ความน่าจะเป็นของสมมติฐานเมื่อพิจารณาจากหลักฐานจะใกล้เคียงกับ 1 หรือสมมติฐานแบบมีเงื่อนไขมีโอกาสค่อนข้างสูง ถ้าค่าของเทอมนั้นใหญ่มาก มากกว่า 1 มาก สมมติฐานเมื่อพิจารณาจากหลักฐาน มีโอกาสน้อยมาก ถ้าสมมติฐาน (โดยไม่คำนึงถึงหลักฐาน) มีโอกาสน้อยมาก ค่าของเทอมนั้นจะเล็ก (แต่ไม่จำเป็นต้องเล็กมากจนน่าตกใจ) และมากกว่า 1 มาก และสามารถประมาณค่าเทอมนี้ได้เป็นและสามารถเปรียบเทียบความน่าจะเป็นที่เกี่ยวข้องได้โดยตรง $P(H\mid E)$ ${\tfrac {1}{2}}$ $P(H\mid E)$ $P(H)$ ${\tfrac {1}{P(H)}}$ ${\tfrac {P(E\mid \neg H)}{P(E\mid H)\cdot P(H)}}$

วิธีที่ง่ายและรวดเร็วในการจำสมการนี้คือการใช้กฎการคูณ :

$P(E\cap H)=P(E\mid H)P(H)=P(H\mid E)P(E).$

ทางเลือกอื่นนอกเหนือจากการปรับปรุงแบบเบย์เซียน

การปรับปรุงแบบเบย์เซียนนั้นใช้กันอย่างแพร่หลายและสะดวกในการคำนวณ อย่างไรก็ตาม มันไม่ใช่กฎการปรับปรุงเพียงอย่างเดียวที่อาจถือได้ว่าสมเหตุสมผล

เอียน แฮ็กกิ้งตั้งข้อสังเกตว่าข้อโต้แย้ง " หนังสือดัตช์ " แบบดั้งเดิมไม่ได้ระบุถึงการปรับปรุงแบบเบย์เซียน: พวกเขาเปิดโอกาสไว้ว่ากฎการปรับปรุงที่ไม่ใช่แบบเบย์เซียนสามารถหลีกเลี่ยงหนังสือดัตช์ได้ แฮ็กกิ้งเขียนว่า: ^{[ 3 ]} "และทั้งข้อโต้แย้งหนังสือดัตช์หรือข้อโต้แย้งอื่น ๆ ในคลังอาวุธของบุคคลนิยมในการพิสูจน์สัจพจน์ความน่าจะเป็นไม่ได้บ่งชี้ถึงสมมติฐานแบบไดนามิก ไม่มีข้อใดบ่งชี้ถึงความเป็นเบย์เซียน ดังนั้นบุคคลนิยมจึงต้องการให้สมมติฐานแบบไดนามิกเป็นแบบเบย์เซียน เป็นความจริงที่ว่าในความสอดคล้อง บุคคลนิยมสามารถละทิ้งแบบจำลองเบย์เซียนของการเรียนรู้จากประสบการณ์ได้ เกลืออาจสูญเสียรสชาติไป"

อันที่จริง มีกฎการปรับปรุงที่ไม่ใช่แบบเบย์เซียนที่หลีกเลี่ยงหนังสือแบบดัตช์ (ดังที่ได้กล่าวถึงในเอกสารเกี่ยวกับ " จลนศาสตร์ความน่าจะเป็น ") หลังจากการตีพิมพ์กฎของRichard C. Jeffreyซึ่งใช้กฎของเบย์เซียนกับกรณีที่หลักฐานเองได้รับการกำหนดความน่าจะเป็น^{[ 4 ]}สมมติฐานเพิ่มเติมที่จำเป็นในการต้องการการปรับปรุงแบบเบย์เซียนโดยเฉพาะนั้นถือว่ามีนัยสำคัญ ซับซ้อน และไม่น่าพอใจ^{[ 5 ]}

การอนุมานเหนือความเป็นไปได้เฉพาะและครบถ้วน

หากมีการใช้หลักฐานพร้อมกันเพื่อปรับปรุงความเชื่อเกี่ยวกับชุดของข้อเสนอที่เฉพาะเจาะจงและครอบคลุมทั้งหมด การอนุมานแบบเบย์เซียนอาจถูกมองว่าเป็นการกระทำต่อการกระจายความเชื่อนี้โดยรวม

สูตรทั่วไป

สมมติว่ากระบวนการหนึ่งสร้างเหตุการณ์อิสระและมีการกระจายแบบเดียวกันแต่ ไม่ทราบ การกระจายความน่าจะเป็น ให้ปริภูมิ เหตุการณ์แทนสถานะความเชื่อปัจจุบันสำหรับกระบวนการนี้ แต่ละแบบจำลองแทนด้วยเหตุการณ์ความน่าจะเป็นแบบมีเงื่อนไขถูกกำหนดเพื่อกำหนดแบบจำลองคือระดับความเชื่อในก่อนขั้นตอนการอนุมานครั้งแรกคือชุดของความน่าจะเป็นก่อนหน้าเริ่มต้นซึ่งผลรวมต้องเท่ากับ 1 แต่ค่าอื่นๆ เป็นไปตามอำเภอใจ $E_{n},\ n=1,2,3,\ldots$ $\Omega$ $M_{m}$ $P(E_{n}\mid M_{m})$ $P(M_{m})$ $M_{m}$ $\{P(M_{m})\}$

สมมติว่ากระบวนการนี้ถูกสังเกตว่าสร้างขึ้นสำหรับแต่ละค่าความน่าจะเป็นก่อนหน้าจะได้รับการอัปเดตเป็นความน่าจะเป็นภายหลังจากทฤษฎีบทของเบย์ส : ^[⁶^] $E\in \{E_{n}\}$ $M\in \{M_{m}\}$ $P(M)$ $P(M\mid E)$

$P(M\mid E)={\frac {P(E\mid M)}{\sum _{m}{P(E\mid M_{m})P(M_{m})}}}\cdot P(M).$

หากพบหลักฐานเพิ่มเติม อาจทำขั้นตอนนี้ซ้ำได้

การสังเกตหลายครั้ง

สำหรับลำดับของการสังเกตที่เป็นอิสระและมีการกระจายเหมือนกันสามารถแสดงได้โดยการอุปมานว่าการประยุกต์ใช้ซ้ำๆ ของข้างต้นนั้นเทียบเท่ากับ โดย ที่ $\mathbf {E} =(e_{1},\dots ,e_{n})$ $P(M\mid \mathbf {E} )={\frac {P(\mathbf {E} \mid M)}{\sum _{m}{P(\mathbf {E} \mid M_{m})P(M_{m})}}}\cdot P(M),$ $P(\mathbf {E} \mid M)=\prod _{k}{P(e_{k}\mid M)}.$

การกำหนดสูตรเชิงพารามิเตอร์: แรงจูงใจในการอธิบายอย่างเป็นทางการ

ด้วยการกำหนดพารามิเตอร์ให้กับพื้นที่ของแบบจำลอง ความเชื่อในแบบจำลองทั้งหมดสามารถปรับปรุงได้ในขั้นตอนเดียว การกระจายความเชื่อเหนือพื้นที่ของแบบจำลองจึงอาจมองได้ว่าเป็นการกระจายความเชื่อเหนือพื้นที่ของพารามิเตอร์ การกระจายในส่วนนี้แสดงเป็นแบบต่อเนื่อง โดยแทนด้วยความหนาแน่นของความน่าจะเป็น เนื่องจากเป็นสถานการณ์ปกติ อย่างไรก็ตาม เทคนิคนี้สามารถนำไปใช้กับการกระจายแบบไม่ต่อเนื่องได้เช่นกัน

ให้เวกเตอร์ครอบคลุมปริภูมิพารามิเตอร์ ให้การแจกแจงความน่าจะเป็นก่อนหน้าเริ่มต้นเหนือ เป็นโดยที่เป็นเซตของพารามิเตอร์สำหรับความน่าจะเป็นก่อนหน้าเอง หรือไฮเปอร์พารามิเตอร์ให้เป็นลำดับของ การสังเกตเหตุการณ์ ที่เป็นอิสระและมีการแจกแจงเหมือนกันโดยที่ทั้งหมดมีการแจกแจงแบบสำหรับบางค่า ทฤษฎีบทของเบย์สถูกนำมาใช้เพื่อหาการแจกแจงความน่าจะเป็นภายหลังเหนือ: ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ $p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})$ ${\boldsymbol {\alpha }}$ $\mathbf {E} =(e_{1},\dots ,e_{n})$ $e_{i}$ $p(e\mid {\boldsymbol {\theta }})$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$

${\begin{aligned}p({\boldsymbol {\theta }}\mid \mathbf {E} ,{\boldsymbol {\alpha }})&={\frac {p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})}{p(\mathbf {E} \mid {\boldsymbol {\alpha }})}}\cdot p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})\\&={\frac {p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})}{\int p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})\,d{\boldsymbol {\theta }}}}\cdot p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }}),\end{aligned}}$ ที่ไหน $p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})=\prod _{k}p(e_{k}\mid {\boldsymbol {\theta }}).$

คำอธิบายอย่างเป็นทางการ

คำจำกัดความ

$x$ โดยทั่วไปแล้ว นี่คือจุดข้อมูล อาจเป็นเวกเตอร์ของค่าต่างๆ ก็ได้
$\theta$ พารามิเตอร์ของการกระจายของจุดข้อมูล เช่นซึ่ง อาจเป็นเวกเตอร์ของพารามิเตอร์ก็ได้ $x\sim p(x\mid \theta )$
$\alpha$ พารามิเตอร์เสริมของการกระจายพารามิเตอร์ นั่นคือซึ่ง อาจเป็นเวกเตอร์ของพารามิเตอร์เสริมก็ได้ $\theta \sim p(\theta \mid \alpha )$
$\mathbf {X}$ คือตัวอย่าง ซึ่งเป็นชุดของจุดข้อมูลที่สังเกตได้ เช่น $n$ $x_{1},\ldots ,x_{n}$
${\tilde {x}}$ จุดข้อมูลใหม่ที่ต้องการทำนายการกระจายตัว

การอนุมานแบบเบย์เซียน

การแจกแจงก่อนหน้า (Prior distribution) คือการแจกแจงของพารามิเตอร์ก่อนที่จะมีการสังเกตข้อมูลใดๆการแจกแจงก่อนหน้าอาจหาได้ยาก ในกรณีเช่นนั้น วิธีหนึ่งที่เป็นไปได้คือการใช้Jeffreys priorเพื่อหาการแจกแจงก่อนหน้าก่อนที่จะปรับปรุงด้วยการสังเกตใหม่ๆ $p(\theta \mid \alpha )$
การแจกแจงตัวอย่างคือการแจกแจงของข้อมูลที่สังเกตได้โดยมีเงื่อนไขตามพารามิเตอร์ กล่าวคือสิ่ง นี้เรียกอีกอย่างว่าความน่าจะเป็นโดยเฉพาะอย่างยิ่งเมื่อมองว่าเป็นฟังก์ชันของพารามิเตอร์ ซึ่งบางครั้งเขียนว่า $p(\mathbf {X} \mid \theta )$ $\operatorname {L} (\theta \mid \mathbf {X} )=p(\mathbf {X} \mid \theta )$
ความน่าจะเป็นแบบมาร์จินัล (บางครั้งเรียกว่าหลักฐาน ) คือการกระจายของข้อมูลที่สังเกตได้ซึ่ง ถูกทำให้เป็นมา ร์จินัลเหนือพารามิเตอร์ กล่าวคือมันวัดความสอดคล้องระหว่างข้อมูลและความเห็นของผู้เชี่ยวชาญในเชิงเรขาคณิตที่สามารถทำให้แม่นยำได้^[⁷^]หากความน่าจะเป็นแบบมาร์จินัลเป็น 0 แสดงว่าไม่มีความสอดคล้องระหว่างข้อมูลและความเห็นของผู้เชี่ยวชาญ และไม่สามารถใช้กฎของเบย์สได้ $p(\mathbf {X} \mid \alpha )=\int p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )d\theta .$
การแจกแจงความน่าจะเป็นภายหลัง (posterior distribution) คือการแจกแจงของพารามิเตอร์หลังจากพิจารณาข้อมูลที่สังเกตได้แล้ว ซึ่งกำหนดโดยกฎของเบย์สซึ่งเป็นหัวใจสำคัญของการอนุมานแบบเบย์ส:

$p(\theta \mid \mathbf {X} ,\alpha )={\frac {p(\theta ,\mathbf {X} ,\alpha )}{p(\mathbf {X} ,\alpha )}}={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta ,\alpha )}{p(\mathbf {X} \mid \alpha )p(\alpha )}}$ $={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )}{p(\mathbf {X} \mid \alpha )}}\propto p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha ).$

สิ่งนี้สามารถแสดงออกมาในรูปคำพูดได้ว่า "ค่าความน่าจะเป็นภายหลังเป็นสัดส่วนกับค่าความน่าจะเป็นคูณด้วยค่าความน่าจะเป็นก่อนหน้า" หรือบางครั้งก็เขียนว่า "ค่าความน่าจะเป็นภายหลัง = ค่าความน่าจะเป็นคูณด้วยค่าความน่าจะเป็นก่อนหน้า หารด้วยหลักฐาน"

ในทางปฏิบัติ สำหรับแบบจำลองเบย์เซียนที่ซับซ้อนเกือบทั้งหมดที่ใช้ในการเรียนรู้ของเครื่อง การแจกแจงแบบโพสทีเรียร์จะไม่ได้รับในรูปแบบการแจกแจงแบบปิด ส่วนใหญ่เป็นเพราะพื้นที่พารามิเตอร์สำหรับอาจสูงมาก หรือแบบจำลองเบย์เซียนยังคงรักษาโครงสร้างลำดับชั้นบางอย่างที่กำหนดขึ้นจากข้อมูลสังเกตและพารามิเตอร์ในสถานการณ์เช่นนี้ เราจำเป็นต้องใช้เทคนิคการประมาณค่า^[⁸^] $p(\theta \mid \mathbf {X} ,\alpha )$ $\theta$ $\mathbf {X}$ $\theta$
กรณีทั่วไป: ให้เป็นการแจกแจงแบบมีเงื่อนไขของเมื่อกำหนดให้และให้เป็นการแจกแจงของการแจกแจงร่วมคือการแจกแจงแบบมีเงื่อนไขของ เมื่อ กำหนดให้ จะถูกกำหนดโดย $P_{Y}^{x}$ $Y$ $X=x$ $P_{X}$ $X$ $P_{X,Y}(dx,dy)=P_{Y}^{x}(dy)P_{X}(dx)$ $P_{X}^{y}$ $X$ $Y=y$

$P_{X}^{y}(A)=E(1_{A}(X)|Y=y)$ การมีอยู่และความเป็นเอกลักษณ์ของความคาดหวังแบบมีเงื่อนไข ที่จำเป็น นั้นเป็นผลมาจากทฤษฎีบท Radon–Nikodym Kolmogorovได้กำหนดทฤษฎีบทนี้ไว้ในหนังสือที่มีชื่อเสียงของเขาในปี 1933 Kolmogorov เน้นย้ำถึงความสำคัญของความน่าจะเป็นแบบมีเงื่อนไขโดยเขียนว่า "ฉันต้องการดึงความสนใจไปที่ ... และโดยเฉพาะอย่างยิ่งทฤษฎีความน่าจะเป็นแบบมีเงื่อนไขและความคาดหวังแบบมีเงื่อนไข..." ในคำนำ^{[ 9 ]}ทฤษฎีบทของ Bayes กำหนดการแจกแจงภายหลังจากการแจกแจงก่อนหน้า ความเป็นเอกลักษณ์ต้องอาศัยสมมติฐานความต่อเนื่อง^{[ 10 ]}ทฤษฎีบทของ Bayes สามารถขยายให้ครอบคลุมการแจกแจงก่อนหน้าที่ไม่เหมาะสม เช่น การแจกแจงแบบเอกรูปบนเส้นจำนวนจริง^{[ 11 ]} วิธี การ Markov chain Monte Carloสมัยใหม่ได้เพิ่มความสำคัญของทฤษฎีบทของ Bayes รวมถึงกรณีที่มีการแจกแจงก่อนหน้าที่ไม่เหมาะสม^{[ 12 ]}

การทำนายแบบเบย์เซียน

การแจกแจงทำนายภายหลัง (posterior predictive distribution)คือการแจกแจงของจุดข้อมูลใหม่ โดยหาค่าเฉลี่ยจากค่าการแจกแจงภายหลัง (posterior distribution): $p({\tilde {x}}\mid \mathbf {X} ,\alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )d\theta$
การแจกแจงการทำนายก่อนหน้าคือการแจกแจงของจุดข้อมูลใหม่ ซึ่งได้มาจากการหาค่าเฉลี่ยของการแจกแจงก่อนหน้า: $p({\tilde {x}}\mid \alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \alpha )d\theta$

ทฤษฎีเบย์เซียนเรียกร้องให้ใช้การแจกแจงการทำนายภายหลัง (posterior predictive distribution) เพื่อทำการอนุมานเชิงทำนายกล่าวคือ เพื่อทำนายการแจกแจงของจุดข้อมูลใหม่ที่ไม่เคยสังเกตมาก่อน นั่นคือ แทนที่จะใช้จุดคงที่ในการทำนาย จะได้การแจกแจงของจุดที่เป็นไปได้ทั้งหมดกลับมา วิธีนี้เท่านั้นที่จะใช้การแจกแจงภายหลังทั้งหมดของพารามิเตอร์ได้ ในทางตรงกันข้าม การทำนายในสถิติแบบความถี่มักเกี่ยวข้องกับการหาค่าประมาณจุดที่ดีที่สุดของพารามิเตอร์ เช่น โดยวิธีความน่าจะเป็นสูงสุด ( maximum likelihood ) หรือการประมาณค่าภายหลังสูงสุด (maximum a posteriori estimation : MAP) แล้วนำค่าประมาณนี้ไปใส่ในสูตรสำหรับการแจกแจงของจุดข้อมูล วิธีนี้มีข้อเสียคือไม่ได้คำนึงถึงความไม่แน่นอนใดๆ ในค่าของพารามิเตอร์ และดังนั้นจึงจะประเมินความแปรปรวนของการแจกแจงเชิงทำนาย ต่ำกว่าความเป็นจริง

ในบางกรณี สถิติแบบความถี่สามารถแก้ไขปัญหานี้ได้ ตัวอย่างเช่นช่วงความเชื่อมั่นและช่วงการทำนายในสถิติแบบความถี่ เมื่อสร้างจาก ข้อมูลที่มี การแจกแจงแบบปกติโดยมีค่าเฉลี่ยและความแปรปรวน ที่ไม่ทราบค่า จะสร้างขึ้นโดยใช้การแจกแจงแบบ t ของนักเรียนซึ่งประมาณค่าความแปรปรวนได้อย่างถูกต้อง เนื่องจากข้อเท็จจริงที่ว่า (1) ค่าเฉลี่ยของตัวแปรสุ่มที่มีการแจกแจงแบบปกติก็มีการแจกแจงแบบปกติเช่นกัน และ (2) การแจกแจงการทำนายของจุดข้อมูลที่มีการแจกแจงแบบปกติโดยมีค่าเฉลี่ยและความแปรปรวนที่ไม่ทราบค่า โดยใช้ไพรเออร์แบบคอนจูเกตหรือแบบไม่ให้ข้อมูล จะมีการแจกแจงแบบ t ของนักเรียน อย่างไรก็ตาม ในสถิติแบบเบย์เซียน การแจกแจงการทำนายภายหลังสามารถกำหนดได้อย่างแม่นยำเสมอ หรืออย่างน้อยก็มีความแม่นยำในระดับที่กำหนดได้เมื่อใช้วิธีการเชิงตัวเลข

การแจกแจงการทำนายทั้งสองประเภทมีรูปแบบเป็นการแจกแจงความน่าจะเป็นแบบผสม (เช่นเดียวกับความน่าจะเป็นแบบมาร์จินัล ) อันที่จริง หากการแจกแจงก่อนหน้าเป็นการ แจกแจง ก่อนหน้าแบบสังยุค ซึ่งหมายความว่าการแจกแจงก่อนหน้าและการแจกแจงภายหลังมาจากตระกูลเดียวกัน จะเห็นได้ว่าการแจกแจงการทำนายทั้งก่อนหน้าและภายหลังก็มาจากตระกูลเดียวกันของการแจกแจงแบบผสมเช่นกัน ความแตกต่างเพียงอย่างเดียวคือ การแจกแจงการทำนายภายหลังใช้ค่าที่อัปเดตแล้วของไฮเปอร์พารามิเตอร์ (โดยใช้กฎการอัปเดตแบบเบย์เซียนที่ระบุไว้ใน บทความเกี่ยวกับการแจกแจง ก่อนหน้าแบบสังยุค ) ในขณะที่การแจกแจงการทำนายก่อนหน้าใช้ค่าของไฮเปอร์พารามิเตอร์ที่ปรากฏใน1การแจกแจงก่อนหน้า

คุณสมบัติทางคณิตศาสตร์

การตีความปัจจัย

${\textstyle {\frac {P(E\mid M)}{P(E)}}>1\Rightarrow P(E\mid M)>P(E)}$ นั่นคือ ถ้าแบบจำลองเป็นจริง หลักฐานจะมีโอกาสปรากฏมากกว่าที่คาดการณ์ไว้จากสถานะความเชื่อในปัจจุบัน ในทางกลับกัน หากความเชื่อลดลงหลักฐานจะไม่ขึ้นอยู่กับแบบจำลอง ถ้าแบบจำลองเป็นจริง หลักฐานจะมีโอกาสปรากฏเท่ากับที่คาดการณ์ไว้จากสถานะความเชื่อในปัจจุบันอย่างแน่นอน ${\textstyle {\frac {P(E\mid M)}{P(E)}}=1\Rightarrow P(E\mid M)=P(E)}$

การปกครองของครอมเวลล์

ถ้าเช่นนั้น. ถ้าและ, แล้ว. นี่อาจตีความได้ว่าความเชื่อมั่นที่แข็งกร้าวไม่หวั่นไหวต่อหลักฐานโต้แย้ง $P(M)=0$ $P(M\mid E)=0$ $P(M)=1$ $P(E)>0$ $P(M|E)=1$

ข้อแรกเป็นผลโดยตรงจากทฤษฎีบทของเบย์ส ส่วนข้อหลังสามารถอนุมานได้โดยการใช้กฎข้อแรกกับเหตุการณ์ "ไม่ใช่" แทน " " ซึ่งจะได้เป็น "ถ้าแล้ว" จากนั้นจึงได้ผลลัพธ์ที่ต้องการทันที $M$ $M$ $1-P(M)=0$ $1-P(M\mid E)=0$

พฤติกรรมเชิงอะซิมโทติกของส่วนท้าย

พิจารณาพฤติกรรมของการกระจายความเชื่อเมื่อมีการอัปเดตจำนวนมากครั้งด้วยการทดลองที่เป็นอิสระและมีการกระจายเหมือนกัน สำหรับความน่าจะเป็นก่อนหน้าที่ดีพอสมควร ทฤษฎีบทของ Bernstein-von Misesระบุว่าในขีดจำกัดของการทดลองที่ไม่มีที่สิ้นสุด ความน่าจะเป็นภายหลังจะลู่เข้าสู่การกระจายแบบเกาส์เซียนที่เป็น อิสระจากความน่าจะเป็นก่อนหน้าเริ่มต้นภายใต้เงื่อนไขบางประการที่ Joseph L. Doobได้สรุปและพิสูจน์อย่างเข้มงวดเป็นครั้งแรกในปี 1948 กล่าวคือ หากตัวแปรสุ่มที่พิจารณามีปริภูมิความน่าจะ เป็นจำกัด ผลลัพธ์ทั่วไปมากขึ้นได้รับในภายหลังโดยนักสถิติDavid A. Freedmanซึ่งตีพิมพ์ในเอกสารวิจัยสำคัญสองฉบับในปี 1963 ^{[ 13 ]}และ 1965 ^{[ 14 ]}เมื่อใดและภายใต้สถานการณ์ใดที่พฤติกรรมเชิงอะซิมโทติกของความน่าจะเป็นภายหลังได้รับการรับประกัน เอกสารของเขาในปี 1963 เช่นเดียวกับ Doob (1949) พิจารณากรณีจำกัดและได้ข้อสรุปที่น่าพอใจ อย่างไรก็ตาม หากตัวแปรสุ่มมีปริภูมิความน่าจะ เป็นอนันต์แต่สามารถนับได้ (เช่น สอดคล้องกับลูกเต๋าที่มีหน้าอนันต์) บทความปี 1965 แสดงให้เห็นว่าสำหรับเซตย่อยที่หนาแน่นของไพรเออร์ทฤษฎีบทของ Bernstein-von Misesไม่สามารถนำมาใช้ได้ ในกรณีนี้แทบจะไม่มีการลู่เข้าแบบเชิงเส้นกำกับอย่างแน่นอน ต่อมาในช่วงปี 1980 และ 1990 FreedmanและPersi Diaconisได้ทำงานต่อในกรณีของปริภูมิความน่าจะเป็นอนันต์ที่สามารถนับได้^{[ 15 ]}โดยสรุป อาจมีการทดลองไม่เพียงพอที่จะระงับผลกระทบของการเลือกเริ่มต้น และโดยเฉพาะอย่างยิ่งสำหรับระบบขนาดใหญ่ (แต่จำกัด) การลู่เข้าอาจช้ามาก

ไพรเออร์แบบคอนจูเกต

ในรูปแบบพารามิเตอร์ มักจะถือว่าการแจกแจงก่อนหน้ามาจากตระกูลของการแจกแจงที่เรียกว่า การแจกแจงก่อนหน้าแบบสังยุค (conjugate priors ) ประโยชน์ของการแจกแจงก่อนหน้าแบบสังยุคคือ การแจกแจงภายหลังที่สอดคล้องกันจะอยู่ในตระกูลเดียวกัน และการคำนวณสามารถแสดงได้ใน รูป แบบ ปิด

การประมาณค่าพารามิเตอร์และการคาดการณ์

โดยทั่วไปแล้ว มักต้องการใช้การแจกแจงความน่าจะเป็นภายหลัง (posterior distribution) เพื่อประมาณค่าพารามิเตอร์หรือตัวแปร วิธีการประมาณค่าแบบเบย์เซียนหลายวิธีจะเลือกค่าการวัดแนวโน้มศูนย์กลางจากการแจกแจงความน่าจะเป็นภายหลัง

สำหรับปัญหาหนึ่งมิติ จะมีค่ามัธยฐานที่ไม่ซ้ำกันสำหรับปัญหาต่อเนื่องในทางปฏิบัติ ค่ามัธยฐานภายหลังมีความน่าสนใจในฐานะตัวประมาณที่แข็งแกร่ง^{[ 16 ]}

หากมีค่าเฉลี่ยจำกัดสำหรับการแจกแจงแบบโพสทีเรียร์ ค่าเฉลี่ยแบบโพสทีเรียร์ก็จะเป็นวิธีการประมาณค่า^{[ 17 ]} ${\tilde {\theta }}=\operatorname {E} [\theta ]=\int \theta \,p(\theta \mid \mathbf {X} ,\alpha )\,d\theta$

การเลือกค่าที่มีความน่าจะเป็นสูงสุดจะกำหนดค่าประมาณสูงสุดภายหลัง (MAP): ^{[ 18 ]} $\{\theta _{\text{MAP}}\}\subset \arg \max _{\theta }p(\theta \mid \mathbf {X} ,\alpha ).$

มีบางกรณีที่ไม่มีค่าสูงสุดเกิดขึ้น ซึ่งในกรณีนั้น ชุดค่าประมาณ MAP จะว่างเปล่า

มีวิธีการประมาณค่าอื่นๆ ที่ลดความเสี่ยง ภายหลัง (การสูญเสียภายหลังที่คาดหวัง) ให้น้อยที่สุดเมื่อเทียบกับฟังก์ชันการสูญเสียและสิ่งเหล่านี้เป็นที่น่าสนใจสำหรับทฤษฎีการตัดสินใจทางสถิติโดยใช้การแจกแจงการสุ่มตัวอย่าง (สถิติความถี่) ^{[ 19 ]}

การแจกแจงการทำนายภายหลังของการสังเกตใหม่(ซึ่งเป็นอิสระจากการสังเกตก่อนหน้า) ถูกกำหนดโดย^[²⁰^] ${\tilde {x}}$ $p({\tilde {x}}|\mathbf {X} ,\alpha )=\int p({\tilde {x}},\theta \mid \mathbf {X} ,\alpha )\,d\theta$ $=\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\,d\theta .$

ตัวอย่าง

ความน่าจะเป็นของสมมติฐาน

ตารางความน่าจะเป็น
ชาม คุกกี้	#1 H ₁	#2 H ₂	ทั้งหมด
เพลนอี	30	20	50
ช็อก, ¬ E	10	20	30
ทั้งหมด	40	40	80
P ( H ₁ \| E ) = 30 / 50 = 0.6

สมมติว่ามีชามคุกกี้สองใบที่บรรจุเต็ม ชามที่ 1 มีคุกกี้ช็อกโกแลตชิป 10 ชิ้นและคุกกี้ธรรมดา 30 ชิ้น ในขณะที่ชามที่ 2 มีคุกกี้ช็อกโกแลตชิปและคุกกี้ธรรมดาอย่างละ 20 ชิ้น เฟรดเลือกชามใดชามหนึ่งโดยสุ่ม แล้วจึงสุ่มหยิบคุกกี้หนึ่งชิ้น ซึ่งหมายความว่าไม่มีเหตุผลที่จะเชื่อว่าเฟรดปฏิบัติต่อชามทั้งสองใบแตกต่างกัน เช่นเดียวกับคุกกี้ในชามทั้งสองใบ ปรากฏว่าคุกกี้ที่เฟรดหยิบออกมาเป็นคุกกี้ธรรมดา ส่วนความน่าจะเป็นที่เฟรดหยิบคุกกี้ชิ้นนั้นมาจากชามที่ 1 นั้นเป็นตัวอย่างของปัญหาที่สามารถแก้ไขได้ด้วยการอนุมานแบบเบย์เซียน

โดยสัญชาตญาณแล้ว ดูเหมือนชัดเจนว่าคำตอบควรจะมากกว่าครึ่ง เนื่องจากมีคุกกี้ธรรมดาในชามที่ 1 มากกว่า คำตอบที่แม่นยำได้มาจากทฤษฎีบทของเบย์ส ให้แทนชามที่ 1 และแทนชามที่ 2 กำหนดให้ชามทั้งสองเหมือนกันจากมุมมองของเฟรด ดังนั้นและทั้งสองต้องรวมกันได้ 1 ดังนั้นทั้งสองจึงเท่ากับ 0.5 เหตุการณ์คือการสังเกตเห็นคุกกี้ธรรมดาหนึ่งชิ้น จากเนื้อหาในชาม ทราบว่าและสูตรของเบย์สจะให้ผลลัพธ์เป็น $H_{1}$ $H_{2}$ $P(H_{1})=P(H_{2})$ $E$ $P(E\mid H_{1})=30/40=0.75$ $P(E\mid H_{2})=20/40=0.5.$ $P(H_{1}\mid E)={\frac {P(E\mid H_{1})\,P(H_{1})}{P(E\mid H_{1})\,P(H_{1})\;+\;P(E\mid H_{2})\,P(H_{2})}}$ $={\frac {0.75\times 0.5}{0.75\times 0.5+0.5\times 0.5}}=0.6$

ก่อนที่จะสังเกตเห็นคุกกี้ของเฟรด ความน่าจะเป็นที่เฟรดจะเลือกชามหมายเลข 1 คือความน่าจะเป็นก่อนหน้าเมื่อรับรู้ถึงคุกกี้แล้วการประมาณค่าที่ดีขึ้น ของเฟรด (หรือผู้สังเกตการณ์คนใดก็ตาม) จะได้รับการปรับปรุงเป็น $P(H_{1})=50\%.$ $P(H_{1})$ $P(H_{1}\mid E)=60\%.$

การทำนายผล

นักโบราณคดีกำลังทำงานอยู่ในแหล่งโบราณคดีที่เชื่อว่ามีอายุอยู่ในยุคกลาง ระหว่างศตวรรษที่ 11 ถึง 16 อย่างไรก็ตาม ยังไม่แน่ชัดว่าสถานที่แห่งนี้มีผู้คนอาศัยอยู่เมื่อใดในยุคนั้น พบเศษเครื่องปั้นดินเผาหลายชิ้น บางชิ้นเคลือบและบางชิ้นตกแต่งลวดลาย คาดว่าหากสถานที่แห่งนี้มีผู้คนอาศัยอยู่ในช่วงต้นยุคกลาง เศษเครื่องปั้นดินเผาประมาณ 1% จะเคลือบ และ 50% ของพื้นที่ที่ตกแต่งลวดลาย ในขณะที่หากมีผู้คนอาศัยอยู่ในช่วงปลายยุคกลาง เศษเครื่องปั้นดินเผาประมาณ 81% จะเคลือบ และ 5% ของพื้นที่ที่ตกแต่งลวดลาย นักโบราณคดีมั่นใจได้มากแค่ไหนเกี่ยวกับช่วงเวลาที่สถานที่แห่งนี้มีผู้คนอาศัยอยู่ เนื่องจากเศษชิ้นส่วนที่ขุดพบนั้นมีอายุเก่าแก่มากน้อยเพียงใด?

ระดับความเชื่อมั่นในตัวแปรต่อเนื่อง(ศตวรรษ) จะถูกคำนวณ โดยใช้ชุดเหตุการณ์ที่ไม่ต่อเนื่องเป็นหลักฐาน ข้อมูลจากย่อหน้าก่อนหน้าจะให้ ค่าความน่าจะเป็นของเคลือบและ ค่าความน่าจะเป็นของการตกแต่ง โดยส่วนเติมเต็มของค่าเหล่านั้นคือ สมมติว่าการเคลือบและการตกแต่งมีการเปลี่ยนแปลงเชิงเส้นตามเวลา และตัวแปรเหล่านี้เป็นอิสระต่อกัน ความน่าจะเป็นของแต่ละเหตุการณ์จึงเป็นดังนี้ $C$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$ $p_{G}(c)=0.01+{\frac {0.80}{5}}(c-11)$ $p_{D}(c)=0.5-{\frac {0.45}{5}}(c-11)$ ${\bar {p}}_{G}(c)=1-p_{G}(c),\quad {\bar {p}}_{D}(c)=1-p_{D}(c).$

$P(E=GD\mid C=c)=p_{G}(c)\,p_{D}(c)$
$P(E=G{\bar {D}}\mid C=c)=p_{G}(c)\,{\bar {p}}_{D}(c)$
$P(E={\bar {G}}D\mid C=c)={\bar {p}}_{G}(c)\,p_{D}(c)$
$P(E={\bar {G}}{\bar {D}}\mid C=c)={\bar {p}}_{G}(c)\,{\bar {p}}_{D}(c)$

เมื่อ มีการค้นพบชิ้นส่วนประเภทใหม่ นั่นหมายถึง ข้อมูลเพิ่มเติมสำหรับการสืบสวน และด้วยทฤษฎีบทของเบย์ส การอนุมานแบบ เบย์เซียน ที่ได้รับการปรับปรุงจะนำไปสู่ระดับความเชื่อมั่น (หรือความมั่นใจ) ที่ดีขึ้นในการประเมินของนักโบราณคดี โดยสมมติว่าค่าความน่าจะเป็นก่อนหน้าเป็นแบบสม่ำเสมอและการทดลองเป็นอิสระ และมีการกระจายแบบเดียวกัน $e$ ${\textstyle f_{C}(c)=0.2}$

$f_{C}(c\mid E=e)={\frac {P(E=e\mid C=c)}{P(E=e)}}f_{C}(c)$ $={\frac {P(E=e\mid C=c)}{\int _{11}^{16}{P(E=e\mid C=c)f_{C}(c)dc}}}f_{C}(c).$

กราฟแสดงการจำลองด้วยคอมพิวเตอร์ของการเปลี่ยนแปลงความเชื่อเมื่อมีการขุดพบชิ้นส่วน 50 ชิ้น ในการจำลองนี้ สถานที่ดังกล่าวมีผู้คนอาศัยอยู่ราวปี ค.ศ. 1420 หรือ 1420 โดยการคำนวณพื้นที่ใต้กราฟส่วนที่เกี่ยวข้องสำหรับการทดลอง 50 ครั้ง นักโบราณคดีสามารถกล่าวได้ว่าแทบไม่มีโอกาสเลยที่สถานที่แห่งนี้จะมีผู้คนอาศัยอยู่ในช่วงศตวรรษที่ 11 และ 12 มีโอกาสประมาณ 1% ที่จะมีผู้คนอาศัยอยู่ในช่วงศตวรรษที่ 13 มีโอกาส 63% ในช่วงศตวรรษที่ 14 และมีโอกาส 36% ในช่วงศตวรรษที่ 15 ทฤษฎีบทเบิร์นสไตน์-ฟอน มิเซสยืนยันถึงการลู่เข้าแบบเชิงเส้นกำกับไปยังการกระจาย "ที่แท้จริง" เนื่องจากปริภูมิความน่าจะเป็นที่สอดคล้องกับชุดเหตุการณ์แบบไม่ต่อเนื่องนั้นมีจำกัด (ดูส่วนด้านบนเกี่ยวกับพฤติกรรมเชิงเส้นกำกับของความน่าจะเป็นภายหลัง) $c=15.2$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$

ในสถิติเชิงความถี่และทฤษฎีการตัดสินใจ

อับราฮัม วอลด์ได้ให้เหตุผลเชิงทฤษฎีการตัดสินใจเกี่ยวกับการใช้การอนุมานแบบเบย์เซียนโดยพิสูจน์ว่าขั้นตอนแบบเบย์เซียนที่ไม่ซ้ำกันทุกขั้นตอนสามารถยอมรับได้ในทางกลับกัน ขั้นตอนทางสถิติ ที่ยอมรับได้ ทุก ขั้นตอนจะเป็นขั้นตอนแบบเบย์เซียนหรือเป็นขีดจำกัดของขั้นตอนแบบเบย์เซียน^[²¹^]

Wald อธิบายขั้นตอนที่ยอมรับได้ว่าเป็นขั้นตอนแบบเบย์เซียน (และข้อจำกัดของขั้นตอนแบบเบย์เซียน) ทำให้รูปแบบเบย์เซียนเป็นเทคนิคหลักในสาขาการอนุมานแบบความถี่เช่นการประมาณค่าพารามิเตอร์การทดสอบสมมติฐานและการคำนวณช่วงความเชื่อมั่น [ ^{22 ] [}^{23 ] [}^{24 ] ตัวอย่าง}เช่น:

"ภายใต้เงื่อนไขบางประการ ขั้นตอนที่ยอมรับได้ทั้งหมดจะเป็นขั้นตอนแบบเบย์สหรือขีดจำกัดของขั้นตอนแบบเบย์ส (ในความหมายต่างๆ) ผลลัพธ์ที่น่าทึ่งเหล่านี้ อย่างน้อยในรูปแบบดั้งเดิม เป็นผลมาจาก Wald เป็นหลัก ผลลัพธ์เหล่านี้มีประโยชน์เพราะคุณสมบัติของการเป็นเบย์สนั้นวิเคราะห์ได้ง่ายกว่าการยอมรับได้" ^{[ 21 ]}
"ในทฤษฎีการตัดสินใจ วิธีการทั่วไปในการพิสูจน์การยอมรับประกอบด้วยการแสดงขั้นตอนเป็นวิธีแก้ปัญหาแบบเบย์สที่ไม่ซ้ำกัน" ^{[ 25 ]}
“ในบทแรก ๆ ของงานนี้ มีการใช้การแจกแจงก่อนหน้าที่มีขอบเขตจำกัดและขั้นตอน Bayes ที่สอดคล้องกันเพื่อสร้างทฤษฎีบทหลักบางประการที่เกี่ยวข้องกับการเปรียบเทียบการทดลอง ขั้นตอน Bayes ที่เกี่ยวข้องกับการแจกแจงก่อนหน้าทั่วไปมีบทบาทสำคัญมากในการพัฒนาสถิติ รวมถึงทฤษฎีเชิงอะซิมโทติก” “มีปัญหามากมายที่การดูการแจกแจงภายหลังสำหรับการแจกแจงก่อนหน้าที่เหมาะสมจะให้ข้อมูลที่น่าสนใจในทันที นอกจากนี้ เทคนิคนี้แทบจะหลีกเลี่ยงไม่ได้ในการวิเคราะห์ลำดับ” ^{[ 26 ]}
"ข้อเท็จจริงที่มีประโยชน์คือ กฎการตัดสินใจของเบย์สใดๆ ที่ได้มาจากการใช้ไพรเออร์ที่เหมาะสมเหนือพื้นที่พารามิเตอร์ทั้งหมดจะต้องยอมรับได้" ^{[ 27 ]}
"พื้นที่สำคัญในการสืบสวนในการพัฒนาแนวคิดการยอมรับคือขั้นตอนทฤษฎีการสุ่มตัวอย่างแบบดั้งเดิม และได้รับผลลัพธ์ที่น่าสนใจมากมาย" ^{[ 28 ]}

การเลือกแบบจำลอง

ระเบียบวิธีแบบเบย์เซียนยังมีบทบาทในการเลือกแบบจำลองโดยมีเป้าหมายเพื่อเลือกแบบจำลองหนึ่งแบบจากชุดของแบบจำลองที่แข่งขันกัน ซึ่งแสดงถึงกระบวนการพื้นฐานที่สร้างข้อมูลที่สังเกตได้ใกล้เคียงที่สุด ในการเปรียบเทียบแบบจำลองแบบเบย์เซียน แบบจำลองที่มีความน่าจะเป็นภายหลัง สูงสุด เมื่อพิจารณาจากข้อมูลจะถูกเลือก ความน่าจะเป็นภายหลังของแบบจำลองขึ้นอยู่กับหลักฐาน หรือความน่าจะเป็นแบบมาร์จินัลซึ่งสะท้อนถึงความน่าจะเป็นที่ข้อมูลถูกสร้างขึ้นโดยแบบจำลอง และความเชื่อก่อนหน้าของแบบจำลอง เมื่อแบบจำลองที่แข่งขันกันสองแบบถูกพิจารณาว่ามีความน่าจะเป็นเท่ากันโดยปริยาย อัตราส่วนของความน่าจะเป็นภายหลังของแบบจำลองทั้งสองจะสอดคล้องกับปัจจัยเบย์เซียนเนื่องจากการเปรียบเทียบแบบจำลองแบบเบย์เซียนมีเป้าหมายเพื่อเลือกแบบจำลองที่มีความน่าจะเป็นภายหลังสูงสุด ระเบียบวิธีนี้จึงถูกเรียกว่ากฎการเลือกความน่าจะเป็นภายหลังสูงสุด (MAP) ^{[ 29 ]}หรือกฎความน่าจะเป็น MAP ^{[ 30 ]}

การเขียนโปรแกรมเชิงความน่าจะเป็น

แม้ว่าในเชิงแนวคิดจะเรียบง่าย แต่วิธีการแบบเบย์เซียนอาจมีความท้าทายทางคณิตศาสตร์และเชิงตัวเลข ภาษาการเขียนโปรแกรมเชิงความน่าจะเป็น (PPLs) ใช้ฟังก์ชันเพื่อสร้างแบบจำลองเบย์เซียนได้อย่างง่ายดาย พร้อมกับวิธีการอนุมานอัตโนมัติที่มีประสิทธิภาพ ซึ่งช่วยแยกการสร้างแบบจำลองออกจากการอนุมาน ทำให้ผู้ปฏิบัติงานสามารถมุ่งเน้นไปที่ปัญหาเฉพาะของตนเอง และปล่อยให้ PPLs จัดการรายละเอียดการคำนวณแทน^{[ 31 ]}^{[ 32 ]}^{[ 33 ]}

แอปพลิเคชัน

การวิเคราะห์ข้อมูลทางสถิติ

โปรดดูรายละเอียดเพิ่มเติมเกี่ยวกับสถิติแบบเบย์เซียน ได้ในบทความวิกิพีเดีย โดยเฉพาะ ส่วน การสร้างแบบจำลองทางสถิติในหน้านั้น

แอปพลิเคชันคอมพิวเตอร์

การอนุมานแบบเบย์เซียนมีการประยุกต์ใช้ในปัญญาประดิษฐ์และระบบผู้เชี่ยวชาญเทคนิคการอนุมานแบบเบย์เซียนเป็นส่วนสำคัญของ เทคนิค การจดจำรูปแบบ ด้วยคอมพิวเตอร์ มาตั้งแต่ปลายทศวรรษ 1950 ^{[ 34 ]}นอกจากนี้ยังมีความเชื่อมโยงที่เพิ่มมากขึ้นระหว่างวิธีการแบบเบย์เซียนและ เทคนิค Monte Carlo ที่ใช้การจำลอง เนื่องจากแบบจำลองที่ซับซ้อนไม่สามารถประมวลผลในรูปแบบปิดได้ด้วยการวิเคราะห์แบบเบย์เซียน ในขณะที่โครงสร้างแบบจำลองกราฟิกอาจช่วยให้สามารถใช้อัลกอริธึมการจำลองที่มีประสิทธิภาพ เช่นการสุ่มตัวอย่างแบบ Gibbsและแผนการอัลกอริธึม Metropolis–Hastings อื่นๆ ^{[ 35 ]}เมื่อเร็วๆ นี้ การอนุมานแบบเบย์เซียนได้รับความนิยมในหมู่ ชุมชน ด้านพันธุศาสตร์เชิงวิวัฒนาการด้วยเหตุผลเหล่านี้ การประยุกต์ใช้จำนวนมากช่วยให้สามารถประมาณค่าพารามิเตอร์ทางประชากรศาสตร์และวิวัฒนาการได้พร้อมกันหลายตัว

เมื่อนำมาประยุกต์ใช้กับการจำแนกประเภททางสถิติการอนุมานแบบเบย์เซียนได้ถูกนำมาใช้ในการพัฒนาอัลกอริทึมสำหรับการระบุอีเมลสแปม แอปพลิเค ชันที่ใช้การอนุมานแบบเบย์เซียนสำหรับการกรองสแปม ได้แก่CRM114 , DSPAM , Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS และอื่นๆ การจำแนกประเภทสแปมจะกล่าวถึงในรายละเอียดเพิ่มเติมในบทความเกี่ยวกับตัวจำแนกแบบเบย์เซียนแบบง่าย ( naïve Bayes classifier )

การอนุมานแบบอุปนัยของ Solomonoffเป็นทฤษฎีการทำนายโดยอาศัยการสังเกต ตัวอย่างเช่น การทำนายสัญลักษณ์ถัดไปโดยอาศัยชุดสัญลักษณ์ที่กำหนด ข้อสมมติเพียงอย่างเดียวคือสภาพแวดล้อมเป็นไปตามการแจกแจงความน่าจะ เป็นที่ไม่ทราบแต่สามารถคำนวณได้ เป็นกรอบการอุปนัยที่เป็นทางการที่รวมหลักการสองประการของการอนุมานแบบอุปนัยที่ได้รับการศึกษามาเป็นอย่างดี ได้แก่ สถิติแบบเบย์เซียนและมีดโกนของอ็อกแคม [ ^{36 ] ความ}น่าจะเป็นก่อนหน้าสากลของ Solomonoff สำหรับคำนำหน้าp ใดๆ ของลำดับที่คำนวณได้xคือผลรวมของความน่าจะเป็นของโปรแกรมทั้งหมด (สำหรับคอมพิวเตอร์สากล) ที่คำนวณบางสิ่งบางอย่างที่เริ่มต้นด้วยpเมื่อกำหนดpและการแจกแจงความน่าจะเป็นที่คำนวณได้แต่ไม่ทราบใดๆ ที่ สุ่มตัวอย่าง x ความน่า จะเป็นก่อนหน้าสากลและทฤษฎีบทของเบย์เซียนสามารถใช้เพื่อทำนายส่วนที่ยังไม่เคยเห็นของx ได้ อย่างเหมาะสมที่สุด^{[ 37 ]}^{[ 38 ]}

ชีวสารสนเทศและการประยุกต์ใช้ในด้านการดูแลสุขภาพ

การอนุมานแบบเบย์เซียนถูกนำไปใช้ใน แอปพลิ เคชันชีวสารสนเทศ ต่างๆ รวมถึงการวิเคราะห์การแสดงออกของยีนที่แตกต่างกัน^{[ 39 ]}การอนุมานแบบเบย์เซียนยังถูกใช้ในแบบจำลองความเสี่ยงมะเร็งทั่วไปที่เรียกว่าCIRI (ดัชนีความเสี่ยงเฉพาะบุคคลแบบต่อเนื่อง) ซึ่งมีการรวมการวัดแบบอนุกรมเพื่ออัปเดตแบบจำลองเบย์เซียนที่สร้างขึ้นจากความรู้ก่อนหน้าเป็นหลัก^{[ 40 ]}^{[ 41 ]}

จักรวาลวิทยาและการประยุกต์ใช้ทางฟิสิกส์ดาราศาสตร์

แนวทางแบบเบย์เซียนเป็นหัวใจสำคัญของความก้าวหน้าล่าสุดในด้านจักรวาลวิทยาและการประยุกต์ใช้ทางฟิสิกส์ดาราศาสตร์^{[ 42 ]}^{[ 43 ]}และขยายไปสู่ปัญหาทางฟิสิกส์ดาราศาสตร์ที่หลากหลาย รวมถึงการจำแนกลักษณะของดาวเคราะห์นอกระบบ (เช่น การปรับบรรยากาศสำหรับk2-18b ^{[ 44 ]} ) ข้อจำกัดของพารามิเตอร์ด้วยข้อมูลจักรวาลวิทยา^{[ 45 ]}และการสอบเทียบในการทดลองทางฟิสิกส์ดาราศาสตร์^{[ 46 ]}

ในจักรวาลวิทยา มักใช้ร่วมกับเทคนิคการคำนวณ เช่นMarkov chain Monte Carlo (MCMC) และอัลกอริทึมการสุ่มตัวอย่างแบบซ้อนเพื่อวิเคราะห์ชุดข้อมูลที่ซับซ้อนและนำทางในพื้นที่พารามิเตอร์ที่มีมิติสูง การประยุกต์ใช้ที่โดดเด่นคือข้อมูล CMB ของ Planck 2018 สำหรับการอนุมานพารามิเตอร์^{[ 45 ]} พารามิเตอร์จักรวาลวิทยาพื้นฐานหกตัวในแบบจำลอง Lambda-CDMไม่ได้ถูกทำนายโดยทฤษฎี แต่ถูกปรับให้เข้ากับข้อมูลพื้นหลังไมโครเวฟของจักรวาล (CMB) กับแบบจำลองจักรวาลวิทยาที่เลือก (แบบจำลอง Lambda-CDM) ^{[ 47 ]}รหัสเบย์เซียนสำหรับจักรวาลวิทยา `cobaya` ^{[ 48 ]}ตั้งค่าการทำงานทางจักรวาลวิทยาและเชื่อมต่อความน่าจะเป็นทางจักรวาลวิทยา รหัส Boltzmann ^{[ 49 ]}^{[ 50 ]}ซึ่งคำนวณความไม่สม่ำเสมอของ CMB ที่ทำนายไว้สำหรับชุดพารามิเตอร์จักรวาลวิทยาที่กำหนดใดๆ ด้วย MCMC หรือตัวสุ่มตัวอย่างแบบซ้อน

กรอบการคำนวณนี้ไม่ได้จำกัดอยู่เฉพาะแบบจำลองมาตรฐานเท่านั้น แต่ยังจำเป็นสำหรับการทดสอบทฤษฎีจักรวาลวิทยาทางเลือกหรือแบบขยาย เช่น ทฤษฎีที่มีพลังงานมืดในช่วงต้น^{[ 51 ]}หรือทฤษฎีแรงโน้มถ่วงที่ดัดแปลงโดยแนะนำพารามิเตอร์เพิ่มเติมที่นอกเหนือจาก Lambda-CDM การเปรียบเทียบแบบจำลองแบบเบย์เซียนสามารถนำมาใช้ในการคำนวณหลักฐานสำหรับแบบจำลองที่แข่งขันกัน โดยให้พื้นฐานทางสถิติในการประเมินว่าข้อมูลสนับสนุนแบบจำลองเหล่านั้นมากกว่า Lambda-CDM มาตรฐานหรือไม่^{[ 52 ]}

ในห้องพิจารณาคดี

การอนุมานแบบเบย์เซียนสามารถใช้โดยคณะลูกขุนเพื่อรวบรวมหลักฐานทั้งฝ่ายสนับสนุนและฝ่ายคัดค้านจำเลยอย่างสอดคล้องกัน และเพื่อดูว่าโดยรวมแล้วตรงตามเกณฑ์ส่วนตัวของพวกเขาสำหรับ " เกินกว่าข้อสงสัยที่สมเหตุสมผล " หรือไม่ ^{[ 53 ]}^{[ 54 ]}^{[ 55 ]}ทฤษฎีบทของเบย์เซียนจะถูกนำมาใช้กับหลักฐานทั้งหมดที่นำเสนออย่างต่อเนื่อง โดยค่าหลังของขั้นตอนหนึ่งจะกลายเป็นค่าก่อนหน้าสำหรับขั้นตอนถัดไป ข้อดีของแนวทางแบบเบย์เซียนคือมันให้กลไกที่เป็นกลางและมีเหตุผลแก่คณะลูกขุนในการรวมหลักฐาน อาจเหมาะสมที่จะอธิบายทฤษฎีบทของเบย์เซียนแก่คณะลูกขุนในรูปแบบอัตราต่อรองเนื่องจากอัตราต่อรองในการเดิมพันเป็นที่เข้าใจกันอย่างกว้างขวางมากกว่าความน่าจะเป็น หรืออีกทางหนึ่งแนวทางแบบลอการิทึมโดยแทนที่การคูณด้วยการบวก อาจง่ายกว่าสำหรับคณะลูกขุนในการจัดการ

หากไม่มีข้อสงสัยเกี่ยวกับการมีอยู่ของอาชญากรรม มีเพียงการระบุตัวตนของผู้กระทำผิดเท่านั้นที่มีข้อสงสัย ได้มีการแนะนำว่าความน่าจะเป็นก่อนหน้าควรมีความสม่ำเสมอในประชากรที่มีคุณสมบัติ^{[ 56 ]}ตัวอย่างเช่น หากมีคน 1,000 คนที่อาจก่ออาชญากรรม ความน่าจะเป็นก่อนหน้าของความผิดจะเป็น 1/1000

การใช้ทฤษฎีบทของเบย์สโดยคณะลูกขุนนั้นเป็นประเด็นถกเถียง ในสหราชอาณาจักรพยานผู้เชี่ยวชาญฝ่าย จำเลย ได้อธิบายทฤษฎีบทของเบย์สให้คณะลูกขุนฟังในคดีR v Adamsคณะลูกขุนตัดสินว่าจำเลยมีความผิด แต่คดีถูกอุทธรณ์โดยอ้างว่าไม่มีวิธีการรวบรวมหลักฐานใด ๆ สำหรับคณะลูกขุนที่ไม่ต้องการใช้ทฤษฎีบทของเบย์ส ศาลอุทธรณ์ยืนยันคำตัดสินว่ามีความผิด แต่ก็ให้ความเห็นว่า "การนำทฤษฎีบทของเบย์ส หรือวิธีการที่คล้ายคลึงกันใด ๆ มาใช้ในการพิจารณาคดีอาญา จะทำให้คณะลูกขุนต้องเข้าไปเกี่ยวข้องกับทฤษฎีและความซับซ้อนที่ไม่เหมาะสมและไม่จำเป็น เบี่ยงเบนพวกเขาจากหน้าที่ที่ถูกต้องของพวกเขา"

Gardner-Medwin ^{[ 57 ]}โต้แย้งว่าเกณฑ์ที่ควรใช้ในการตัดสินคดีอาญาไม่ใช่ความน่าจะเป็นของความผิด แต่เป็นความน่าจะเป็นของหลักฐาน โดยที่จำเลยเป็นผู้บริสุทธิ์ (คล้ายกับค่า p แบบความถี่ ) เขาโต้แย้งว่าหากจะคำนวณความน่าจะเป็นภายหลังของความผิดโดยใช้ทฤษฎีบทของ Bayes ความน่าจะเป็นก่อนหน้าของความผิดจะต้องทราบ ซึ่งจะขึ้นอยู่กับความถี่ของการเกิดอาชญากรรม ซึ่งเป็นหลักฐานที่ไม่ปกติที่จะนำมาพิจารณาในคดีอาญา ลองพิจารณาข้อเสนอสามข้อต่อไปนี้:

A – ข้อเท็จจริงและคำให้การที่ทราบกันดีอยู่แล้วนั้น อาจเกิดขึ้นได้หากจำเลยมีความผิดจริง

B – ข้อเท็จจริงและคำให้การที่ทราบกันดีนั้น อาจเกิดขึ้นได้หากจำเลยเป็นผู้บริสุทธิ์

C – จำเลยมีความผิด

การ์ดเนอร์-เมดวินแย้งว่า คณะลูกขุนควรเชื่อทั้งAและไม่เชื่อBเพื่อตัดสินว่าจำเลย มีความผิด Aและไม่เชื่อBหมายความว่าC เป็นจริง แต่ในทางกลับกันนั้นไม่เป็นจริง เป็นไปได้ที่BและCจะเป็นจริงทั้งคู่ แต่ในกรณีนี้ เขาแย้งว่าคณะลูกขุนควรตัดสินให้จำเลยพ้นผิด แม้ว่าพวกเขาจะรู้ว่าพวกเขากำลังปล่อยให้คนผิดบางคนเป็นอิสระก็ตาม ดูเพิ่มเติมที่ปรากฏการณ์ขัดแย้งของลินด์ลีย์

ญาณวิทยาแบบเบย์เซียน

ญาณวิทยาแบบเบย์เซียนเป็นแนวคิดที่สนับสนุนการอนุมานแบบเบย์เซียนในฐานะวิธีการในการพิสูจน์กฎเกณฑ์ของตรรกะแบบอุปนัย

Karl PopperและDavid Millerได้ปฏิเสธแนวคิดของเหตุผลนิยมแบบเบย์เซียน กล่าวคือ การใช้กฎของเบย์เซียนเพื่ออนุมานทางญาณวิทยา: ^{[ 58 ]}มันมีแนวโน้มที่จะตกอยู่ในวงจรที่เลวร้าย เช่นเดียวกับญาณวิทยา แบบให้ เหตุผล อื่นๆเพราะมันตั้งสมมติฐานในสิ่งที่มันพยายามจะให้เหตุผล ตามมุมมองนี้ การตีความเชิงเหตุผลของการอนุมานแบบเบย์เซียนจะมองว่ามันเป็นเพียงเวอร์ชันความน่าจะเป็นของการพิสูจน์ความเท็จโดยปฏิเสธความเชื่อที่ชาวเบย์เซียนส่วนใหญ่ยึดถือกัน ว่าความน่าจะเป็นสูงที่ได้จากการอัปเดตแบบเบย์เซียนหลายครั้งจะพิสูจน์สมมติฐานได้เกินกว่าข้อสงสัยใดๆ หรือแม้กระทั่งมีความน่าจะเป็นมากกว่า 0

อื่น

บางครั้ง วิธีการทางวิทยาศาสตร์ถูกตีความว่าเป็นการประยุกต์ใช้การอนุมานแบบเบย์เซียน ในมุมมองนี้ กฎของเบย์เซียนชี้นำ (หรือควรชี้นำ) การปรับปรุงความน่าจะเป็นเกี่ยวกับสมมติฐาน โดยมีเงื่อนไขตามการสังเกตหรือ การทดลองใหม่^{[ 59 ]}การอนุมานแบบเบย์เซียนยังถูกนำไปใช้เพื่อแก้ ปัญหา การจัดตารางเวลาแบบสุ่มที่มีข้อมูลไม่ครบถ้วนโดย Cai et al. (2009) ^{[ 60 ]}
ทฤษฎีการค้นหาแบบเบย์เซียนถูกนำมาใช้ในการค้นหาวัตถุที่สูญหาย
การอนุมานแบบเบย์เซียนในวิวัฒนาการชาติพันธุ์
เครื่องมือแบบเบย์เซียนสำหรับการวิเคราะห์เมทิลเลชั่น
แนวทางแบบเบย์เซียนในการศึกษาการทำงานของสมองนั้น ตรวจสอบสมองในฐานะกลไกแบบเบย์เซียน
การอนุมานแบบเบย์เซียนในการศึกษาเชิงนิเวศวิทยา^{[ 61 ]}^{[ 62 ]}
การอนุมานแบบเบย์เซียนใช้เพื่อประมาณค่าพารามิเตอร์ในแบบจำลองจลนศาสตร์เคมีแบบสุ่ม^{[ 63 ]}
การอนุมานแบบเบย์เซียนในเศรษฐศาสตร์ฟิสิกส์สำหรับสกุลเงินหรือการคาดการณ์การเปลี่ยนแปลงแนวโน้มในการเสนอราคาทางการเงิน^{[ 64 ]}
การอนุมานแบบเบย์เซียนในด้านการตลาด
การอนุมานแบบเบย์เซียนในการเรียนรู้การเคลื่อนไหว
การอนุมานแบบเบย์เซียนถูกนำมาใช้ในเชิงตัวเลขความน่าจะเป็นเพื่อแก้ปัญหาเชิงตัวเลข

เบย์สและการอนุมานแบบเบย์เซียน

ปัญหาที่เบย์ส์พิจารณาในข้อเสนอที่ 9 ของบทความเรื่อง " บทความเพื่อการแก้ปัญหาในหลักการของโอกาส " คือ การแจกแจงความน่าจะเป็นภายหลังสำหรับพารามิเตอร์a (อัตราความสำเร็จ) ของการแจกแจงทวินาม

ประวัติศาสตร์

คำว่า' Bayesian 'หมายถึงThomas Bayes (1701–1761) ผู้พิสูจน์ว่าสามารถกำหนดขอบเขตความน่าจะเป็นให้กับเหตุการณ์ที่ไม่ทราบค่าได้^{[ 65 ]} อย่างไรก็ตามPierre-Simon Laplace (1749–1827) เป็นผู้แนะนำ (ในฐานะหลักการที่ VI) สิ่งที่ปัจจุบันเรียกว่าทฤษฎีบทของ Bayesและนำไปใช้แก้ปัญหาในกลศาสตร์ดาราศาสตร์สถิติทางการแพทย์ความน่าเชื่อถือและนิติศาสตร์^{[ 66 ]}การอนุมานแบบ Bayesian ในยุคแรก ซึ่งใช้ priors ที่สม่ำเสมอตามหลักการของ Laplace ที่ว่าด้วยเหตุผลไม่เพียงพอเรียกว่าความน่าจะเป็นผกผัน (เพราะมันอนุมานย้อน กลับจากสิ่ง ที่สังเกตไปยังพารามิเตอร์ หรือจากผลไปยังสาเหตุ) ^{[ 67 ]}หลังจากปี 1920 ความน่าจะเป็นผกผันส่วนใหญ่ถูกแทนที่ด้วยวิธีการต่างๆ ที่เรียกว่าสถิติความถี่^{[ 67 ]}

ในศตวรรษที่ 20 แนวคิดของ Laplace ได้รับการพัฒนาเพิ่มเติมในสองทิศทางที่แตกต่างกัน ทำให้เกิด กระแส เชิงวัตถุวิสัยและอัตวิสัยในการปฏิบัติแบบเบย์เซียน ในกระแสเชิงวัตถุวิสัย (หรือ "ไม่ให้ข้อมูล") การวิเคราะห์ทางสถิติขึ้นอยู่กับแบบจำลองที่สมมติขึ้น ข้อมูลที่วิเคราะห์^{[ 68 ]}และวิธีการกำหนดค่าก่อนหน้า ซึ่งแตกต่างกันไปในแต่ละผู้ปฏิบัติแบบเบย์เซียนเชิงวัตถุวิสัย ในกระแสเชิงอัตวิสัย (หรือ "ให้ข้อมูล") การกำหนดค่าก่อนหน้าขึ้นอยู่กับความเชื่อ ซึ่งเป็นข้อเสนอที่การวิเคราะห์เตรียมที่จะดำเนินการ ซึ่งสามารถสรุปข้อมูลจากผู้เชี่ยวชาญ การศึกษาครั้งก่อน ฯลฯ

ในช่วงทศวรรษ 1980 มีการเติบโตอย่างมากในการวิจัยและการประยุกต์ใช้วิธีการแบบเบย์เซียน ซึ่งส่วนใหญ่เป็นผลมาจากการค้นพบ วิธีการ มาร์คอฟเชน มอนเตคาร์โลซึ่งช่วยขจัดปัญหาการคำนวณหลายอย่าง และความสนใจที่เพิ่มขึ้นในการประยุกต์ใช้ที่ซับซ้อนและไม่เป็นไปตามมาตรฐาน^{[ 69 ]}แม้ว่าการวิจัยแบบเบย์เซียนจะเติบโตขึ้น แต่การสอนระดับปริญญาตรีส่วนใหญ่ยังคงใช้สถิติแบบความถี่เป็นหลัก^{[ 70 ]}อย่างไรก็ตาม วิธีการแบบเบย์เซียนได้รับการยอมรับและใช้งานอย่างกว้างขวาง เช่น ในสาขา การเรียน รู้ ของ เครื่อง^{[ 71 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

สำหรับรายงานฉบับเต็มเกี่ยวกับประวัติของสถิติแบบเบย์เซียนและการถกเถียงกับแนวทางสถิติแบบความถี่ โปรดอ่านVallverdu, Jordi (2016). Bayesians Versus Frequentists A Philosophical Debate on Statistical Reasoning . New York: Springer. ISBN 978-3-662-48638-2.
เคลย์ตัน, ออเบรย์ (สิงหาคม 2021). ความผิดพลาดของเบอร์นูลลี: ตรรกะที่ผิดเพี้ยนทางสถิติและวิกฤตของวิทยาศาสตร์สมัยใหม่ . สำนักพิมพ์มหาวิทยาลัยโคลัมเบีย. ISBN 978-0-231-55335-3.

ประถมศึกษา

หนังสือต่อไปนี้เรียงลำดับตามความซับซ้อนของทฤษฎีความน่าจะเป็นจากน้อยไปมาก:

Stone, JV (2013), "กฎของเบย์ส: บทนำเชิงแนะนำเกี่ยวกับการวิเคราะห์แบบเบย์ส", ดาวน์โหลดบทแรกได้ที่นี่ , สำนักพิมพ์ Sebtel, อังกฤษ
เดนนิส วี. ลินด์ลีย์ (2013). ความเข้าใจเกี่ยวกับความไม่แน่นอน ฉบับปรับปรุง (ฉบับที่ 2). จอห์น ไวลีย์. ISBN 978-1-118-65012-7.
Colin Howson & Peter Urbach (2005). การให้เหตุผลเชิงวิทยาศาสตร์: แนวทางแบบเบย์เซียน (ฉบับที่ 3). สำนักพิมพ์ Open Court . ISBN 978-0-8126-9578-6.
เบอร์รี, โดนัลด์ เอ. (1996). สถิติ: มุมมองแบบเบย์เซียน . ดักซ์เบอรี. ISBN 978-0-534-23476-8.
Morris H. DeGrootและ Mark J. Schervish (2002). ความน่าจะเป็นและสถิติ (ฉบับที่สาม). Addison-Wesley. ISBN 978-0-201-52488-8.
Bolstad, William M. (2007) บทนำสู่สถิติแบบเบย์เซียน : ฉบับพิมพ์ครั้งที่สอง, John Wiley ISBN 0-471-27020-2
วินเคลอร์, โรเบิร์ต แอล (2003). บทนำสู่การอนุมานและการตัดสินใจแบบเบย์เซียน (ฉบับที่ 2). เชิงความน่าจะเป็น. ISBN 978-0-9647938-4-2.ตำราเรียนคลาสสิกฉบับปรับปรุงใหม่ นำเสนอทฤษฎีเบย์เซียนอย่างชัดเจน
ลี, ปีเตอร์ เอ็ม. สถิติแบบเบย์เซียน: บทนำ ฉบับพิมพ์ครั้งที่สี่ (2012), จอห์น ไวลีย์ISBN 978-1-1183-3257-3
Carlin, Bradley P. และ Louis, Thomas A. (2008). วิธีการแบบเบย์เซียนสำหรับการวิเคราะห์ข้อมูล ฉบับที่สาม . โบคา ราตัน, ฟลอริดา: Chapman and Hall/CRC. ISBN 978-1-58488-697-6.
Gelman, Andrew ; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). การวิเคราะห์ข้อมูลแบบเบย์เซียน ฉบับที่สาม . Chapman and Hall/CRC. ISBN 978-1-4398-4095-5.

ระดับกลางหรือระดับสูง

เบอร์เกอร์, เจมส์ โอ (1985). ทฤษฎีการตัดสินใจทางสถิติและการวิเคราะห์แบบเบย์เซียน . ชุดสถิติของสปริงเกอร์ (ฉบับพิมพ์ครั้งที่สอง). สปริงเกอร์-เวอร์แลก. รหัสบรรณานุกรม : 1985sdtb.book.....B . ISBN 978-0-387-96098-2.
Bernardo, José M. ; Smith, Adrian F. M. (1994). ทฤษฎีเบย์เซียน . ไวลีย์.
DeGroot, Morris H. , การตัดสินใจทางสถิติที่เหมาะสมที่สุด . Wiley Classics Library. 2004. (ตีพิมพ์ครั้งแรก (1970) โดย McGraw-Hill.) ISBN 0-471-68029-X.
เชอร์วิช, มาร์ก เจ. (1995) ทฤษฎีสถิติ . สปริงเกอร์-แวร์แลกไอเอสบีเอ็น 978-0-387-94546-0.
เจย์นส์, อีที (1998). ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์
O'Hagan, A. และ Forster, J. (2003). ทฤษฎีสถิติขั้นสูงของ Kendallเล่ม 2B: การอนุมานแบบเบย์เซียน . Arnold, นิวยอร์ก. ISBN 0-340-52922-9.
Robert, Christian P (2007). ทางเลือกแบบเบย์เซียน: จากรากฐานทฤษฎีการตัดสินใจสู่การนำไปใช้ในเชิงคำนวณ (ฉบับปกอ่อน). สปริงเกอร์. ISBN 978-0-387-71598-8.
Pearl, Judea . (1988). การให้เหตุผลเชิงความน่าจะเป็นในระบบอัจฉริยะ: เครือข่ายของการอนุมานที่น่าเชื่อถือ , ซานมาเตโอ, แคลิฟอร์เนีย: Morgan Kaufmann.
ปิแอร์ เบสซิแยร์ และคณะ (2013) " การเขียนโปรแกรมแบบเบย์ " ซีอาร์ซี เพรส. ไอเอสบีเอ็น 9781439880326
Francisco J. Samaniego (2010). "การเปรียบเทียบวิธีการประมาณค่าแบบเบย์เซียนและแบบความถี่". Springer. นิวยอร์ก, ISBN 978-1-4419-5940-9

ลิงก์ภายนอก

"แนวทางแบบเบย์เซียนสำหรับปัญหาทางสถิติ" , สารานุกรมคณิตศาสตร์ , EMS Press , 2001 [1994]
สถิติแบบเบย์เซียนจาก Scholarpedia
ความรู้เบื้องต้นเกี่ยวกับความน่าจะเป็นแบบเบย์เซียนจากมหาวิทยาลัยควีนแมรีแห่งลอนดอน
บันทึกทางคณิตศาสตร์เกี่ยวกับสถิติแบบเบย์เซียนและมอนเตคาร์โลแบบลูกโซ่มาร์คอฟ
รายชื่อหนังสือแนะนำของเบย์เซียนจัดเก็บไว้เมื่อวันที่ 25 มิถุนายน 2011 ในWayback Machineจัดหมวดหมู่และใส่คำอธิบายประกอบโดยTom Griffiths
A. Hajek และ S. Hartmann: ญาณวิทยาแบบเบย์เซียนใน: J. Dancy และคณะ (บรรณาธิการ), คู่มือญาณวิทยา. อ็อกซ์ฟอร์ด: Blackwell 2010, 93–106.
S. Hartmann และ J. Sprenger: ญาณวิทยาแบบเบย์เซียนใน: S. Bernecker และ D. Pritchard (บรรณาธิการ), Routledge Companion to Epistemology. ลอนดอน: Routledge 2010, 609–620.
สารานุกรมปรัชญาแห่งมหาวิทยาลัยสแตนฟอร์ด : "ตรรกศาสตร์เชิงอุปนัย"
ทฤษฎีการยืนยันแบบเบย์เซียน (PDF)
การเรียนรู้แบบเบย์เซียนคืออะไร?
ข้อมูล ความไม่แน่นอน และการอนุมาน — บทนำอย่างไม่เป็นทางการพร้อมตัวอย่างมากมาย หนังสืออิเล็กทรอนิกส์ (PDF) สามารถดาวน์โหลดได้ฟรีที่ causaScientia

[ 1 ]

[

[ 3 ]

[ 4 ]

[ 5 ]

[

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[

[

22 ] [

23 ] [

24 ] ตัวอย่าง

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

36 ] ความ

[ 37 ]

[ 38 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

การอนุมานแบบเบย์เซียน

บทนำเกี่ยวกับกฎของเบย์ส

คำอธิบายอย่างเป็นทางการ

ทางเลือกอื่นนอกเหนือจากการปรับปรุงแบบเบย์เซียน

การอนุมานเหนือความเป็นไปได้เฉพาะและครบถ้วน

สูตรทั่วไป

การสังเกตหลายครั้ง

การกำหนดสูตรเชิงพารามิเตอร์: แรงจูงใจในการอธิบายอย่างเป็นทางการ

คำอธิบายอย่างเป็นทางการ

คำจำกัดความ

การอนุมานแบบเบย์เซียน

การทำนายแบบเบย์เซียน

คุณสมบัติทางคณิตศาสตร์

การตีความปัจจัย

การปกครองของครอมเวลล์

พฤติกรรมเชิงอะซิมโทติกของส่วนท้าย

ไพรเออร์แบบคอนจูเกต

การประมาณค่าพารามิเตอร์และการคาดการณ์

ตัวอย่าง

ความน่าจะเป็นของสมมติฐาน

การทำนายผล

ในสถิติเชิงความถี่และทฤษฎีการตัดสินใจ

การเลือกแบบจำลอง

การเขียนโปรแกรมเชิงความน่าจะเป็น

แอปพลิเคชัน

การวิเคราะห์ข้อมูลทางสถิติ

แอปพลิเคชันคอมพิวเตอร์

ชีวสารสนเทศและการประยุกต์ใช้ในด้านการดูแลสุขภาพ

จักรวาลวิทยาและการประยุกต์ใช้ทางฟิสิกส์ดาราศาสตร์

ในห้องพิจารณาคดี

ญาณวิทยาแบบเบย์เซียน

อื่น

เบย์สและการอนุมานแบบเบย์เซียน

ประวัติศาสตร์

ดูเพิ่มเติม

อ่านเพิ่มเติม

ประถมศึกษา

ระดับกลางหรือระดับสูง

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ