ในความน่าจะเป็น และสถิติ ตระกูล เอกซ์ โพเนนเชียล คือ ชุด พารามิเตอร์ ของการแจกแจงความน่าจะเป็น ในรูปแบบหนึ่งที่ระบุไว้ด้านล่าง รูปแบบพิเศษนี้ถูกเลือกเพื่อความสะดวกทางคณิตศาสตร์ รวมถึงการช่วยให้ผู้ใช้สามารถคำนวณค่าคาดหวัง ความแปรปรวนร่วมโดยใช้การหาอนุพันธ์ตามคุณสมบัติทางพีชคณิตที่มีประโยชน์บางประการ ตลอดจนเพื่อความทั่วไป เนื่องจากตระกูลเอกซ์โพเนนเชียลในแง่หนึ่งเป็นชุดการแจกแจงที่เป็นธรรมชาติมากที่จะพิจารณา บางครั้งคำว่าชั้นเอกซ์โพเนนเชียล ถูกใช้แทนคำว่า "ตระกูลเอกซ์โพเนนเชียล" [ 1 ] หรือคำเก่ากว่า คือ ตระกูลคูปมัน-ดาร์มัวส์ บางครั้งเรียกอย่างไม่เป็นทางการว่าตระกูล เอกซ์โพเนนเชียล ชั้นของการแจกแจงนี้มีความแตกต่างกันเนื่องจากทั้งหมดมีคุณสมบัติที่พึงประสงค์หลายประการ ที่สำคัญที่สุดคือการมีอยู่ของสถิติ ที่เพียงพอ
แนวคิดของตระกูลเอกซ์โพเนนเชียลได้รับการยกย่องให้แก่[ 2 ] EJG Pitman , [ 3 ] G. Darmois , [ 4 ] และBO Koopman [ 5 ] ในปี 1935–1936 ตระกูลเอกซ์โพเนนเชียลของการแจกแจงให้กรอบการทำงานทั่วไปสำหรับการเลือกพารามิเตอร์ทางเลือกที่เป็นไปได้ของตระกูล การแจกแจงแบบพาราเมตริก ในแง่ของพารามิเตอร์ธรรมชาติ และสำหรับการกำหนดสถิติตัวอย่าง ที่มีประโยชน์ ซึ่งเรียกว่าสถิติเพียงพอตามธรรมชาติของตระกูล
ความยากในการตั้งชื่อ คำว่า "การแจกแจง" และ "ตระกูล" มักถูกใช้ในความหมายที่ไม่เคร่งครัดนัก โดยเฉพาะอย่างยิ่งตระกูล เอกซ์โพเนนเชียลคือชุด ของการแจกแจง ซึ่งการแจกแจงเฉพาะจะแปรผันตามพารามิเตอร์[ a ] อย่างไรก็ตามตระกูล การแจกแจงแบบพารามิเตอร์มักถูกเรียกว่า " การ แจกแจง" (เช่น "การแจกแจงปกติ" ซึ่งหมายถึง "ตระกูลของการแจกแจงปกติ") และบางครั้งชุดของตระกูลเอกซ์โพเนนเชียลทั้งหมดก็ถูกเรียกว่า "ตระกูลเอกซ์โพเนนเชียล" อย่างไม่เคร่งครัดนัก
คำนิยาม การแจกแจงที่ใช้กันทั่วไปส่วนใหญ่เป็นแบบตระกูลเอกซ์โพเนนเชียลหรือเป็นส่วนย่อยของตระกูลเอกซ์โพเนนเชียล ซึ่งแสดงไว้ในหัวข้อย่อยด้านล่าง หัวข้อย่อยถัดไปเป็นลำดับของคำจำกัดความทางคณิตศาสตร์ที่ครอบคลุมมากขึ้นเรื่อยๆ ของตระกูลเอกซ์โพเนนเชียล ผู้อ่านทั่วไปอาจต้องการจำกัดความสนใจไว้ที่คำจำกัดความแรกและง่ายที่สุด ซึ่งสอดคล้องกับตระกูลการแจกแจงความน่าจะเป็น แบบไม่ต่อเนื่อง หรือต่อเนื่อง ที่มีพารามิเตอร์เดียว
ตัวอย่างของการแจกแจงแบบตระกูลเลขชี้กำลัง ตระกูลเลขชี้กำลังประกอบด้วยการแจกแจงที่พบได้บ่อยที่สุดหลายอย่าง ในบรรดาการแจกแจงอื่นๆ อีกมากมาย ตระกูลเลขชี้กำลังยังรวมถึงสิ่งต่อไปนี้: [ 6 ]
การแจกแจงทั่วไปหลายแบบจัดอยู่ในกลุ่มการแจกแจงแบบเอกซ์โปเนนเชียล แต่จะเป็นเช่นนั้นก็ต่อเมื่อพารามิเตอร์บางอย่างคงที่และทราบค่าแล้วเท่านั้น ตัวอย่างเช่น:
โปรดทราบว่าในแต่ละกรณี พารามิเตอร์ที่ต้องกำหนดให้คงที่คือพารามิเตอร์ที่กำหนดขีดจำกัดของช่วงค่าที่สามารถสังเกตได้
ตัวอย่างของการแจกแจงทั่วไปที่ไม่ใช่ ตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล ได้แก่การแจกแจง แบบ t ของนักเรียน การแจกแจงแบบผสมส่วน ใหญ่และแม้แต่ตระกูลการแจกแจงแบบเอกรูป เมื่อขอบเขตไม่คงที่ ดูรายละเอียดเพิ่มเติมได้ ใน หัวข้อตัวอย่าง ด้านล่าง
พารามิเตอร์สเกลาร์ ค่าของเรียกว่าพารามิเตอร์ ของตระกูล θ {\displaystyle \theta }
ตระกูลการแจกแจงแบบเอกซ์โพเนนเชียลพารามิเตอร์เดียว คือชุดของการแจกแจงความน่าจะเป็นซึ่งฟังก์ชันความหนาแน่นความน่าจะเป็น (หรือฟังก์ชันมวลความน่าจะเป็น สำหรับกรณีของการแจกแจงแบบไม่ต่อเนื่อง ) สามารถแสดงได้ในรูปแบบ
เอฟ X ( x | θ ) = ชม. ( x ) เอ็กซ์ [ η ( θ ) ⋅ ที ( x ) − เอ ( θ ) ] {\displaystyle f_{X}{\left(x\,{\big |}\,\theta \right)}=h(x)\,\exp \left[\eta (\theta )\cdot T(x)-A(\theta )\right]}
โดยที่T ( x ) , h ( x ) , η ( θ ) และA ( θ ) เป็นฟังก์ชันที่ทราบค่า ฟังก์ชันh ( x ) ต้องมีค่าไม่เป็นลบ
รูปแบบอื่นที่เทียบเท่ากันซึ่งมักใช้กันคือ
เอฟ X ( x | θ ) = ชม. ( x ) จี ( θ ) เอ็กซ์ [ η ( θ ) ⋅ ที ( x ) ] {\displaystyle f_{X}{\left(x\ {\big |}\ \theta \right)}=h(x)\,g(\theta )\,\exp \left[\eta (\theta )\cdot T(x)\right]}
หรือเทียบเท่า
เอฟ X ( x | θ ) = เอ็กซ์ [ η ( θ ) ⋅ ที ( x ) − เอ ( θ ) + บี ( x ) ] . {\displaystyle f_{X}{\left(x\ {\big |}\ \theta \right)}=\exp \left[\eta (\theta )\cdot T(x)-A(\theta )+B(x)\right].}
ในแง่ของ ความน่าจะเป็น แบบ ลอการิทึม บันทึก ( เอฟ X ( x | θ ) ) = η ( θ ) ⋅ ที ( x ) − เอ ( θ ) + บี ( x ) . {\displaystyle \log(f_{X}{\left(x\ {\big |}\ \theta \right)})=\eta (\theta )\cdot T(x)-A(\theta )+B(x).}
โปรดสังเกตว่าและ. จี ( θ ) = อี − เอ ( θ ) {\displaystyle g(\theta )=e^{-A(\theta )}} ชม. ( x ) = อี บี ( x ) {\displaystyle h(x)=e^{B(x)}}
การรองรับต้องเป็นอิสระจากθ ที่สำคัญคือการสนับสนุน ของ(ค่าที่เป็นไปได้ทั้งหมดซึ่งมากกว่า) จะต้องไม่ ขึ้นอยู่กับ[ 7 ] ข้อกำหนดนี้สามารถใช้เพื่อยกเว้นการแจกแจงตระกูลพาราเมตริกจากการเป็นตระกูลเอกซ์โพเนนเชียล เอฟ X ( x | θ ) {\displaystyle f_{X}{\left(x{\big |}\theta \right)}} x {\displaystyle x} เอฟ X ( x | θ ) {\displaystyle f_{X}\!\left(x{\big |}\theta \right)} 0 {\displaystyle 0} θ . {\displaystyle \theta ~.}
ตัวอย่างเช่น: การแจกแจงพาเรโต มีฟังก์ชันความหนาแน่นความน่าจะเป็น (pdf) ซึ่งกำหนดไว้สำหรับ(ค่าต่ำสุดโดยที่ คือพารามิเตอร์มาตราส่วน) และขอบเขตการรองรับของมันจึงมีขีดจำกัดล่างเป็นเนื่องจากขอบเขตการรองรับของขึ้นอยู่กับค่าของพารามิเตอร์ ดังนั้นตระกูลของการแจกแจงพาเรโต จึงไม่ก่อให้เกิดตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล (อย่างน้อยที่สุดเมื่อไม่ทราบค่า) x ≥ x ม {\displaystyle x\geq x_{\mathsf {m}}} x ม , {\displaystyle x_{m}\ ,} x ม . {\displaystyle x_{\mathsf {m}}~.} เอฟ α , x ม ( x ) {\displaystyle f_{\alpha ,x_{m}}\!(x)} x ม {\displaystyle x_{m}}
อีกตัวอย่างหนึ่ง: การแจกแจงแบบเบอร์นูลลี เช่น การแจกแจง ทวิ นาม การแจกแจงทวิ นามเชิงลบ การแจกแจงเรขาคณิต และการแจกแจงที่คล้ายกัน จะสามารถรวมอยู่ในกลุ่มการแจกแจงเอกซ์โพเนนเชียลได้ก็ต่อเมื่อจำนวนการทดลองแบบเบอร์นูลลี n ถูก กำหนดให้เป็นค่าคงที่ โดยไม่รวมอยู่ในพารามิเตอร์อิสระเนื่องจากจำนวนการทดลองที่อนุญาตจะกำหนดขีดจำกัดของจำนวน "ความสำเร็จ" หรือ "ความล้มเหลว" ที่สามารถสังเกตได้ในชุดของการทดลอง θ {\displaystyle \theta }
เวกเตอร์ที่มีค่าเป็นx และ θ โดยทั่วไปแล้วจะเป็นเวกเตอร์ของการวัด ซึ่งในกรณีนี้อาจเป็นฟังก์ชันจากปริภูมิของค่าที่เป็นไปได้ของไปยังจำนวนจริง x {\displaystyle x} ที ( x ) {\displaystyle T(x)} x {\displaystyle x}
โดยทั่วไปแล้วและสามารถเป็นเวกเตอร์ค่าได้ โดยที่เป็นค่าจริง อย่างไรก็ตาม โปรดดูการอภิปรายด้านล่างเกี่ยวกับพารามิเตอร์เวกเตอร์ ในส่วนที่เกี่ยวข้องกับตระกูลเลขชี้กำลัง โค้ง η ( θ ) {\displaystyle \eta (\theta )} ที ( x ) {\displaystyle T(x)} η ( θ ) ⋅ ที ( x ) {\displaystyle \eta (\theta )\cdot T(x)}
ถ้าเช่นนั้นตระกูลเลขชี้กำลังจะถูกเรียกว่าอยู่ในรูปแบบมาตรฐาน โดยการกำหนดพารามิเตอร์ที่แปลงแล้วจะสามารถแปลงตระกูลเลขชี้กำลังให้เป็นรูปแบบมาตรฐานได้เสมอ รูปแบบมาตรฐานนั้นไม่ซ้ำกัน เนื่องจากสามารถคูณด้วยค่าคงที่ที่ไม่เป็นศูนย์ใดๆ ก็ได้ โดยมีเงื่อนไขว่าT ( x ) จะต้องคูณด้วยส่วนกลับของค่าคงที่นั้น หรือสามารถบวก ค่าคงที่ c เข้าไป และคูณh ( x ) ด้วย เพื่อชดเชย ในกรณีพิเศษที่และT ( x ) = x แล้วตระกูลนั้นเรียกว่าตระกูล เลขชี้กำลังธรรมชาติ η ( θ ) = θ , {\displaystyle \eta (\theta )=\theta \ ,} η = η ( θ ) , {\displaystyle \eta =\eta (\theta )\ ,} η ( θ ) {\displaystyle \eta (\theta )} η ( θ ) {\displaystyle \eta (\theta )} เอ็กซ์ [ − ค ⋅ ที ( x ) ] {\displaystyle \exp \left[{-c}\cdot T(x)\,\right]} η ( θ ) = θ {\displaystyle \eta (\theta )=\theta }
แม้ว่าจะเป็นปริมาณสเกลาร์ และมีพารามิเตอร์เพียงตัวเดียว ฟังก์ชันและก็ยังคงเป็นเวกเตอร์ได้ ดังที่อธิบายไว้ด้านล่าง x {\displaystyle x} η ( θ ) {\displaystyle \eta (\theta )} ที ( x ) {\displaystyle T(x)}
ฟังก์ชันหรือเทียบเท่าจะถูกกำหนดโดยอัตโนมัติเมื่อเลือกฟังก์ชันอื่นๆ แล้ว เนื่องจากต้องมีรูปแบบที่ทำให้การกระจายตัวเป็นปกติ (ผลรวมหรืออินทิเกรตเท่ากับหนึ่งตลอดทั้งโดเมน) ยิ่งไปกว่านั้น ฟังก์ชันทั้งสองนี้สามารถเขียนเป็นฟังก์ชันของ ได้เสมอแม้ว่าจะไม่ใช่ ฟังก์ชัน แบบหนึ่งต่อหนึ่ง กล่าวคือ ค่าที่แตกต่างกันสองค่าขึ้นไปของจะแมปไปยังค่าเดียวกันของและดังนั้นจึงไม่สามารถผกผันได้ ในกรณีเช่นนี้ ค่าทั้งหมดของที่แมปไปยังค่าเดียวกันจะมีค่าเดียวกันสำหรับและ ด้วยเอ ( θ ) , {\displaystyle A(\theta )\ ,} จี ( θ ) , {\displaystyle g(\theta )\ ,} η , {\displaystyle \eta \ ,} η ( θ ) {\displaystyle \eta (\theta )} θ {\displaystyle \theta } η ( θ ) , {\displaystyle \eta (\theta )\ ,} η ( θ ) {\displaystyle \eta (\theta )} θ {\displaystyle \theta } η ( θ ) {\displaystyle \eta (\theta )} เอ ( θ ) {\displaystyle A(\theta )} จี ( θ ) . {\displaystyle g(\theta )~.}
การแยกตัวประกอบของตัวแปรที่เกี่ยวข้อง สิ่งที่สำคัญที่ควรทราบ และเป็นลักษณะเฉพาะของฟังก์ชันตระกูลเลขชี้กำลังทั้งหมด คือ พารามิเตอร์และตัวแปรสังเกตจะต้องสามารถแยกตัวประกอบได้ (สามารถแยกออกเป็นผลคูณซึ่งแต่ละผลคูณเกี่ยวข้องกับตัวแปรเพียงประเภทเดียว) ไม่ว่าจะโดยตรงหรือภายในส่วนใดส่วนหนึ่ง (ฐานหรือเลขชี้กำลัง) ของ การดำเนินการ ยกกำลัง โดยทั่วไปแล้ว หมายความว่าตัวประกอบทั้งหมดที่ประกอบเป็นฟังก์ชันความหนาแน่นหรือฟังก์ชันมวลจะต้องอยู่ในรูปแบบใดรูปแบบหนึ่งต่อไปนี้:
เอฟ ( x ) , ค เอฟ ( x ) , [ เอฟ ( x ) ] ค , [ เอฟ ( x ) ] จี ( θ ) , [ เอฟ ( x ) ] ชม. ( x ) จี ( θ ) , จี ( θ ) , ค จี ( θ ) , [ จี ( θ ) ] ค , [ จี ( θ ) ] เอฟ ( x ) , โอ ร [ จี ( θ ) ] ชม. ( x ) เจ ( θ ) , {\displaystyle {\begin{aligned}f(x),&&c^{f(x)},&&{[f(x)]}^{c},&&{[f(x)]}^{g(\theta )},&&{[f(x)]}^{h(x)g(\theta )},\\g(\theta ),&&c^{g(\theta )},&&{[g(\theta )]}^{c},&&{[g(\theta )]}^{f(x)},&&~~{\mathsf {or}}~~{[g(\theta )]}^{h(x)j(\theta )},\end{aligned}}}
โดยที่f และh เป็นฟังก์ชันใดๆ ของx ซึ่งเป็นตัวแปรทางสถิติที่สังเกตได้; g และj เป็นฟังก์ชันใดๆ ของพารามิเตอร์คงที่ที่กำหนดรูปร่างของการแจกแจง; และc เป็นนิพจน์คงที่ใดๆ (เช่น ตัวเลขหรือนิพจน์ที่ไม่เปลี่ยนแปลงตามx หรือ) θ , {\displaystyle \theta ,} θ {\displaystyle \theta }
นอกจากนี้ยังมีข้อจำกัดเพิ่มเติมเกี่ยวกับจำนวนปัจจัยดังกล่าวที่สามารถเกิดขึ้นได้ ตัวอย่างเช่น นิพจน์สองอย่างต่อไปนี้:
[ เอฟ ( x ) จี ( θ ) ] ชม. ( x ) เจ ( θ ) , [ เอฟ ( x ) ] ชม. ( x ) เจ ( θ ) [ จี ( θ ) ] ชม. ( x ) เจ ( θ ) , {\displaystyle {[f(x)g(\theta )]}^{h(x)j(\theta )},\qquad {[f(x)]}^{h(x)j(\theta )}{[g(\theta )]}^{h(x)j(\theta )},}
เหมือนกัน กล่าวคือ เป็นผลคูณของตัวประกอบสองตัวที่ "อนุญาต" อย่างไรก็ตาม เมื่อเขียนใหม่ให้อยู่ในรูปแยกตัวประกอบแล้ว
[ เอฟ ( x ) จี ( θ ) ] ชม. ( x ) เจ ( θ ) = [ เอฟ ( x ) ] ชม. ( x ) เจ ( θ ) [ จี ( θ ) ] ชม. ( x ) เจ ( θ ) = เอ็กซ์ { [ ชม. ( x ) บันทึก เอฟ ( x ) ] เจ ( θ ) + ชม. ( x ) [ เจ ( θ ) บันทึก จี ( θ ) ] } , {\displaystyle {\begin{aligned}{\left[f(x)g(\theta )\right]}^{h(x)j(\theta )}&={\left[f(x)\right]}^{h(x)j(\theta )}{\left[g(\theta )\right]}^{h(x)j(\theta )}\\[4pt]&=\exp \left\{{[h(x)\log f(x)]j(\theta )+h(x)[j(\theta )\log g(\theta )]}\right\},\end{aligned}}}
จะเห็นได้ว่าไม่สามารถแสดงออกมาในรูปแบบที่ต้องการได้ (อย่างไรก็ตาม รูปแบบประเภทนี้เป็นสมาชิกของตระกูลเลขชี้กำลังโค้ง ซึ่งอนุญาตให้มีพจน์แยกตัวประกอบหลายพจน์ในเลขชี้กำลัง)
เพื่อดูว่าเหตุใดจึงมีการแสดงออกในรูปแบบดังกล่าว
[ เอฟ ( x ) ] จี ( θ ) {\displaystyle {[f(x)]}^{g(\theta )}}
มีคุณสมบัติเหมาะสม [ เอฟ ( x ) ] จี ( θ ) = อี จี ( θ ) บันทึก เอฟ ( x ) {\displaystyle {[f(x)]}^{g(\theta )}=e^{g(\theta )\log f(x)}}
และด้วยเหตุนี้จึงสามารถแยกตัวประกอบภายในเลขชี้กำลังได้ ในทำนองเดียวกัน
[ f ( x ) ] h ( x ) g ( θ ) = e h ( x ) g ( θ ) log f ( x ) = e [ h ( x ) log f ( x ) ] g ( θ ) {\displaystyle {[f(x)]}^{h(x)g(\theta )}=e^{h(x)g(\theta )\log f(x)}=e^{[h(x)\log f(x)]g(\theta )}}
และสามารถแยกตัวประกอบภายในเลขชี้กำลังได้อีกครั้ง
ตัวประกอบที่ประกอบด้วยผลรวมซึ่งมีตัวแปรทั้งสองประเภทเกี่ยวข้อง (เช่น ตัวประกอบในรูปแบบ) ไม่สามารถแยกตัวประกอบได้ในลักษณะนี้ (ยกเว้นในบางกรณีที่ปรากฏโดยตรงในเลขชี้กำลัง) นี่คือเหตุผลที่ตัวอย่างเช่นการแจกแจงโคชี และการแจกแจง ที ของสตูเดนต์ ไม่ใช่ตระกูลเลขชี้กำลัง 1 + f ( x ) g ( θ ) {\displaystyle 1+f(x)g(\theta )}
พารามิเตอร์เวกเตอร์ นิยามในแง่ของ พารามิเตอร์ จำนวนจริง หนึ่งตัว สามารถขยายไปสู่พารามิเตอร์ เวกเตอร์จริง หนึ่งตัวได้
θ ≡ [ θ 1 θ 2 ⋯ θ s ] T . {\displaystyle {\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{s}\end{bmatrix}}^{\mathsf {T}}.}
กลุ่มของการแจกแจงจะเรียกว่าอยู่ในกลุ่มการแจกแจงเอกซ์โพเนนเชียลเวกเตอร์ ถ้าฟังก์ชันความหนาแน่นความน่าจะเป็น (หรือฟังก์ชันมวลความน่าจะเป็น สำหรับการแจกแจงแบบไม่ต่อเนื่อง) สามารถเขียนได้ดังนี้
f X ( x ∣ θ ) = h ( x ) exp ( ∑ i = 1 s η i ( θ ) T i ( x ) − A ( θ ) ) , {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,}
หรือในรูปแบบที่กะทัดรัดกว่านั้น
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }})\right]}
รูปแบบนี้เขียนผลรวมเป็นผลคูณดอท ของ ฟังก์ชัน เวกเตอร์และT ( x ) η ( θ ) {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}
รูปแบบอื่นที่เทียบเท่ากันซึ่งมักพบเห็นได้คือ
f X ( x ∣ θ ) = h ( x ) g ( θ ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]}
เช่นเดียวกับกรณีค่าสเกลาร์ ตระกูลเลขชี้กำลังจะอยู่ในรูปแบบมาตรฐาน ก็ต่อเมื่อ
η i ( θ ) = θ i , ∀ i . {\displaystyle \eta _{i}({\boldsymbol {\theta }})=\theta _{i}~,\quad \forall i\,.}
ตระกูลเวกเตอร์เอกซ์โพเนนเชียลจะเรียกว่าโค้ง ถ้ามิติของ
θ ≡ [ θ 1 θ 2 ⋯ θ d ] T {\displaystyle {\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{d}\end{bmatrix}}^{\mathsf {T}}}
น้อยกว่ามิติของเวกเตอร์
η ( θ ) ≡ [ η 1 ( θ ) η 2 ( θ ) ⋯ η s ( θ ) ] T . {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv {\begin{bmatrix}\eta _{1}{\!({\boldsymbol {\theta }})}&\eta _{2}{\!({\boldsymbol {\theta }})}&\cdots &\eta _{s}{\!({\boldsymbol {\theta }})}\end{bmatrix}}^{\mathsf {T}}~.}
กล่าวคือ ถ้ามิติ d ของเวกเตอร์พารามิเตอร์น้อยกว่าจำนวนฟังก์ชัน s ของเวก เตอร์พารามิเตอร์ในการแสดงฟังก์ชันความหนาแน่นความน่าจะเป็นข้างต้น การแจกแจงทั่วไปส่วนใหญ่ในตระกูลเอกซ์โพเนนเชียลนั้นไม่ โค้ง และอัลกอริทึมจำนวนมากที่ออกแบบมาเพื่อทำงานกับตระกูลเอกซ์โพเนนเชียลใด ๆ จะสมมติโดยปริยายหรือโดยชัดแจ้งว่าการแจกแจงนั้นไม่โค้ง
เช่นเดียวกับกรณีของพารามิเตอร์ที่มีค่าเป็นสเกลาร์ ฟังก์ชันหรือเทียบเท่าจะถูกกำหนดโดยอัตโนมัติโดยข้อจำกัดการทำให้เป็นมาตรฐาน เมื่อเลือกฟังก์ชันอื่นๆ แล้ว แม้ว่าจะไม่ใช่ฟังก์ชันหนึ่งต่อหนึ่ง ฟังก์ชันและสามารถกำหนดได้โดยกำหนดให้การแจกแจงเป็นมาตรฐานสำหรับแต่ละค่าของพารามิเตอร์ธรรมชาติซึ่งจะให้รูปแบบมาตรฐาน A ( θ ) {\displaystyle A({\boldsymbol {\theta }})} g ( θ ) {\displaystyle g({\boldsymbol {\theta }})} η ( θ ) {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})} A ( η ) {\displaystyle A({\boldsymbol {\eta }})} g ( η ) {\displaystyle g({\boldsymbol {\eta }})} η {\displaystyle {\boldsymbol {\eta }}}
f X ( x ∣ η ) = h ( x ) exp [ η ⋅ T ( x ) − A ( η ) ] , {\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right],}
หรือเทียบเท่า
f X ( x ∣ η ) = h ( x ) g ( η ) exp [ η ⋅ T ( x ) ] . {\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)\right].}
บางครั้งอาจพบรูปแบบข้างต้นโดยใช้ แทนซึ่งเป็นสูตรที่เทียบเท่ากันทุกประการ เพียงแต่ใช้สัญลักษณ์ที่แตกต่างกันสำหรับผลคูณดอท เท่านั้น η T T ( x ) {\displaystyle {\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)} η ⋅ T ( x ) {\displaystyle {\boldsymbol {\eta }}\cdot \mathbf {T} (x)\,}
พารามิเตอร์เวกเตอร์, ตัวแปรเวกเตอร์รูปแบบพารามิเตอร์เวกเตอร์สำหรับตัวแปรสุ่มค่าสเกลาร์ตัวเดียว สามารถขยายได้อย่างง่ายดายเพื่อครอบคลุมการแจกแจงร่วมสำหรับเวกเตอร์ของตัวแปรสุ่ม การแจกแจงที่ได้นั้นก็เหมือนกับการแจกแจงข้างต้นสำหรับตัวแปรสุ่มค่าสเกลาร์ โดยที่ค่าสเกลาร์x แต่ละตัว ถูกแทนที่ด้วยเวกเตอร์
x = [ x 1 x 2 ⋯ x k ] T . {\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{k}\end{bmatrix}}^{\mathsf {T}}.}
มิติk ของตัวแปรสุ่มไม่จำเป็นต้องตรงกับมิติd ของ เวก เตอร์พารามิเตอร์ หรือ (ในกรณีของฟังก์ชันเลขชี้กำลังโค้ง) มิติs ของพารามิเตอร์ธรรมชาติและสถิติเพียงพอ T ( x ) η {\displaystyle {\boldsymbol {\eta }}}
ในกรณีนี้ การแจกแจงจะเขียนได้ดังนี้
f X ( x ∣ θ ) = h ( x ) exp [ ∑ i = 1 s η i ( θ ) T i ( x ) − A ( θ ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \!\left[\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x} )-A({\boldsymbol {\theta }})\right]}
หรือพูดให้กระชับยิ่งขึ้นก็คือ
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]}
หรืออีกทางเลือกหนึ่งคือ
f X ( x ∣ θ ) = g ( θ ) h ( x ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=g({\boldsymbol {\theta }})\,h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )\right]}
เราใช้ฟังก์ชันการกระจายสะสม (CDF) เพื่อครอบคลุมทั้งการกระจายแบบไม่ต่อเนื่องและแบบต่อเนื่อง
สมมติว่าH เป็นฟังก์ชันที่ไม่ลดลงของตัวแปรจริง จากนั้นปริพันธ์เลเบส-สตีลต์เจส เทียบกับคือปริพันธ์เทียบกับมาตรวัดอ้างอิง ของตระกูลเลขชี้กำลังที่สร้างขึ้น โดย H d H ( x ) {\displaystyle dH(\mathbf {x} )}
สมาชิกใดๆ ในตระกูลเลขชี้กำลังนั้นมีฟังก์ชันการกระจายสะสม
d F ( x ∣ θ ) = exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] d H ( x ) . {\displaystyle dF{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~dH(\mathbf {x} )\,.}
H ( x ) คือตัวรวม Lebesgue–Stieltjes สำหรับการวัดอ้างอิง เมื่อการวัดอ้างอิงมีค่าจำกัด สามารถทำให้เป็นมาตรฐานได้ และ H ก็คือฟังก์ชันการกระจายสะสม ของความน่าจะเป็น ถ้า F เป็นฟังก์ชันต่อเนื่องสัมบูรณ์ที่มีความหนาแน่นสัมพันธ์กับการวัดอ้างอิง(โดยทั่วไปคือการวัด Lebesgue ) เราสามารถเขียนได้ว่าในกรณีนี้ H ก็เป็นฟังก์ชันต่อเนื่องสัมบูรณ์เช่นกัน และสามารถเขียนได้ว่าดังนั้นสูตรจึงลดลงเหลือเท่ากับในย่อหน้าก่อนหน้า ถ้า F เป็นฟังก์ชันไม่ต่อเนื่อง H ก็ คือฟังก์ชันขั้นบันได (โดยมีขั้นบันไดบนขอบเขต ของ F ) f ( x ) {\displaystyle f(x)} d x {\displaystyle dx} d F ( x ) = f ( x ) d x {\displaystyle dF(x)=f(x)\,dx} d H ( x ) = h ( x ) d x {\displaystyle dH(x)=h(x)\,dx}
อีกวิธีหนึ่ง เราสามารถเขียนมาตรวัดความน่าจะเป็นโดยตรงได้ดังนี้
P ( d x ∣ θ ) = exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] μ ( d x ) . {\displaystyle P\left(d\mathbf {x} \mid {\boldsymbol {\theta }}\right)=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~\mu (d\mathbf {x} )\,.}
สำหรับ การวัดอ้างอิงบางอย่างμ {\displaystyle \mu \,}
การตีความ ในคำจำกัดความข้างต้น ฟังก์ชันT ( x ) , η ( θ ) และA ( η ) เป็นฟังก์ชันที่กำหนดขึ้นเอง อย่างไรก็ตาม ฟังก์ชันเหล่านี้มีความหมายสำคัญในการกระจายความน่าจะเป็นที่ได้
T ( x ) คือสถิติเพียงพอ ของการแจกแจง สำหรับตระกูลการแจกแจงแบบเอกซ์โพเนนเชียล สถิติเพียงพอคือฟังก์ชันของข้อมูลที่เก็บข้อมูลทั้งหมดที่ข้อมูล x ให้ไว้เกี่ยวกับค่าพารามิเตอร์ที่ไม่ทราบค่า ซึ่งหมายความว่า สำหรับชุดข้อมูลใดๆและy อัตราส่วนความน่าจะเป็นจะเท่ากัน นั่นคือถ้า T ( x ) = T ( y ) ซึ่งเป็นจริงแม้ว่า x และ y จะไม่เท่ากันก็ตาม มิติของ T ( x ) เท่ากับจำนวนพารามิเตอร์ของ θ และครอบคลุมข้อมูลทั้งหมดเกี่ยวกับข้อมูลที่เกี่ยวข้องกับพารามิเตอร์ θ สถิติเพียงพอของชุด ข้อมูลการสังเกต ที่เป็นอิสระและมีการแจกแจงเหมือนกัน นั้นเป็นเพียงผลรวมของสถิติเพียงพอแต่ละตัว และรวบรวมข้อมูลทั้งหมดที่จำเป็นในการอธิบายการแจกแจงภายหลัง ของพารามิเตอร์ เมื่อกำหนดข้อมูล (และด้วยเหตุนี้จึงสามารถประมาณค่าพารามิเตอร์ที่ต้องการได้) (คุณสมบัติที่สำคัญนี้จะกล่าวถึงเพิ่มเติมด้านล่าง )x {\displaystyle x} y {\displaystyle y} f ( x ; θ 1 ) f ( x ; θ 2 ) = f ( y ; θ 1 ) f ( y ; θ 2 ) {\displaystyle {\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}} η เรียกว่าพารามิเตอร์ธรรมชาติ เซตของค่าη ที่ทำให้ฟังก์ชันสามารถหาปริพันธ์ได้เรียกว่าปริภูมิพารามิเตอร์ธรรมชาติ สามารถแสดงได้ว่าปริภูมิพารามิเตอร์ธรรมชาติเป็น ปริภูมิ แบบนูน เสมอ f X ( x ; η ) {\displaystyle f_{X}(x;\eta )} A ( η ) เรียกว่าฟังก์ชันการแบ่งพาร์ติชัน แบบลอการิทึม [ b ] เนื่องจากเป็นลอการิทึม ของปัจจัยการทำให้เป็นมาตรฐาน ซึ่งหากไม่มีปัจจัยนี้จะไม่สามารถเป็นการกระจายความน่าจะเป็นได้:f X ( x ; θ ) {\displaystyle f_{X}(x;\theta )} A ( η ) = log ( ∫ X h ( x ) exp [ η ( θ ) ⋅ T ( x ) ] d x ) {\displaystyle A(\eta )=\log \left(\int _{X}h(x)\,\exp \left[\eta (\theta )\cdot T(x)\right]\,dx\right)} ฟังก์ชันA มีความสำคัญในตัวของมันเอง เพราะค่าเฉลี่ย ความแปรปรวน และโมเมนต์ อื่นๆ ของสถิติเพียงพอT ( x ) สามารถหาได้ง่ายๆ โดยการหาอนุพันธ์ของA ( η ) ตัวอย่างเช่น เนื่องจากlog( x ) เป็นหนึ่งในส่วนประกอบของสถิติเพียงพอของการแจกแจงแกมมา จึงสามารถหาค่า สำหรับการแจกแจงนี้ได้ง่ายๆ โดยใช้A ( η ) ในทางเทคนิคแล้ว นี่เป็นความจริงเพราะเป็นฟังก์ชันสร้างคูมูลันต์ ของสถิติเพียงพอ E [ log x ] {\displaystyle \operatorname {\mathcal {E}} [\log x]} K ( u ∣ η ) = A ( η + u ) − A ( η ) , {\displaystyle K{\left(u\mid \eta \right)}=A(\eta +u)-A(\eta )\,,}
คุณสมบัติ ตระกูลฟังก์ชันเลขชี้กำลังมีคุณสมบัติมากมายที่ทำให้มีประโยชน์อย่างยิ่งสำหรับการวิเคราะห์ทางสถิติ ในหลายกรณี สามารถแสดงได้ว่า มี เพียง ตระกูลฟังก์ชันเลขชี้กำลังเท่านั้นที่มีคุณสมบัติเหล่านี้ ตัวอย่างเช่น:
กำหนดให้ตระกูลเลขชี้กำลังถูกกำหนดโดย โดยที่คือปริภูมิพารามิเตอร์ ซึ่งแล้ว f X ( x ∣ θ ) = h ( x ) exp [ θ ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}{\!(x\mid \theta )}=h(x)\exp \left[\theta \cdot T(x)-A(\theta )\right]} Θ {\displaystyle \Theta } θ ∈ Θ ⊂ R k {\displaystyle \theta \in \Theta \subset \mathbb {R} ^{k}}
ถ้ามีส่วนภายในที่ไม่ว่างเปล่าใน แล้วเมื่อกำหนดตัวอย่าง IID ใดๆ สถิติจะเป็นสถิติที่สมบูรณ์สำหรับ[ 9 ] [ 10 ] Θ {\displaystyle \Theta } R k {\displaystyle \mathbb {R} ^{k}} X 1 , . . . , X n ∼ f X {\displaystyle X_{1},...,X_{n}\sim f_{X}} T ( X 1 , … , X n ) := ∑ i = 1 n T ( X i ) {\textstyle T(X_{1},\dots ,X_{n}):=\sum _{i=1}^{n}T(X_{i})} θ {\displaystyle \theta } T {\displaystyle T} เป็นสถิติขั้นต่ำสำหรับก็ ต่อเมื่อ สำหรับทั้งหมดและในการสนับสนุนของถ้าแล้วหรือ[ 11 ]θ {\displaystyle \theta } θ 1 , θ 2 ∈ Θ {\displaystyle \theta _{1},\theta _{2}\in \Theta } x 1 , x 2 {\displaystyle x_{1},x_{2}} X {\displaystyle X} ( θ 1 − θ 2 ) ⋅ [ T ( x 1 ) − T ( x 2 ) ] = 0 {\displaystyle (\theta _{1}-\theta _{2})\cdot [T(x_{1})-T(x_{2})]=0} θ 1 = θ 2 {\displaystyle \theta _{1}=\theta _{2}} x 1 = x 2 {\displaystyle x_{1}=x_{2}}
ตัวอย่าง เมื่อพิจารณาตัวอย่างในส่วนนี้ สิ่งสำคัญคือต้องระลึกถึงการอภิปรายข้างต้นเกี่ยวกับความหมายของการกล่าวว่า "การแจกแจง" เป็นตระกูลเอกซ์โปเนนเชียล และโดยเฉพาะอย่างยิ่งต้องจำไว้ว่าชุดของพารามิเตอร์ที่อนุญาตให้เปลี่ยนแปลงได้นั้นมีความสำคัญอย่างยิ่งในการกำหนดว่า "การแจกแจง" เป็นตระกูลเอกซ์โปเนนเชียลหรือไม่
การแจกแจงแบบ ปกติ , แบบเอกซ์โปเนนเชียล, แบบ ล็อกนอร์มัล, แบบแกมมา, แบบไคกำลัง สอง , แบบเบตา , แบบดิริชเล ต์ , แบบ เบอร์นูลลี , แบบแคทิคอล , แบบปัวซง , แบบเรขาคณิต , แบบอินเวอร์ส เกาส์เซียน , แบบ ALAAM , แบบฟอนมิเซส และแบบฟอนมิเซส-ฟิชเชอ ร์ ล้วนเป็นตระกูลการแจกแจงแบบเอกซ์โปเนนเชียลทั้งสิ้น
การแจกแจงบางประเภทจะเป็นตระกูลการแจกแจงเอกซ์โพเนนเชียลได้ก็ต่อเมื่อพารามิเตอร์บางตัวถูกกำหนดให้คงที่เท่านั้น เช่น ตระกูลการแจกแจงพาเรโต ที่มีขอบเขตต่ำสุดคงที่x<sub> m </sub> ก็เป็นตระกูลการแจกแจงเอกซ์โพเนนเชียล ตระกูล การแจกแจง ทวินาม และพหุนาม ที่มีจำนวนครั้งในการทดลองคง ที่ n แต่มีพารามิเตอร์ความน่าจะเป็นที่ไม่ทราบค่า ก็เป็นตระกูลการแจกแจงเอกซ์โพเนนเชียล และตระกูลการแจกแจงทวินามเชิงลบ ที่มีจำนวนความล้มเหลวคงที่ (หรือพารามิเตอร์เวลาหยุด) r ก็เป็นตระกูลการแจกแจงเอกซ์โพเนนเชียล อย่างไรก็ตาม หากพารามิเตอร์คงที่ใดๆ ที่กล่าวมาข้างต้นสามารถเปลี่ยนแปลงได้ ตระกูลการแจกแจงที่ได้จะไม่ใช่ตระกูลการแจกแจงเอกซ์โพเนนเชียล
ดังที่กล่าวมาข้างต้น โดยทั่วไปแล้วขอบเขตการรองรับ ของตระกูลการแจกแจงแบบเอกซ์โพเนนเชียลจะต้องคงที่เหมือนเดิมในทุกการตั้งค่าพารามิเตอร์ของตระกูลนั้น นี่คือเหตุผลที่กรณีข้างต้น (เช่น การแจกแจงแบบทวินามที่มีจำนวนการทดลองแปรผัน การแจกแจงแบบพาเรโตที่มีขอบเขตต่ำสุดแปรผัน) ไม่ใช่ตระกูลการแจกแจงแบบเอกซ์โพเนนเชียล เพราะในทุกกรณี พารามิเตอร์ที่เกี่ยวข้องจะส่งผลต่อขอบเขตการรองรับ (โดยเฉพาะอย่างยิ่ง การเปลี่ยนแปลงค่าต่ำสุดหรือค่าสูงสุดที่เป็นไปได้) ด้วยเหตุผลที่คล้ายกัน การแจกแจงแบบเอกรูปไม่ต่อเนื่อง และการแจกแจงแบบเอกรูปต่อเนื่อง จึงไม่ใช่ ตระกูลการแจกแจงแบบเอกซ์โพเนนเชียล เนื่องจากขอบเขตหนึ่งหรือทั้งสองขอบเขตแปรผัน
การแจกแจงไวบูล ที่มีพารามิเตอร์รูปร่างk คงที่นั้น เป็นตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล แตกต่างจากตัวอย่างก่อนหน้านี้ พารามิเตอร์รูปร่างไม่มีผลต่อขอบเขตการแจกแจง ข้อเท็จจริงที่ว่าการอนุญาตให้พารามิเตอร์รูปร่างเปลี่ยนแปลงได้ทำให้การแจกแจงไวบูลไม่ใช่แบบเอกซ์โปเนนเชียลนั้น เป็นผลมาจากรูปแบบเฉพาะของฟังก์ชันความหนาแน่นความน่าจะเป็น ของไวบูล ( k ปรากฏอยู่ในเลขชี้กำลังของเลขชี้กำลัง)
โดยทั่วไปแล้ว การแจกแจงที่เกิดจาก การผสมผสาน อย่างจำกัดหรือไม่จำกัดของการแจกแจงอื่นๆ เช่น ความหนาแน่น ของ แบบจำลองผสม และการแจกแจงความน่าจะเป็นแบบผสม ไม่ใช่ ตระกูลเอก ซ์โพเนนเชียล ตัวอย่างเช่น แบบจำลองผสมเกาส์ เซียนทั่วไปรวมถึงการแจกแจงแบบหางหนักจำนวน มาก ที่เกิดจากการผสม (เช่น การผสมอย่างไม่จำกัด) การแจกแจงกับการแจกแจงก่อนหน้า เหนือพารามิเตอร์ตัวใดตัวหนึ่ง เช่นการแจกแจง t ของนักเรียน (การผสมการแจกแจงปกติ เหนือ การแจกแจงก่อนหน้าแบบแม่นยำ ที่แจกแจงแกมมา ) และ การแจกแจง เบตา-ไบโนเมียล และ การแจกแจง ดิริชเลต์-มัลติโนเมียล ตัวอย่างอื่นๆ ของการแจกแจงที่ไม่ใช่ตระกูลเอกซ์โพเนนเชียล ได้แก่การแจกแจง F การแจกแจงโคชี การ แจกแจงไฮเปอร์จีโอเมตริก และการ แจกแจงโลจิสติ ก
ต่อไปนี้เป็นตัวอย่างโดยละเอียดของการแสดงการแจกแจงที่มีประโยชน์บางอย่างในรูปแบบของตระกูลเลขชี้กำลัง
การแจกแจงแบบปกติ: ค่าเฉลี่ยไม่ทราบ แต่ค่าความแปรปรวนทราบตัวอย่างแรก พิจารณาตัวแปรสุ่มที่มีการแจกแจงแบบปกติ โดยมีค่าเฉลี่ยμ ที่ไม่ทราบค่า และความแปรปรวนσ² ที่ทราบ ค่า ฟังก์ชันความหนาแน่นของความน่าจะเป็นจะเป็น ดังนี้
f σ ( x ; μ ) = 1 2 π σ 2 e − ( x − μ ) 2 / 2 σ 2 . {\displaystyle f_{\sigma }(x;\mu )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu )^{2}/2\sigma ^{2}}.}
นี่คือตระกูลฟังก์ชันเลขชี้กำลังแบบพารามิเตอร์เดียว ดังที่เห็นได้จากการตั้งค่า
T σ ( x ) = x σ , h σ ( x ) = 1 2 π σ 2 e − x 2 / 2 σ 2 , A σ ( μ ) = μ 2 2 σ 2 , η σ ( μ ) = μ σ . {\displaystyle {\begin{aligned}T_{\sigma }(x)&={\frac {x}{\sigma }},&h_{\sigma }(x)&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/2\sigma ^{2}},\\[4pt]A_{\sigma }(\mu )&={\frac {\mu ^{2}}{2\sigma ^{2}}},&\eta _{\sigma }(\mu )&={\frac {\mu }{\sigma }}.\end{aligned}}}
ถ้าσ = 1 จะอยู่ในรูปแบบมาตรฐาน เนื่องจาก η ( μ ) = μ
การแจกแจงแบบปกติ: ไม่ทราบค่าเฉลี่ยและไม่ทราบค่าความแปรปรวน ต่อไป พิจารณากรณีของการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนที่ไม่ทราบค่า ฟังก์ชันความหนาแน่นของความน่าจะเป็นจะเป็นดังนี้
f ( y ; μ , σ 2 ) = 1 2 π σ 2 e − ( y − μ ) 2 / 2 σ 2 . {\displaystyle f(y;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(y-\mu )^{2}/2\sigma ^{2}}.}
นี่คือตระกูลเลขชี้กำลังซึ่งสามารถเขียนในรูปแบบมาตรฐานได้โดยการกำหนด
h ( y ) = 1 2 π , η = [ μ σ 2 , − 1 2 σ 2 ] , T ( y ) = ( y , y 2 ) T , A ( η ) = μ 2 2 σ 2 + log | σ | = − η 1 2 4 η 2 + 1 2 log | 1 2 η 2 | {\displaystyle {\begin{aligned}h(y)&={\frac {1}{\sqrt {2\pi }}},&{\boldsymbol {\eta }}&=\left[{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\right],\\T(y)&=\left(y,y^{2}\right)^{\mathsf {T}},&A({\boldsymbol {\eta }})&={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}}
การแจกแจงทวินาม ตัวอย่างหนึ่งของตระกูลเอกซ์โพเนนเชียลแบบไม่ต่อเนื่อง คือ การแจกแจงทวินาม ที่มีจำนวนครั้งทดลองn ที่ทราบ ค่า ฟังก์ชันความน่าจะเป็นมวล สำหรับการแจกแจงนี้คือ ซึ่งสามารถเขียนได้เทียบเท่าเป็น ซึ่งแสดงให้เห็นว่าการแจกแจงทวินามเป็นตระกูลเอกซ์โพเนนเชียล โดยมีพารามิเตอร์ธรรมชาติคือ ฟังก์ชันของp นี้ เรียกว่าโลจิต (logit ) f ( x ) = ( n x ) p x ( 1 − p ) n − x , x ∈ { 0 , 1 , 2 , … , n } . {\displaystyle f(x)={\binom {n}{x}}p^{x}{\left(1-p\right)}^{n-x},\quad x\in \{0,1,2,\ldots ,n\}.} f ( x ) = ( n x ) exp [ x log ( p 1 − p ) + n log ( 1 − p ) ] , {\displaystyle f(x)={\binom {n}{x}}\exp \left[x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right],} η = log p 1 − p . {\displaystyle \eta =\log {\frac {p}{1-p}}.}
ตารางการแจกแจง ตารางต่อไปนี้แสดงวิธีการเขียนการแจกแจงทั่วไปจำนวนหนึ่งใหม่เป็นการแจกแจงตระกูลเอกซ์โพเนนเชียลที่มีพารามิเตอร์ธรรมชาติ โปรดดูแฟลชการ์ด[ 12 ] สำหรับตระกูลเอกซ์โพเนนเชียลหลัก
สำหรับตัวแปรสเกลาร์และพารามิเตอร์สเกลาร์ รูปแบบจะเป็นดังนี้:
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) T ( x ) − A ( η ) ] {\displaystyle f_{X}(x\mid \theta )=h(x)\exp \left[\eta ({\theta })T(x)-A(\eta )\right]}
สำหรับตัวแปรสเกลาร์และพารามิเตอร์เวกเตอร์:
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( η ) ] f X ( x ∣ θ ) = h ( x ) g ( θ ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle {\begin{aligned}f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right]\\[4pt]f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]\end{aligned}}}
สำหรับตัวแปรเวกเตอร์และพารามิเตอร์เวกเตอร์:
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( η ) ] {\displaystyle f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }})\right]}
สูตรข้างต้นเลือกใช้รูปแบบฟังก์ชันของตระกูลเลขชี้กำลังที่มีฟังก์ชันแบ่งส่วนแบบลอการิทึมเหตุผลก็คือเพื่อให้สามารถคำนวณโมเมนต์ของสถิติเพียงพอ ได้ง่าย โดยการหาอนุพันธ์ของฟังก์ชันนี้เท่านั้น รูปแบบอื่น ๆ เกี่ยวข้องกับการกำหนดพารามิเตอร์ของฟังก์ชันนี้ในรูปของพารามิเตอร์ปกติ แทนที่จะเป็นพารามิเตอร์ธรรมชาติ และ/หรือใช้ตัวประกอบที่อยู่นอกเลขชี้กำลัง ความสัมพันธ์ระหว่างแบบหลังและแบบแรกคือ: ในการแปลงระหว่างการแสดงผลที่เกี่ยวข้องกับพารามิเตอร์สองประเภท ให้ใช้สูตรด้านล่างสำหรับการเขียนพารามิเตอร์ประเภทหนึ่งในรูปของพารามิเตอร์อีกประเภทหนึ่ง A ( η ) {\displaystyle A({\boldsymbol {\eta }})} θ {\displaystyle {\boldsymbol {\theta }}} g ( η ) {\displaystyle g({\boldsymbol {\eta }})} A ( η ) = − log g ( η ) , g ( η ) = e − A ( η ) {\displaystyle {\begin{aligned}A({\boldsymbol {\eta }})&=-\log g({\boldsymbol {\eta }}),\\[2pt]g({\boldsymbol {\eta }})&=e^{-A({\boldsymbol {\eta }})}\end{aligned}}}
การกระจาย พารามิเตอร์θ พารามิเตอร์ธรรมชาติη การแมปพารามิเตอร์ผกผัน การวัดฐานh ( x ) สถิติที่เพียงพอT ( x ) พาร์ทิชันลอการิทึมA ( η ) การแบ่งพาร์ติชันลอการิทึมA ( θ ) การแจกแจงแบบเบอร์นูลลี p {\displaystyle p} log p 1 − p {\displaystyle \log {\frac {p}{1-p}}} นี่คือฟังก์ชัน logit 1 1 + e − η = e η 1 + e η {\displaystyle {\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}} นี่คือฟังก์ชันโลจิสติก ส์ 1 {\displaystyle 1} x {\displaystyle x} log ( 1 + e η ) {\displaystyle \log(1+e^{\eta })} − log ( 1 − p ) {\displaystyle -\log(1-p)} การแจกแจงทวินามที่ มีจำนวนครั้งการทดลองที่ทราบแล้วn {\displaystyle n} p {\displaystyle p} log p 1 − p {\displaystyle \log {\frac {p}{1-p}}} 1 1 + e − η = e η 1 + e η {\displaystyle {\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}} ( n x ) {\displaystyle {\binom {n}{x}}} x {\displaystyle x} n log ( 1 + e η ) {\displaystyle n\log(1+e^{\eta })} − n log ( 1 − p ) {\displaystyle -n\log(1-p)} การแจกแจงปัวซง λ {\displaystyle \lambda } log λ {\displaystyle \log \lambda } e η {\displaystyle e^{\eta }} 1 x ! {\displaystyle {\frac {1}{x!}}} x {\displaystyle x} e η {\displaystyle e^{\eta }} λ {\displaystyle \lambda } การแจกแจงทวินามเชิงลบ ที่มีจำนวนความล้มเหลวที่ทราบแล้วr {\displaystyle r} p {\displaystyle p} log ( 1 − p ) {\displaystyle \log(1-p)} 1 − e η {\displaystyle 1-e^{\eta }} ( x + r − 1 x ) {\displaystyle {\binom {x{+}r{-}1}{x}}} x {\displaystyle x} − r log ( 1 − e η ) {\displaystyle -r\log(1-e^{\eta })} − r log ( p ) {\displaystyle -r\log(p)} การแจกแจงแบบเอกซ์โปเนนเชียล λ {\displaystyle \lambda } − λ {\displaystyle -\lambda } − η {\displaystyle -\eta } 1 {\displaystyle 1} x {\displaystyle x} − log ( − η ) {\displaystyle -\log(-\eta )} − log λ {\displaystyle -\log \lambda } การแจกแจงพาเรโต ที่มีค่าต่ำสุดที่ทราบx m {\displaystyle x_{m}} α {\displaystyle \alpha } − α − 1 {\displaystyle -\alpha -1} − 1 − η {\displaystyle -1-\eta } 1 {\displaystyle 1} log x {\displaystyle \log x} − log ( − 1 − η ) + ( 1 + η ) log x m {\displaystyle {\begin{aligned}&-\log(-1-\eta )\\&+(1+\eta )\log x_{\mathrm {m} }\end{aligned}}} − log ( α x m α ) {\displaystyle -\log \left(\alpha x_{\mathrm {m} }^{\alpha }\right)} การแจกแจงไวบูล ที่มีรูปร่างk ที่ทราบแล้ว λ {\displaystyle \lambda } − 1 λ k {\displaystyle -{\frac {1}{\lambda ^{k}}}} ( − η ) − 1 / k {\displaystyle (-\eta )^{-1/k}} x k − 1 {\displaystyle x^{k-1}} x k {\displaystyle x^{k}} log ( − 1 η k ) {\displaystyle \log \left(-{\frac {1}{\eta k}}\right)} log λ k k {\displaystyle \log {\frac {\lambda ^{k}}{k}}} การแจกแจงแบบลาปลาสที่ มีค่าเฉลี่ยที่ทราบμ {\displaystyle \mu } b {\displaystyle b} − 1 b {\displaystyle -{\frac {1}{b}}} − 1 η {\displaystyle -{\frac {1}{\eta }}} 1 {\displaystyle 1} | x − μ | {\displaystyle |x-\mu |} log ( − 2 η ) {\displaystyle \log \left(-{\frac {2}{\eta }}\right)} log 2 b {\displaystyle \log 2b} การแจกแจงไคกำลังสอง ν {\displaystyle \nu } ν 2 − 1 {\displaystyle {\frac {\nu }{2}}-1} 2 ( η + 1 ) {\displaystyle 2(\eta +1)} e − x / 2 {\displaystyle e^{-x/2}} log x {\displaystyle \log x} log Γ ( η + 1 ) + ( η + 1 ) log 2 {\displaystyle {\begin{aligned}&\log \Gamma (\eta +1)\\&+(\eta +1)\log 2\end{aligned}}} log Γ ( ν 2 ) + ν 2 log 2 {\displaystyle {\begin{aligned}&\log \Gamma {\left({\tfrac {\nu }{2}}\right)}\\&+{\tfrac {\nu }{2}}\log 2\end{aligned}}} การแจกแจงปกติ ที่มีค่าความแปรปรวนที่ทราบแล้วμ {\displaystyle \mu } μ σ {\displaystyle {\frac {\mu }{\sigma }}} σ η {\displaystyle \sigma \eta } e − x 2 / ( 2 σ 2 ) 2 π σ {\displaystyle {\frac {e^{-x^{2}/(2\sigma ^{2})}}{{\sqrt {2\pi }}\sigma }}} x σ {\displaystyle {\frac {x}{\sigma }}} η 2 2 {\displaystyle {\frac {\eta ^{2}}{2}}} μ 2 2 σ 2 {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}} การแจกแจงเบอร์นูลลีแบบต่อเนื่อง λ {\displaystyle \lambda } log λ 1 − λ {\displaystyle \log {\frac {\lambda }{1-\lambda }}} e η 1 + e η {\displaystyle {\frac {e^{\eta }}{1+e^{\eta }}}} 1 {\displaystyle 1} x {\displaystyle x} log e η − 1 η {\displaystyle \log {\frac {e^{\eta }-1}{\eta }}} log ( 1 − 2 λ 1 − λ ) − log 2 ( 1 λ − 1 ) {\displaystyle {\begin{aligned}&\log \left({\tfrac {1-2\lambda }{1-\lambda }}\right)\\[1ex]{}-{}&\log ^{2}\left({\tfrac {1}{\lambda }}-1\right)\end{aligned}}} โดยที่log 2 หมายถึงลอการิทึมแบบวนซ้ำ
การกระจายแบบปกติ μ , σ 2 {\displaystyle \mu ,\ \sigma ^{2}} [ μ σ 2 − 1 2 σ 2 ] {\displaystyle {\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}} [ − η 1 2 η 2 − 1 2 η 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}} 1 2 π {\displaystyle {\frac {1}{\sqrt {2\pi }}}} [ x x 2 ] {\displaystyle {\begin{bmatrix}x\\x^{2}\end{bmatrix}}} − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})} μ 2 2 σ 2 + log σ {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma } การแจกแจงแบบลอการิทมิกปกติ μ , σ 2 {\displaystyle \mu ,\ \sigma ^{2}} [ μ σ 2 − 1 2 σ 2 ] {\displaystyle {\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}} [ − η 1 2 η 2 − 1 2 η 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}} 1 2 π x {\displaystyle {\frac {1}{{\sqrt {2\pi }}x}}} [ log x ( log x ) 2 ] {\displaystyle {\begin{bmatrix}\log x\\(\log x)^{2}\end{bmatrix}}} − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})} μ 2 2 σ 2 + log σ {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma } การกระจายแบบเกาส์เซียนผกผัน μ , λ {\displaystyle \mu ,\ \lambda } [ − λ 2 μ 2 − λ 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}} [ η 2 η 1 − 2 η 2 ] {\displaystyle {\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}} 1 2 π x 3 / 2 {\displaystyle {\frac {1}{{\sqrt {2\pi }}x^{3/2}}}} [ x 1 x ] {\displaystyle {\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}} − 2 η 1 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -2{\sqrt {\eta _{1}\eta _{2}}}-{\tfrac {1}{2}}\log(-2\eta _{2})} − λ μ − 1 2 log λ {\displaystyle -{\tfrac {\lambda }{\mu }}-{\tfrac {1}{2}}\log \lambda } การแจกแจงแกมมา α , β {\displaystyle \alpha ,\ \beta } [ α − 1 − β ] {\displaystyle {\begin{bmatrix}\alpha -1\\-\beta \end{bmatrix}}} [ η 1 + 1 − η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}} 1 {\displaystyle 1} [ log x x ] {\displaystyle {\begin{bmatrix}\log x\\x\end{bmatrix}}} log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (\eta _{1}+1)\\{}-{}&(\eta _{1}+1)\log(-\eta _{2})\end{aligned}}} log Γ ( α ) β α {\displaystyle \log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}} k , θ {\displaystyle k,\ \theta } [ k − 1 − 1 θ ] {\displaystyle {\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}} [ η 1 + 1 − 1 η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}} log ( θ k Γ ( k ) ) {\displaystyle \log \left(\theta ^{k}\Gamma (k)\right)} การกระจายแกมมาผกผัน α , β {\displaystyle \alpha ,\ \beta } [ − α − 1 − β ] {\displaystyle {\begin{bmatrix}-\alpha -1\\-\beta \end{bmatrix}}} [ − η 1 − 1 − η 2 ] {\displaystyle {\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}} log Γ ( − η 1 − 1 ) + ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}} log Γ ( α ) β α {\displaystyle \log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}} การกระจายแบบเกาส์เซียนผกผันทั่วไป p , a , b {\displaystyle p,\ a,\ b} [ p − 1 − a / 2 − b / 2 ] {\displaystyle {\begin{bmatrix}p-1\\-a/2\\-b/2\end{bmatrix}}} [ η 1 + 1 − 2 η 2 − 2 η 3 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\-2\eta _{2}\\-2\eta _{3}\end{bmatrix}}} 1 {\displaystyle 1} [ log x x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\x\\{\frac {1}{x}}\end{bmatrix}}} log 2 K η 1 + 1 ( 4 η 2 η 3 ) − η 1 + 1 2 log η 2 η 3 {\displaystyle {\begin{aligned}&\log 2K_{\eta _{1}+1}{\!\left({\sqrt {4\eta _{2}\eta _{3}}}\right)}\\[2pt]{}-{}&{\frac {\eta _{1}+1}{2}}\log {\frac {\eta _{2}}{\eta _{3}}}\end{aligned}}} log 2 K p ( a b ) − p 2 log a b {\displaystyle {\begin{aligned}&\log 2K_{p}({\sqrt {ab}})\\[2pt]&{}-{\frac {p}{2}}\log {\frac {a}{b}}\end{aligned}}} การแจกแจงไคกำลังสองผกผันแบบปรับขนาด ν , σ 2 {\displaystyle \nu ,\ \sigma ^{2}} [ − ν 2 − 1 − ν σ 2 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}} [ − 2 ( η 1 + 1 ) η 2 η 1 + 1 ] {\displaystyle {\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}} log Γ ( − η 1 − 1 ) + ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\[2pt]+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}} log Γ ( ν 2 ) − ν 2 log ν σ 2 2 {\displaystyle {\begin{aligned}&\log \Gamma {\left({\frac {\nu }{2}}\right)}\\[2pt]{}-{}&{\frac {\nu }{2}}\log {\frac {\nu \sigma ^{2}}{2}}\end{aligned}}} การแจกแจงเบต้า (แบบที่ 1)α , β {\displaystyle \alpha ,\ \beta } [ α β ] {\displaystyle {\begin{bmatrix}\alpha \\\beta \end{bmatrix}}} [ η 1 η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}} 1 x ( 1 − x ) {\displaystyle {\frac {1}{x(1-x)}}} [ log x log ( 1 − x ) ] {\displaystyle {\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}} log Γ ( η 1 ) Γ ( η 2 ) Γ ( η 1 + η 2 ) {\displaystyle \log {\frac {\Gamma (\eta _{1})\,\Gamma (\eta _{2})}{\Gamma (\eta _{1}+\eta _{2})}}} log Γ ( α ) Γ ( β ) Γ ( α + β ) {\displaystyle \log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}} การแจกแจงเบต้า (แบบที่ 2)α , β {\displaystyle \alpha ,\ \beta } [ α − 1 β − 1 ] {\displaystyle {\begin{bmatrix}\alpha -1\\\beta -1\end{bmatrix}}} [ η 1 + 1 η 2 + 1 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\\eta _{2}+1\end{bmatrix}}} 1 {\displaystyle 1} [ log x log ( 1 − x ) ] {\displaystyle {\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}} log Γ ( η 1 + 1 ) Γ ( η 2 + 1 ) Γ ( η 1 + η 2 + 2 ) {\displaystyle \log {\frac {\Gamma (\eta _{1}+1)\,\Gamma (\eta _{2}+1)}{\Gamma (\eta _{1}+\eta _{2}+2)}}} log Γ ( α ) Γ ( β ) Γ ( α + β ) {\displaystyle \log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}} การกระจายปกติหลายตัวแปร μ , Σ {\displaystyle {\boldsymbol {\mu }},\ {\boldsymbol {\Sigma }}} [ Σ − 1 μ − 1 2 Σ − 1 ] {\displaystyle {\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}} [ − 1 2 η 2 − 1 η 1 − 1 2 η 2 − 1 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}} ( 2 π ) − k 2 {\displaystyle (2\pi )^{-{\frac {k}{2}}}} [ x x x T ] {\displaystyle {\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathsf {T}}\end{bmatrix}}} − 1 4 η 1 T η 2 − 1 η 1 − 1 2 log | − 2 η 2 | {\displaystyle {\begin{aligned}&-{\tfrac {1}{4}}{\boldsymbol {\eta }}_{1}^{\mathsf {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\&-{\tfrac {1}{2}}\log \left|-2{\boldsymbol {\eta }}_{2}\right|\end{aligned}}} 1 2 μ T Σ − 1 μ + 1 2 log | Σ | {\displaystyle {\begin{aligned}&{\tfrac {1}{2}}{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\+&{\tfrac {1}{2}}\log \left|{\boldsymbol {\Sigma }}\right|\end{aligned}}} การแจกแจงเชิงหมวดหมู่ (แบบที่ 1)p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหน∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 ⋮ log p k ] {\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}} [ e η 1 ⋮ e η k ] {\displaystyle {\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} ที่ไหน∑ i = 1 k e η i = 1 {\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1} 1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} คือวงเล็บไอเวอร์สัน [ i ] 0 {\displaystyle 0} 0 {\displaystyle 0} การแจกแจงเชิงหมวดหมู่ (แบบที่ 2)p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหน∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 + C ⋮ log p k + C ] {\displaystyle {\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}} 1 C [ e η 1 ⋮ e η k ] {\displaystyle {\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} ที่ไหนC = ∑ i = 1 k e η i {\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}} 1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} คือวงเล็บไอเวอร์สัน [ i ] 0 {\displaystyle 0} 0 {\displaystyle 0} การแจกแจงเชิงหมวดหมู่ (แบบที่ 3)p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหนp k = 1 − ∑ i = 1 k − 1 p i {\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}} [ log p 1 p k ⋮ log p k − 1 p k 0 ] {\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}} นี่คือ ฟังก์ชัน softmax ผกผันซึ่งเป็นการขยายความของฟังก์ชัน logit
1 C 1 [ e η 1 ⋮ e η k ] = {\displaystyle {\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=} 1 C 2 [ e η 1 ⋮ e η k − 1 1 ] {\displaystyle {\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}} ที่ไหน และ . C 1 = ∑ i = 1 k e η i {\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}} C 2 = 1 + ∑ i = 1 k − 1 e η i {\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}
นี่คือฟังก์ชัน softmax ซึ่ง เป็นการ ขยายความของฟังก์ชัน logistic
1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} คือวงเล็บไอเวอร์สัน [ i ] log ( ∑ i = 1 k e η i ) = log ( 1 + ∑ i = 1 k − 1 e η i ) {\displaystyle {\begin{aligned}&\textstyle \log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\={}&\textstyle \log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}} − log p k {\displaystyle -\log p_{k}} การแจกแจงพหุนาม (แบบที่ 1) โดยทราบจำนวนครั้งของการทดลองn p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหน∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 ⋮ log p k ] {\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}} [ e η 1 ⋮ e η k ] {\displaystyle {\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} ที่ไหน∑ i = 1 k e η i = 1 {\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1} n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} 0 {\displaystyle 0} 0 {\displaystyle 0} การแจกแจงพหุนาม (แบบที่ 2) โดยทราบจำนวนครั้งของการทดลองn {\displaystyle n} p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหน∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 + C ⋮ log p k + C ] {\displaystyle {\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}} 1 C [ e η 1 ⋮ e η k ] {\displaystyle {\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} ที่ไหนC = ∑ i = 1 k e η i {\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}}
n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} 0 {\displaystyle 0} 0 {\displaystyle 0} การแจกแจงพหุนาม (แบบที่ 3) โดยทราบจำนวนครั้งของการทดลองn {\displaystyle n} p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} ที่ไหนp k = 1 − ∑ i = 1 k − 1 p i {\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}} [ log p 1 p k ⋮ log p k − 1 p k 0 ] {\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}} 1 C 1 [ e η 1 ⋮ e η k ] = {\displaystyle {\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[10pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=} 1 C 2 [ e η 1 ⋮ e η k − 1 1 ] {\displaystyle {\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}}
ที่ไหนและC 1 = ∑ i = 1 k e η i {\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}} C 2 = 1 + ∑ i = 1 k − 1 e η i {\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}
n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} n log ( ∑ i = 1 k e η i ) = n log ( 1 + ∑ i = 1 k − 1 e η i ) {\displaystyle {\begin{aligned}&\textstyle n\log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\[4pt]={}&\textstyle n\log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}} − n log p k {\displaystyle -n\log p_{k}} การแจกแจงแบบ Dirichlet (แบบที่ 1)α 1 , … , α k {\displaystyle \alpha _{1},\ \ldots ,\,\alpha _{k}} [ α 1 ⋮ α k ] {\displaystyle {\begin{bmatrix}\alpha _{1}\\\vdots \\\alpha _{k}\end{bmatrix}}} [ η 1 ⋮ η k ] {\displaystyle {\begin{bmatrix}\eta _{1}\\\vdots \\\eta _{k}\end{bmatrix}}} 1 ∏ i = 1 k x i {\displaystyle {\frac {1}{\prod \limits _{i=1}^{k}x_{i}}}} [ log x 1 ⋮ log x k ] {\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}} ∑ i = 1 k log Γ ( η i ) − log Γ ( ∑ i = 1 k η i ) {\displaystyle {\begin{aligned}\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i})\\\textstyle -\log \Gamma {\left(\sum \limits _{i=1}^{k}\eta _{i}\right)}\end{aligned}}} ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}} การแจกแจงแบบ Dirichlet (แบบที่ 2)α 1 , … , α k {\displaystyle \alpha _{1},\ \ldots ,\,\alpha _{k}} [ α 1 − 1 ⋮ α k − 1 ] {\displaystyle {\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}} [ η 1 + 1 ⋮ η k + 1 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 ⋮ log x k ] {\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}} ∑ i = 1 k log Γ ( η i + 1 ) − log Γ ( ∑ i = 1 k ( η i + 1 ) ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i}+1)\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}(\eta _{i}+1)\right)}\end{aligned}}} ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}} การจัดจำหน่ายวิชาร์ต V , n {\displaystyle \mathbf {V} ,\ n} [ − 1 2 V − 1 n − p − 1 2 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n{-}p{-}1}{2}}\end{bmatrix}}} [ − 1 2 η 1 − 1 2 η 2 + p + 1 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}} 1 {\displaystyle 1} [ X log | X | ] {\displaystyle {\begin{bmatrix}\mathbf {X} \\\log |\mathbf {X} |\end{bmatrix}}} − [ η 2 + p + 1 2 ] log | − η 1 | + log Γ p ( η 2 + p + 1 2 ) = − n 2 log | − η 1 | + log Γ p ( n 2 ) = [ η 2 + p + 1 2 ] log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) {\displaystyle {\begin{aligned}&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left({\tfrac {n}{2}}\right)}\\[1ex]={}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left(2^{p}\left|\mathbf {V} \right|\right)\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\end{aligned}}} มีการนำเสนอตัวแปรสามแบบที่มีการกำหนดพารามิเตอร์แตกต่างกัน เพื่ออำนวยความสะดวกในการคำนวณค่าโมเมนต์ของสถิติที่เพียงพอ
n 2 log ( 2 p | V | ) + log Γ p ( n 2 ) {\displaystyle {\begin{aligned}&{\frac {n}{2}}\log \left(2^{p}\left|\mathbf {V} \right|\right)\\[2pt]&+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\end{aligned}}} หมายเหตุ : ใช้ประโยชน์จากข้อเท็จจริงที่ว่าผลรวม ของเมทริกซ์ ( trace) มีลักษณะคล้ายกับ ผลคูณดอท ( dot product ) โดยถือว่าพารามิเตอร์ของเมทริกซ์อยู่ ในรูปเวกเตอร์ ( vectorized ) เมื่อนำไปใส่ในรูปเลขชี้กำลัง นอกจากนี้และเป็นเมทริกซ์สมมาตร ดังนั้น เช่นtr ( A T B ) = vec ( A ) ⋅ vec ( B ) , {\displaystyle \operatorname {tr} (\mathbf {A} ^{\mathsf {T}}\mathbf {B} )=\operatorname {vec} (\mathbf {A} )\cdot \operatorname {vec} (\mathbf {B} ),} V {\displaystyle \mathbf {V} } X {\displaystyle \mathbf {X} } V T = V . {\displaystyle \mathbf {V} ^{\mathsf {T}}=\mathbf {V} \ .} การแจกแจงวิชาร์ตผกผัน Ψ , m {\displaystyle \mathbf {\Psi } ,\,m} − 1 2 [ Ψ m + p + 1 ] {\displaystyle -{\frac {1}{2}}{\begin{bmatrix}{\boldsymbol {\Psi }}\\[5pt]m{+}p{+}1\end{bmatrix}}} − [ 2 η 1 2 η 2 + p + 1 ] {\displaystyle -{\begin{bmatrix}2{\boldsymbol {\eta }}_{1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}} 1 {\displaystyle 1} [ X − 1 log | X | ] {\displaystyle {\begin{bmatrix}\mathbf {X} ^{-1}\\\log |\mathbf {X} |\end{bmatrix}}} [ η 2 + p + 1 2 ] log | − η 1 | + log Γ p ( − η 2 − p + 1 2 ) = − m 2 log | − η 1 | + log Γ p ( m 2 ) = − [ η 2 + p + 1 2 ] log 2 p | Ψ | + log Γ p ( − η 2 − p + 1 2 ) {\displaystyle {\begin{aligned}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {m}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left({\tfrac {m}{2}}\right)}\\[1ex]=&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log {\tfrac {2^{p}}{\left|{\boldsymbol {\Psi }}\right|}}\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\end{aligned}}} m 2 log 2 p | Ψ | + log Γ p ( m 2 ) {\displaystyle {\begin{aligned}{\frac {m}{2}}\log {\frac {2^{p}}{|{\boldsymbol {\Psi }}|}}\\[4pt]+\log \Gamma _{p}{\left({\frac {m}{2}}\right)}\end{aligned}}} การกระจายแบบนอร์มัล-แกมมา α , β , μ , λ {\displaystyle \alpha ,\ \beta ,\ \mu ,\ \lambda } [ α − 1 2 − β − λ μ 2 2 λ μ − λ 2 ] {\displaystyle {\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}} [ η 1 + 1 2 − η 2 + η 3 2 4 η 4 − η 3 2 η 4 − 2 η 4 ] {\displaystyle {\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}} 1 2 π {\displaystyle {\dfrac {1}{\sqrt {2\pi }}}} [ log τ τ τ x τ x 2 ] {\displaystyle {\begin{bmatrix}\log \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}} log Γ ( η 1 + 1 2 ) − 1 2 log ( − 2 η 4 ) − ( η 1 + 1 2 ) log ( η 3 2 4 η 4 − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma {\left(\eta _{1}+{\tfrac {1}{2}}\right)}\\[2pt]-{}&{\tfrac {1}{2}}\log \left(-2\eta _{4}\right)\\[2pt]-{}&\left(\eta _{1}+{\tfrac {1}{2}}\right)\log \left({\tfrac {\eta _{3}^{2}}{4\eta _{4}}}-\eta _{2}\right)\end{aligned}}} log Γ ( α ) − α log β − 1 2 log λ {\displaystyle {\begin{aligned}&\log \Gamma {\left(\alpha \right)}\\[2pt]&-\alpha \log \beta \\[2pt]&-{\tfrac {1}{2}}\log \lambda \end{aligned}}}
^ a b c วงเล็บไอเวอร์สัน เป็นการขยายความของฟังก์ชันเดลต้าแบบไม่ต่อเนื่อง: ถ้าข้อความในวงเล็บเป็นจริง วงเล็บจะมีค่าเป็น 1; ถ้าข้อความที่อยู่ภายในเป็นเท็จ วงเล็บไอเวอร์สันจะมีค่าเป็นศูนย์ มีสัญลักษณ์ที่แตกต่างกันหลายแบบ เช่น วงเล็บหยัก: ⧙ a = b ⧘ เทียบเท่ากับ สัญลักษณ์ [ a = b ] ที่ใช้ข้างต้น รูปแบบทั้งสามของการแจกแจงเชิงหมวดหมู่ และการแจกแจงแบบพหุนาม นั้น เกิดจากข้อเท็จจริงที่ว่าพารามิเตอร์ถูกจำกัดไว้ดังนี้ p i {\displaystyle p_{i}}
∑ i = 1 k p i = 1 . {\displaystyle \sum _{i=1}^{k}p_{i}=1\,.}
ดังนั้นจึงมีเพียงพารามิเตอร์ที่เป็นอิสระ เท่านั้นk − 1 {\displaystyle k-1}
ตัวแปรที่ 1 ใช้พารามิเตอร์ธรรมชาติที่มีความสัมพันธ์อย่างง่ายระหว่างพารามิเตอร์มาตรฐานและพารามิเตอร์ธรรมชาติ อย่างไรก็ตาม มีเพียงบางส่วนของพารามิเตอร์ธรรมชาติเท่านั้นที่เป็นอิสระ และเซตของพารามิเตอร์ธรรมชาตินั้นไม่สามารถระบุได้ ข้อจำกัดของพารามิเตอร์ปกติจะแปลงเป็นข้อจำกัดที่คล้ายกันสำหรับพารามิเตอร์ธรรมชาติk {\displaystyle k} k − 1 {\displaystyle k-1} k {\displaystyle k} ตัวแปรที่ 2 แสดงให้เห็นว่าชุดพารามิเตอร์ธรรมชาติทั้งหมดนั้นไม่สามารถระบุได้: การเพิ่มค่าคงที่ใดๆ ให้กับพารามิเตอร์ธรรมชาติจะไม่มีผลต่อการแจกแจงที่ได้ อย่างไรก็ตาม โดยการใช้ข้อจำกัดเกี่ยวกับพารามิเตอร์ธรรมชาติ สูตรสำหรับพารามิเตอร์ปกติในรูปของพารามิเตอร์ธรรมชาติสามารถเขียนได้ในลักษณะที่ไม่ขึ้นอยู่กับค่าคงที่ที่เพิ่มเข้าไป ตัวเลือกที่ 3 แสดงวิธีการทำให้พารามิเตอร์สามารถระบุได้สะดวกโดยการตั้งค่าซึ่งเป็นการ "หมุน" อย่างมีประสิทธิภาพและทำให้พารามิเตอร์ธรรมชาติตัวสุดท้ายมีค่าคงที่เท่ากับ 0 สูตรที่เหลือทั้งหมดเขียนในลักษณะที่ไม่เข้าถึงดังนั้นในทางปฏิบัติแล้วแบบจำลองจึงมีเพียงพารามิเตอร์ ทั้งแบบปกติและแบบธรรมชาติC = − log p k . {\displaystyle C=-\log p_{k}\ .} p k {\displaystyle p_{k}} p k {\displaystyle p_{k}} k − 1 {\displaystyle k-1} ตัวแปร 1 และ 2 ไม่ใช่ตระกูลเลขชี้กำลังมาตรฐานเลย แต่เป็นตระกูลเลขชี้กำลังแบบโค้ง กล่าว คือ มีพารามิเตอร์อิสระฝังอยู่ในปริภูมิพารามิเตอร์มิติ n [ 13 ] ผลลัพธ์มาตรฐานหลายอย่างสำหรับตระกูลเลขชี้กำลังไม่สามารถนำไปใช้กับตระกูลเลขชี้กำลังแบบโค้งได้ ตัวอย่างเช่น ฟังก์ชัน log-partition ซึ่งมีค่าเป็น 0 ในกรณีโค้ง ในตระกูลเลขชี้กำลังมาตรฐาน อนุพันธ์ของฟังก์ชันนี้สอดคล้องกับโมเมนต์ (หรือเรียกทางเทคนิคว่าคูมูลันต์ ) ของสถิติที่เพียงพอ เช่น ค่าเฉลี่ยและความแปรปรวน อย่างไรก็ตาม ค่า 0 บ่งชี้ว่าค่าเฉลี่ยและความแปรปรวนของสถิติที่เพียงพอทั้งหมดเป็น 0 อย่างสม่ำเสมอ ในขณะที่ในความเป็นจริง ค่าเฉลี่ยของสถิติที่เพียงพอที่ th ควรจะเป็น(สิ่งนี้จะปรากฏอย่างถูกต้องเมื่อใช้รูปแบบของที่แสดงในตัวแปร 3) k − 1 {\displaystyle k-1} k {\displaystyle k} A ( x ) {\displaystyle A(x)} i {\displaystyle i} p i {\displaystyle p_{i}} A ( x ) {\displaystyle A(x)}
โมเมนต์และคูมูลันต์ของสถิติเพียงพอ
การทำให้การแจกแจงเป็นมาตรฐาน เราเริ่มต้นด้วยการทำให้การแจกแจงความน่าจะเป็นเป็นมาตรฐาน โดยทั่วไปแล้ว ฟังก์ชันf ( x ) ที่ไม่เป็นลบใดๆ ที่ทำหน้าที่เป็นแกนหลัก ของการแจกแจงความน่าจะเป็น (ส่วนที่เข้ารหัสการพึ่งพาx ทั้งหมด ) สามารถทำให้เป็นการแจกแจงที่เหมาะสมได้โดยการทำให้เป็นมาตรฐาน กล่าว คือ
p ( x ) = 1 Z f ( x ) {\displaystyle p(x)={\frac {1}{Z}}f(x)}
ที่ไหน
Z = ∫ x f ( x ) d x . {\displaystyle Z=\int _{x}f(x)\,dx.}
บางครั้ง ตัวประกอบZ จะถูกเรียกว่าตัวปรับมาตรฐาน หรือฟังก์ชันแบ่งส่วน โดยอิงจากความคล้ายคลึงกับฟิสิกส์เชิง สถิติ
ในกรณีของตระกูลเลขชี้กำลังที่ p ( x ; η ) = g ( η ) h ( x ) e η ⋅ T ( x ) , {\displaystyle p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},}
เคอร์เนลคือ และฟังก์ชันพาร์ติชันคือ K ( x ) = h ( x ) e η ⋅ T ( x ) {\displaystyle K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}} Z = ∫ x h ( x ) e η ⋅ T ( x ) d x . {\displaystyle Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.}
เนื่องจากการกระจายตัวจะต้องได้รับการทำให้เป็นมาตรฐาน เราจึงมี
1 = ∫ x g ( η ) h ( x ) e η ⋅ T ( x ) d x = g ( η ) ∫ x h ( x ) e η ⋅ T ( x ) d x = g ( η ) Z . {\displaystyle {\begin{aligned}1&=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\&=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\[1ex]&=g({\boldsymbol {\eta }})Z.\end{aligned}}}
กล่าวอีกนัยหนึ่ง หรือเทียบเท่ากัน g ( η ) = 1 Z {\displaystyle g({\boldsymbol {\eta }})={\frac {1}{Z}}} A ( η ) = − log g ( η ) = log Z . {\displaystyle A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.}
ด้วยเหตุนี้จึงเรียก ฟังก์ชัน A ว่า ฟังก์ชัน ปรับค่าลอการิทึมให้เป็นมาตรฐาน หรือฟังก์ชันแบ่งพาร์ติชัน ลอการิทึม
ฟังก์ชันสร้างโมเมนต์ของสถิติเพียงพอ ตอนนี้ฟังก์ชันสร้างโมเมนต์ ของT ( x ) คือ
M T ( u ) ≡ E [ exp ( u T T ( x ) ) ∣ η ] = ∫ x h ( x ) exp [ ( η + u ) T T ( x ) − A ( η ) ] d x = e A ( η + u ) − A ( η ) {\displaystyle {\begin{aligned}M_{T}(u)&\equiv \operatorname {E} \left[\exp \left(u^{\mathsf {T}}T(x)\right)\mid \eta \right]\\&=\int _{x}h(x)\,\exp \left[(\eta +u)^{\mathsf {T}}T(x)-A(\eta )\right]\,dx\\[1ex]&=e^{A(\eta +u)-A(\eta )}\end{aligned}}}
เป็นการพิสูจน์คำกล่าวข้างต้นที่ว่า
K ( u ∣ η ) = A ( η + u ) − A ( η ) {\displaystyle K(u\mid \eta )=A(\eta +u)-A(\eta )}
คือฟังก์ชันก่อกำเนิดคูมูลัน ต์ สำหรับT
กลุ่มย่อยที่สำคัญของตระกูลเลขชี้กำลังคือตระกูลเลขชี้กำลังธรรมชาติ ซึ่งมีรูปแบบที่คล้ายคลึงกันสำหรับฟังก์ชันสร้างโมเมนต์ของการกระจายของ x
เอกลักษณ์เชิงอนุพันธ์สำหรับคูมูลันต์ โดยเฉพาะอย่างยิ่ง การใช้คุณสมบัติของฟังก์ชันก่อกำเนิดคูมูลันต์
E ( T j ) = ∂ A ( η ) ∂ η j {\displaystyle \operatorname {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}}
และ
cov ( T i , T j ) = ∂ 2 A ( η ) ∂ η i ∂ η j . {\displaystyle \operatorname {cov} \left(T_{i},\,T_{j}\right)={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.}
โมเมนต์ดิบสองค่าแรกและโมเมนต์อันดับสองแบบผสมทั้งหมดสามารถกู้คืนได้จากเอกลักษณ์ทั้งสองนี้ โมเมนต์และคูมูลันต์ลำดับสูงกว่าได้มาจากการอนุพันธ์ลำดับสูงกว่า เทคนิคนี้มักมีประโยชน์เมื่อT เป็นฟังก์ชันที่ซับซ้อนของข้อมูล ซึ่งโมเมนต์ของข้อมูลนั้นคำนวณได้ยากโดยการอินทิเกรต
อีกวิธีหนึ่งที่จะมองเรื่องนี้โดยไม่ต้องอาศัยทฤษฎีของคูมูลันต์ คือ เริ่มจากข้อเท็จจริงที่ว่าการแจกแจงของตระกูลเอกซ์โพเนนเชียลจะต้องได้รับการทำให้เป็นมาตรฐาน แล้วจึงทำการหาอนุพันธ์ เราจะยกตัวอย่างโดยใช้กรณีง่ายๆ ของพารามิเตอร์หนึ่งมิติ แต่การพิสูจน์ในทำนองเดียวกันนี้สามารถใช้ได้กับกรณีทั่วไปมากกว่า
ในกรณีหนึ่งมิติ เรามี p ( x ) = g ( η ) h ( x ) e η T ( x ) . {\displaystyle p(x)=g(\eta )h(x)e^{\eta T(x)}.}
สิ่งนี้ต้องได้รับการปรับให้เป็นมาตรฐาน ดังนั้น
1 = ∫ x p ( x ) d x = ∫ x g ( η ) h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) e η T ( x ) d x . {\displaystyle 1=\int _{x}p(x)\,dx=\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx=g(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx.}
หาอนุพันธ์ ของทั้งสองข้างเทียบกับη :
0 = g ( η ) d d η ∫ x h ( x ) e η T ( x ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) ( d d η e η T ( x ) ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) e η T ( x ) T ( x ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = ∫ x T ( x ) g ( η ) h ( x ) e η T ( x ) d x + g ′ ( η ) g ( η ) ∫ x g ( η ) h ( x ) e η T ( x ) d x = ∫ x T ( x ) p ( x ) d x + g ′ ( η ) g ( η ) ∫ x p ( x ) d x = E [ T ( x ) ] + g ′ ( η ) g ( η ) = E [ T ( x ) ] + d d η log g ( η ) {\displaystyle {\begin{aligned}0&=g(\eta ){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)g(\eta )h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}p(x)\,dx\\[1ex]&=\operatorname {E} [T(x)]+{\frac {g'(\eta )}{g(\eta )}}\\[1ex]&=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta )\end{aligned}}}
ดังนั้น, E [ T ( x ) ] = − d d η log g ( η ) = d d η A ( η ) . {\displaystyle \operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta )={\frac {d}{d\eta }}A(\eta ).}
ตัวอย่างที่ 1 เพื่อเป็นตัวอย่างเบื้องต้น ลองพิจารณาการแจกแจงแกมมา ซึ่งการแจกแจงนี้กำหนดโดย
p ( x ) = β α Γ ( α ) x α − 1 e − β x . {\displaystyle p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.}
จากตารางข้างต้น เราจะเห็นว่าพารามิเตอร์ธรรมชาติมีค่าดังนี้
η 1 = α − 1 , η 2 = − β , {\displaystyle {\begin{aligned}\eta _{1}&=\alpha -1,\\\eta _{2}&=-\beta ,\end{aligned}}}
การแทนที่แบบย้อนกลับคือ
α = η 1 + 1 , β = − η 2 , {\displaystyle {\begin{aligned}\alpha &=\eta _{1}+1,\\\beta &=-\eta _{2},\end{aligned}}}
สถิติที่เพียงพอคือ(log x , x) และฟังก์ชันการแบ่งพาร์ติชันแบบลอการิทึมคือ
A ( η 1 , η 2 ) = log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) . {\displaystyle A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).}
เราสามารถหาค่าเฉลี่ยของสถิติเพียงพอได้ดังนี้ ขั้นแรก สำหรับη 1 :
E [ log x ] = ∂ ∂ η 1 A ( η 1 , η 2 ) = ∂ ∂ η 1 [ log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) ] = ψ ( η 1 + 1 ) − log ( − η 2 ) = ψ ( α ) − log β , {\displaystyle {\begin{aligned}\operatorname {E} [\log x]&={\frac {\partial }{\partial \eta _{1}}}A(\eta _{1},\eta _{2})\\[0.5ex]&={\frac {\partial }{\partial \eta _{1}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=\psi (\eta _{1}+1)-\log(-\eta _{2})\\[1ex]&=\psi (\alpha )-\log \beta ,\end{aligned}}}
ฟังก์ชันไดแกมมา (อนุพันธ์ของลอการิทึมแกมมา) อยู่ที่ไหนและเราใช้การแทนที่แบบย้อนกลับในขั้นตอนสุดท้าย ψ ( x ) {\displaystyle \psi (x)}
ต่อไปนี้คือค่าη 2 :
E [ x ] = ∂ ∂ η 2 A ( η 1 , η 2 ) = ∂ ∂ η 2 [ log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) ] = − ( η 1 + 1 ) 1 − η 2 ( − 1 ) = η 1 + 1 − η 2 = α β , {\displaystyle {\begin{aligned}\operatorname {E} [x]&={\frac {\partial }{\partial \eta _{2}}}A(\eta _{1},\eta _{2})\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}={\frac {\alpha }{\beta }},\end{aligned}}}
อีกครั้งโดยทำการแทนที่แบบย้อนกลับในขั้นตอนสุดท้าย
ในการคำนวณค่าความแปรปรวนของx เราเพียงแค่ทำการหาอนุพันธ์อีกครั้ง:
Var ( x ) = ∂ 2 ∂ η 2 2 A ( η 1 , η 2 ) = ∂ ∂ η 2 η 1 + 1 − η 2 = η 1 + 1 η 2 2 = α β 2 . {\displaystyle {\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}}{\partial \eta _{2}^{2}}}A{\left(\eta _{1},\eta _{2}\right)}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\[1ex]&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}}
การคำนวณทั้งหมดนี้สามารถทำได้โดยใช้การอินทิเกรต โดยใช้ประโยชน์จากคุณสมบัติต่างๆ ของฟังก์ชันแกมมา แต่ต้องใช้ความพยายามมากกว่ามาก
ตัวอย่างที่ 2 อีกตัวอย่างหนึ่งคือ พิจารณาตัวแปรสุ่มค่าจริงX ที่มีฟังก์ชันความหนาแน่น
p θ ( x ) = θ e − x ( 1 + e − x ) θ + 1 {\displaystyle p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}}
จัดทำดัชนีโดยพารามิเตอร์รูปร่าง(เรียกว่าการแจกแจงแบบสเกวโลจิสติก ) ความหนาแน่นสามารถเขียนใหม่ได้ดังนี้ θ ∈ ( 0 , ∞ ) {\displaystyle \theta \in (0,\infty )}
e − x 1 + e − x exp [ − θ log ( 1 + e − x ) + log ( θ ) ] {\displaystyle {\frac {e^{-x}}{1+e^{-x}}}\exp[-\theta \log \left(1+e^{-x})+\log(\theta )\right]}
โปรดสังเกตว่านี่คือตระกูลเลขชี้กำลังที่มีพารามิเตอร์ธรรมชาติ
η = − θ , {\displaystyle \eta =-\theta ,}
สถิติที่เพียงพอ
T = log ( 1 + e − x ) , {\displaystyle T=\log \left(1+e^{-x}\right),}
และฟังก์ชันการแบ่งพาร์ติชันลอการิทึม
A ( η ) = − log ( θ ) = − log ( − η ) {\displaystyle A(\eta )=-\log(\theta )=-\log(-\eta )}
ดังนั้น เมื่อใช้เอกลักษณ์แรก
E [ log ( 1 + e − X ) ] = E ( T ) = ∂ A ( η ) ∂ η = ∂ ∂ η [ − log ( − η ) ] = 1 − η = 1 θ , {\displaystyle \operatorname {E} \left[\log \left(1+e^{-X}\right)\right]=\operatorname {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},}
และใช้เอกลักษณ์ที่สอง
var [ log ( 1 + e − X ) ] = ∂ 2 A ( η ) ∂ η 2 = ∂ ∂ η [ 1 − η ] = 1 ( − η ) 2 = 1 θ 2 . {\displaystyle \operatorname {var} \left[\log \left(1+e^{-X}\right)\right]={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{{\left(-\eta \right)}^{2}}}={\frac {1}{\theta ^{2}}}.}
ตัวอย่างนี้แสดงให้เห็นถึงกรณีที่การใช้วิธีนี้ง่ายมาก แต่การคำนวณโดยตรงนั้นแทบจะเป็นไปไม่ได้เลย
ตัวอย่างที่ 3 ตัวอย่างสุดท้ายคือกรณีที่การหาปริพันธ์ทำได้ยากมาก นั่นคือกรณีของการแจกแจงวิชาร์ต ซึ่งกำหนดไว้บนเมทริกซ์ แม้แต่การหาอนุพันธ์ก็ยังค่อนข้างยุ่งยาก เพราะเกี่ยวข้องกับแคลคูลัสเมทริกซ์ แต่เอกลักษณ์ที่เกี่ยวข้องได้ระบุไว้ในบทความนั้นแล้ว
จากตารางข้างต้น เราจะเห็นได้ว่าพารามิเตอร์ธรรมชาติมีค่าดังนี้
η 1 = − 1 2 V − 1 , η 2 = − 1 2 ( n − p − 1 ) , {\displaystyle {\begin{aligned}{\boldsymbol {\eta }}_{1}&=-{\tfrac {1}{2}}\mathbf {V} ^{-1},\\\eta _{2}&={\hphantom {-}}{\tfrac {1}{2}}\left(n-p-1\right),\end{aligned}}}
การแทนที่แบบย้อนกลับคือ
V = − 1 2 η 1 − 1 , n = 2 η 2 + p + 1 , {\displaystyle {\begin{aligned}\mathbf {V} &=-{\tfrac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1},\\n&=2\eta _{2}+p+1,\end{aligned}}}
และสถิติที่เพียงพอคือ( X , log | X | ) . {\displaystyle (\mathbf {X} ,\log |\mathbf {X} |).}
ฟังก์ชันการแบ่งพาร์ติชันแบบลอการิทึมถูกเขียนในรูปแบบต่างๆ ในตาราง เพื่ออำนวยความสะดวกในการหาอนุพันธ์และการแทนค่ากลับ เราใช้รูปแบบต่อไปนี้:
A ( η 1 , n ) = − n 2 log | − η 1 | + log Γ p ( n 2 ) , A ( V , η 2 ) = ( η 2 + p + 1 2 ) log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) . {\displaystyle {\begin{aligned}A({\boldsymbol {\eta }}_{1},n)&=-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)},\\[1ex]A(\mathbf {V} ,\eta _{2})&=\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}.\end{aligned}}}
ความคาดหวังของX (ที่เกี่ยวข้องกับη 1 ) ในการหาอนุพันธ์เทียบกับη 1 เราจำเป็นต้องใช้ เอกลักษณ์ แคลคูลัสเมทริกซ์ ต่อไปนี้ :
∂ log | a X | ∂ X = ( X − 1 ) T {\displaystyle {\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\mathsf {T}}}
แล้ว:
E [ X ] = ∂ ∂ η 1 A ( η 1 , … ) = ∂ ∂ η 1 [ − n 2 log | − η 1 | + log Γ p ( n 2 ) ] = − n 2 ( η 1 − 1 ) T = n 2 ( − η 1 − 1 ) T = n ( V ) T = n V {\displaystyle {\begin{aligned}\operatorname {E} [\mathbf {X} ]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}A\left({\boldsymbol {\eta }}_{1},\ldots \right)\\[1ex]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\right]\\[1ex]&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&=n(\mathbf {V} )^{\mathsf {T}}\\[1ex]&=n\mathbf {V} \end{aligned}}}
บรรทัดสุดท้ายใช้ข้อเท็จจริงที่ว่าV เป็นเมทริกซ์สมมาตร ดังนั้นจึงเหมือนเดิมเมื่อสลับตำแหน่ง
ความคาดหวังของ log | X | (ที่เกี่ยวข้องกับη 2 ) ทีนี้ สำหรับη 2 เราจำเป็นต้องขยายส่วนของฟังก์ชัน log-partition ที่เกี่ยวข้องกับฟังก์ชันแกมมาหลายตัวแปร ก่อน :
log Γ p ( a ) = log ( π p ( p − 1 ) 4 ∏ j = 1 p Γ ( a + 1 − j 2 ) ) = p ( p − 1 ) 4 log π + ∑ j = 1 p log Γ ( a + 1 − j 2 ) {\displaystyle {\begin{aligned}\log \Gamma _{p}(a)&=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma {\left(a+{\frac {1-j}{2}}\right)}\right)\\&={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma {\left(a+{\frac {1-j}{2}}\right)}\end{aligned}}}
นอกจากนี้เรายังต้องการฟังก์ชันไดแกมมา ด้วย :
ψ ( x ) = d d x log Γ ( x ) . {\displaystyle \psi (x)={\frac {d}{dx}}\log \Gamma (x).}
แล้ว:
E [ log | X | ] = ∂ ∂ η 2 A ( … , η 2 ) = ∂ ∂ η 2 [ − ( η 2 + p + 1 2 ) log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) ] = ∂ ∂ η 2 [ ( η 2 + p + 1 2 ) log ( 2 p | V | ) ] + ∂ ∂ η 2 [ p ( p − 1 ) 4 log π ] = + ∂ ∂ η 2 ∑ j = 1 p log Γ ( η 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( η 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( n − p − 1 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( n + 1 − j 2 ) {\displaystyle {\begin{aligned}\operatorname {E} [\log |\mathbf {X} |]&={\frac {\partial }{\partial \eta _{2}}}A\left(\ldots ,\eta _{2}\right)\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}\right]\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)\right]+{\frac {\partial }{\partial \eta _{2}}}\left[{\frac {p(p-1)}{4}}\log \pi \right]\\&{\hphantom {=}}+{\frac {\partial }{\partial \eta _{2}}}\sum _{j=1}^{p}\log \Gamma {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n-p-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n+1-j}{2}}\right)}\end{aligned}}}
สูตรหลังนี้ปรากฏอยู่ใน บทความเกี่ยวกับ การแจกแจงแบบวิชาร์ต ความคาดหวังทั้งสองนี้จำเป็นเมื่อทำการหา อนุพันธ์ของสมการปรับปรุง แบบเบย์แปรผัน ในเครือข่ายเบย์ ที่เกี่ยวข้องกับการแจกแจงแบบวิชาร์ต (ซึ่งเป็นไพรเออร์คู่ควบ ของการแจกแจงปกติแบบหลายตัวแปร )
การคำนวณสูตรเหล่านี้โดยใช้การอินทิเกรตจะยากกว่ามาก ตัวอย่างเช่น สูตรแรกจะต้องใช้การอินทิเกรตเมทริกซ์
เอนโทรปี
เอนโทรปีสัมพัทธ์ เอนโทรปีสัมพัทธ์ ( ความแตกต่างของ Kullback–Leibler , KL divergence) ของการแจกแจงสองแบบในตระกูลเอกซ์โพเนนเชียลมีการแสดงออกอย่างง่ายในรูปของความแตกต่างของ Bregman ระหว่างพารามิเตอร์ธรรมชาติโดยสัมพันธ์กับ log-normalizer [ 14 ] เอนโทรปีสัมพัทธ์ถูกกำหนดในรูปของปริพันธ์ ในขณะที่ความแตกต่างของ Bregman ถูกกำหนดในรูปของอนุพันธ์และผลคูณภายใน ดังนั้นจึงคำนวณได้ง่ายกว่าและมีสูตรสำเร็จรูป (โดยสมมติว่าอนุพันธ์มีสูตรสำเร็จรูป) นอกจากนี้ ความแตกต่างของ Bregman ในรูปของพารามิเตอร์ธรรมชาติและ log-normalizer เท่ากับความแตกต่างของ Bregman ของพารามิเตอร์คู่ (พารามิเตอร์ความคาดหวัง) ในลำดับตรงกันข้าม สำหรับฟังก์ชันคู่ควบนูน [ 15 ]
เมื่อกำหนดตระกูลเอกซ์โพเนนเชียลที่มีตัวปรับค่าลอการิทึม( พร้อมคอนA {\displaystyle A} จูเกตแบบนูน) โดยA ∗ {\displaystyle A^{*}} เขียนแทน การ แจกแจง ในตระกูลนี้ที่สอดคล้องกับค่าคงที่ของพารามิเตอร์ธรรมชาติ( โดยเขียนแทนค่าอื่น และแทนพารามิเตอร์ ความคาดหวัง/โมเมนต์คู่ที่สอดคล้องกัน) โดยเขียนKL แทนความแตกต่าง KL และแทน ความแตกต่าง Bregman ความแตกต่างเหล่า นี้ มีความสัมพันธ์กันดังนี้ : P A , θ {\displaystyle P_{A,\theta }} θ {\displaystyle \theta } θ ′ {\displaystyle \theta '} η , η ′ {\displaystyle \eta ,\eta '} B A {\displaystyle B_{A}} KL ( P A , θ ∥ P A , θ ′ ) = B A ( θ ′ ∥ θ ) = B A ∗ ( η ∥ η ′ ) . {\displaystyle \operatorname {KL} (P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta )=B_{A^{*}}(\eta \parallel \eta ').}
โดยทั่วไปแล้ว ค่าความแตกต่าง KL จะเขียนโดยอ้างอิงกับ พารามิเตอร์ ตัวแรก ในขณะที่ค่าความแตกต่าง Bregman จะเขียนโดยอ้างอิงกับ พารามิเตอร์ ตัวที่สอง ดังนั้นจึงสามารถอ่านได้ว่า "เอนโทรปีสัมพัทธ์เท่ากับค่าความแตกต่าง Bregman ที่กำหนดโดยตัวทำให้เป็นมาตรฐานแบบลอการิทึมบนพารามิเตอร์ธรรมชาติที่สลับกัน" หรือเทียบเท่ากับ "เท่ากับค่าความแตกต่าง Bregman ที่กำหนดโดยคู่ขนานของตัวทำให้เป็นมาตรฐานแบบลอการิทึมบนพารามิเตอร์ความคาดหวัง"
การหาค่าเอนโทรปีสูงสุด ตระกูลเลขชี้กำลังเกิดขึ้นตามธรรมชาติเป็นคำตอบของคำถามต่อไปนี้: การกระจาย เอนโทรปีสูงสุด ที่สอดคล้องกับข้อจำกัดที่กำหนดเกี่ยวกับค่าที่คาดหวังคืออะไร? [ 16 ]
เอนโทรปีสารสนเทศ ของการกระจายความน่าจะเป็นdF ( x ) สามารถคำนวณได้โดยอ้างอิงจากการกระจายความน่าจะเป็นอื่น (หรือโดยทั่วไปแล้วคือการวัดเชิงบวก) เท่านั้น และการวัดทั้งสองต้อง มี ความต่อเนื่องสัมบูรณ์ซึ่ง กันและกันดังนั้น เราจึงต้องเลือกการวัดอ้างอิง dH ( x ) ที่มีขอบเขตเดียวกันกับdF ( x )
เอนโทรปีของdF ( x ) เทียบกับdH ( x ) คือ
S [ d F ∣ d H ] = − ∫ d F d H log d F d H d H {\displaystyle S[dF\mid dH]=-\int {\frac {dF}{dH}}\log {\frac {dF}{dH}}\,dH}
หรือ
S [ d F ∣ d H ] = ∫ log d H d F d F {\displaystyle S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF}
โดยที่dF / dH และdH / dF คืออนุพันธ์ของ Radon–Nikodym นิยามทั่วไปของเอนโทรปีสำหรับการกระจายแบบไม่ต่อเนื่องที่รองรับบนเซตI คือ
S = − ∑ i ∈ I p i log p i {\displaystyle S=-\sum _{i\in I}p_{i}\log p_{i}}
สมมติว่า (แม้ว่าจะไม่ค่อยมีการกล่าวถึง) dH ถูก เลือกให้เป็นมาตรวัดการนับ บนI
พิจารณากลุ่มของปริมาณที่สังเกตได้ (ตัวแปรสุ่ม) T i การแจกแจงความน่าจะเป็นdF ที่มีเอนโทรปีเทียบกับdH มากที่สุด ภายใต้เงื่อนไขที่ว่าค่าคาดหวังของT i เท่ากับt i จะ เป็นตระกูลเอกซ์โพเนนเชียล โดยมีdH เป็นมาตรวัดอ้างอิง และ( T 1 , ..., T n ) เป็นสถิติเพียงพอ
การหาอนุพันธ์เป็นการคำนวณแบบแปรผัน อย่างง่าย โดยใช้ตัวคูณลากรางจ์ การ ทำให้เป็นมาตรฐานทำได้โดยการกำหนดให้T 0 = 1 เป็นหนึ่งในข้อจำกัด พารามิเตอร์ตามธรรมชาติของการแจกแจงคือตัวคูณลากรางจ์ และปัจจัยการทำให้เป็นมาตรฐานคือตัวคูณลากรางจ์ที่เกี่ยวข้องกับT 0
สำหรับตัวอย่างของการหาอนุพันธ์ดังกล่าว โปรดดูที่การ กระจายความน่าจะเป็นแบบเอนโทรปีสูงสุด
บทบาทในด้านสถิติ
การประเมินแบบคลาสสิก: ความเพียงพอ ตามทฤษฎีบท ของ Pitman - Koopman - Darmois ในบรรดาตระกูลของการแจกแจงความน่าจะเป็นที่มีโดเมนไม่เปลี่ยนแปลงตามพารามิเตอร์ที่กำลังประมาณค่า มีเพียงตระกูลการแจกแจงแบบเอกซ์โปเนนเชียลเท่านั้นที่มีสถิติเพียงพอ ซึ่งมิติยังคงมีขอบเขตจำกัดเมื่อขนาดตัวอย่างเพิ่มขึ้น
กล่าวโดยสรุป สมมติว่าX k (โดยที่k = 1, 2, 3, ... n ) เป็น ตัวแปรสุ่มอิสระที่มีการแจกแจงเหมือน กัน เฉพาะในกรณีที่การแจกแจงของตัวแปรสุ่มเหล่านี้อยู่ในตระกูล การแจกแจงแบบเอกซ์โพเนนเชียลเท่านั้น จึงจะมีสถิติเพียงพอ T ( X 1 , ..., X n ) ที่จำนวน ส่วนประกอบสเกลาร์ ไม่เพิ่มขึ้นเมื่อขนาดตัวอย่างn เพิ่มขึ้น สถิติT อาจเป็นเวกเตอร์ หรือจำนวนสเกลาร์เดี่ยว แต่ไม่ว่าจะเป็นอะไรก็ตามขนาด ของมัน จะไม่เพิ่มขึ้นหรือลดลงเมื่อได้รับข้อมูลเพิ่มเติม
ในทางกลับกัน หากเงื่อนไขเหล่านี้ผ่อนคลายลง กลุ่มของการแจกแจงแบบเอกรูป (ไม่ว่าจะเป็นแบบไม่ต่อเนื่อง หรือแบบต่อเนื่อง โดยที่ขอบเขตใดขอบเขตหนึ่งหรือทั้งสองอย่างไม่ทราบค่า) จะมีสถิติที่เพียงพอ ได้แก่ ค่าสูงสุดของตัวอย่าง ค่าต่ำสุดของตัวอย่าง และขนาดของตัวอย่าง แต่จะไม่ก่อให้เกิดกลุ่มการแจกแจงแบบเอกซ์โปเนนเชียล เนื่องจากโดเมนจะแปรผันตามพารามิเตอร์
การประมาณค่าแบบเบย์เซียน: การแจกแจงแบบคู่ควบ ตระกูลเลขชี้กำลังมีความสำคัญในสถิติแบบเบย์เซียน เช่นกัน ในสถิติแบบเบย์เซียนการแจกแจงความน่าจะเป็นก่อนหน้า จะถูกคูณด้วยฟังก์ชันความน่าจะเป็น แล้วจึงปรับให้เป็นมาตรฐานเพื่อสร้างการแจกแจงความน่าจะเป็นภายหลัง ในกรณีที่ฟังก์ชันความน่าจะเป็นอยู่ในตระกูลเลขชี้กำลัง จะมีค่าความน่าจะเป็นก่อนหน้าแบบสัง ยุค ซึ่งมักจะอยู่ในตระกูลเลขชี้กำลังเช่นกัน ค่าความน่าจะเป็นก่อนหน้าแบบสังยุค π สำหรับพารามิเตอร์ของตระกูลเลขชี้กำลัง η {\displaystyle {\boldsymbol {\eta }}}
f ( x ∣ η ) = h ( x ) exp [ η T T ( x ) − A ( η ) ] {\displaystyle f(x\mid {\boldsymbol {\eta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right]}
ได้รับจาก
p π ( η ∣ χ , ν ) = f ( χ , ν ) exp [ η T χ − ν A ( η ) ] , {\displaystyle p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}-\nu A({\boldsymbol {\eta }})\right],}
หรือเทียบเท่า
p π ( η ∣ χ , ν ) = f ( χ , ν ) g ( η ) ν exp ( η T χ ) , χ ∈ R s {\displaystyle p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,g({\boldsymbol {\eta }})^{\nu }\,\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}}
โดยที่s คือมิติของและและคือไฮเปอร์พารามิเตอร์ (พารามิเตอร์ที่ควบคุมพารามิเตอร์) สอดคล้องกับจำนวนการสังเกตที่มีประสิทธิภาพที่การแจกแจงก่อนหน้ามีส่วนร่วม และสอดคล้องกับปริมาณทั้งหมดที่การสังเกตเสมือนเหล่านี้มีส่วนร่วมต่อสถิติที่เพียงพอ เหนือการสังเกตและการสังเกตเสมือนทั้งหมดคือค่าคงที่การทำให้เป็นมาตรฐาน ซึ่งถูกกำหนดโดยอัตโนมัติโดยฟังก์ชันที่เหลือและใช้เพื่อให้แน่ใจว่าฟังก์ชันที่กำหนดเป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น (กล่าวคือ เป็นมาตรฐาน ) และ ในทำนองเดียวกันคือฟังก์ชันเดียวกันกับในคำจำกัดความของการแจกแจงซึ่ง π คือการแจกแจงก่อนหน้าแบบสังยุค η {\displaystyle {\boldsymbol {\eta }}} ν > 0 {\displaystyle \nu >0} χ {\displaystyle {\boldsymbol {\chi }}} ν {\displaystyle \nu } χ {\displaystyle {\boldsymbol {\chi }}} f ( χ , ν ) {\displaystyle f({\boldsymbol {\chi }},\nu )} A ( η ) {\displaystyle A({\boldsymbol {\eta }})} g ( η ) {\displaystyle g({\boldsymbol {\eta }})}
ไพรเออร์แบบคอนจูเกต คือไพรเออร์ที่เมื่อรวมกับความน่าจะเป็นและทำให้เป็นมาตรฐานแล้ว จะได้การแจกแจงแบบโพสทีเรียร์ที่มีประเภทเดียวกันกับไพรเออร์ ตัวอย่างเช่น หากเรากำลังประมาณความน่าจะเป็นของความสำเร็จของการแจกแจงแบบทวินาม หากเราเลือกใช้การแจกแจงแบบเบตาเป็นไพรเออร์ การแจกแจงแบบโพสทีเรียร์ก็จะเป็นการแจกแจงแบบเบตาอีกแบบหนึ่ง ซึ่งทำให้การคำนวณการแจกแจงแบบโพสทีเรียร์ง่ายขึ้นมาก ในทำนองเดียวกัน หากเรากำลังประมาณค่าพารามิเตอร์ของการแจกแจงแบบปัวซง การใช้ไพรเออร์แบบแกมมาจะนำไปสู่การแจกแจงแบบโพสทีเรียร์แบบแกมมาอีกแบบหนึ่ง ไพรเออร์แบบคอนจูเกตมักมีความยืดหยุ่นและสะดวกมาก อย่างไรก็ตาม หากความเชื่อของเราเกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์ทีตาของการแจกแจงแบบทวินามแสดงโดยการแจกแจงแบบไพรเออร์แบบสองยอด (bimodal) (เช่น) การแจกแจงแบบเบตาจะไม่สามารถแสดงได้ด้วยการแจกแจงแบบเบตา แต่สามารถแสดงได้โดยใช้ความหนาแน่นแบบผสม เป็นไพรเออร์ ในที่นี้คือการรวมกันของการแจกแจงแบบเบตา 2 แบบ ซึ่งเป็นรูปแบบหนึ่งของไฮเปอร์ไพรเออ ร์
ความน่าจะเป็นแบบสุ่มจะไม่จัดอยู่ในกลุ่มฟังก์ชันเอกซ์โปเนนเชียล ดังนั้นโดยทั่วไปจึงไม่มีไพรเออร์แบบสังยุคอยู่ ดังนั้นจึงต้องคำนวณความน่าจะเป็นภายหลังด้วยวิธีการเชิงตัวเลข
เพื่อแสดงว่าการแจกแจงความน่าจะเป็นก่อนหน้าข้างต้นเป็นการแจกแจงความน่าจะเป็นก่อนหน้าแบบสังยุค เราสามารถหาการแจกแจงความน่าจะเป็นภายหลังได้
ขั้นแรก สมมติว่าความน่าจะเป็นของการสังเกตเพียงครั้งเดียวเป็นไปตามตระกูลฟังก์ชันเอกซ์ponential โดยมีพารามิเตอร์ตามธรรมชาติเป็นตัวกำหนด:
p F ( x ∣ η ) = h ( x ) g ( η ) exp [ η T T ( x ) ] {\displaystyle p_{F}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)\right]}
จากนั้น สำหรับข้อมูลความน่าจะเป็นจะคำนวณได้ดังนี้: X = ( x 1 , … , x n ) {\displaystyle \mathbf {X} =(x_{1},\ldots ,x_{n})}
p ( X ∣ η ) = ( ∏ i = 1 n h ( x i ) ) g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) {\displaystyle p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)}
จากนั้น สำหรับไพรเออร์คู่ควบข้างต้น:
p π ( η ∣ χ , ν ) = f ( χ , ν ) g ( η ) ν exp ( η T χ ) ∝ g ( η ) ν exp ( η T χ ) {\displaystyle {\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\end{aligned}}}
จากนั้นเราสามารถคำนวณค่าความน่าจะเป็นภายหลังได้ดังนี้:
p ( η ∣ X , χ , ν ) ∝ p ( X ∣ η ) p π ( η ∣ χ , ν ) = ( ∏ i = 1 n h ( x i ) ) g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) f ( χ , ν ) g ( η ) ν exp ( η T χ ) ∝ g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) g ( η ) ν exp ( η T χ ) = g ( η ) ν + n exp ( η T ( χ + ∑ i = 1 n T ( x i ) ) ) {\displaystyle {\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&=g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}}
บรรทัดสุดท้ายคือเคอร์เนล ของการแจกแจงความน่าจะเป็นภายหลัง กล่าวคือ
p ( η ∣ X , χ , ν ) = p π ( η | χ + ∑ i = 1 n T ( x i ) , ν + n ) {\displaystyle p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )=p_{\pi }\left({\boldsymbol {\eta }}\left|~{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i}),\nu +n\right.\right)}
สิ่งนี้แสดงให้เห็นว่าค่าความน่าจะเป็นภายหลังมีรูปแบบเดียวกันกับค่าความน่าจะเป็นก่อนหน้า
ข้อมูลX เข้าสู่สมการนี้เฉพาะ ในนิพจน์ เท่านั้น
T ( X ) = ∑ i = 1 n T ( x i ) , {\displaystyle \mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i}),}
ซึ่งเรียกว่าสถิติเพียงพอ ของข้อมูล กล่าวคือ ค่าของสถิติเพียงพอนั้นเพียงพอที่จะกำหนดการแจกแจงภายหลังได้อย่างสมบูรณ์ ไม่จำเป็นต้องใช้จุดข้อมูลจริง และชุดข้อมูลทั้งหมดที่มีสถิติเพียงพอเดียวกันจะมีลักษณะการแจกแจงเดียวกัน นี่เป็นสิ่งสำคัญเพราะมิติของสถิติเพียงพอจะไม่เพิ่มขึ้นตามขนาดของข้อมูล — มันมีส่วนประกอบเพียงเท่ากับจำนวนส่วนประกอบของ(หรือเทียบเท่ากับจำนวนพารามิเตอร์ของการแจกแจงของจุดข้อมูลเดียว) η {\displaystyle {\boldsymbol {\eta }}}
สมการสำหรับการปรับปรุงมีดังนี้:
χ ′ = χ + T ( X ) = χ + ∑ i = 1 n T ( x i ) ν ′ = ν + n {\displaystyle {\begin{aligned}{\boldsymbol {\chi }}'&={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )\\&={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '&=\nu +n\end{aligned}}}
สิ่งนี้แสดงให้เห็นว่าสมการการปรับปรุงสามารถเขียนได้ง่ายๆ โดยใช้จำนวนจุดข้อมูลและสถิติเพียงพอ ของข้อมูล ซึ่งสามารถเห็นได้อย่างชัดเจนในตัวอย่างต่างๆ ของสมการการปรับปรุงที่แสดงใน หน้าเกี่ยวกับไพรเออร์ แบบคอนจูเกต เนื่องจากวิธีการคำนวณสถิติเพียงพอ จึงจำเป็นต้องใช้ผลรวมของส่วนประกอบของข้อมูล (ในบางกรณีอาจอยู่ในรูปผลคูณหรือรูปแบบอื่นๆ — ผลคูณสามารถเขียนได้ในรูปผลรวมของลอการิทึม ) กรณีที่สมการการปรับปรุงสำหรับการแจกแจงเฉพาะไม่ตรงกับรูปแบบข้างต้น คือกรณีที่ไพรเออร์แบบคอนจูเกตถูกแสดงโดยใช้การกำหนดพารามิเตอร์ ที่แตกต่าง จากที่สร้างไพรเออร์แบบคอนจูเกตในรูปแบบข้างต้น — โดยเฉพาะอย่างยิ่งเนื่องจากรูปแบบข้างต้นถูกกำหนดไว้เหนือพารามิเตอร์ธรรมชาติในขณะที่ไพรเออร์แบบคอนจูเกตมักถูกกำหนดไว้เหนือพารามิเตอร์จริงη {\displaystyle {\boldsymbol {\eta }}} θ . {\displaystyle {\boldsymbol {\theta }}.}
การประมาณค่าที่ไม่ลำเอียง ถ้าความน่าจะเป็นเป็นตระกูลเอกซ์โพเนนเชียล ตัวประมาณที่ไม่เอนเอียงของคือ[ 17 ] z | η ∼ e η z f 1 ( η ) f 0 ( z ) {\displaystyle z|\eta \sim e^{\eta z}f_{1}(\eta )f_{0}(z)} η {\displaystyle \eta } − d d z ln f 0 ( z ) {\displaystyle -{\frac {d}{dz}}\ln f_{0}(z)}
ตระกูลเอกซ์โพเนนเชียลแบบพารามิเตอร์เดียวมีอัตราส่วนความน่าจะเป็นที่ไม่ลดลงแบบโมโนโทนในสถิติเพียงพอ T ( x ) โดยมีเงื่อนไขว่าη ( θ ) ไม่ลดลง ผล ที่ ตาม มา คือ มีการทดสอบที่มีกำลังสูงสุดอย่างสม่ำเสมอ สำหรับการ ทดสอบ สมมติฐาน H₀ : θ ≥ θ₀ เทียบ กับH₁ : θ < θ₀
แบบจำลองเชิงเส้นทั่วไป ตระกูลเลขชี้กำลังเป็นพื้นฐานของฟังก์ชันการแจกแจงที่ใช้ในแบบจำลองเชิงเส้นทั่วไป (GLM) ซึ่งเป็นแบบจำลองประเภทหนึ่งที่ครอบคลุมแบบจำลองการถดถอยที่ใช้กันทั่วไปในทางสถิติหลายแบบ ตัวอย่างเช่นการถดถอยโลจิสติก โดยใช้ตระกูลทวินาม และการถดถอยปัวซ ง
ดูเพิ่มเติม
อ่านเพิ่มเติม Fahrmeir, Ludwig; Tutz, G. (1994). การสร้างแบบจำลองทางสถิติหลายตัวแปรโดยใช้แบบจำลองเชิงเส้นทั่วไป Springer. หน้า 18–22 , 345–349 . ISBN 0-387-94233-5 . คีนเนอร์, โรเบิร์ต ดับเบิลยู. (2006). สถิติเชิงทฤษฎี: หัวข้อสำหรับหลักสูตรแกนกลาง . สปริงเกอร์. หน้า 27–28 , 32–33 . ISBN 978-0-387-93838-7 . เลห์มันน์, เอล; คาเซลลา, จี. (1998) ทฤษฎีการประมาณค่าจุด (ฉบับพิมพ์ครั้งที่ 2) วินาที 1.5. ไอเอสบีเอ็น 0-387-98502-6 .
ลิงก์ภายนอก บทนำเกี่ยวกับตระกูลการแจกแจงแบบเอกซ์โปเนนเชียล ตระกูลการแจกแจงแบบเอกซ์โปเนนเชียลการใช้คำศัพท์ทางคณิตศาสตร์บางคำที่เก่าแก่ที่สุดเท่าที่ทราบ jMEF: ไลบรารี Java สำหรับตระกูลเลขชี้กำลังลิงก์ที่เลิกใช้งานแล้วถูกเก็บถาวรเมื่อ 2013-04-11 ที่archive.today แบบจำลองกราฟิก ตระกูลเลขชี้กำลัง และการอนุมานเชิงแปรผันโดย Wainwright และ Jordan (2008)