เอนโทรปีไขว้

Q: ข้อมูลสำคัญเกี่ยวกับ เอนโทรปีไขว้

ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด

ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด เมื่อรูปแบบการเข้ารหัสที่ใช้สำหรับชุดนั้นได้รับการปรับให้เหมาะสมกับการแจกแจงความน่าจะเป็นที่ประมาณไว้แทนที่จะเป็นการแจกแจงที่แท้จริง $p$ $q$ $q$ $p$

คำนิยาม

ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้: $q$ $p$

$H(p,q)=-\operatorname {E} _{p}[\log q],$

โดยที่ตัว ดำเนินการ ค่าคาดหวังสัมพันธ์กับการกระจายตัว $\operatorname {E} _{p}[\cdot ]$ $p$

นิยามนี้สามารถกำหนดได้โดยใช้ความแตกต่างของ Kullback–Leibler ซึ่งเป็นความแตกต่างของจาก(หรือที่รู้จักกันในชื่อเอนโทรปีสัมพัทธ์ของเมื่อเทียบกับ) $D_{\mathrm {KL} }(p\parallel q)$ $p$ $q$ $p$ $q$

$H(p,q)=H(p)+D_{\mathrm {KL} }(p\parallel q),$

เอนโทรปี ของอยู่ที่ไหน $H(p)$ $p$

สำหรับการกระจายความน่าจะเป็นแบบไม่ต่อเนื่องและ มี ช่วงค่าเดียวกันหมายความว่า $p$ $q$ ${\mathcal {X}}$

$H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x).$ ( สมการที่ 1 )

สถานการณ์สำหรับ ฟังก์ชันการแจกแจง แบบต่อเนื่องก็คล้ายคลึงกัน เราต้องสมมติว่าและเป็นฟังก์ชันต่อเนื่องสัมบูรณ์เทียบกับมาตรวัด อ้างอิงบางอย่าง (โดยปกติจะเป็นมาตรวัดเลเบสบน พีชคณิต บอเรล σ ) ให้และเป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของและเทียบกับแล้ว $p$ $q$ $r$ $r$ $P$ $Q$ $p$ $q$ $r$

$-\int _{\mathcal {X}}P(x)\,\log Q(x)\,\mathrm {d} x=\ชื่อผู้ดำเนินการ {E} _{p}[-\log Q],$

และด้วยเหตุนี้

$H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,\mathrm {d} x.$ ( สมการที่ 2 )

หมายเหตุ: สัญลักษณ์นี้ยังใช้สำหรับแนวคิดที่แตกต่างออกไป นั่นคือเอน โทรปีร่วมของและ $H(p,q)$ $p$ $q$

แรงจูงใจ

ในทฤษฎีสารสนเทศทฤษฎีบทคราฟต์-แมคมิลแลนได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต ดังนั้น เอนโทรปีแบบไขว้จึงสามารถตีความได้ว่าเป็นความยาวข้อความที่คาดหวังต่อข้อมูล เมื่อสมมติการกระจายที่ไม่ถูกต้อง ในขณะที่ข้อมูลจริง ๆ แล้วเป็นไปตามการกระจายนั่นคือเหตุผลที่ค่าเฉลี่ยถูกคำนวณจากการกระจายความน่าจะเป็นที่แท้จริงไม่ใช่แท้จริงแล้ว ความยาวข้อความที่คาดหวังภายใต้การกระจายที่แท้จริงคือ $x_{i}$ $\{x_{1},\ldots ,x_{n}\}$ $q(x_{i})=\left({\frac {1}{2}}\right)^{\ell _{i}}$ $\{x_{1},\ldots ,x_{n}\}$ $\ell _{i}$ $x_{i}$ $q$ $p$ $p$ $q.$ $p$

${\begin{aligned}\operatorname {E} _{p}[\ell ]&=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]\\[1ex]&=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]\\[1ex]&=-\sum _{x_{i}}p(x_{i})\,\log _{2}q(x_{i})\\[1ex]&=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q).\end{aligned}}$

การประมาณการ

มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่นการสร้างแบบจำลองภาษาซึ่งสร้างแบบจำลองขึ้นจากชุดข้อมูลฝึกฝนจากนั้นจึงวัดค่าครอสเอนโทรปีของแบบจำลองนั้นบนชุดข้อมูลทดสอบเพื่อประเมินความแม่นยำของแบบจำลองในการทำนายข้อมูลทดสอบ ในตัวอย่างนี้คือการกระจายตัวที่แท้จริงของคำในคลังข้อมูลใดๆ และคือการกระจายตัวของคำที่แบบจำลองทำนายได้ เนื่องจากไม่ทราบการกระจายตัวที่แท้จริง จึงไม่สามารถคำนวณค่าครอสเอนโทรปีได้โดยตรง ในกรณีเหล่านี้ จะคำนวณค่าประมาณของครอสเอนโทรปีโดยใช้สูตรต่อไปนี้: $p$ $T$ $p$ $q$

$H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})$

โดยที่คือขนาดของชุดทดสอบ และคือความน่าจะเป็นของเหตุการณ์ที่ประมาณจากชุดฝึกฝน กล่าวอีกนัยหนึ่งคือค่าประมาณความน่าจะเป็นของแบบจำลองที่คำที่ i ของข้อความคือผลรวมจะถูกหาค่าเฉลี่ยจากคำต่างๆ ในชุดทดสอบ นี่คือการประมาณค่าเอนโทรปีไขว้ที่แท้จริงด้วยวิธีมอนเตคาร์โลโดยที่ชุดทดสอบถือเป็นตัวอย่างจาก $N$ $q(x)$ $x$ $q(x_{i})$ $x_{i}$ $N$ $p(x)$

ความสัมพันธ์กับความน่าจะเป็นสูงสุด

เอนโทรปีไขว้เกิดขึ้นในปัญหาการจำแนกประเภทเมื่อมีการนำลอการิทึมมาใช้ในรูปแบบของฟังก์ชัน ความน่าจะเป็นล็อก

ส่วนนี้เกี่ยวข้องกับการประมาณความน่าจะเป็นของผลลัพธ์แบบไม่ต่อเนื่องต่างๆ เพื่อจุดประสงค์นี้ ให้กำหนดตระกูลของการแจกแจงแบบพารามิเตอร์ด้วยโดยที่ภายใต้ความพยายามในการหาค่าที่เหมาะสมที่สุด พิจารณาลำดับค่าจำกัดที่กำหนดจากชุดข้อมูลฝึกฝน ซึ่งได้มาจาก การสุ่มตัวอย่าง แบบอิสระโดยมีเงื่อนไขความน่าจะเป็นที่กำหนดให้กับพารามิเตอร์ใดๆของแบบจำลองจะได้รับจากผลคูณของความน่าจะเป็นทั้งหมดการเกิดซ้ำเป็นไปได้ ทำให้ปัจจัยในผลคูณเท่ากัน ถ้าจำนวนครั้งที่ค่าเท่ากับถูกกำหนดด้วยแล้วความถี่ของค่านั้นจะเท่ากับถ้าคือการแจกแจงความน่าจะเป็นพื้นฐาน สำหรับค่า มาก เราคาดว่าตามกฎของจำนวนมาก $q_{\theta }$ $\theta$ $N$ $x_{i}$ $\theta$ $q_{\theta }(X=x_{i})$ $x$ $\#x$ $\#x/N$ $p(X=x)$ $N$ $p(X=x)\approx \#x/N$

เขียนฟังก์ชันความน่าจะเป็นของเราเป็นผลคูณของค่าสังเกตจากการกระจายตัว: โดยที่เราใช้กฎการคำนวณสำหรับลอการิทึมในบรรทัดสุดท้าย สังเกตว่าเลขชี้กำลังมีพจน์อยู่ การหาลอการิทึมของทั้งสองข้างจะได้: เนื่องจากลอการิทึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่องค่าสูงสุดของ จึงไม่ได้รับผลกระทบจากขั้นตอนสุดท้ายนี้ ในทำนองเดียวกัน ค่าสูงสุดของ ก็ไม่ได้รับผลกระทบจากตัวประกอบของดังนั้นเราจึงสังเกตได้ว่า การเพิ่มค่า ความน่าจะเป็นสูงสุด นั้นเทียบเท่า กับการลดค่าเอนโทรปีไขว้ให้เหลือน้อยที่สุด $q_{\theta }$ ${\begin{aligned}{\mathcal {L}}(\theta ;{\mathbf {x} })&=\prod _{i}q_{\theta }(X=x_{i})=\prod _{x}q_{\theta }(X=x)^{\#x}\\&\approx \prod _{x}q_{\theta }(X=x)^{N\cdot p(X=x)}=\exp \log \left[\prod _{x}q_{\theta }(X=x)^{N\cdot p(X=x)}\right]\\&=\exp \left(\sum _{x}N\cdot p(X=x)\log q_{\theta }(X=x)^{}\right),\end{aligned}}$ $-H(p,q_{\theta })$ $\log {\mathcal {L}}(\theta ;{\mathbf {x} })=-N\cdot H(p,q_{\theta })$ $\theta$ $\theta$ $N$

การลดค่าเอนโทรปีไขว้

การลดค่าครอสเอนโทรปีให้เหลือน้อยที่สุดนั้น มักถูกนำมาใช้ในการหาค่าเหมาะสมที่สุดและการประมาณความน่าจะเป็นของเหตุการณ์หายาก เมื่อเปรียบเทียบการแจกแจงกับค่าการแจกแจงอ้างอิงคงที่ ค่า ค รอสเอนโทรปีและค่าความแตกต่าง KLจะเหมือนกันจนถึงค่าคงที่บวก (เนื่องจากคงที่): ตามอสมการของกิบบส์ทั้งสองค่าจะมีค่าต่ำสุดเมื่อซึ่งคือสำหรับค่าความแตกต่าง KL และสำหรับค่าครอสเอนโทรปี ในเอกสารทางวิศวกรรม หลักการลดค่าความแตกต่าง KL ให้เหลือน้อยที่สุด (หลักการของคัลแบ็กเรื่อง " หลักการของข้อมูลการจำแนกขั้นต่ำ ") มักเรียกว่าหลักการ ของค่าครอสเอนโทรปีขั้นต่ำ (MCE) หรือMinxent $q$ $p$ $p$ $p=q$ $0$ $\mathrm {H} (p)$

อย่างไรก็ตาม ดังที่ได้กล่าวไว้ในบทความเรื่องความแตกต่างของ Kullback–Leiblerบางครั้งการแจกแจงจะเป็นการแจกแจงอ้างอิงก่อนหน้าคงที่ และการแจกแจงจะถูกปรับให้เหมาะสมที่สุดเพื่อให้ใกล้เคียงกับมากที่สุดเท่าที่จะเป็นไปได้ ภายใต้ข้อจำกัดบางประการ ในกรณีนี้ การลดค่าต่ำสุดทั้งสองจะไม่เท่ากัน ซึ่งนำไปสู่ความกำกวมในวรรณกรรม โดยผู้เขียนบางคนพยายามแก้ไขความไม่สอดคล้องกันโดยการกำหนดเอนโทรปีไขว้ใหม่เป็นแทนที่จะ เป็น อัน ที่จริง เอนโทรปีไขว้เป็นอีกชื่อหนึ่งของเอนโทรปีสัมพัทธ์ดู Cover และ Thomas ^[¹^] และ Good ^[²^]ในทางกลับกันไม่สอดคล้องกับวรรณกรรมและอาจทำให้เข้าใจผิดได้ $q$ $p$ $q$ $D_{\mathrm {KL} }(p\parallel q)$ $H(p,q)$ $H(p,q)$

ฟังก์ชันการสูญเสียแบบครอสเอนโทรปีและการถดถอยโลจิสติก

เอนโทรปีไขว้สามารถใช้กำหนดฟังก์ชันการสูญเสียในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพได้ Mao, Mohri และ Zhong (2023) ได้ทำการวิเคราะห์คุณสมบัติของตระกูลฟังก์ชันการสูญเสียเอนโทรปีไขว้ในการเรียนรู้ของเครื่องอย่างละเอียด รวมถึงการรับประกันการเรียนรู้เชิงทฤษฎีและการขยายไปสู่ การเรียนรู้ แบบต่อต้าน^{[ 3 ]}ความน่าจะเป็นที่แท้จริงคือป้ายกำกับที่แท้จริง และการกระจายที่กำหนดคือค่าที่คาดการณ์ของแบบจำลองปัจจุบัน สิ่งนี้ยังเป็นที่รู้จักในชื่อการสูญเสียแบบลอการิทึม (หรือการสูญเสียแบบลอการิทึม^[⁴^]หรือการสูญเสียแบบโลจิสติก ) ^[⁵^]คำว่า "การสูญเสียแบบลอการิทึม" และ "การสูญเสียเอนโทรปีไขว้" ใช้แทนกันได้^[⁶^] $p_{i}$ $q_{i}$

โดยเฉพาะอย่างยิ่ง ลองพิจารณา แบบจำลอง การถดถอยแบบไบนารีซึ่งสามารถใช้จำแนกข้อมูลสังเกตการณ์ออกเป็นสองคลาสที่เป็นไปได้ (มักจะเรียกง่ายๆ ว่าและ) ผลลัพธ์ของแบบจำลองสำหรับข้อมูลสังเกตการณ์ที่กำหนด โดยพิจารณาจากเวกเตอร์ของคุณลักษณะอินพุตสามารถตีความได้ว่าเป็นความน่าจะเป็น ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับการจำแนกข้อมูลสังเกตการณ์ ในการถดถอยโลจิสติกความน่าจะเป็นจะถูกจำลองโดยใช้ฟังก์ชันโลจิสติกโดยที่เป็นฟังก์ชันบางอย่างของเวกเตอร์อินพุตซึ่งโดยทั่วไปแล้วจะเป็นเพียงฟังก์ชันเชิงเส้น ความน่าจะเป็นของผลลัพธ์จะกำหนดโดย โดยที่เวกเตอร์ของน้ำหนักจะถูกปรับให้เหมาะสมผ่านอัลกอริทึมที่เหมาะสมบางอย่าง เช่นการไล่ระดับความชัน ในทำนองเดียวกัน ความน่าจะเป็นเสริมของการพบผลลัพธ์จะกำหนดโดย $0$ $1$ $x$ $g(z)=1/(1+e^{-z})$ $z$ $x$ $y=1$ $q_{y=1}={\hat {y}}\equiv g(\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-\mathbf {w} \cdot \mathbf {x} }}},$ $\mathbf {w}$ $y=0$ $q_{y=0}=1-{\หมวก {y}}.$

เมื่อเรากำหนดสัญลักษณ์และแล้วเราสามารถใช้เอนโทรปีไขว้เพื่อวัดความแตกต่างระหว่างและได้: $p\in \{y,1-y\}$ $q\in \{{\hat {y}},1-{\hat {y}}\}$ $p$ $q$ ${\begin{aligned}H(p,q)&=-\sum _{m}p_{m}\log q_{m}=-y\log {\hat {y}}-(1-y)\log(1-{\hat {y}}).\end{aligned}}$

โดยทั่วไปแล้ว การถดถอยโลจิสติกจะปรับค่าการสูญเสียล็อกให้เหมาะสมที่สุดสำหรับข้อมูลสังเกตการณ์ทั้งหมดที่ใช้ในการฝึก ซึ่งเหมือนกับการปรับค่าเอนโทรปีไขว้เฉลี่ยในตัวอย่างให้เหมาะสมที่สุด ฟังก์ชันการสูญเสียอื่นๆ ที่ลงโทษข้อผิดพลาดแตกต่างกันก็สามารถใช้ฝึกได้เช่นกัน ส่งผลให้โมเดลมีความแม่นยำในการทดสอบขั้นสุดท้ายที่แตกต่างกัน^{[ 7 ]}ตัวอย่างเช่น สมมติว่าเรามีตัวอย่าง โดยแต่ละตัวอย่างมีดัชนีเป็นค่าเฉลี่ยของฟังก์ชันการสูญเสียจะกำหนดโดย $N$ $n=1,\dots ,N$

${\begin{aligned}J(\mathbf {w} )&={\frac {1}{N}}\sum _{i=1}^{N}H(p_{i},q_{i})\\&=-{\frac {1}{N}}\sum _{i=1}^{N}\ \left[y_{i}\log {\hat {y}}_{i}+(1-y_{i})\log(1-{\hat {y}}_{i})\right],\end{aligned}}$

โดยที่ เป็น ฟังก์ชันโลจิสติกส์เช่นเดียวกับก่อนหน้านี้ ${\hat {y}}_{i}\equiv g(\mathbf {w} \cdot \mathbf {x} _{i})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{i}})$ $g(z)$

ความสัมพันธ์กับการถดถอยเชิงเส้น

ความชันของการสูญเสียแบบเอนโทรปีไขว้สำหรับการถดถอยโลจิสติกส์นั้นเท่ากับความชันของการสูญเสียแบบกำลังสองของความคลาดเคลื่อนสำหรับการถดถอยเชิงเส้น (โดยมีค่าคงที่ต่างกันเล็กน้อย) เพื่อดูสิ่งนี้ ให้กำหนด

$X\equiv {\begin{pmatrix}1&x_{11}&\dots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &&\vdots \\1&x_{N1}&\cdots &x_{Np}\\\end{pmatrix}}\in \mathbb {R} ^{N\times (p+1)},$ ${\hat {y_{i}}}=g(\mathbf {w} \cdot X^{i})={\frac {1}{1+\exp(-w_{0}-w_{1}x_{i1}-\dots -w_{p}x_{ip})}},$ $L(\mathbf {w} )\equiv -\sum _{i=1}^{N}\left[y_{i}\ln {\hat {y}}_{i}+(1-y_{i})\ln(1-{\hat {y}}_{i})\right].$

จากนั้นเราก็จะได้ผลลัพธ์

$\nabla _{\mathbf {w} }L(\mathbf {w} )=X^{\mathsf {T}}({\hat {\mathbf {y} }}-\mathbf {y} ).$

หลักฐาน:สำหรับทุกสิ่งที่เรามี ${\hat {y}}_{i}$

${\frac {\partial }{\partial w_{0}}}\ln {\hat {y}}_{i}={\frac {\partial }{\partial w_{0}}}\ln {\frac {1}{1+e^{-w_{0}+k_{0}}}}={\frac {e^{-w_{0}+k_{0}}}{1+e^{-w_{0}+k_{0}}}}=1-{\hat {y}}_{i},$ ${\frac {\partial }{\partial w_{0}}}\ln(1-{\hat {y}}_{i})={\frac {\partial }{\partial w_{0}}}\ln \left(1-{\frac {1}{1+e^{-w_{0}+k_{0}}}}\right)={\frac {-1}{1+e^{-w_{0}+k_{0}}}}=-{\hat {y}}_{i}$ และด้วยเหตุนี้ ${\begin{aligned}{\frac {\partial L}{\partial w_{0}}}&=-\sum _{i=1}^{N}[y_{i}(1-{\hat {y}}_{i})-(1-y_{i}){\hat {y}}_{i}]=-\sum _{i=1}^{N}[y_{i}-{\hat {y}}_{i}]=\sum _{i=1}^{N}X_{i0}({\hat {y}}_{i}-y_{i}).\end{aligned}}$

ในทำนองเดียวกัน สำหรับสิ่งใดๆและเรามี และดังนั้น ${\hat {y}}_{i}$ $j=1,\dots ,p$ ${\frac {\partial }{\partial w_{j}}}\ln {\hat {y}}_{i}={\frac {\partial }{\partial w_{j}}}\ln {\frac {1}{1+e^{-w_{j}x_{ij}+k_{j}}}}={\frac {x_{ij}e^{-w_{j}x_{ij}+k_{j}}}{1+e^{-w_{j}x_{ij}+k_{j}}}}=x_{ij}(1-{\hat {y}}_{i}),$ ${\frac {\partial }{\partial w_{j}}}\ln(1-{\hat {y}}_{i})={\frac {\partial }{\partial w_{j}}}\ln \left[1-{\frac {1}{1+e^{-w_{j}x_{ij}+k_{j}}}}\right]={\frac {-x_{ij}}{1+e^{-w_{j}x_{ij}+k_{j}}}}=-x_{ij}{\hat {y}}_{i}$ ${\begin{aligned}{\frac {\partial L}{\partial w_{j}}}&=-\sum _{i=1}^{N}x_{ij}[y_{i}(1-{\hat {y}}_{i})-(1-y_{i}){\hat {y}}_{i}]=\sum _{i=1}^{N}X_{ij}({\hat {y}}_{i}-y_{i}).\end{aligned}}$

เมื่อนำมารวมกัน เราจะได้ผลลัพธ์ที่ต้องการ โปรดสังเกตว่าในที่นี้เราใช้ลอการิทึมธรรมชาติแทน(ตามหลักการ) ในฟังก์ชันความสูญเสียซึ่งเพียงแค่เปลี่ยนผลลัพธ์ด้วยปัจจัยเท่านั้นยิ่งไปกว่านั้น สำหรับทุกค่าเราได้นำและ กลับมาใช้ ซ้ำเป็นค่าคงที่สำหรับแต่ละค่า $ln$ $log$ $log_{2}$ $L$ $log(e)$ $i$ $k_{0}:=-\sum _{l=1}^{p}w_{l}x_{il}$ $k_{j}:=-w_{0}-\sum _{l\neq j}w_{l}x_{il}$ $w_{j}$

เอนโทรปีไขว้ที่แก้ไขแล้ว

อาจเป็นประโยชน์ที่จะฝึกโมเดลแบบกลุ่มที่มีความหลากหลาย เพื่อให้เมื่อรวมกันแล้ว ความแม่นยำในการทำนายจะเพิ่มขึ้น^{[ 8 ]}^{[ 9 ]} สมมติว่ามีการประกอบกลุ่มตัวจำแนกแบบง่ายๆ โดยการหาค่าเฉลี่ยของผลลัพธ์ จากนั้นค่าเอนโทรปีไขว้ที่แก้ไขแล้วจะได้รับจาก โดย ที่คือฟังก์ชันต้นทุนของตัวจำแนกคือความน่าจะเป็นของผลลัพธ์ของตัวจำแนกคือความน่าจะเป็นที่แท้จริงที่จะประมาณ และคือพารามิเตอร์ระหว่าง 0 ถึง 1 ที่กำหนด 'ความหลากหลาย' ที่เราต้องการสร้างขึ้นในกลุ่ม เมื่อเราต้องการให้ตัวจำแนกแต่ละตัวทำได้ดีที่สุดโดยไม่คำนึงถึงกลุ่ม และเมื่อเราต้องการให้ตัวจำแนกมีความหลากหลายมากที่สุดเท่าที่จะเป็นไปได้ $K$ $e^{k}=H(p,q^{k})-{\frac {\lambda }{K}}\sum _{j\neq k}H(q^{j},q^{k})$ $e^{k}$ $k^{th}$ $q^{k}$ $k^{th}$ $p$ $\lambda$ $\lambda =0$ $\lambda =1$

ดูเพิ่มเติม

อ่านเพิ่มเติม

de Boer, Kroese, DP, Mannor, S. และ Rubinstein, RY (2005). บทช่วยสอนเกี่ยวกับวิธีเอนโทรปีไขว้ Annals of Operations Research 134 (1), 19–67.

[

[

[ 3 ]

[

[

[

[ 7 ]

[ 8 ]

[ 9 ]