อ่าน 12 นาที
เอนโทรปีไขว้
ใน ทฤษฎีสารสนเทศ เอน โทรปีไขว้ ระหว่าง การแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวน บิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด...
เอนโทรปีไขว้
| ทฤษฎีสารสนเทศ |
|---|
ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด เมื่อรูปแบบการเข้ารหัสที่ใช้สำหรับชุดนั้นได้รับการปรับให้เหมาะสมกับการแจกแจงความน่าจะเป็นที่ประมาณไว้แทนที่จะเป็นการแจกแจงที่แท้จริง
คำนิยาม
ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้:
โดยที่ตัว ดำเนินการ ค่าคาดหวังสัมพันธ์กับการกระจายตัว
นิยามนี้สามารถกำหนดได้โดยใช้ความแตกต่างของ Kullback–Leibler ซึ่งเป็นความแตกต่างของจาก(หรือที่รู้จักกันในชื่อเอนโทรปีสัมพัทธ์ของเมื่อเทียบกับ)
เอนโทรปี ของอยู่ที่ไหน
สำหรับการกระจายความน่าจะเป็นแบบไม่ต่อเนื่องและ มี ช่วงค่าเดียวกันหมายความว่า
( สมการที่ 1 )
สถานการณ์สำหรับ ฟังก์ชันการแจกแจง แบบต่อเนื่องก็คล้ายคลึงกัน เราต้องสมมติว่าและเป็นฟังก์ชันต่อเนื่องสัมบูรณ์เทียบกับมาตรวัด อ้างอิงบางอย่าง (โดยปกติจะเป็นมาตรวัดเลเบสบน พีชคณิต บอเรลσ ) ให้และเป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของและเทียบกับแล้ว
และด้วยเหตุนี้
( สมการที่ 2 )
หมายเหตุ: สัญลักษณ์นี้ยังใช้สำหรับแนวคิดที่แตกต่างออกไป นั่นคือเอน โทรปีร่วมของและ
แรงจูงใจ
ในทฤษฎีสารสนเทศทฤษฎีบทคราฟต์-แมคมิลแลนได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต ดังนั้น เอนโทรปีแบบไขว้จึงสามารถตีความได้ว่าเป็นความยาวข้อความที่คาดหวังต่อข้อมูล เมื่อสมมติการกระจายที่ไม่ถูกต้อง ในขณะที่ข้อมูลจริง ๆ แล้วเป็นไปตามการกระจายนั่นคือเหตุผลที่ค่าเฉลี่ยถูกคำนวณจากการกระจายความน่าจะเป็นที่แท้จริงไม่ใช่แท้จริงแล้ว ความยาวข้อความที่คาดหวังภายใต้การกระจายที่แท้จริงคือ
การประมาณการ
มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่นการสร้างแบบจำลองภาษาซึ่งสร้างแบบจำลองขึ้นจากชุดข้อมูลฝึกฝนจากนั้นจึงวัดค่าครอสเอนโทรปีของแบบจำลองนั้นบนชุดข้อมูลทดสอบเพื่อประเมินความแม่นยำของแบบจำลองในการทำนายข้อมูลทดสอบ ในตัวอย่างนี้คือการกระจายตัวที่แท้จริงของคำในคลังข้อมูลใดๆ และคือการกระจายตัวของคำที่แบบจำลองทำนายได้ เนื่องจากไม่ทราบการกระจายตัวที่แท้จริง จึงไม่สามารถคำนวณค่าครอสเอนโทรปีได้โดยตรง ในกรณีเหล่านี้ จะคำนวณค่าประมาณของครอสเอนโทรปีโดยใช้สูตรต่อไปนี้:
โดยที่คือขนาดของชุดทดสอบ และคือความน่าจะเป็นของเหตุการณ์ที่ประมาณจากชุดฝึกฝน กล่าวอีกนัยหนึ่งคือค่าประมาณความน่าจะเป็นของแบบจำลองที่คำที่ i ของข้อความคือผลรวมจะถูกหาค่าเฉลี่ยจากคำต่างๆ ในชุดทดสอบ นี่คือการประมาณค่าเอนโทรปีไขว้ที่แท้จริงด้วยวิธีมอนเตคาร์โลโดยที่ชุดทดสอบถือเป็นตัวอย่างจาก
ความสัมพันธ์กับความน่าจะเป็นสูงสุด
เอนโทรปีไขว้เกิดขึ้นในปัญหาการจำแนกประเภทเมื่อมีการนำลอการิทึมมาใช้ในรูปแบบของฟังก์ชัน ความน่าจะเป็นล็อก
ส่วนนี้เกี่ยวข้องกับการประมาณความน่าจะเป็นของผลลัพธ์แบบไม่ต่อเนื่องต่างๆ เพื่อจุดประสงค์นี้ ให้กำหนดตระกูลของการแจกแจงแบบพารามิเตอร์ด้วยโดยที่ภายใต้ความพยายามในการหาค่าที่เหมาะสมที่สุด พิจารณาลำดับค่าจำกัดที่กำหนดจากชุดข้อมูลฝึกฝน ซึ่งได้มาจาก การสุ่มตัวอย่าง แบบอิสระโดยมีเงื่อนไขความน่าจะเป็นที่กำหนดให้กับพารามิเตอร์ใดๆของแบบจำลองจะได้รับจากผลคูณของความน่าจะเป็นทั้งหมดการเกิดซ้ำเป็นไปได้ ทำให้ปัจจัยในผลคูณเท่ากัน ถ้าจำนวนครั้งที่ค่าเท่ากับถูกกำหนดด้วยแล้วความถี่ของค่านั้นจะเท่ากับถ้าคือการแจกแจงความน่าจะเป็นพื้นฐาน สำหรับค่า มาก เราคาดว่าตามกฎของจำนวนมาก
เขียนฟังก์ชันความน่าจะเป็นของเราเป็นผลคูณของค่าสังเกตจากการกระจายตัว: โดยที่เราใช้กฎการคำนวณสำหรับลอการิทึมในบรรทัดสุดท้าย สังเกตว่าเลขชี้กำลังมีพจน์อยู่ การหาลอการิทึมของทั้งสองข้างจะได้: เนื่องจากลอการิทึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่องค่าสูงสุดของ จึงไม่ได้รับผลกระทบจากขั้นตอนสุดท้ายนี้ ในทำนองเดียวกัน ค่าสูงสุดของ ก็ไม่ได้รับผลกระทบจากตัวประกอบของดังนั้นเราจึงสังเกตได้ว่า การเพิ่มค่า ความน่าจะเป็นสูงสุด นั้นเทียบเท่า กับการลดค่าเอนโทรปีไขว้ให้เหลือน้อยที่สุด
การลดค่าเอนโทรปีไขว้
การลดค่าครอสเอนโทรปีให้เหลือน้อยที่สุดนั้น มักถูกนำมาใช้ในการหาค่าเหมาะสมที่สุดและการประมาณความน่าจะเป็นของเหตุการณ์หายาก เมื่อเปรียบเทียบการแจกแจงกับค่าการแจกแจงอ้างอิงคงที่ ค่า ค รอสเอนโทรปีและค่าความแตกต่าง KLจะเหมือนกันจนถึงค่าคงที่บวก (เนื่องจากคงที่): ตามอสมการของกิบบส์ทั้งสองค่าจะมีค่าต่ำสุดเมื่อซึ่งคือสำหรับค่าความแตกต่าง KL และสำหรับค่าครอสเอนโทรปี ในเอกสารทางวิศวกรรม หลักการลดค่าความแตกต่าง KL ให้เหลือน้อยที่สุด (หลักการของคัลแบ็กเรื่อง " หลักการของข้อมูลการจำแนกขั้นต่ำ ") มักเรียกว่าหลักการ ของค่าครอสเอนโทรปีขั้นต่ำ (MCE) หรือMinxent
อย่างไรก็ตาม ดังที่ได้กล่าวไว้ในบทความเรื่องความแตกต่างของ Kullback–Leiblerบางครั้งการแจกแจงจะเป็นการแจกแจงอ้างอิงก่อนหน้าคงที่ และการแจกแจงจะถูกปรับให้เหมาะสมที่สุดเพื่อให้ใกล้เคียงกับมากที่สุดเท่าที่จะเป็นไปได้ ภายใต้ข้อจำกัดบางประการ ในกรณีนี้ การลดค่าต่ำสุดทั้งสองจะไม่เท่ากัน ซึ่งนำไปสู่ความกำกวมในวรรณกรรม โดยผู้เขียนบางคนพยายามแก้ไขความไม่สอดคล้องกันโดยการกำหนดเอนโทรปีไขว้ใหม่เป็นแทนที่จะ เป็น อัน ที่จริง เอนโทรปีไขว้เป็นอีกชื่อหนึ่งของเอนโทรปีสัมพัทธ์ดู Cover และ Thomas [ 1 ] และ Good [ 2 ]ในทางกลับกันไม่สอดคล้องกับวรรณกรรมและอาจทำให้เข้าใจผิดได้
ฟังก์ชันการสูญเสียแบบครอสเอนโทรปีและการถดถอยโลจิสติก
เอนโทรปีไขว้สามารถใช้กำหนดฟังก์ชันการสูญเสียในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพได้ Mao, Mohri และ Zhong (2023) ได้ทำการวิเคราะห์คุณสมบัติของตระกูลฟังก์ชันการสูญเสียเอนโทรปีไขว้ในการเรียนรู้ของเครื่องอย่างละเอียด รวมถึงการรับประกันการเรียนรู้เชิงทฤษฎีและการขยายไปสู่ การเรียนรู้ แบบต่อต้าน[ 3 ]ความน่าจะเป็นที่แท้จริงคือป้ายกำกับที่แท้จริง และการกระจายที่กำหนดคือค่าที่คาดการณ์ของแบบจำลองปัจจุบัน สิ่งนี้ยังเป็นที่รู้จักในชื่อการสูญเสียแบบลอการิทึม (หรือการสูญเสียแบบลอการิทึม[ 4 ]หรือการสูญเสียแบบโลจิสติก ) [ 5 ]คำว่า "การสูญเสียแบบลอการิทึม" และ "การสูญเสียเอนโทรปีไขว้" ใช้แทนกันได้[ 6 ]
โดยเฉพาะอย่างยิ่ง ลองพิจารณา แบบจำลอง การถดถอยแบบไบนารีซึ่งสามารถใช้จำแนกข้อมูลสังเกตการณ์ออกเป็นสองคลาสที่เป็นไปได้ (มักจะเรียกง่ายๆ ว่าและ) ผลลัพธ์ของแบบจำลองสำหรับข้อมูลสังเกตการณ์ที่กำหนด โดยพิจารณาจากเวกเตอร์ของคุณลักษณะอินพุตสามารถตีความได้ว่าเป็นความน่าจะเป็น ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับการจำแนกข้อมูลสังเกตการณ์ ในการถดถอยโลจิสติกความน่าจะเป็นจะถูกจำลองโดยใช้ฟังก์ชันโลจิสติกโดยที่เป็นฟังก์ชันบางอย่างของเวกเตอร์อินพุตซึ่งโดยทั่วไปแล้วจะเป็นเพียงฟังก์ชันเชิงเส้น ความน่าจะเป็นของผลลัพธ์จะกำหนดโดย โดยที่เวกเตอร์ของน้ำหนักจะถูกปรับให้เหมาะสมผ่านอัลกอริทึมที่เหมาะสมบางอย่าง เช่นการไล่ระดับความชัน ในทำนองเดียวกัน ความน่าจะเป็นเสริมของการพบผลลัพธ์จะกำหนดโดย
เมื่อเรากำหนดสัญลักษณ์และแล้วเราสามารถใช้เอนโทรปีไขว้เพื่อวัดความแตกต่างระหว่างและได้:

โดยทั่วไปแล้ว การถดถอยโลจิสติกจะปรับค่าการสูญเสียล็อกให้เหมาะสมที่สุดสำหรับข้อมูลสังเกตการณ์ทั้งหมดที่ใช้ในการฝึก ซึ่งเหมือนกับการปรับค่าเอนโทรปีไขว้เฉลี่ยในตัวอย่างให้เหมาะสมที่สุด ฟังก์ชันการสูญเสียอื่นๆ ที่ลงโทษข้อผิดพลาดแตกต่างกันก็สามารถใช้ฝึกได้เช่นกัน ส่งผลให้โมเดลมีความแม่นยำในการทดสอบขั้นสุดท้ายที่แตกต่างกัน[ 7 ]ตัวอย่างเช่น สมมติว่าเรามีตัวอย่าง โดยแต่ละตัวอย่างมีดัชนีเป็นค่าเฉลี่ยของฟังก์ชันการสูญเสียจะกำหนดโดย
โดยที่ เป็น ฟังก์ชันโลจิสติกส์เช่นเดียวกับก่อนหน้านี้
ความสัมพันธ์กับการถดถอยเชิงเส้น
ความชันของการสูญเสียแบบเอนโทรปีไขว้สำหรับการถดถอยโลจิสติกส์นั้นเท่ากับความชันของการสูญเสียแบบกำลังสองของความคลาดเคลื่อนสำหรับการถดถอยเชิงเส้น (โดยมีค่าคงที่ต่างกันเล็กน้อย) เพื่อดูสิ่งนี้ ให้กำหนด
จากนั้นเราก็จะได้ผลลัพธ์
หลักฐาน:สำหรับทุกสิ่งที่เรามี
และด้วยเหตุนี้
ในทำนองเดียวกัน สำหรับสิ่งใดๆและเรามี และดังนั้น
เมื่อนำมารวมกัน เราจะได้ผลลัพธ์ที่ต้องการ โปรดสังเกตว่าในที่นี้เราใช้ลอการิทึมธรรมชาติแทน(ตามหลักการ) ในฟังก์ชันความสูญเสียซึ่งเพียงแค่เปลี่ยนผลลัพธ์ด้วยปัจจัยเท่านั้นยิ่งไปกว่านั้น สำหรับทุกค่าเราได้นำและ กลับมาใช้ ซ้ำเป็นค่าคงที่สำหรับแต่ละค่า
เอนโทรปีไขว้ที่แก้ไขแล้ว
อาจเป็นประโยชน์ที่จะฝึกโมเดลแบบกลุ่มที่มีความหลากหลาย เพื่อให้เมื่อรวมกันแล้ว ความแม่นยำในการทำนายจะเพิ่มขึ้น[ 8 ] [ 9 ] สมมติว่ามีการประกอบกลุ่มตัวจำแนกแบบง่ายๆ โดยการหาค่าเฉลี่ยของผลลัพธ์ จากนั้นค่าเอนโทรปีไขว้ที่แก้ไขแล้วจะได้รับจาก โดย ที่คือฟังก์ชันต้นทุนของตัวจำแนกคือความน่าจะเป็นของผลลัพธ์ของตัวจำแนกคือความน่าจะเป็นที่แท้จริงที่จะประมาณ และคือพารามิเตอร์ระหว่าง 0 ถึง 1 ที่กำหนด 'ความหลากหลาย' ที่เราต้องการสร้างขึ้นในกลุ่ม เมื่อเราต้องการให้ตัวจำแนกแต่ละตัวทำได้ดีที่สุดโดยไม่คำนึงถึงกลุ่ม และเมื่อเราต้องการให้ตัวจำแนกมีความหลากหลายมากที่สุดเท่าที่จะเป็นไปได้
ดูเพิ่มเติม
- วิธีเอนโทรปีไขว้
- การถดถอยโลจิสติก
- เอนโทรปีแบบมีเงื่อนไข
- ระยะทาง Kullback–Leibler
- การประมาณค่าความน่าจะเป็นสูงสุด
- ข้อมูลร่วมกัน
- ความสับสน
อ่านเพิ่มเติม
- de Boer, Kroese, DP, Mannor, S. และ Rubinstein, RY (2005). บทช่วยสอนเกี่ยวกับวิธีเอนโทรปีไขว้ Annals of Operations Research 134 (1), 19–67.
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เอนโทรปีไขว้
ใน ทฤษฎีสารสนเทศ เอน โทรปีไขว้ ระหว่าง การแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวน บิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด...
คำนิยาม
ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้: q {\displaystyle q} พี {\displaystyle p}
แรงจูงใจ
ใน ทฤษฎีสารสนเทศ ทฤษฎีบท คราฟต์-แมคมิลแลน ได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต...
การประมาณการ
มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่น การสร้างแบบจำลองภาษา...