อ่าน 12 นาที
เอนโทรปีไขว้
ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด
เอนโทรปีไขว้
| ทฤษฎีสารสนเทศ |
|---|
ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด เมื่อรูปแบบการเข้ารหัสที่ใช้สำหรับชุดนั้นได้รับการปรับให้เหมาะสมกับการแจกแจงความน่าจะเป็นที่ประมาณไว้แทนที่จะเป็นการแจกแจงที่แท้จริง
คำนิยาม
ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้:
โดยที่ตัว ดำเนินการ ค่าคาดหวังสัมพันธ์กับการกระจายตัว
นิยามนี้สามารถกำหนดได้โดยใช้ความแตกต่างของ Kullback–Leibler ซึ่งเป็นความแตกต่างของจาก(หรือที่รู้จักกันในชื่อเอนโทรปีสัมพัทธ์ของเมื่อเทียบกับ)
เอนโทรปี ของอยู่ที่ไหน
สำหรับการกระจายความน่าจะเป็นแบบไม่ต่อเนื่องและ มี ช่วงค่าเดียวกันหมายความว่า
( สมการที่ 1 )
สถานการณ์สำหรับ ฟังก์ชันการแจกแจง แบบต่อเนื่องก็คล้ายคลึงกัน เราต้องสมมติว่าและเป็นฟังก์ชันต่อเนื่องสัมบูรณ์เทียบกับมาตรวัด อ้างอิงบางอย่าง (โดยปกติจะเป็นมาตรวัดเลเบสบน พีชคณิต บอเรลσ ) ให้และเป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของและเทียบกับแล้ว
และด้วยเหตุนี้
( สมการที่ 2 )
หมายเหตุ: สัญลักษณ์นี้ยังใช้สำหรับแนวคิดที่แตกต่างออกไป นั่นคือเอน โทรปีร่วมของและ
แรงจูงใจ
ในทฤษฎีสารสนเทศทฤษฎีบทคราฟต์-แมคมิลแลนได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต ดังนั้น เอนโทรปีแบบไขว้จึงสามารถตีความได้ว่าเป็นความยาวข้อความที่คาดหวังต่อข้อมูล เมื่อสมมติการกระจายที่ไม่ถูกต้อง ในขณะที่ข้อมูลจริง ๆ แล้วเป็นไปตามการกระจายนั่นคือเหตุผลที่ค่าเฉลี่ยถูกคำนวณจากการกระจายความน่าจะเป็นที่แท้จริงไม่ใช่แท้จริงแล้ว ความยาวข้อความที่คาดหวังภายใต้การกระจายที่แท้จริงคือ
การประมาณการ
มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่นการสร้างแบบจำลองภาษาซึ่งสร้างแบบจำลองขึ้นจากชุดข้อมูลฝึกฝนจากนั้นจึงวัดค่าครอสเอนโทรปีของแบบจำลองนั้นบนชุดข้อมูลทดสอบเพื่อประเมินความแม่นยำของแบบจำลองในการทำนายข้อมูลทดสอบ ในตัวอย่างนี้คือการกระจายตัวที่แท้จริงของคำในคลังข้อมูลใดๆ และคือการกระจายตัวของคำที่แบบจำลองทำนายได้ เนื่องจากไม่ทราบการกระจายตัวที่แท้จริง จึงไม่สามารถคำนวณค่าครอสเอนโทรปีได้โดยตรง ในกรณีเหล่านี้ จะคำนวณค่าประมาณของครอสเอนโทรปีโดยใช้สูตรต่อไปนี้:
โดยที่คือขนาดของชุดทดสอบ และคือความน่าจะเป็นของเหตุการณ์ที่ประมาณจากชุดฝึกฝน กล่าวอีกนัยหนึ่งคือค่าประมาณความน่าจะเป็นของแบบจำลองที่คำที่ i ของข้อความคือผลรวมจะถูกหาค่าเฉลี่ยจากคำต่างๆ ในชุดทดสอบ นี่คือการประมาณค่าเอนโทรปีไขว้ที่แท้จริงด้วยวิธีมอนเตคาร์โลโดยที่ชุดทดสอบถือเป็นตัวอย่างจาก
ความสัมพันธ์กับความน่าจะเป็นสูงสุด
เอนโทรปีไขว้เกิดขึ้นในปัญหาการจำแนกประเภทเมื่อมีการนำลอการิทึมมาใช้ในรูปแบบของฟังก์ชัน ความน่าจะเป็นล็อก
ส่วนนี้เกี่ยวข้องกับการประมาณความน่าจะเป็นของผลลัพธ์แบบไม่ต่อเนื่องต่างๆ เพื่อจุดประสงค์นี้ ให้กำหนดตระกูลของการแจกแจงแบบพารามิเตอร์ด้วยโดยที่ภายใต้ความพยายามในการหาค่าที่เหมาะสมที่สุด พิจารณาลำดับค่าจำกัดที่กำหนดจากชุดข้อมูลฝึกฝน ซึ่งได้มาจาก การสุ่มตัวอย่าง แบบอิสระโดยมีเงื่อนไขความน่าจะเป็นที่กำหนดให้กับพารามิเตอร์ใดๆของแบบจำลองจะได้รับจากผลคูณของความน่าจะเป็นทั้งหมดการเกิดซ้ำเป็นไปได้ ทำให้ปัจจัยในผลคูณเท่ากัน ถ้าจำนวนครั้งที่ค่าเท่ากับถูกกำหนดด้วยแล้วความถี่ของค่านั้นจะเท่ากับถ้าคือการแจกแจงความน่าจะเป็นพื้นฐาน สำหรับค่า มาก เราคาดว่าตามกฎของจำนวนมาก
เขียนฟังก์ชันความน่าจะเป็นของเราเป็นผลคูณของค่าสังเกตจากการกระจายตัว: โดยที่เราใช้กฎการคำนวณสำหรับลอการิทึมในบรรทัดสุดท้าย สังเกตว่าเลขชี้กำลังมีพจน์อยู่ การหาลอการิทึมของทั้งสองข้างจะได้: เนื่องจากลอการิทึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่องค่าสูงสุดของ จึงไม่ได้รับผลกระทบจากขั้นตอนสุดท้ายนี้ ในทำนองเดียวกัน ค่าสูงสุดของ ก็ไม่ได้รับผลกระทบจากตัวประกอบของดังนั้นเราจึงสังเกตได้ว่า การเพิ่มค่า ความน่าจะเป็นสูงสุด นั้นเทียบเท่า กับการลดค่าเอนโทรปีไขว้ให้เหลือน้อยที่สุด
การลดค่าเอนโทรปีไขว้
การลดค่าครอสเอนโทรปีให้เหลือน้อยที่สุดนั้น มักถูกนำมาใช้ในการหาค่าเหมาะสมที่สุดและการประมาณความน่าจะเป็นของเหตุการณ์หายาก เมื่อเปรียบเทียบการแจกแจงกับค่าการแจกแจงอ้างอิงคงที่ ค่า ค รอสเอนโทรปีและค่าความแตกต่าง KLจะเหมือนกันจนถึงค่าคงที่บวก (เนื่องจากคงที่): ตามอสมการของกิบบส์ทั้งสองค่าจะมีค่าต่ำสุดเมื่อซึ่งคือสำหรับค่าความแตกต่าง KL และสำหรับค่าครอสเอนโทรปี ในเอกสารทางวิศวกรรม หลักการลดค่าความแตกต่าง KL ให้เหลือน้อยที่สุด (หลักการของคัลแบ็กเรื่อง " หลักการของข้อมูลการจำแนกขั้นต่ำ ") มักเรียกว่าหลักการ ของค่าครอสเอนโทรปีขั้นต่ำ (MCE) หรือMinxent
อย่างไรก็ตาม ดังที่ได้กล่าวไว้ในบทความเรื่องความแตกต่างของ Kullback–Leiblerบางครั้งการแจกแจงจะเป็นการแจกแจงอ้างอิงก่อนหน้าคงที่ และการแจกแจงจะถูกปรับให้เหมาะสมที่สุดเพื่อให้ใกล้เคียงกับมากที่สุดเท่าที่จะเป็นไปได้ ภายใต้ข้อจำกัดบางประการ ในกรณีนี้ การลดค่าต่ำสุดทั้งสองจะไม่เท่ากัน ซึ่งนำไปสู่ความกำกวมในวรรณกรรม โดยผู้เขียนบางคนพยายามแก้ไขความไม่สอดคล้องกันโดยการกำหนดเอนโทรปีไขว้ใหม่เป็นแทนที่จะ เป็น อัน ที่จริง เอนโทรปีไขว้เป็นอีกชื่อหนึ่งของเอนโทรปีสัมพัทธ์ดู Cover และ Thomas [ 1 ] และ Good [ 2 ]ในทางกลับกันไม่สอดคล้องกับวรรณกรรมและอาจทำให้เข้าใจผิดได้
ฟังก์ชันการสูญเสียแบบครอสเอนโทรปีและการถดถอยโลจิสติก
เอนโทรปีไขว้สามารถใช้กำหนดฟังก์ชันการสูญเสียในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพได้ Mao, Mohri และ Zhong (2023) ได้ทำการวิเคราะห์คุณสมบัติของตระกูลฟังก์ชันการสูญเสียเอนโทรปีไขว้ในการเรียนรู้ของเครื่องอย่างละเอียด รวมถึงการรับประกันการเรียนรู้เชิงทฤษฎีและการขยายไปสู่ การเรียนรู้ แบบต่อต้าน[ 3 ]ความน่าจะเป็นที่แท้จริงคือป้ายกำกับที่แท้จริง และการกระจายที่กำหนดคือค่าที่คาดการณ์ของแบบจำลองปัจจุบัน สิ่งนี้ยังเป็นที่รู้จักในชื่อการสูญเสียแบบลอการิทึม (หรือการสูญเสียแบบลอการิทึม[ 4 ]หรือการสูญเสียแบบโลจิสติก ) [ 5 ]คำว่า "การสูญเสียแบบลอการิทึม" และ "การสูญเสียเอนโทรปีไขว้" ใช้แทนกันได้[ 6 ]
โดยเฉพาะอย่างยิ่ง ลองพิจารณา แบบจำลอง การถดถอยแบบไบนารีซึ่งสามารถใช้จำแนกข้อมูลสังเกตการณ์ออกเป็นสองคลาสที่เป็นไปได้ (มักจะเรียกง่ายๆ ว่าและ) ผลลัพธ์ของแบบจำลองสำหรับข้อมูลสังเกตการณ์ที่กำหนด โดยพิจารณาจากเวกเตอร์ของคุณลักษณะอินพุตสามารถตีความได้ว่าเป็นความน่าจะเป็น ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับการจำแนกข้อมูลสังเกตการณ์ ในการถดถอยโลจิสติกความน่าจะเป็นจะถูกจำลองโดยใช้ฟังก์ชันโลจิสติกโดยที่เป็นฟังก์ชันบางอย่างของเวกเตอร์อินพุตซึ่งโดยทั่วไปแล้วจะเป็นเพียงฟังก์ชันเชิงเส้น ความน่าจะเป็นของผลลัพธ์จะกำหนดโดย โดยที่เวกเตอร์ของน้ำหนักจะถูกปรับให้เหมาะสมผ่านอัลกอริทึมที่เหมาะสมบางอย่าง เช่นการไล่ระดับความชัน ในทำนองเดียวกัน ความน่าจะเป็นเสริมของการพบผลลัพธ์จะกำหนดโดย
เมื่อเรากำหนดสัญลักษณ์และแล้วเราสามารถใช้เอนโทรปีไขว้เพื่อวัดความแตกต่างระหว่างและได้:

โดยทั่วไปแล้ว การถดถอยโลจิสติกจะปรับค่าการสูญเสียล็อกให้เหมาะสมที่สุดสำหรับข้อมูลสังเกตการณ์ทั้งหมดที่ใช้ในการฝึก ซึ่งเหมือนกับการปรับค่าเอนโทรปีไขว้เฉลี่ยในตัวอย่างให้เหมาะสมที่สุด ฟังก์ชันการสูญเสียอื่นๆ ที่ลงโทษข้อผิดพลาดแตกต่างกันก็สามารถใช้ฝึกได้เช่นกัน ส่งผลให้โมเดลมีความแม่นยำในการทดสอบขั้นสุดท้ายที่แตกต่างกัน[ 7 ]ตัวอย่างเช่น สมมติว่าเรามีตัวอย่าง โดยแต่ละตัวอย่างมีดัชนีเป็นค่าเฉลี่ยของฟังก์ชันการสูญเสียจะกำหนดโดย
โดยที่ เป็น ฟังก์ชันโลจิสติกส์เช่นเดียวกับก่อนหน้านี้
ความสัมพันธ์กับการถดถอยเชิงเส้น
ความชันของการสูญเสียแบบเอนโทรปีไขว้สำหรับการถดถอยโลจิสติกส์นั้นเท่ากับความชันของการสูญเสียแบบกำลังสองของความคลาดเคลื่อนสำหรับการถดถอยเชิงเส้น (โดยมีค่าคงที่ต่างกันเล็กน้อย) เพื่อดูสิ่งนี้ ให้กำหนด
จากนั้นเราก็จะได้ผลลัพธ์
หลักฐาน:สำหรับทุกสิ่งที่เรามี
และด้วยเหตุนี้
ในทำนองเดียวกัน สำหรับสิ่งใดๆและเรามี และดังนั้น
เมื่อนำมารวมกัน เราจะได้ผลลัพธ์ที่ต้องการ โปรดสังเกตว่าในที่นี้เราใช้ลอการิทึมธรรมชาติแทน(ตามหลักการ) ในฟังก์ชันความสูญเสียซึ่งเพียงแค่เปลี่ยนผลลัพธ์ด้วยปัจจัยเท่านั้นยิ่งไปกว่านั้น สำหรับทุกค่าเราได้นำและ กลับมาใช้ ซ้ำเป็นค่าคงที่สำหรับแต่ละค่า
เอนโทรปีไขว้ที่แก้ไขแล้ว
อาจเป็นประโยชน์ที่จะฝึกโมเดลแบบกลุ่มที่มีความหลากหลาย เพื่อให้เมื่อรวมกันแล้ว ความแม่นยำในการทำนายจะเพิ่มขึ้น[ 8 ] [ 9 ] สมมติว่ามีการประกอบกลุ่มตัวจำแนกแบบง่ายๆ โดยการหาค่าเฉลี่ยของผลลัพธ์ จากนั้นค่าเอนโทรปีไขว้ที่แก้ไขแล้วจะได้รับจาก โดย ที่คือฟังก์ชันต้นทุนของตัวจำแนกคือความน่าจะเป็นของผลลัพธ์ของตัวจำแนกคือความน่าจะเป็นที่แท้จริงที่จะประมาณ และคือพารามิเตอร์ระหว่าง 0 ถึง 1 ที่กำหนด 'ความหลากหลาย' ที่เราต้องการสร้างขึ้นในกลุ่ม เมื่อเราต้องการให้ตัวจำแนกแต่ละตัวทำได้ดีที่สุดโดยไม่คำนึงถึงกลุ่ม และเมื่อเราต้องการให้ตัวจำแนกมีความหลากหลายมากที่สุดเท่าที่จะเป็นไปได้
ดูเพิ่มเติม
- วิธีเอนโทรปีไขว้
- การถดถอยโลจิสติก
- เอนโทรปีแบบมีเงื่อนไข
- ระยะทาง Kullback–Leibler
- การประมาณค่าความน่าจะเป็นสูงสุด
- ข้อมูลร่วมกัน
- ความสับสน
อ่านเพิ่มเติม
- de Boer, Kroese, DP, Mannor, S. และ Rubinstein, RY (2005). บทช่วยสอนเกี่ยวกับวิธีเอนโทรปีไขว้ Annals of Operations Research 134 (1), 19–67.
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เอนโทรปีไขว้
ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด
คำนิยาม
ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้: q {\displaystyle q} พี {\displaystyle p}
แรงจูงใจ
ใน ทฤษฎีสารสนเทศ ทฤษฎีบท คราฟต์-แมคมิลแลน ได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต...
การประมาณการ
มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่น การสร้างแบบจำลองภาษา...