กลับไปหน้าบทความ

อ่าน 12 นาที

เอนโทรปีไขว้

ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด

เอนโทรปีไขว้

ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด เมื่อรูปแบบการเข้ารหัสที่ใช้สำหรับชุดนั้นได้รับการปรับให้เหมาะสมกับการแจกแจงความน่าจะเป็นที่ประมาณไว้แทนที่จะเป็นการแจกแจงที่แท้จริง

คำนิยาม

ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้:

โดยที่ตัว ดำเนินการ ค่าคาดหวังสัมพันธ์กับการกระจายตัว

นิยามนี้สามารถกำหนดได้โดยใช้ความแตกต่างของ Kullback–Leibler ซึ่งเป็นความแตกต่างของจาก(หรือที่รู้จักกันในชื่อเอนโทรปีสัมพัทธ์ของเมื่อเทียบกับ)

เอนโทรปี ของอยู่ที่ไหน

สำหรับการกระจายความน่าจะเป็นแบบไม่ต่อเนื่องและ มี ช่วงค่าเดียวกันหมายความว่า

   ( สมการที่ 1 )

สถานการณ์สำหรับ ฟังก์ชันการแจกแจง แบบต่อเนื่องก็คล้ายคลึงกัน เราต้องสมมติว่าและเป็นฟังก์ชันต่อเนื่องสัมบูรณ์เทียบกับมาตรวัด อ้างอิงบางอย่าง (โดยปกติจะเป็นมาตรวัดเลเบสบน พีชคณิต บอเรลσ ) ให้และเป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของและเทียบกับแล้ว

และด้วยเหตุนี้

   ( สมการที่ 2 )

หมายเหตุ: สัญลักษณ์นี้ยังใช้สำหรับแนวคิดที่แตกต่างออกไป นั่นคือเอน โทรปีร่วมของและ

แรงจูงใจ

ในทฤษฎีสารสนเทศทฤษฎีบทคราฟต์-แมคมิลแลนได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต ดังนั้น เอนโทรปีแบบไขว้จึงสามารถตีความได้ว่าเป็นความยาวข้อความที่คาดหวังต่อข้อมูล เมื่อสมมติการกระจายที่ไม่ถูกต้อง ในขณะที่ข้อมูลจริง ๆ แล้วเป็นไปตามการกระจายนั่นคือเหตุผลที่ค่าเฉลี่ยถูกคำนวณจากการกระจายความน่าจะเป็นที่แท้จริงไม่ใช่แท้จริงแล้ว ความยาวข้อความที่คาดหวังภายใต้การกระจายที่แท้จริงคือ

การประมาณการ

มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่นการสร้างแบบจำลองภาษาซึ่งสร้างแบบจำลองขึ้นจากชุดข้อมูลฝึกฝนจากนั้นจึงวัดค่าครอสเอนโทรปีของแบบจำลองนั้นบนชุดข้อมูลทดสอบเพื่อประเมินความแม่นยำของแบบจำลองในการทำนายข้อมูลทดสอบ ในตัวอย่างนี้คือการกระจายตัวที่แท้จริงของคำในคลังข้อมูลใดๆ และคือการกระจายตัวของคำที่แบบจำลองทำนายได้ เนื่องจากไม่ทราบการกระจายตัวที่แท้จริง จึงไม่สามารถคำนวณค่าครอสเอนโทรปีได้โดยตรง ในกรณีเหล่านี้ จะคำนวณค่าประมาณของครอสเอนโทรปีโดยใช้สูตรต่อไปนี้:

โดยที่คือขนาดของชุดทดสอบ และคือความน่าจะเป็นของเหตุการณ์ที่ประมาณจากชุดฝึกฝน กล่าวอีกนัยหนึ่งคือค่าประมาณความน่าจะเป็นของแบบจำลองที่คำที่ i ของข้อความคือผลรวมจะถูกหาค่าเฉลี่ยจากคำต่างๆ ในชุดทดสอบ นี่คือการประมาณค่าเอนโทรปีไขว้ที่แท้จริงด้วยวิธีมอนเตคาร์โลโดยที่ชุดทดสอบถือเป็นตัวอย่างจาก

ความสัมพันธ์กับความน่าจะเป็นสูงสุด

เอนโทรปีไขว้เกิดขึ้นในปัญหาการจำแนกประเภทเมื่อมีการนำลอการิทึมมาใช้ในรูปแบบของฟังก์ชัน ความน่าจะเป็นล็อก

ส่วนนี้เกี่ยวข้องกับการประมาณความน่าจะเป็นของผลลัพธ์แบบไม่ต่อเนื่องต่างๆ เพื่อจุดประสงค์นี้ ให้กำหนดตระกูลของการแจกแจงแบบพารามิเตอร์ด้วยโดยที่ภายใต้ความพยายามในการหาค่าที่เหมาะสมที่สุด พิจารณาลำดับค่าจำกัดที่กำหนดจากชุดข้อมูลฝึกฝน ซึ่งได้มาจาก การสุ่มตัวอย่าง แบบอิสระโดยมีเงื่อนไขความน่าจะเป็นที่กำหนดให้กับพารามิเตอร์ใดๆของแบบจำลองจะได้รับจากผลคูณของความน่าจะเป็นทั้งหมดการเกิดซ้ำเป็นไปได้ ทำให้ปัจจัยในผลคูณเท่ากัน ถ้าจำนวนครั้งที่ค่าเท่ากับถูกกำหนดด้วยแล้วความถี่ของค่านั้นจะเท่ากับถ้าคือการแจกแจงความน่าจะเป็นพื้นฐาน สำหรับค่า มาก เราคาดว่าตามกฎของจำนวนมาก

เขียนฟังก์ชันความน่าจะเป็นของเราเป็นผลคูณของค่าสังเกตจากการกระจายตัว: โดยที่เราใช้กฎการคำนวณสำหรับลอการิทึมในบรรทัดสุดท้าย สังเกตว่าเลขชี้กำลังมีพจน์อยู่ การหาลอการิทึมของทั้งสองข้างจะได้: เนื่องจากลอการิทึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่องค่าสูงสุดของ จึงไม่ได้รับผลกระทบจากขั้นตอนสุดท้ายนี้ ในทำนองเดียวกัน ค่าสูงสุดของ ก็ไม่ได้รับผลกระทบจากตัวประกอบของดังนั้นเราจึงสังเกตได้ว่า การเพิ่มค่า ความน่าจะเป็นสูงสุด นั้นเทียบเท่า กับการลดค่าเอนโทรปีไขว้ให้เหลือน้อยที่สุด

การลดค่าเอนโทรปีไขว้

การลดค่าครอสเอนโทรปีให้เหลือน้อยที่สุดนั้น มักถูกนำมาใช้ในการหาค่าเหมาะสมที่สุดและการประมาณความน่าจะเป็นของเหตุการณ์หายาก เมื่อเปรียบเทียบการแจกแจงกับค่าการแจกแจงอ้างอิงคงที่ ค่า ค รอสเอนโทรปีและค่าความแตกต่าง KLจะเหมือนกันจนถึงค่าคงที่บวก (เนื่องจากคงที่): ตามอสมการของกิบบส์ทั้งสองค่าจะมีค่าต่ำสุดเมื่อซึ่งคือสำหรับค่าความแตกต่าง KL และสำหรับค่าครอสเอนโทรปี ในเอกสารทางวิศวกรรม หลักการลดค่าความแตกต่าง KL ให้เหลือน้อยที่สุด (หลักการของคัลแบ็กเรื่อง " หลักการของข้อมูลการจำแนกขั้นต่ำ ") มักเรียกว่าหลักการ ของค่าครอสเอนโทรปีขั้นต่ำ (MCE) หรือMinxent

อย่างไรก็ตาม ดังที่ได้กล่าวไว้ในบทความเรื่องความแตกต่างของ Kullback–Leiblerบางครั้งการแจกแจงจะเป็นการแจกแจงอ้างอิงก่อนหน้าคงที่ และการแจกแจงจะถูกปรับให้เหมาะสมที่สุดเพื่อให้ใกล้เคียงกับมากที่สุดเท่าที่จะเป็นไปได้ ภายใต้ข้อจำกัดบางประการ ในกรณีนี้ การลดค่าต่ำสุดทั้งสองจะไม่เท่ากัน ซึ่งนำไปสู่ความกำกวมในวรรณกรรม โดยผู้เขียนบางคนพยายามแก้ไขความไม่สอดคล้องกันโดยการกำหนดเอนโทรปีไขว้ใหม่เป็นแทนที่จะ เป็น อัน ที่จริง เอนโทรปีไขว้เป็นอีกชื่อหนึ่งของเอนโทรปีสัมพัทธ์ดู Cover และ Thomas [ 1 ] และ Good [ 2 ]ในทางกลับกันไม่สอดคล้องกับวรรณกรรมและอาจทำให้เข้าใจผิดได้

ฟังก์ชันการสูญเสียแบบครอสเอนโทรปีและการถดถอยโลจิสติก

เอนโทรปีไขว้สามารถใช้กำหนดฟังก์ชันการสูญเสียในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพได้ Mao, Mohri และ Zhong (2023) ได้ทำการวิเคราะห์คุณสมบัติของตระกูลฟังก์ชันการสูญเสียเอนโทรปีไขว้ในการเรียนรู้ของเครื่องอย่างละเอียด รวมถึงการรับประกันการเรียนรู้เชิงทฤษฎีและการขยายไปสู่ การเรียนรู้ แบบต่อต้าน[ 3 ]ความน่าจะเป็นที่แท้จริงคือป้ายกำกับที่แท้จริง และการกระจายที่กำหนดคือค่าที่คาดการณ์ของแบบจำลองปัจจุบัน สิ่งนี้ยังเป็นที่รู้จักในชื่อการสูญเสียแบบลอการิทึม (หรือการสูญเสียแบบลอการิทึม[ 4 ]หรือการสูญเสียแบบโลจิสติก ) [ 5 ]คำว่า "การสูญเสียแบบลอการิทึม" และ "การสูญเสียเอนโทรปีไขว้" ใช้แทนกันได้[ 6 ]

โดยเฉพาะอย่างยิ่ง ลองพิจารณา แบบจำลอง การถดถอยแบบไบนารีซึ่งสามารถใช้จำแนกข้อมูลสังเกตการณ์ออกเป็นสองคลาสที่เป็นไปได้ (มักจะเรียกง่ายๆ ว่าและ) ผลลัพธ์ของแบบจำลองสำหรับข้อมูลสังเกตการณ์ที่กำหนด โดยพิจารณาจากเวกเตอร์ของคุณลักษณะอินพุตสามารถตีความได้ว่าเป็นความน่าจะเป็น ซึ่งทำหน้าที่เป็นพื้นฐานสำหรับการจำแนกข้อมูลสังเกตการณ์ ในการถดถอยโลจิสติกความน่าจะเป็นจะถูกจำลองโดยใช้ฟังก์ชันโลจิสติกโดยที่เป็นฟังก์ชันบางอย่างของเวกเตอร์อินพุตซึ่งโดยทั่วไปแล้วจะเป็นเพียงฟังก์ชันเชิงเส้น ความน่าจะเป็นของผลลัพธ์จะกำหนดโดย โดยที่เวกเตอร์ของน้ำหนักจะถูกปรับให้เหมาะสมผ่านอัลกอริทึมที่เหมาะสมบางอย่าง เช่นการไล่ระดับความชัน ในทำนองเดียวกัน ความน่าจะเป็นเสริมของการพบผลลัพธ์จะกำหนดโดย

เมื่อเรากำหนดสัญลักษณ์และแล้วเราสามารถใช้เอนโทรปีไขว้เพื่อวัดความแตกต่างระหว่างและได้:

แผนภาพแสดงฟังก์ชันความสูญเสียต่างๆ ที่สามารถใช้ในการฝึกตัวจำแนกแบบไบนารีได้ โดยแสดงเฉพาะกรณีที่ค่าเป้าหมายเท่ากับ 1 เท่านั้น จะเห็นได้ว่าค่าความสูญเสียเป็นศูนย์เมื่อค่าเป้าหมายเท่ากับค่าผลลัพธ์ และจะเพิ่มขึ้นเมื่อค่าผลลัพธ์ไม่ถูกต้องมากขึ้นเรื่อยๆ

โดยทั่วไปแล้ว การถดถอยโลจิสติกจะปรับค่าการสูญเสียล็อกให้เหมาะสมที่สุดสำหรับข้อมูลสังเกตการณ์ทั้งหมดที่ใช้ในการฝึก ซึ่งเหมือนกับการปรับค่าเอนโทรปีไขว้เฉลี่ยในตัวอย่างให้เหมาะสมที่สุด ฟังก์ชันการสูญเสียอื่นๆ ที่ลงโทษข้อผิดพลาดแตกต่างกันก็สามารถใช้ฝึกได้เช่นกัน ส่งผลให้โมเดลมีความแม่นยำในการทดสอบขั้นสุดท้ายที่แตกต่างกัน[ 7 ]ตัวอย่างเช่น สมมติว่าเรามีตัวอย่าง โดยแต่ละตัวอย่างมีดัชนีเป็นค่าเฉลี่ยของฟังก์ชันการสูญเสียจะกำหนดโดย

โดยที่ เป็น ฟังก์ชันโลจิสติกส์เช่นเดียวกับก่อนหน้านี้

ความสัมพันธ์กับการถดถอยเชิงเส้น

ความชันของการสูญเสียแบบเอนโทรปีไขว้สำหรับการถดถอยโลจิสติกส์นั้นเท่ากับความชันของการสูญเสียแบบกำลังสองของความคลาดเคลื่อนสำหรับการถดถอยเชิงเส้น (โดยมีค่าคงที่ต่างกันเล็กน้อย) เพื่อดูสิ่งนี้ ให้กำหนด

จากนั้นเราก็จะได้ผลลัพธ์

หลักฐาน:สำหรับทุกสิ่งที่เรามี

และด้วยเหตุนี้

ในทำนองเดียวกัน สำหรับสิ่งใดๆและเรามี และดังนั้น

เมื่อนำมารวมกัน เราจะได้ผลลัพธ์ที่ต้องการ โปรดสังเกตว่าในที่นี้เราใช้ลอการิทึมธรรมชาติแทน(ตามหลักการ) ในฟังก์ชันความสูญเสียซึ่งเพียงแค่เปลี่ยนผลลัพธ์ด้วยปัจจัยเท่านั้นยิ่งไปกว่านั้น สำหรับทุกค่าเราได้นำและ กลับมาใช้ ซ้ำเป็นค่าคงที่สำหรับแต่ละค่า

เอนโทรปีไขว้ที่แก้ไขแล้ว

อาจเป็นประโยชน์ที่จะฝึกโมเดลแบบกลุ่มที่มีความหลากหลาย เพื่อให้เมื่อรวมกันแล้ว ความแม่นยำในการทำนายจะเพิ่มขึ้น[ 8 ] [ 9 ] สมมติว่ามีการประกอบกลุ่มตัวจำแนกแบบง่ายๆ โดยการหาค่าเฉลี่ยของผลลัพธ์ จากนั้นค่าเอนโทรปีไขว้ที่แก้ไขแล้วจะได้รับจาก โดย ที่คือฟังก์ชันต้นทุนของตัวจำแนกคือความน่าจะเป็นของผลลัพธ์ของตัวจำแนกคือความน่าจะเป็นที่แท้จริงที่จะประมาณ และคือพารามิเตอร์ระหว่าง 0 ถึง 1 ที่กำหนด 'ความหลากหลาย' ที่เราต้องการสร้างขึ้นในกลุ่ม เมื่อเราต้องการให้ตัวจำแนกแต่ละตัวทำได้ดีที่สุดโดยไม่คำนึงถึงกลุ่ม และเมื่อเราต้องการให้ตัวจำแนกมีความหลากหลายมากที่สุดเท่าที่จะเป็นไปได้

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • de Boer, Kroese, DP, Mannor, S. และ Rubinstein, RY (2005). บทช่วยสอนเกี่ยวกับวิธีเอนโทรปีไขว้ Annals of Operations Research 134 (1), 19–67.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Cross-entropy&oldid=1354001342 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ เอนโทรปีไขว้

ในทฤษฎีสารสนเทศเอนโทรปีไขว้ระหว่างการแจกแจงความน่าจะเป็น สองแบบ และบนชุดเหตุการณ์พื้นฐานเดียวกัน จะวัดจำนวนบิต เฉลี่ย ที่จำเป็นในการระบุเหตุการณ์ที่ดึงมาจากชุด

คำนิยาม

ค่าเอนโทรปีไขว้ของการกระจายตัว เมื่อเทียบกับการกระจายตัวบนเซตที่กำหนดนั้น นิยามได้ดังนี้: q {\displaystyle q} พี {\displaystyle p}

แรงจูงใจ

ใน ทฤษฎีสารสนเทศ ทฤษฎีบท คราฟต์-แมคมิลแลน ได้กำหนดไว้ว่า รูปแบบการเข้ารหัสที่ถอดรหัสได้โดยตรงสำหรับการเข้ารหัสข้อความเพื่อระบุค่าหนึ่งค่าจากชุดความเป็นไปได้สามารถมองได้ว่าเป็นการแสดงถึงการกระจายความน่าจะเป็นโดยปริยายเหนือโดยที่คือความยาวของรหัสสำหรับในหน่วยบิต...

การประมาณการ

มีหลายสถานการณ์ที่จำเป็นต้องวัดค่าครอสเอนโทรปี แต่ไม่ทราบการกระจายตัวของค่าดังกล่าว ตัวอย่างเช่น การสร้างแบบจำลองภาษา...