กลับไปหน้าบทความ

อ่าน 6 นาที

ทฤษฎีการเข้ารหัสแหล่งที่มาของแชนนอน

ในทฤษฎีสารสนเทศทฤษฎีการเข้ารหัสแหล่งข้อมูลของแชนนอน (หรือทฤษฎีการเข้ารหัสแบบไร้สัญญาณรบกวน ) กำหนดขีดจำกัดทางสถิติของการบีบอัดข้อมูล ที่เป็นไปได้

ทฤษฎีการเข้ารหัสแหล่งที่มาของแชนนอน

ในทฤษฎีสารสนเทศทฤษฎีการเข้ารหัสแหล่งข้อมูลของแชนนอน (หรือทฤษฎีการเข้ารหัสแบบไร้สัญญาณรบกวน ) กำหนดขีดจำกัดทางสถิติของการบีบอัดข้อมูล ที่เป็นไปได้ สำหรับข้อมูลที่มีแหล่งข้อมูลเป็นตัวแปรสุ่มอิสระที่มีการแจกแจงเหมือนกันและความหมายเชิงปฏิบัติการของเอนโทรปีของแชนนอน

ทฤษฎีการเข้ารหัสแหล่งข้อมูลซึ่งตั้งชื่อตามโคลด แชนนอนแสดงให้เห็นว่า ในขีดจำกัด เมื่อความยาวของกระแส ข้อมูล ตัวแปรสุ่มอิสระและมีการกระจายเหมือนกัน (iid)มีแนวโน้มเข้าสู่ค่าอนันต์ จะเป็นไปไม่ได้ที่จะบีบอัดข้อมูลดังกล่าวให้มีอัตราการเข้ารหัส (จำนวนบิตเฉลี่ยต่อสัญลักษณ์) น้อยกว่าเอนโทรปีของแชนนอนของแหล่งข้อมูล โดยที่ข้อมูลจะไม่สูญหายอย่างแน่นอน อย่างไรก็ตาม เป็นไปได้ที่จะได้อัตราการเข้ารหัสที่ใกล้เคียงกับเอนโทรปีของแชนนอนมากเท่าใดก็ได้ โดยมีความน่าจะเป็นที่จะสูญหายเพียงเล็กน้อย

ทฤษฎีการเข้ารหัสแหล่งที่มาสำหรับรหัสสัญลักษณ์กำหนดขอบเขตบนและขอบเขตล่างของความยาวขั้นต่ำที่เป็นไปได้ของคำรหัส โดยขึ้นอยู่กับเอนโทรปีของคำอินพุต (ซึ่งถือว่าเป็นตัวแปรสุ่ม ) และขนาดของตัวอักษรเป้าหมาย

โปรดทราบว่า สำหรับข้อมูลที่แสดงการพึ่งพาที่มากขึ้น (ซึ่งแหล่งที่มาไม่ใช่ตัวแปรสุ่มแบบ iid) ความซับซ้อนของ Kolmogorovซึ่งวัดความยาวคำอธิบายขั้นต่ำของวัตถุ จะเหมาะสมกว่าในการอธิบายขีดจำกัดของการบีบอัดข้อมูล เอนโทรปีของ Shannon พิจารณาเฉพาะความสม่ำเสมอของความถี่ ในขณะที่ความซับซ้อนของ Kolmogorov พิจารณาความสม่ำเสมอของอัลกอริทึมทั้งหมด ดังนั้นโดยทั่วไปแล้วค่าหลังจะน้อยกว่า ในทางกลับกัน หากวัตถุถูกสร้างขึ้นโดยกระบวนการสุ่มในลักษณะที่มีเฉพาะความสม่ำเสมอของความถี่ เอนโทรปีจะใกล้เคียงกับความซับซ้อนด้วยความน่าจะเป็นสูง (Shen et al. 2017) [ 1 ]

แถลงการณ์

การเข้ารหัสแหล่งข้อมูล ( Source coding ) คือการแปลงสัญลักษณ์ (ลำดับของสัญลักษณ์) จากแหล่ง ข้อมูล ไปเป็นลำดับของสัญลักษณ์ตัวอักษร (โดยปกติคือบิต) โดยที่สัญลักษณ์จากแหล่งข้อมูลสามารถกู้คืนได้อย่างแม่นยำจากสัญลักษณ์ตัวอักษร (การเข้ารหัสแหล่งข้อมูลแบบไม่สูญเสีย) หรือกู้คืนได้โดยมีการบิดเบือนบ้าง (การเข้ารหัสแหล่งข้อมูลแบบสูญเสีย) นี่เป็นแนวทางหนึ่งในการบีบ อัดข้อมูล

ทฤษฎีการเข้ารหัสแหล่งที่มา

ในทฤษฎีสารสนเทศ ทฤษฎีบทการเข้ารหัสแหล่งที่มา (Shannon 1948) [ 2 ]ระบุอย่างไม่เป็นทางการว่า (MacKay 2003, หน้า 81, [ 3 ] Cover 2006, บทที่ 5 [ 4 ] ):

ตัวแปรสุ่ม อิสระ และมีการกระจายเหมือนกันจำนวน Nตัว แต่ละตัวมีเอนโทรปีH ( X )สามารถบีบอัดให้เหลือมากกว่าNH ( X ) บิตได้โดยมีความเสี่ยงต่อการสูญเสียข้อมูลน้อยมาก เมื่อN → ∞แต่ในทางกลับกัน หากบีบอัดให้เหลือน้อยกว่าNH ( X )บิต ความเสี่ยงต่อการสูญเสียข้อมูลแทบจะแน่นอน

ลำดับรหัสที่มีความยาวดังกล่าวแสดงถึงข้อความที่ถูกบีบอัดในลักษณะสองทาง โดยอยู่บนสมมติฐานว่าผู้ถอดรหัสรู้แหล่งที่มา ในทางปฏิบัติ สมมติฐานนี้ไม่เป็นจริงเสมอไป ดังนั้น เมื่อใช้การเข้ารหัสแบบเอนโทรปี ข้อความที่ส่งอาจจำเป็นต้องมีข้อมูลที่บ่งบอกลักษณะของแหล่งที่มา ซึ่งโดยปกติจะแทรกไว้ที่จุดเริ่มต้นของข้อความที่ส่ง

ทฤษฎีบทการเข้ารหัสแหล่งที่มาสำหรับรหัสสัญลักษณ์

ให้Σ 1 , Σ 2แทนตัวอักษรจำกัดสองตัว และให้Σ* 1และΣ* 2หมายถึงเซตของคำจำกัดทั้งหมดจากตัวอักษรเหล่านั้น (ตามลำดับ)

สมมติว่าXเป็นตัวแปรสุ่มที่รับค่าในΣ 1และให้fเป็น รหัส ที่ถอดรหัสได้เพียงหนึ่งเดียวจากΣ* 1ถึงΣ* 2โดย ที่2 | = aให้Sแทนตัวแปรสุ่มที่กำหนดโดยความยาวของรหัสคำf ( X )

ถ้าfเป็นฟังก์ชันที่เหมาะสมที่สุดในแง่ที่ว่ามีความยาวคำที่คาดหวังน้อยที่สุดสำหรับXแล้ว (แชนนอน 1948):

โดยที่หมายถึงตัวดำเนินการ ค่าคาดหวัง

บทพิสูจน์: ทฤษฎีการเข้ารหัสแหล่งที่มา

กำหนดให้Xเป็นแหล่งข้อมูลอิสระและ มีการแจกแจง เหมือนกัน (iid ) อนุกรมเวลาX 1 , ..., X n ของมัน ก็มีการ แจกแจงเหมือนกันและมีการแจกแจงเหมือนกัน (iid) โดยมีเอนโทรปี H ( X )ในกรณีค่าไม่ต่อเนื่อง และเอนโทรปีเชิงอนุพันธ์ ในกรณี ค่าต่อเนื่อง ทฤษฎีบทการเข้ารหัสแหล่งข้อมูลระบุว่า สำหรับε > 0 ใดๆ กล่าว คือ สำหรับอัตราH ( X ) + ε ใดๆ ที่มากกว่าเอนโทรปี ของแหล่งข้อมูล จะมีค่า nที่มากพอและมีตัวเข้ารหัสที่รับการทำซ้ำแหล่งข้อมูลX 1: n จำนวน n ครั้งแบบ iid และแปลงเป็น บิตไบนารี n ( H ( X ) + ε )บิต โดยที่สัญลักษณ์แหล่งข้อมูลX 1: nสามารถกู้คืนได้จากบิตไบนารีด้วยความน่าจะเป็นอย่างน้อย1ε

การพิสูจน์ความเป็นไปได้ กำหนดค่า ε > 0บางค่าและให้

ชุดทั่วไป , Aε nซึ่งกำหนดไว้ดังนี้:

คุณสมบัติการแบ่งส่วนเท่าๆ กันแบบเชิงอะซิมโทติก ( AEP) แสดงให้เห็นว่า สำหรับค่า nที่มากพอความน่าจะเป็นที่ลำดับที่สร้างขึ้นโดยแหล่งกำเนิดจะอยู่ในเซตทั่วไปAε nตามที่กำหนดไว้ ค่าจะเข้าใกล้หนึ่ง โดยเฉพาะอย่างยิ่ง สำหรับค่า n ที่มากพอ ค่าสามารถทำให้เข้าใกล้ 1 ได้อย่างไม่จำกัด และโดยเฉพาะอย่างยิ่ง มากกว่า(ดู AEPสำหรับหลักฐาน)

นิยามของเซตทั่วไปบ่งชี้ว่าลำดับที่อยู่ในเซตทั่วไปนั้นต้องเป็นไปตามเงื่อนไขต่อไปนี้:

  • ความน่าจะเป็นที่ลำดับจะถูกสุ่มมาจากAε nมีค่ามากกว่า1 − ε
  • ซึ่งเป็นผลมาจากด้านซ้ายมือ (ขอบล่าง) สำหรับ
  • ซึ่งเป็นผลมาจากขอบเขตบนสำหรับ และขอบเขตล่างของความน่าจะเป็นทั้งหมดของเซตA ทั้งหมดε n.

เนื่องจากบิตเพียงพอที่จะชี้ไปยังสตริงใดๆ ในเซตนี้ได้

อัลกอริทึมการเข้ารหัส: ตัวเข้ารหัสจะตรวจสอบว่าลำดับอินพุตอยู่ในเซตทั่วไปหรือไม่ ถ้าใช่ จะส่งออกดัชนีของลำดับอินพุตภายในเซตทั่วไป ถ้าไม่ ตัวเข้ารหัสจะส่งออกตัวเลขn ( H ( X ) + ε )หลักแบบสุ่ม ตราบใดที่ลำดับอินพุตอยู่ในเซตทั่วไป (ด้วยความน่าจะเป็นอย่างน้อย1 − ε ) ตัวเข้ารหัสจะไม่เกิดข้อผิดพลาด ดังนั้น ความน่าจะเป็นของข้อผิดพลาดของตัวเข้ารหัสจึงมีค่าสูงสุดไม่เกิน ε

การพิสูจน์บทกลับ : บทกลับได้รับการพิสูจน์โดยการแสดงว่าเซตใดๆ ที่มีขนาดเล็กกว่าAε n(ในแง่ของเลขชี้กำลัง) จะครอบคลุมเซตของความน่าจะเป็นที่อยู่ห่างจาก1อย่าง มีขอบเขต

บทพิสูจน์: ทฤษฎีบทการเข้ารหัสแหล่งที่มาสำหรับรหัสสัญลักษณ์

สำหรับ1 ≤ inให้s iแทนความยาวของคำแต่ละคำของx i ที่เป็นไปได้ กำหนดโดยที่Cถูกเลือกเพื่อให้q 1 + ... + q n = 1จากนั้น

โดยบรรทัดที่สองได้มาจากอสมการของ Gibbsและบรรทัดที่ห้าได้มาจากอสมการของ Kraft :

ดังนั้นlog C0

สำหรับอสมการที่สอง เราอาจกำหนดได้ว่า

ดังนั้น

และดังนั้น

และ

ดังนั้นโดยอสมการของคราฟต์ จึงมีรหัสที่ไม่มีคำนำหน้าซึ่งมีความยาวคำเหล่านั้น ดังนั้นS ที่เล็กที่สุดจึง เป็นไปตามเงื่อนไข นี้

การขยายไปสู่แหล่งกำเนิดอิสระที่ไม่คงที่

การเข้ารหัสแหล่งข้อมูลแบบไม่สูญเสียข้อมูลอัตราคงที่สำหรับแหล่งข้อมูลอิสระที่ไม่คงที่ในเวลาไม่ต่อเนื่อง

กำหนดเซตทั่วไปAε nเช่น:

จากนั้น สำหรับδ > 0 ที่กำหนด สำหรับnที่มากพอPr( Aε n) > 1 − δตอนนี้เราเพียงแค่เข้ารหัสลำดับในเซตทั่วไป และวิธีการปกติในการเข้ารหัสแหล่งที่มาแสดงให้เห็นว่าจำนวนสมาชิกของเซตนี้น้อยกว่าดังนั้นโดยเฉลี่ยแล้ว บิต H n ( X ) + εก็เพียงพอสำหรับการเข้ารหัสด้วยความน่าจะเป็นที่มากกว่า1 − δโดยที่εและδสามารถทำให้มีค่าน้อยลงได้ตามอำเภอใจ โดยการทำให้nมีค่ามากขึ้น

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Shannon%27s_source_coding_theorem&oldid=1351148593 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ทฤษฎีการเข้ารหัสแหล่งที่มาของแชนนอน

ในทฤษฎีสารสนเทศทฤษฎีการเข้ารหัสแหล่งข้อมูลของแชนนอน (หรือทฤษฎีการเข้ารหัสแบบไร้สัญญาณรบกวน ) กำหนดขีดจำกัดทางสถิติของการบีบอัดข้อมูล ที่เป็นไปได้

แถลงการณ์

การเข้ารหัสแหล่งข้อมูล ( Source coding ) คือการแปลงสัญลักษณ์ (ลำดับของสัญลักษณ์) จาก แหล่ง ข้อมูล ไปเป็นลำดับของสัญลักษณ์ตัวอักษร (โดยปกติคือบิต) โดยที่สัญลักษณ์จากแหล่งข้อมูลสามารถกู้คืนได้อย่างแม่นยำจากสัญลักษณ์ตัวอักษร (การเข้ารหัสแหล่งข้อมูลแบบไม่สูญเสีย)...

ทฤษฎีการเข้ารหัสแหล่งที่มา

ในทฤษฎีสารสนเทศ ทฤษฎีบทการเข้ารหัสแหล่งที่มา (Shannon 1948) [ 2 ] ระบุอย่างไม่เป็นทางการว่า (MacKay 2003, หน้า 81, [ 3 ] Cover 2006, บทที่ 5 [ 4 ] ):

ทฤษฎีบทการเข้ารหัสแหล่งที่มาสำหรับรหัสสัญลักษณ์

ให้ Σ 1 , Σ 2 แทนตัวอักษรจำกัดสองตัว และให้ Σ * 1 และ Σ * 2 หมายถึง เซตของคำจำกัดทั้งหมด จากตัวอักษรเหล่านั้น (ตามลำดับ)