ประเภทภาพการบีบอัดวิดีโอ

Q: สรุป

ใน การบีบอัดวิดีโอ จะใช้ ภาพ (หรือเฟรม) สามประเภท ได้แก่ เฟรม I, เฟรม P และเฟรม B

ในด้านการบีบอัดวิดีโอเฟรมวิดีโอ จะถูกบีบอัดโดยใช้ อัลกอริธึมต่างๆที่มีข้อดีและข้อเสียแตกต่างกัน โดยส่วนใหญ่จะขึ้นอยู่กับปริมาณการบีบอัดข้อมูลอัลกอริธึมต่างๆ สำหรับเฟรมวิดีโอเหล่านี้เรียกว่าประเภทภาพหรือประเภทเฟรม ประเภทภาพหลักสามประเภทที่ใช้ในอัลกอริธึมวิดีโอต่างๆ คือ^{I, P และ B [ 1 ]}ซึ่งแตกต่างกันใน^{ลักษณะดัง}ต่อ ไปนี้:

เฟรม Iเป็นเฟรมที่มีความสามารถในการบีบอัดน้อยที่สุด แต่ไม่จำเป็นต้องใช้เฟรมวิดีโออื่นๆ ในการถอดรหัส
เฟรม Pสามารถใช้ข้อมูลจากเฟรมก่อนหน้าในการคลายการบีบอัด และมีความสามารถในการบีบอัดได้มากกว่าเฟรม I
เฟรม Bสามารถใช้ทั้งเฟรมก่อนหน้าและเฟรมถัดไปเป็นข้อมูลอ้างอิงเพื่อให้ได้การบีบอัดข้อมูลสูงสุด

สรุป

ใน การบีบอัดวิดีโอจะใช้ภาพ (หรือเฟรม) สามประเภท ได้แก่ เฟรม I, เฟรม P และเฟรม B

I -frame ( ภาพเข้ารหัสภายใน ) คือภาพที่มีโครงสร้างสมบูรณ์ในตัวเอง เช่นไฟล์ภาพ JPGหรือBMP

เฟรมP (ภาพที่คาดการณ์) ช่วยให้สามารถคาดการณ์มาโครบล็อกแต่ละอันได้จากบริเวณใดบริเวณหนึ่งของเฟรมที่ถอดรหัสแล้วซึ่งอยู่ในบัฟเฟอร์เฟรมที่ถอดรหัสแล้ว ตัวเข้ารหัสไม่จำเป็นต้องส่งบริเวณที่ไม่เปลี่ยนแปลงเลยเมื่อเทียบกับเฟรมที่ถอดรหัสแล้วซ้ำอีก จึงช่วยประหยัดพื้นที่ได้

เฟรมB (ภาพทำนายแบบสองทิศทาง) ช่วยประหยัดพื้นที่ได้มากขึ้นด้วยการสร้างการทำนายมาโครบล็อกที่แม่นยำยิ่งขึ้น โดยจะทำเช่นนั้นด้วยการอนุญาตให้ทำนายมาโครบล็อกแต่ละอันโดยการรวมส่วนต่างๆ จากเฟรมที่ถอดรหัสแล้วสองเฟรมที่อยู่ในบัฟเฟอร์เฟรมที่ถอดรหัสแล้ว โดยทั่วไปจะเป็นเฟรมหนึ่งที่อยู่ก่อนหน้าในลำดับการแสดงผลและอีกเฟรมหนึ่งที่อยู่ถัดไป

เฟรม P และเฟรม B เรียกอีกอย่างว่าเฟรมคั่นกลาง ลำดับการจัดเรียงเฟรม I, P และ B เรียกว่ากลุ่ม ภาพ

รูปภาพ/กรอบรูป

แม้ว่าคำว่าเฟรมและภาพมักใช้แทนกันได้ แต่ภาพเป็นแนวคิดที่กว้างกว่า เนื่องจากภาพอาจเป็นได้ทั้งเฟรมหรือฟิลด์ เฟรมคือภาพที่สมบูรณ์ และฟิลด์คือชุดของ เส้นสแกนเลขคี่หรือเลขคู่ที่ประกอบกันเป็นภาพบางส่วน ตัวอย่างเช่น ภาพ HD 1080 มีพิกเซล 1080 เส้น (แถว) ฟิลด์เลขคี่ประกอบด้วยข้อมูลพิกเซลสำหรับเส้นที่ 1, 3, 5, ..., 1079 ฟิลด์เลขคู่มีข้อมูลพิกเซลสำหรับเส้นที่ 2, 4, 6, ..., 1080 เมื่อวิดีโอถูกส่งในรูปแบบการสแกนแบบสลับเส้นฟิลด์จะถูกส่งตามลำดับ สลับระหว่างฟิลด์เส้นคี่และฟิลด์เส้นคู่ โดยแต่ละฟิลด์จะบรรจุข้อมูลครึ่งหนึ่งของเฟรม แต่แยกจากกันตามเวลาเหมือนเฟรมตามลำดับ (นั่นคือ ฟิลด์เส้นคี่ที่กำหนดจะแสดงถึงเวลาที่อยู่ระหว่างฟิลด์เส้นคู่ก่อนหน้าและฟิลด์เส้นคู่ถัดไป)

กรอบที่ใช้เป็นจุดอ้างอิงในการทำนายกรอบอื่นๆ เรียกว่า กรอบอ้างอิง

เฟรมที่เข้ารหัสเป็นภาพนิ่งสมบูรณ์โดยไม่มีข้อมูลจากเฟรมอื่นเรียกว่าเฟรม Iเฟรมที่ใช้การคาดการณ์จากเฟรมอ้างอิงก่อนหน้าเพียงเฟรมเดียว (หรือเฟรมเดียวสำหรับการคาดการณ์แต่ละส่วน) เรียกว่าเฟรม P เฟรม Bใช้การคาดการณ์จากค่าเฉลี่ย (อาจมีการถ่วงน้ำหนัก) ของเฟรมอ้างอิงสองเฟรม เฟรมหนึ่งอยู่ก่อนหน้าและอีกเฟรมหนึ่งอยู่ถัดไป

ชิ้น

ใน มาตรฐาน H.264/MPEG-4 AVCนั้น ระดับความละเอียดของประเภทการทำนายจะถูกลดลงเหลือระดับ "สไลซ์" สไลซ์คือบริเวณที่แยกออกจากกันในเชิงพื้นที่ของเฟรม ซึ่งจะถูกเข้ารหัสแยกต่างหากจากบริเวณอื่นๆ ในเฟรมเดียวกัน สไลซ์ I, สไลซ์ P และสไลซ์ B จะเข้ามาแทนที่เฟรม I, เฟรม P และเฟรม B ตามลำดับ

มาโครบล็อก

โดยทั่วไป รูปภาพ (เฟรม) จะถูกแบ่งออกเป็นมาโครบล็อกและสามารถเลือกประเภทการทำนายแต่ละแบบได้ในแต่ละมาโครบล็อก แทนที่จะใช้แบบเดียวกันสำหรับรูปภาพทั้งหมด ดังนี้:

I-frame สามารถบรรจุได้เฉพาะมาโครบล็อกภายในเท่านั้น
เฟรม P สามารถประกอบด้วยทั้งมาโครบล็อกภายในและมาโครบล็อกที่คาดการณ์ไว้
เฟรม B สามารถประกอบด้วยมาโครบล็อกแบบอินทรา แบบทำนาย และแบบทำนายสองทางได้

นอกจากนี้ ใน มาตรฐานการเข้ารหัสวิดีโอ H.264เฟรมสามารถแบ่งออกเป็นลำดับของมาโครบล็อกที่เรียกว่าสไลซ์และแทนที่จะใช้การเลือกประเภทเฟรม I, B และ P ตัวเข้ารหัสสามารถเลือกรูปแบบการทำนายได้อย่างชัดเจนในแต่ละสไลซ์ นอกจากนี้ ใน H.264 ยังพบเฟรม/สไลซ์ประเภทเพิ่มเติมอีกหลายประเภท:

เฟรม/ส่วน SI (การสลับ I): ช่วยให้สามารถสลับระหว่างสตรีมที่เข้ารหัสได้ ประกอบด้วยมาโครบล็อก SI (มาโครบล็อกเข้ารหัสภายในชนิดพิเศษ)
เฟรม/ส่วน SP (การสลับ P): ช่วยให้สามารถสลับระหว่างสตรีมที่เข้ารหัสได้ ประกอบด้วยมาโครบล็อก P และ/หรือ I
การประมาณการเคลื่อนไหวแบบหลายเฟรม(สูงสุด 16 เฟรมอ้างอิง หรือ 32 ฟิลด์อ้างอิง)

การประมาณการเคลื่อนไหวแบบหลายเฟรมช่วยเพิ่มคุณภาพของวิดีโอ ในขณะที่ยังคงอัตราการบีบอัดเท่าเดิม เฟรม SI และ SP (ที่กำหนดไว้สำหรับโปรไฟล์แบบขยาย) ช่วยปรับปรุงการแก้ไขข้อผิดพลาดเมื่อใช้เฟรมเหล่านี้ร่วมกับตัวถอดรหัสอัจฉริยะ จะสามารถกู้คืนสตรีมการออกอากาศจากดีวีดีที่เสียหายได้

เฟรม/ส่วน (คีย์เฟรม) ที่เข้ารหัสภายใน (I)

เฟรม I บรรจุภาพทั้งหมดไว้ในเฟรมเดียว โดยจะถูกเข้ารหัสโดยไม่อ้างอิงถึงเฟรมอื่นใด ยกเว้น (บางส่วนของ) ตัวเฟรม I เอง
อาจถูกสร้างขึ้นโดยตัวเข้ารหัสเพื่อสร้างจุดเข้าถึงแบบสุ่ม (เพื่อให้ตัวถอดรหัสสามารถเริ่มต้นการถอดรหัสได้อย่างถูกต้องตั้งแต่ต้นที่ตำแหน่งภาพนั้น)
นอกจากนี้ ยังอาจสร้างขึ้นเมื่อความแตกต่างของรายละเอียดภาพทำให้ไม่สามารถสร้างเฟรม P หรือ B ที่มีประสิทธิภาพได้
โดยทั่วไปแล้ว เฟรมประเภทนี้ต้องการจำนวนบิตในการเข้ารหัสมากกว่าเฟรมประเภทอื่นๆ

โดยทั่วไปแล้ว เฟรม I จะถูกใช้สำหรับการเข้าถึงแบบสุ่ม และใช้เป็นข้อมูลอ้างอิงสำหรับการถอดรหัสภาพอื่นๆ ช่วงเวลาการรีเฟรชภายในครึ่งวินาทีเป็นเรื่องปกติในแอปพลิเคชันต่างๆ เช่น การออกอากาศ โทรทัศน์ดิจิทัลและ การจัดเก็บ DVDช่วงเวลาการรีเฟรชที่ยาวกว่าอาจใช้ในบางสภาพแวดล้อม ตัวอย่างเช่น ใน ระบบ การประชุมทางวิดีโอการส่งเฟรม I เกิดขึ้นไม่บ่อยนัก

เฟรม/สไลซ์ที่คาดการณ์ (P)

จำเป็นต้องถอดรหัสภาพอื่นๆ ก่อนจึงจะสามารถถอดรหัสได้
อาจประกอบด้วยทั้งข้อมูลภาพและเวกเตอร์การเคลื่อนที่ รวมถึงการผสมผสานของทั้งสองอย่าง
สามารถอ้างอิงภาพก่อนหน้าตามลำดับการถอดรหัสได้
การออกแบบมาตรฐานแบบเก่า (เช่นMPEG-2 ) ใช้ภาพที่ถอดรหัสแล้วเพียงภาพเดียวเป็นข้อมูลอ้างอิงระหว่างการถอดรหัส และกำหนดให้ภาพนั้นต้องอยู่ก่อนภาพ P ในลำดับการแสดงผลด้วย
H.264 สามารถใช้ภาพที่ถอดรหัสแล้วหลายภาพเป็นข้อมูลอ้างอิงระหว่างการถอดรหัส และสามารถกำหนดลำดับการแสดงผลใดๆ ก็ได้ตามต้องการเมื่อเทียบกับภาพที่ใช้ในการทำนาย
โดยทั่วไปแล้วจะใช้จำนวนบิตในการเข้ารหัสน้อยกว่าเมื่อเทียบกับ I-frame

เฟรม/ส่วน (มาโครบล็อก) ที่ทำนายแบบสองทิศทาง (B)

จำเป็นต้องถอดรหัสเฟรมถัดไปก่อนจึงจะแสดงผลได้
อาจมีข้อมูลภาพและ/หรือเวกเตอร์การเคลื่อนที่ มาตรฐานเก่าอนุญาตให้มี เวกเตอร์ ชดเชยการเคลื่อนที่แบบทั่วโลก เพียงตัวเดียว สำหรับทั้งเฟรม หรือเวกเตอร์ชดเชยการเคลื่อนที่เพียงตัวเดียวต่อมาโครบล็อกเท่านั้น
รวมโหมดการทำนายบางโหมดที่สร้างการทำนายของบริเวณการเคลื่อนไหว (เช่น มาโครบล็อกหรือพื้นที่ขนาดเล็กกว่า) โดยการหาค่าเฉลี่ยของการทำนายที่ได้จากการใช้บริเวณอ้างอิงที่ถอดรหัสไว้ก่อนหน้านี้สองบริเวณที่แตกต่างกัน มาตรฐานบางอย่างอนุญาตให้ใช้เวกเตอร์ชดเชยการเคลื่อนไหวสองตัวต่อมาโครบล็อก (การทำนายแบบคู่)
ในมาตรฐานรุ่นเก่า (เช่น MPEG-2) เฟรม B จะไม่ถูกใช้เป็นข้อมูลอ้างอิงสำหรับการคาดการณ์ภาพอื่นๆ ดังนั้นจึงสามารถใช้การเข้ารหัสคุณภาพต่ำกว่า (ซึ่งใช้พื้นที่น้อยกว่า) สำหรับเฟรม B เหล่านั้นได้ เนื่องจากรายละเอียดที่หายไปจะไม่ส่งผลเสียต่อคุณภาพการคาดการณ์ภาพถัดไป
H.264 ผ่อนคลายข้อจำกัดนี้ และอนุญาตให้ใช้เฟรม B เป็นข้อมูลอ้างอิงสำหรับการถอดรหัสเฟรมอื่นๆ ได้ตามดุลยพินิจของผู้เข้ารหัส
มาตรฐานรุ่นเก่า (เช่น MPEG-2) ใช้ภาพที่ถอดรหัสแล้วสองภาพเป็นข้อมูลอ้างอิงระหว่างการถอดรหัส และกำหนดให้ภาพหนึ่งต้องอยู่ก่อนเฟรม B ในลำดับการแสดงผล และอีกภาพหนึ่งต้องอยู่ต่อจากเฟรม B
H.264 อนุญาตให้ใช้ภาพที่ถอดรหัสแล้วหนึ่งภาพ สองภาพ หรือมากกว่าสองภาพเป็นข้อมูลอ้างอิงระหว่างการถอดรหัส และสามารถกำหนดลำดับการแสดงผลใดๆ ก็ได้ตามต้องการเมื่อเทียบกับภาพที่ใช้ในการทำนาย
ความยืดหยุ่นที่เพิ่มขึ้นของการดึงข้อมูลหมายความว่าโดยทั่วไปแล้วเฟรม B ต้องการบิตในการเข้ารหัสที่น้อยกว่าเฟรม I หรือเฟรม P

ดูเพิ่มเติม

คำว่า "คีย์เฟรม"ในงานแอนิเมชั่น
การบีอัดวิดีโอ
ภายในเฟรม
เฟรมระหว่าง
กลุ่มภาพแสดงการประยุกต์ใช้กรอบรูปประเภทต่างๆ
ดาต้าโมช
วิดีโอ

ลิงก์ภายนอก

การสตรีมวิดีโอด้วยเฟรม SP และ SI

I, P และ B [ 1 ]