กลุ่มรูปภาพ

Q: ดูเพิ่มเติม

ประเภทภาพการบีบอัดวิดีโอ คีย์เฟรม ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Group_of_pictures&oldid=1322014375 "

ในการเข้ารหัสวิดีโอ โครงสร้าง กลุ่มภาพหรือGOPจะระบุลำดับ การจัดเรียง เฟรม ภายในและ ระหว่างเฟรม GOP คือชุดของภาพที่ต่อเนื่องกันภายในสตรีมวิดีโอที่เข้ารหัสแล้ว สตรีมวิดีโอที่เข้ารหัสแต่ละสตรีมประกอบด้วย GOP ที่ต่อเนื่องกัน ซึ่งใช้ในการสร้างเฟรมที่มองเห็นได้ การพบ GOP ใหม่ในสตรีมวิดีโอที่บีบอัดหมายความว่าตัวถอดรหัสไม่จำเป็นต้องใช้เฟรมก่อนหน้าเพื่อถอดรหัสเฟรมถัดไป และช่วยให้สามารถค้นหาในวิดีโอได้อย่างรวดเร็ว

องค์ประกอบ

GOP สามารถบรรจุรูปภาพประเภทต่อไปนี้ได้:

เฟรม I (ภาพที่เข้ารหัสภายใน ซึ่งบางแหล่งข้อมูลกล่าวอย่างไม่ถูกต้องว่าเป็นเฟรมหลักเสมอ^{[ 1 ]}แต่คุณไม่สามารถเริ่มต้นด้วยเฟรม I และถอดรหัสเฟรมถัดไปได้อย่างชัดเจนเสมอไป^{[ 2 ]} ) – ภาพที่เข้ารหัสอย่างอิสระจากภาพอื่นๆ ทั้งหมด เฟรม I แต่ละเฟรมสามารถถอดรหัสได้อย่างสมบูรณ์ในตัวเอง GOP แต่ละชุดจะเริ่มต้น (ตามลำดับการถอดรหัส) ด้วยเฟรมประเภทนี้
- เฟรม IDR (Instantaneous Decoder Refresh): เฟรม I ที่มีเครื่องหมายระบุว่าไม่มีเฟรม P หรือ B ใดๆ ที่ตามมามีการอ้างอิงที่ย้อนกลับไปไกลกว่าเฟรม I นี้ การใช้เฟรม IDR เหล่านี้ทำให้เกิด GOP ที่ปิดซึ่งไม่สามารถอ้างอิงถึงเฟรมภายนอก GOP ได้^{[ 3 ]} IDR เป็นคีย์เฟรมที่แท้จริงร่วมกับเฟรมการเข้าถึงแบบสุ่มที่สะอาด (จุดกู้คืน) CLA
เฟรม P (ภาพเข้ารหัสแบบคาดการณ์) – ประกอบด้วย ข้อมูลความแตกต่าง ที่ชดเชยการเคลื่อนไหวเมื่อเทียบกับภาพที่ถอดรหัสแล้วก่อนหน้านี้ ในการออกแบบรุ่นเก่า เช่นMPEG-1 , H.262 / MPEG-2และH.263แต่ละเฟรม P สามารถอ้างอิงได้เพียงภาพเดียวเท่านั้น และภาพนั้นต้องอยู่ก่อนเฟรม P ทั้งในลำดับการแสดงผลและลำดับการถอดรหัส และการอ้างอิงต้องเป็นเฟรม I หรือเฟรม P ข้อจำกัดเหล่านี้ไม่มีผลบังคับใช้ในมาตรฐานใหม่กว่า เช่น H.264/ MPEG -4 AVCและHEVC
เฟรม B (ภาพเข้ารหัสแบบทำนายสองทิศทาง) – ประกอบด้วยข้อมูลความแตกต่างที่ชดเชยการเคลื่อนไหวเมื่อเทียบกับภาพที่ถอดรหัสแล้วก่อนหน้านี้ ในการออกแบบแบบเก่า เช่น MPEG-1 และ H.262/MPEG-2 แต่ละเฟรม B สามารถอ้างอิงได้เพียงสองเฟรมเท่านั้น คือเฟรมที่อยู่ก่อนหน้าเฟรม B ในลำดับการแสดงผล และเฟรมที่อยู่ถัดไป และภาพที่อ้างอิงทั้งหมดต้องเป็นเฟรม I หรือเฟรม P ข้อจำกัดเหล่านี้ไม่มีผลบังคับใช้ในมาตรฐานใหม่กว่า เช่นH.264/MPEG-4 AVCและHEVCบางครั้งตัวแปลงสัญญาณจะใช้เฟรม B แบบทิศทางเดียว นี่คือเฟรม P ที่แม้ว่าจะไม่ได้ใช้ข้อมูลจากเฟรมในอนาคต แต่ก็ไม่มีเฟรมอื่นใดขึ้นอยู่กับมัน คุณสมบัติพื้นฐานของเฟรม B คือสามารถละทิ้งได้โดยไม่ส่งผลกระทบต่อการถอดรหัสที่ถูกต้องของเฟรมอื่น ๆ
เฟรม D (DC direct coded picture) – ทำหน้าที่เป็นตัวแทนเฟรมที่เข้าถึงได้อย่างรวดเร็ว เพื่อความทนทานต่อการสูญเสียข้อมูลหรือการกรอไปข้างหน้าอย่างรวดเร็ว เฟรม D ใช้เฉพาะในวิดีโอMPEG-1 เท่านั้น

เฟรม I บ่งชี้ถึงจุดเริ่มต้นของ GOP หลังจากนั้นจะมีเฟรม P และ B ตามมาหลายเฟรม ในการออกแบบรุ่นเก่า โครงสร้างลำดับและการอ้างอิงที่อนุญาตนั้นค่อนข้างจำกัด^{[ 4 ]}

เฟรม I ประกอบด้วยภาพทั้งหมดและไม่ต้องการข้อมูลเพิ่มเติมใดๆ ในการสร้างภาพขึ้นใหม่ โดยทั่วไป ตัวเข้ารหัสจะใช้โครงสร้าง GOP ที่ทำให้แต่ละเฟรม I เป็น "จุดเข้าถึงแบบสุ่มที่สะอาด" ส่งผลให้การถอดรหัสสามารถเริ่มต้นได้อย่างราบรื่นบนเฟรม I และข้อผิดพลาดใดๆ ภายในโครงสร้าง GOP จะได้รับการแก้ไขหลังจากประมวลผลเฟรม I ที่ถูกต้องแล้ว

ในการออกแบบใหม่ที่พบในH.264/MPEG-4 AVCและHEVCตัวเข้ารหัสมีความยืดหยุ่นมากขึ้นเกี่ยวกับโครงสร้างการอ้างอิง พวกเขาสามารถใช้โครงสร้างการอ้างอิงแบบเดียวกับที่เคยใช้ในการออกแบบแบบเก่า หรือพวกเขาสามารถใช้รูปภาพเพิ่มเติมเป็นข้อมูลอ้างอิง และสามารถใช้ลำดับการเข้ารหัสที่ยืดหยุ่นมากขึ้นเมื่อเทียบกับลำดับการแสดงผล พวกเขายังได้รับอนุญาตให้ใช้เฟรม B เป็นข้อมูลอ้างอิงเมื่อเข้ารหัสเฟรมอื่นๆ (B หรือ P) ความยืดหยุ่นเพิ่มเติมนี้สามารถปรับปรุงประสิทธิภาพการบีบอัดได้ แต่ก็อาจทำให้เกิดการแพร่กระจายของข้อผิดพลาดหากข้อมูลบางส่วนสูญหายหรือเสียหาย โครงสร้างที่นิยมใช้กับการออกแบบใหม่คือการใช้ลำดับชั้นของเฟรม B เฟรม B แบบลำดับชั้นสามารถให้ประสิทธิภาพการบีบอัดที่ดีมาก และยังสามารถจำกัดการแพร่กระจายของข้อผิดพลาดได้ เนื่องจากลำดับชั้นสามารถรับประกันได้ว่าจำนวนรูปภาพที่ได้รับผลกระทบจากปัญหาความเสียหายของข้อมูลใดๆ จะถูกจำกัดอย่างเข้มงวด^{[ 5 ]}

โดยทั่วไป ยิ่งสตรีมวิดีโอมีเฟรม I มากเท่าไหร่ ก็ยิ่งแก้ไขได้ง่ายขึ้นเท่านั้น อย่างไรก็ตาม การมีเฟรม I มากขึ้นจะทำให้บิตเรตที่จำเป็นในการเข้ารหัสวิดีโอเพิ่มขึ้นอย่างมาก

โครงสร้าง

โครงสร้าง GOP มักถูกอ้างอิงด้วยตัวเลขสองตัว เช่น $M = 3, N = 12$ ตัวเลขแรกบอกระยะห่างระหว่างเฟรมแองเคอร์สองเฟรม (I หรือ P) หรือที่รู้จักกันในชื่อความยาวของ "mini-GOP" ^{[ 6 ]}ตัวเลขที่สองบอกระยะห่างระหว่างภาพเต็มสองภาพ (I-frames): นั่นคือขนาด GOP ^{[ 7 ]} แทนที่จะใช้พารามิเตอร์ M สามารถใช้จำนวนสูงสุดของ B-frames ระหว่างเฟรมแองเคอร์สองเฟรมที่ต่อเนื่องกันได้ ซึ่งเป็นแนวทางที่ffmpeg ใช้^{[ 8 ]}

ตัวอย่าง:

สำหรับ $M = 3, N = 12$ โครงสร้าง GOP คือIBBPBBPBBPBBโดยมีเฟรม B 2 เฟรมอยู่ระหว่างเฟรมแองเคอร์สองเฟรมที่อยู่ติดกัน
สำหรับลำดับIBBBBPBBBBPBBBBขนาด GOP $N$ $= 15$ ระยะห่างระหว่างแองเคอร์ $M$ $= 5$ มีเฟรม B 4 เฟรมอยู่ระหว่างเฟรมแองเคอร์สองเฟรมที่อยู่ติดกัน

โครงสร้าง GOP ไม่จำเป็นต้องคงที่ตลอดการเข้ารหัส การเปลี่ยนแปลง $N$ เพื่อแทรกเฟรม I เมื่อมีการเปลี่ยนฉากเป็นเทคนิคที่รู้จักกันดี^{[ 9 ]}เทคนิคใหม่ๆ ยังเปลี่ยนแปลง $M$ ตามปริมาณการเคลื่อนไหวในวิดีโอ อีกด้วย ^{[ 10 ]}

แนวคิดเพิ่มเติม

ด้วย H.264 และการออกแบบในภายหลังที่อนุญาตให้มีโครงสร้างอ้างอิงที่ยืดหยุ่นสูง เฟรม B ใน GOP หนึ่งสามารถอ้างอิงเฟรมใน GOP อื่นได้ โดยเฉพาะอย่างยิ่งก่อนเฟรม I ซึ่งทำให้เฟรม I ไม่ใช่ IDR (ไม่ใช่คีย์เฟรม) ^{[ 2 ]} GOP ที่มีเฟรมอ้างอิงภายนอกดังกล่าวเรียกว่า "GOP เปิด" ในทางตรงกันข้าม GOP ที่มีเนื้อหาในตัวเองเรียกว่า "GOP ปิด" ^{[ 6 ]} ในลำดับการนำเสนอ GOP สามารถเริ่มต้นด้วยเฟรม B ได้ แต่ไม่สามารถจบด้วยเฟรม B ได้ GOP เปิดเริ่มต้นด้วยเฟรม B และมีประสิทธิภาพมากกว่าเล็กน้อย เพราะการเริ่มต้นด้วยเฟรม I หมายความว่าต้องเพิ่มเฟรม P พิเศษเข้าไปที่ส่วนท้าย (GOP ไม่สามารถจบด้วยเฟรม B ได้) ^{[ 11 ]}

ดูเพิ่มเติม

[ 1 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

กลุ่มรูปภาพ

องค์ประกอบ

โครงสร้าง

แนวคิดเพิ่มเติม

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ