อ่าน 3 นาที
การเข้ารหัสการกระตุ้นเวกเตอร์ฮาร์มอนิก
Harmonic Vector Excitation Coding หรือเรียกย่อว่า HVXC เป็น อัลกอริทึม การเข้ารหัสเสียงพูด ที่กำหนดไว้ในมาตรฐาน MPEG-4 Part 3 (MPEG-4 Audio) สำหรับการเข้ารหัสเสียงพูด...
การเข้ารหัสการกระตุ้นเวกเตอร์ฮาร์มอนิก
Harmonic Vector Excitation Codingหรือเรียกย่อว่าHVXCเป็นอัลกอริทึมการเข้ารหัสเสียงพูด ที่กำหนดไว้ในมาตรฐานMPEG-4 Part 3 (MPEG-4 Audio) สำหรับการเข้ารหัสเสียงพูด ที่มีอัตราบิต ต่ำมาก HVXC รองรับอัตราบิต 2 และ 4 กิโลบิต/วินาที ใน โหมด อัตราบิตคงที่และแปรผันและความถี่การสุ่มตัวอย่าง 8 kHz นอกจากนี้ยังทำงานที่อัตราบิตต่ำกว่า เช่น 1.2-1.7 กิโลบิต/วินาที โดยใช้เทคนิคอัตราบิตแปรผัน[ 1 ]ความล่าช้าของอัลกอริทึมทั้งหมดสำหรับตัวเข้ารหัสและตัวถอดรหัสคือ 36 มิลลิวินาที[ 2 ]
ได้รับการเผยแพร่เป็นส่วนย่อยที่ 2 ของISO / IEC 14496-3:1999 (MPEG-4 Audio) ในปี 1999 [ 3 ]เวอร์ชันขยายของ HVXC ได้รับการเผยแพร่ใน MPEG-4 Audio เวอร์ชัน 2 (ISO/IEC 14496-3:1999/Amd 1:2000) [ 4 ] [ 5 ]
ชุดเครื่องมือการเข้ารหัสเสียงพูดธรรมชาติ MPEG-4 ใช้อัลกอริทึมสองแบบ ได้แก่ HVXC และ CELP ( Code Excited Linear Prediction ) HVXC ใช้กับอัตราบิตต่ำที่ 2 หรือ 4 กิโลบิต/วินาที อัตราบิตที่สูงกว่า 4 กิโลบิต/วินาที รวมถึง 3.85 กิโลบิต/วินาที จะถูกครอบคลุมโดย CELP [ 6 ]
เทคโนโลยี
การเข้ารหัสทำนายเชิงเส้น
HVXC ใช้การเข้ารหัสทำนายเชิงเส้น (LPC) พร้อมการปรับตัวแบบบล็อกทุกๆ 20 มิลลิวินาที[ 2 ]พารามิเตอร์ LPC จะถูกแปลงเป็น สัมประสิทธิ์ คู่สเปกตรัมเส้น (LSP) ซึ่งจะถูกควอนไทซ์ร่วมกัน[ 2 ]สัญญาณที่เหลือของ LPC จะถูกจำแนกเป็นเสียงพูดหรือเสียงไม่พูดในกรณีของเสียงพูดที่มีเสียง สัญญาณที่เหลือจะถูกเข้ารหัสในรูปแบบพารามิเตอร์ (ทำงานเป็นวอยโคเดอร์ ) ในขณะที่ในกรณีของเสียงพูดที่ไม่มีเสียง รูปคลื่นที่เหลือจะถูกควอนไทซ์ (จึงทำงานเป็นตัวแปลงสัญญาณเสียงแบบไฮบริด)
การเข้ารหัสตกค้างแบบมีเสียง (ฮาร์โมนิก)
ในส่วนเสียงพูด สัญญาณที่เหลือจะถูกแทนด้วยพารามิเตอร์สองตัว ได้แก่ คาบเสียงและซองสเปกตรัม[ 2 ]คาบเสียงจะถูกประมาณจากค่าสูงสุดของการหาความสัมพันธ์อัตโนมัติของสัญญาณที่เหลือ[ 2 ]ในกระบวนการนี้ สัญญาณที่เหลือจะถูกเปรียบเทียบกับสำเนาที่เลื่อนของตัวมันเอง และการเลื่อนที่ให้ความคล้ายคลึงมากที่สุดโดยการวัดการพึ่งพาเชิงเส้นจะถูกระบุว่าเป็นคาบเสียง ซองสเปกตรัมจะถูกแทนด้วยชุดค่าแอมพลิจูด หนึ่งค่าต่อฮาร์มอนิก [ 2 ] เพื่อดึงค่าเหล่านี้ สัญญาณที่เหลือของ LPC จะถูกแปลงเป็นโดเมนDFT [ 2 ]สเปกตรัม DFT จะถูกแบ่งออกเป็นแถบ หนึ่งแถบต่อฮาร์มอนิก แถบความถี่สำหรับฮาร์มอนิกที่ m ประกอบด้วยสัมประสิทธิ์ DFT จาก (m-1/2)ω 0ถึง (m+1/2)ω 0โดยที่ ω 0คือความถี่เสียง[ 2 ]ค่าแอมพลิจูดสำหรับฮาร์มอนิกที่ m จะถูกเลือกเพื่อแสดงค่าสัมประสิทธิ์ DFT เหล่านี้อย่างเหมาะสม[ 2 ] ข้อมูลเฟสจะถูกละทิ้งในกระบวนการนี้ จากนั้นซองสเปกตรัมจะถูกเข้ารหัสโดยใช้ การหาปริมาณเวกเตอร์แบบถ่วงน้ำหนักมิติแปรผันกระบวนการนี้เรียกอีกอย่างว่าHarmonic VQ
เพื่อให้การพูดที่มีการผสมผสานระหว่างการกระตุ้นด้วยเสียงและไม่มีเสียงฟังดูเป็นธรรมชาติและราบรื่นยิ่งขึ้น จึงมีการแบ่งโหมดการพูดด้วยเสียงออกเป็น 3 โหมดที่แตกต่างกัน (Mixed Voiced-1, Mixed Voiced-2, Full Voiced) [ 2 ] ระดับของการพูดด้วยเสียงจะถูกกำหนดโดยค่าของฟังก์ชันสหสัมพันธ์อัตโนมัติแบบนอร์มาไลซ์ที่การเลื่อนหนึ่งคาบความถี่ ขึ้นอยู่กับโหมดที่เลือก ปริมาณ สัญญาณรบกวนแบบ เกาส์เซียน แบบแบนด์พาสที่แตกต่างกันจะถูกเพิ่มเข้าไปในสัญญาณฮาร์มอนิกที่สังเคราะห์โดยตัวถอดรหัส
การเข้ารหัสตกค้างแบบไร้เสียง (VXC)
ส่วนที่ไม่มีเสียงจะถูกเข้ารหัสตาม รูปแบบ CELPซึ่งเรียกอีกอย่างว่าการเข้ารหัสการกระตุ้นเวกเตอร์ (VXC) [ 2 ]การเข้ารหัส CELP ใน HVXQ ดำเนินการโดยใช้เพียงสมุดรหัสแบบสุ่มเท่านั้น ในตัวแปลงสัญญาณ CELP อื่นๆ จะใช้สมุดรหัสแบบไดนามิกเพิ่มเติมเพื่อทำการทำนายระยะยาวของส่วนที่มีเสียง อย่างไรก็ตาม เนื่องจาก HVXC ไม่ได้ใช้ CELP สำหรับส่วนที่มีเสียง จึงละเว้นสมุดรหัสแบบไดนามิกจากการออกแบบ
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การเข้ารหัสการกระตุ้นเวกเตอร์ฮาร์มอนิก
Harmonic Vector Excitation Coding หรือเรียกย่อว่า HVXC เป็น อัลกอริทึม การเข้ารหัสเสียงพูด ที่กำหนดไว้ในมาตรฐาน MPEG-4 Part 3 (MPEG-4 Audio) สำหรับการเข้ารหัสเสียงพูด...
การเข้ารหัสทำนายเชิงเส้น
HVXC ใช้ การเข้ารหัสทำนายเชิงเส้น (LPC) พร้อมการปรับตัวแบบบล็อกทุกๆ 20 มิลลิวินาที [ 2 ] พารามิเตอร์ LPC จะถูกแปลงเป็น สัมประสิทธิ์ คู่สเปกตรัมเส้น (LSP) ซึ่งจะถูกควอนไทซ์ร่วมกัน [ 2 ] สัญญาณที่เหลือของ LPC จะถูกจำแนกเป็น เสียงพูด หรือ เสียงไม่พูด...
การเข้ารหัสตกค้างแบบมีเสียง (ฮาร์โมนิก)
ในส่วนเสียงพูด สัญญาณที่เหลือจะถูกแทนด้วยพารามิเตอร์สองตัว ได้แก่ คาบเสียงและซองสเปกตรัม [ 2 ] คาบเสียงจะถูกประมาณจากค่าสูงสุดของการ หาความสัมพันธ์อัตโนมัติ ของสัญญาณที่เหลือ [ 2 ] ในกระบวนการนี้ สัญญาณที่เหลือจะถูกเปรียบเทียบกับสำเนาที่เลื่อนของตัวมันเอง...
การเข้ารหัสตกค้างแบบไร้เสียง (VXC)
ส่วนที่ไม่มีเสียงจะถูกเข้ารหัสตาม รูปแบบ CELP ซึ่งเรียกอีกอย่างว่า การเข้ารหัสการกระตุ้นเวกเตอร์ (VXC) [ 2 ] การเข้ารหัส CELP ใน HVXQ ดำเนินการโดยใช้เพียงสมุดรหัสแบบสุ่มเท่านั้น ในตัวแปลงสัญญาณ CELP อื่นๆ จะใช้สมุดรหัสแบบไดนามิกเพิ่มเติมเพื่อทำการ...