การเข้ารหัสการกระตุ้นเวกเตอร์ฮาร์มอนิก

Harmonic Vector Excitation Codingหรือเรียกย่อว่าHVXCเป็นอัลกอริทึม การเข้ารหัสเสียงพูด ที่กำหนดไว้ในมาตรฐานMPEG-4 Part 3 (MPEG-4 Audio) สำหรับการเข้ารหัสเสียงพูด ที่มีอัตราบิต ต่ำมาก HVXC รองรับอัตราบิต 2 และ 4 กิโลบิต/วินาที ใน โหมด อัตราบิตคงที่และแปรผันและความถี่การสุ่มตัวอย่าง 8 kHz นอกจากนี้ยังทำงานที่อัตราบิตต่ำกว่า เช่น 1.2-1.7 กิโลบิต/วินาที โดยใช้เทคนิคอัตราบิตแปรผัน^[¹^]ความล่าช้าของอัลกอริทึมทั้งหมดสำหรับตัวเข้ารหัสและตัวถอดรหัสคือ 36 มิลลิวินาที^[²^]

ได้รับการเผยแพร่เป็นส่วนย่อยที่ 2 ของISO / IEC 14496-3:1999 (MPEG-4 Audio) ในปี 1999 ^{[ 3 ]}เวอร์ชันขยายของ HVXC ได้รับการเผยแพร่ใน MPEG-4 Audio เวอร์ชัน 2 (ISO/IEC 14496-3:1999/Amd 1:2000) ^{[ 4 ]}^{[ 5 ]}

ชุดเครื่องมือการเข้ารหัสเสียงพูดธรรมชาติ MPEG-4 ใช้อัลกอริทึมสองแบบ ได้แก่ HVXC และ CELP ( Code Excited Linear Prediction ) HVXC ใช้กับอัตราบิตต่ำที่ 2 หรือ 4 กิโลบิต/วินาที อัตราบิตที่สูงกว่า 4 กิโลบิต/วินาที รวมถึง 3.85 กิโลบิต/วินาที จะถูกครอบคลุมโดย CELP ^{[ 6 ]}

เทคโนโลยี

การเข้ารหัสทำนายเชิงเส้น

HVXC ใช้การเข้ารหัสทำนายเชิงเส้น (LPC) พร้อมการปรับตัวแบบบล็อกทุกๆ 20 มิลลิวินาที^{[ 2 ]}พารามิเตอร์ LPC จะถูกแปลงเป็น สัมประสิทธิ์ คู่สเปกตรัมเส้น (LSP) ซึ่งจะถูกควอนไทซ์ร่วมกัน^{[ 2 ]}สัญญาณที่เหลือของ LPC จะถูกจำแนกเป็นเสียงพูดหรือเสียงไม่พูดในกรณีของเสียงพูดที่มีเสียง สัญญาณที่เหลือจะถูกเข้ารหัสในรูปแบบพารามิเตอร์ (ทำงานเป็นวอยโคเดอร์ ) ในขณะที่ในกรณีของเสียงพูดที่ไม่มีเสียง รูปคลื่นที่เหลือจะถูกควอนไทซ์ (จึงทำงานเป็นตัวแปลงสัญญาณเสียงแบบไฮบริด)

การเข้ารหัสตกค้างแบบมีเสียง (ฮาร์โมนิก)

ในส่วนเสียงพูด สัญญาณที่เหลือจะถูกแทนด้วยพารามิเตอร์สองตัว ได้แก่ คาบเสียงและซองสเปกตรัม^{[ 2 ]}คาบเสียงจะถูกประมาณจากค่าสูงสุดของการหาความสัมพันธ์อัตโนมัติของสัญญาณที่เหลือ^{[ 2 ]}ในกระบวนการนี้ สัญญาณที่เหลือจะถูกเปรียบเทียบกับสำเนาที่เลื่อนของตัวมันเอง และการเลื่อนที่ให้ความคล้ายคลึงมากที่สุดโดยการวัดการพึ่งพาเชิงเส้นจะถูกระบุว่าเป็นคาบเสียง ซองสเปกตรัมจะถูกแทนด้วยชุดค่าแอมพลิจูด หนึ่งค่าต่อฮาร์มอนิก [ ^{2 ] เพื่อ}ดึงค่าเหล่านี้ สัญญาณที่เหลือของ LPC จะถูกแปลงเป็นโดเมนDFT ^{[ 2 ]}สเปกตรัม DFT จะถูกแบ่งออกเป็นแถบ หนึ่งแถบต่อฮาร์มอนิก แถบความถี่สำหรับฮาร์มอนิกที่ m ประกอบด้วยสัมประสิทธิ์ DFT จาก (m-1/2)ω ₀ถึง (m+1/2)ω ₀โดยที่ ω ₀คือความถี่เสียง^{[ 2 ]}ค่าแอมพลิจูดสำหรับฮาร์มอนิกที่ m จะถูกเลือกเพื่อแสดงค่าสัมประสิทธิ์ DFT เหล่านี้อย่างเหมาะสม^{[ 2 ]} ข้อมูลเฟสจะถูกละทิ้งในกระบวนการนี้ จากนั้นซองสเปกตรัมจะถูกเข้ารหัสโดยใช้ การหาปริมาณเวกเตอร์แบบถ่วงน้ำหนักมิติแปรผันกระบวนการนี้เรียกอีกอย่างว่าHarmonic VQ

เพื่อให้การพูดที่มีการผสมผสานระหว่างการกระตุ้นด้วยเสียงและไม่มีเสียงฟังดูเป็นธรรมชาติและราบรื่นยิ่งขึ้น จึงมีการแบ่งโหมดการพูดด้วยเสียงออกเป็น 3 โหมดที่แตกต่างกัน (Mixed Voiced-1, Mixed Voiced-2, Full Voiced) ^{[ 2 ]} ระดับของการพูดด้วยเสียงจะถูกกำหนดโดยค่าของฟังก์ชันสหสัมพันธ์อัตโนมัติแบบนอร์มาไลซ์ที่การเลื่อนหนึ่งคาบความถี่ ขึ้นอยู่กับโหมดที่เลือก ปริมาณ สัญญาณรบกวนแบบ เกาส์เซียน แบบแบนด์พาสที่แตกต่างกันจะถูกเพิ่มเข้าไปในสัญญาณฮาร์มอนิกที่สังเคราะห์โดยตัวถอดรหัส

การเข้ารหัสตกค้างแบบไร้เสียง (VXC)

ส่วนที่ไม่มีเสียงจะถูกเข้ารหัสตาม รูปแบบ CELPซึ่งเรียกอีกอย่างว่าการเข้ารหัสการกระตุ้นเวกเตอร์ (VXC) ^{[ 2 ]}การเข้ารหัส CELP ใน HVXQ ดำเนินการโดยใช้เพียงสมุดรหัสแบบสุ่มเท่านั้น ในตัวแปลงสัญญาณ CELP อื่นๆ จะใช้สมุดรหัสแบบไดนามิกเพิ่มเติมเพื่อทำการทำนายระยะยาวของส่วนที่มีเสียง อย่างไรก็ตาม เนื่องจาก HVXC ไม่ได้ใช้ CELP สำหรับส่วนที่มีเสียง จึงละเว้นสมุดรหัสแบบไดนามิกจากการออกแบบ

ดูเพิ่มเติม

โอปุส (รูปแบบเสียง)

[

[

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]