การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน

การทำให้ค่าเฉลี่ยและความแปรปรวนของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐานที่มีประสิทธิภาพใน การคำนวณ สำหรับการรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ CMVN เป็นที่ทราบกันดีว่าลดลงสำหรับคำพูด สั้นๆ เนื่องจากมีข้อมูลไม่เพียงพอสำหรับการประมาณค่าพารามิเตอร์และการสูญเสียข้อมูลที่สามารถแยกแยะได้ เนื่องจากคำพูดทั้งหมดถูกบังคับให้มีค่าเฉลี่ย เป็นศูนย์ และความแปรปรวนเป็น^{หนึ่ง [}¹^]

CMVN ลดการบิดเบือนที่เกิดจากการปนเปื้อนของสัญญาณรบกวนเพื่อการสกัดคุณลักษณะ ที่แข็งแกร่ง โดยการแปลงสัมประสิทธิ์เซปสตรัมเชิงเส้นเพื่อให้มีสถิติส่วนเดียวกัน^{[ 2 ]} การทำให้เป็นมาตรฐานของเซปสตรัมมีประสิทธิภาพในCMU Sphinxในการรักษาความแม่นยำในการจดจำในระดับสูงในสภาพแวดล้อมทางเสียงที่หลากหลาย^{[ 3 ]}

เทคนิคการปรับค่ามาตรฐานเซปสตรัม

มีอัลกอริธึมหลายแบบที่ใช้ในการปรับค่า Cepstral ให้เป็นมาตรฐานด้วยวิธีการที่แตกต่างกัน

การปรับค่าเซปสตรัมแบบคงที่โดยขึ้นอยู่กับรหัสคำ (FCDCN)

FCDCN ถูกพัฒนาขึ้นเพื่อใช้เป็นรูปแบบการชดเชยที่ให้ความแม่นยำในการจดจำสูงกว่า SDCN แต่มีประสิทธิภาพในการคำนวณมากกว่าอัลกอริธึม CDCN อัลกอริธึม FCDCN ใช้การแก้ไขแบบบวกซึ่งขึ้นอยู่กับ SNR ทันทีของอินพุต (เช่นเดียวกับ SDCN) แต่ยังสามารถเปลี่ยนแปลงได้ในแต่ละรหัสคำ (เช่นเดียวกับ CDCN)

การปรับค่าเซปสตรัมแบบขึ้นอยู่กับรหัสคำคงที่หลายตัว (MFCDCN)

MFCDCN เป็นส่วนขยายที่เรียบง่ายของอัลกอริธึม FCDCN ซึ่งไม่จำเป็นต้องฝึกฝนเฉพาะสภาพแวดล้อม ใน MFCDCN เวกเตอร์ชดเชยจะถูกคำนวณล่วงหน้าแบบขนานสำหรับชุดของสภาพแวดล้อมเป้าหมาย โดยใช้อัลกอริธึม FCDCN

การปรับค่าเซปสตรัมแบบเพิ่มขึ้นทีละหลายรหัสคงที่ที่ขึ้นอยู่กับคำรหัส (IMFCDCN)

ในขณะที่การเลือกสภาพแวดล้อมสำหรับเวกเตอร์ชดเชยของ MFCDCN โดยทั่วไปจะดำเนินการทีละประโยค แต่ IMFCFCN ได้ปรับปรุงให้ดีขึ้นโดยอนุญาตให้กระบวนการจำแนกประเภทใช้เวกเตอร์เซปสตรัมจากประโยคก่อนหน้าในเซสชันที่กำหนด

การลบสัญญาณรบกวนเซปสตรัม

การรู้จำเสียงพูดอัตโนมัติ (ASR) อธิบายขั้นตอนการถอดเสียงพูดที่แสดงในรูปแบบคลื่นเสียงเป็นคำเขียน CMVN ถูกนำมาใช้ในแอปพลิเคชันต่างๆ เนื่องจากเทคนิคนี้ได้รับการพิสูจน์แล้วว่าให้ผลลัพธ์การรู้จำเสียงพูดที่ดีกว่าในสภาพแวดล้อมต่างๆ CMVN มีความสามารถในการลดความแตกต่างระหว่างข้อมูลทดสอบและข้อมูลฝึกฝนที่เกิดจากการบิดเบือนช่องสัญญาณและการใส่สี นอกจากนี้ยังพบว่า CMVN สามารถลดความแตกต่างในการแสดงคุณลักษณะระหว่างผู้พูด และยังสามารถลดอิทธิพลของเสียงรบกวนพื้นหลังได้บางส่วน^{[ 4 ]}

หนึ่ง [

[ 2 ]

[ 3 ]

[ 4 ]