อ่าน 1 นาที
การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน
การทำให้ค่าเฉลี่ยและความแปรปรวน ของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐาน ที่มีประสิทธิภาพ ใน การคำนวณ สำหรับ การรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ...
การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน
การทำให้ค่าเฉลี่ยและความแปรปรวนของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐานที่มีประสิทธิภาพใน การคำนวณ สำหรับการรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ CMVN เป็นที่ทราบกันดีว่าลดลงสำหรับคำพูด สั้นๆ เนื่องจากมีข้อมูลไม่เพียงพอสำหรับการประมาณค่าพารามิเตอร์และการสูญเสียข้อมูลที่สามารถแยกแยะได้ เนื่องจากคำพูดทั้งหมดถูกบังคับให้มีค่าเฉลี่ย เป็นศูนย์ และความแปรปรวนเป็น หนึ่ง [ 1 ]
CMVN ลดการบิดเบือนที่เกิดจากการปนเปื้อนของสัญญาณรบกวนเพื่อการสกัดคุณลักษณะ ที่แข็งแกร่ง โดยการแปลงสัมประสิทธิ์เซปสตรัมเชิงเส้นเพื่อให้มีสถิติส่วนเดียวกัน[ 2 ] การทำให้เป็นมาตรฐานของเซปสตรัมมีประสิทธิภาพในCMU Sphinxในการรักษาความแม่นยำในการจดจำในระดับสูงในสภาพแวดล้อมทางเสียงที่หลากหลาย[ 3 ]
เทคนิคการปรับค่ามาตรฐานเซปสตรัม
มีอัลกอริธึมหลายแบบที่ใช้ในการปรับค่า Cepstral ให้เป็นมาตรฐานด้วยวิธีการที่แตกต่างกัน
การปรับค่าเซปสตรัมแบบคงที่โดยขึ้นอยู่กับรหัสคำ (FCDCN)
FCDCN ถูกพัฒนาขึ้นเพื่อใช้เป็นรูปแบบการชดเชยที่ให้ความแม่นยำในการจดจำสูงกว่า SDCN แต่มีประสิทธิภาพในการคำนวณมากกว่าอัลกอริธึม CDCN อัลกอริธึม FCDCN ใช้การแก้ไขแบบบวกซึ่งขึ้นอยู่กับ SNR ทันทีของอินพุต (เช่นเดียวกับ SDCN) แต่ยังสามารถเปลี่ยนแปลงได้ในแต่ละรหัสคำ (เช่นเดียวกับ CDCN)
การปรับค่าเซปสตรัมแบบขึ้นอยู่กับรหัสคำคงที่หลายตัว (MFCDCN)
MFCDCN เป็นส่วนขยายที่เรียบง่ายของอัลกอริธึม FCDCN ซึ่งไม่จำเป็นต้องฝึกฝนเฉพาะสภาพแวดล้อม ใน MFCDCN เวกเตอร์ชดเชยจะถูกคำนวณล่วงหน้าแบบขนานสำหรับชุดของสภาพแวดล้อมเป้าหมาย โดยใช้อัลกอริธึม FCDCN
การปรับค่าเซปสตรัมแบบเพิ่มขึ้นทีละหลายรหัสคงที่ที่ขึ้นอยู่กับคำรหัส (IMFCDCN)
ในขณะที่การเลือกสภาพแวดล้อมสำหรับเวกเตอร์ชดเชยของ MFCDCN โดยทั่วไปจะดำเนินการทีละประโยค แต่ IMFCFCN ได้ปรับปรุงให้ดีขึ้นโดยอนุญาตให้กระบวนการจำแนกประเภทใช้เวกเตอร์เซปสตรัมจากประโยคก่อนหน้าในเซสชันที่กำหนด
การลบสัญญาณรบกวนเซปสตรัม
การรู้จำเสียงพูดอัตโนมัติ (ASR) อธิบายขั้นตอนการถอดเสียงพูดที่แสดงในรูปแบบคลื่นเสียงเป็นคำเขียน CMVN ถูกนำมาใช้ในแอปพลิเคชันต่างๆ เนื่องจากเทคนิคนี้ได้รับการพิสูจน์แล้วว่าให้ผลลัพธ์การรู้จำเสียงพูดที่ดีกว่าในสภาพแวดล้อมต่างๆ CMVN มีความสามารถในการลดความแตกต่างระหว่างข้อมูลทดสอบและข้อมูลฝึกฝนที่เกิดจากการบิดเบือนช่องสัญญาณและการใส่สี นอกจากนี้ยังพบว่า CMVN สามารถลดความแตกต่างในการแสดงคุณลักษณะระหว่างผู้พูด และยังสามารถลดอิทธิพลของเสียงรบกวนพื้นหลังได้บางส่วน[ 4 ]
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน
การทำให้ค่าเฉลี่ยและความแปรปรวน ของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐาน ที่มีประสิทธิภาพ ใน การคำนวณ สำหรับ การรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ...
เทคนิคการปรับค่ามาตรฐานเซปสตรัม
มีอัลกอริธึมหลายแบบที่ใช้ในการปรับค่า Cepstral ให้เป็นมาตรฐานด้วยวิธีการที่แตกต่างกัน
การปรับค่าเซปสตรัมแบบคงที่โดยขึ้นอยู่กับรหัสคำ (FCDCN)
FCDCN ถูกพัฒนาขึ้นเพื่อใช้เป็นรูปแบบการชดเชยที่ให้ความแม่นยำในการจดจำสูงกว่า SDCN แต่มีประสิทธิภาพในการคำนวณมากกว่าอัลกอริธึม CDCN อัลกอริธึม FCDCN ใช้การแก้ไขแบบบวกซึ่งขึ้นอยู่กับ SNR ทันทีของอินพุต (เช่นเดียวกับ SDCN) แต่ยังสามารถเปลี่ยนแปลงได้ในแต่ละรหัสคำ...
การปรับค่าเซปสตรัมแบบขึ้นอยู่กับรหัสคำคงที่หลายตัว (MFCDCN)
MFCDCN เป็นส่วนขยายที่เรียบง่ายของอัลกอริธึม FCDCN ซึ่งไม่จำเป็นต้องฝึกฝนเฉพาะสภาพแวดล้อม ใน MFCDCN เวกเตอร์ชดเชยจะถูกคำนวณล่วงหน้าแบบขนานสำหรับชุดของสภาพแวดล้อมเป้าหมาย โดยใช้อัลกอริธึม FCDCN