กลับไปหน้าบทความ

อ่าน 1 นาที

การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน

การทำให้ค่าเฉลี่ยและความแปรปรวน ของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐาน ที่มีประสิทธิภาพ ใน การคำนวณ สำหรับ การรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ...

การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน

การทำให้ค่าเฉลี่ยและความแปรปรวนของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐานที่มีประสิทธิภาพใน การคำนวณ สำหรับการรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ CMVN เป็นที่ทราบกันดีว่าลดลงสำหรับคำพูด สั้นๆ เนื่องจากมีข้อมูลไม่เพียงพอสำหรับการประมาณค่าพารามิเตอร์และการสูญเสียข้อมูลที่สามารถแยกแยะได้ เนื่องจากคำพูดทั้งหมดถูกบังคับให้มีค่าเฉลี่ย เป็นศูนย์ และความแปรปรวนเป็น หนึ่ง [ 1 ]

CMVN ลดการบิดเบือนที่เกิดจากการปนเปื้อนของสัญญาณรบกวนเพื่อการสกัดคุณลักษณะ ที่แข็งแกร่ง โดยการแปลงสัมประสิทธิ์เซปสตรัมเชิงเส้นเพื่อให้มีสถิติส่วนเดียวกัน[ 2 ] การทำให้เป็นมาตรฐานของเซปสตรัมมีประสิทธิภาพในCMU Sphinxในการรักษาความแม่นยำในการจดจำในระดับสูงในสภาพแวดล้อมทางเสียงที่หลากหลาย[ 3 ]

เทคนิคการปรับค่ามาตรฐานเซปสตรัม

มีอัลกอริธึมหลายแบบที่ใช้ในการปรับค่า Cepstral ให้เป็นมาตรฐานด้วยวิธีการที่แตกต่างกัน

การปรับค่าเซปสตรัมแบบคงที่โดยขึ้นอยู่กับรหัสคำ (FCDCN)

FCDCN ถูกพัฒนาขึ้นเพื่อใช้เป็นรูปแบบการชดเชยที่ให้ความแม่นยำในการจดจำสูงกว่า SDCN แต่มีประสิทธิภาพในการคำนวณมากกว่าอัลกอริธึม CDCN อัลกอริธึม FCDCN ใช้การแก้ไขแบบบวกซึ่งขึ้นอยู่กับ SNR ทันทีของอินพุต (เช่นเดียวกับ SDCN) แต่ยังสามารถเปลี่ยนแปลงได้ในแต่ละรหัสคำ (เช่นเดียวกับ CDCN)

การปรับค่าเซปสตรัมแบบขึ้นอยู่กับรหัสคำคงที่หลายตัว (MFCDCN)

MFCDCN เป็นส่วนขยายที่เรียบง่ายของอัลกอริธึม FCDCN ซึ่งไม่จำเป็นต้องฝึกฝนเฉพาะสภาพแวดล้อม ใน MFCDCN เวกเตอร์ชดเชยจะถูกคำนวณล่วงหน้าแบบขนานสำหรับชุดของสภาพแวดล้อมเป้าหมาย โดยใช้อัลกอริธึม FCDCN

การปรับค่าเซปสตรัมแบบเพิ่มขึ้นทีละหลายรหัสคงที่ที่ขึ้นอยู่กับคำรหัส (IMFCDCN)

ในขณะที่การเลือกสภาพแวดล้อมสำหรับเวกเตอร์ชดเชยของ MFCDCN โดยทั่วไปจะดำเนินการทีละประโยค แต่ IMFCFCN ได้ปรับปรุงให้ดีขึ้นโดยอนุญาตให้กระบวนการจำแนกประเภทใช้เวกเตอร์เซปสตรัมจากประโยคก่อนหน้าในเซสชันที่กำหนด

การลบสัญญาณรบกวนเซปสตรัม

การรู้จำเสียงพูดอัตโนมัติ (ASR) อธิบายขั้นตอนการถอดเสียงพูดที่แสดงในรูปแบบคลื่นเสียงเป็นคำเขียน CMVN ถูกนำมาใช้ในแอปพลิเคชันต่างๆ เนื่องจากเทคนิคนี้ได้รับการพิสูจน์แล้วว่าให้ผลลัพธ์การรู้จำเสียงพูดที่ดีกว่าในสภาพแวดล้อมต่างๆ CMVN มีความสามารถในการลดความแตกต่างระหว่างข้อมูลทดสอบและข้อมูลฝึกฝนที่เกิดจากการบิดเบือนช่องสัญญาณและการใส่สี นอกจากนี้ยังพบว่า CMVN สามารถลดความแตกต่างในการแสดงคุณลักษณะระหว่างผู้พูด และยังสามารถลดอิทธิพลของเสียงรบกวนพื้นหลังได้บางส่วน[ 4 ]

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Cepstral_mean_and_variance_normalization&oldid=1218520080 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การปรับค่าเฉลี่ยและความแปรปรวนของเซปสตรัมให้เป็นมาตรฐาน

การทำให้ค่าเฉลี่ยและความแปรปรวน ของเซปสตรัม เป็นมาตรฐาน ( CMVN ) เป็น เทคนิค การทำให้เป็นมาตรฐาน ที่มีประสิทธิภาพ ใน การคำนวณ สำหรับ การรู้จำเสียงพูด ที่แข็งแกร่ง ประสิทธิภาพของ...

เทคนิคการปรับค่ามาตรฐานเซปสตรัม

มีอัลกอริธึมหลายแบบที่ใช้ในการปรับค่า Cepstral ให้เป็นมาตรฐานด้วยวิธีการที่แตกต่างกัน

การปรับค่าเซปสตรัมแบบคงที่โดยขึ้นอยู่กับรหัสคำ (FCDCN)

FCDCN ถูกพัฒนาขึ้นเพื่อใช้เป็นรูปแบบการชดเชยที่ให้ความแม่นยำในการจดจำสูงกว่า SDCN แต่มีประสิทธิภาพในการคำนวณมากกว่าอัลกอริธึม CDCN อัลกอริธึม FCDCN ใช้การแก้ไขแบบบวกซึ่งขึ้นอยู่กับ SNR ทันทีของอินพุต (เช่นเดียวกับ SDCN) แต่ยังสามารถเปลี่ยนแปลงได้ในแต่ละรหัสคำ...

การปรับค่าเซปสตรัมแบบขึ้นอยู่กับรหัสคำคงที่หลายตัว (MFCDCN)

MFCDCN เป็นส่วนขยายที่เรียบง่ายของอัลกอริธึม FCDCN ซึ่งไม่จำเป็นต้องฝึกฝนเฉพาะสภาพแวดล้อม ใน MFCDCN เวกเตอร์ชดเชยจะถูกคำนวณล่วงหน้าแบบขนานสำหรับชุดของสภาพแวดล้อมเป้าหมาย โดยใช้อัลกอริธึม FCDCN