อ่าน 34 นาที

การรู้จำเสียงพูด

Q: ก่อนปี 1970

Raj Reddy เป็นบุคคลแรกที่ทำการจดจำเสียงพูดอย่างต่อเนื่อง [ 19 ] ในฐานะนักศึกษาปริญญาโทที่ มหาวิทยาลัยสแตนฟอร์ด ในช่วงปลายทศวรรษ 1960 ระบบก่อนหน้านี้กำหนดให้ผู้ใช้ต้องหยุดหลังจากแต่ละคำ ระบบของ Reddy ออกคำสั่งด้วยเสียงสำหรับการเล่น หมากรุก

Q: พ.ศ. 2513–2533

ในช่วงปลายทศวรรษ 1960 เลียวนาร์ด บอม ได้พัฒนาคณิตศาสตร์ของ ห่วงโซ่มาร์คอฟ ที่ สถาบันวิเคราะห์การป้องกันประเทศ หนึ่งทศวรรษต่อมา ที่ CMU นักศึกษาของราช เรดดี้ คือ เจมส์ เบเกอร์ และ เจเน็ต เอ็ม.

การรู้จำเสียงพูด ( การรู้จำเสียงพูดอัตโนมัติ ( ASR ), การรู้จำเสียงพูดด้วยคอมพิวเตอร์ หรือ การ แปลงเสียงพูดเป็นข้อความ ( STT )) เป็นสาขาย่อยของ ภาษาศาสตร์เชิงคำนวณ...

การรู้จำเสียงพูด

( เรียนรู้วิธีและเวลาในการลบข้อความนี้ )

การรู้จำเสียงพูด ( การรู้จำเสียงพูดอัตโนมัติ ( ASR ), การรู้จำเสียงพูดด้วยคอมพิวเตอร์หรือ การ แปลงเสียงพูดเป็นข้อความ ( STT )) เป็นสาขาย่อยของภาษาศาสตร์เชิงคำนวณที่เกี่ยวข้องกับวิธีการและเทคโนโลยีที่แปลภาษาพูดเป็นข้อความหรือรูปแบบอื่นที่สามารถตีความได้^{[ 1 ]}

แอปพลิเคชันการรู้จำเสียงพูดรวมถึงอินเทอร์เฟซผู้ใช้ด้วยเสียงซึ่งผู้ใช้พูดกับอุปกรณ์ อุปกรณ์จะ "ฟัง" และประมวลผลเสียง แอปพลิเคชันเสียงทั่วไป ได้แก่ การตีความคำสั่งสำหรับการโทร การกำหนดเส้นทางการโทร ระบบบ้านอัจฉริยะ และการควบคุมเครื่องบิน แอปพลิเคชันเหล่านี้เรียกว่าการป้อนข้อมูลด้วยเสียงโดยตรง แอปพลิเคชันเพื่อเพิ่มประสิทธิภาพการทำงาน ได้แก่ การค้นหาบันทึกเสียง การสร้างบันทึกถอดเสียง และการเขียนตามคำบอก

การรู้จำเสียงพูดสามารถใช้ในการวิเคราะห์ลักษณะเฉพาะของผู้พูด เช่น การระบุภาษาแม่โดยใช้การประเมินการออกเสียง^{[ 2 ]}

การจดจำเสียง^{[ 3 ]}^{[ 4 ]}^{[ 5 ]} ( การระบุตัวผู้พูด ) ^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}หมายถึงการระบุตัวผู้พูด ไม่ใช่เนื้อหาของคำพูดการจดจำผู้พูดสามารถทำให้การแปลคำพูดในระบบที่ฝึกฝนโดยใช้เสียงของบุคคลใดบุคคลหนึ่งง่ายขึ้น นอกจากนี้ยังสามารถใช้เพื่อตรวจสอบความถูกต้องของผู้พูดซึ่งเป็นส่วนหนึ่งของกระบวนการรักษาความปลอดภัยได้อีกด้วย

ประวัติศาสตร์

แอปพลิเคชันสำหรับการรู้จำเสียงพูดได้รับการพัฒนามาหลายทศวรรษ โดยความก้าวหน้าเร่งตัวขึ้นเนื่องจากความก้าวหน้าในการเรียนรู้เชิงลึกและการใช้ข้อมูลขนาดใหญ่ [ ^{9 ] ความ}ก้าวหน้าเหล่านี้สะท้อนให้เห็นในการเพิ่มขึ้นของเอกสารทางวิชาการ^{[ 10 ]}และการนำระบบไปใช้มากขึ้น^{[ 11 ]}

ด้านสำคัญที่มีการพัฒนา ได้แก่ ขนาดของคำศัพท์ การจดจำเสียงผู้พูดที่ไม่คุ้นเคยได้แม่นยำยิ่งขึ้น (ความเป็นอิสระจากผู้พูด) และความเร็วในการประมวลผลที่เร็วขึ้น

ก่อนปี 1970

พ.ศ. 2495 – นักวิจัย ของ Bell Labsได้แก่ Stephen Balashek ^{[ 12 ]} R. Biddulph และ KH Davis ได้สร้าง Audrey ^{[ 13 ]}สำหรับการจดจำตัวเลขจากผู้พูดคนเดียว ระบบของพวกเขาระบุตำแหน่งของฟอร์แมนต์ในสเปกตรัมกำลังของแต่ละคำพูด^{[ 14 ]}
พ.ศ. 2503 – Gunnar Fantได้พัฒนาและเผยแพร่แบบจำลองแหล่งกำเนิด-ตัวกรองของการผลิตเสียงพูด^{[ 15 ]}
พ.ศ. 2505 – ระบบจดจำเสียงพูดของเครื่อง "Shoebox" 16 คำของIBM เปิดตัวครั้งแรกใน งานมหกรรมโลกปี พ.ศ. 2505 ^{[ 16 ]}
พ.ศ. 2509 – การเข้ารหัสแบบทำนายเชิงเส้นซึ่ง เป็นวิธี การเข้ารหัสเสียงพูด ได้รับการเสนอโดยFumitada Itakuraจากมหาวิทยาลัยนาโกย่าและ Shuzo Saito จากบริษัท Nippon Telegraph and Telephone ^{[ 17 ]}
พ.ศ. 2512 – การให้ทุนสนับสนุนที่Bell Labsหยุดชะงักไปหลายปีหลังจากที่John R. Pierce หัวหน้าวิศวกรของบริษัท ได้เขียนจดหมายเปิดผนึกวิจารณ์งานวิจัยด้านการรู้จำเสียงพูด^{[ 18 ]}การตัดงบประมาณนี้ดำเนินต่อไปจนกระทั่ง Pierce เกษียณอายุและJames L. Flanaganเข้ามารับตำแหน่งแทน

Raj Reddyเป็นบุคคลแรกที่ทำการจดจำเสียงพูดอย่างต่อเนื่อง^{[ 19 ]}ในฐานะนักศึกษาปริญญาโทที่มหาวิทยาลัยสแตนฟอร์ดในช่วงปลายทศวรรษ 1960 ระบบก่อนหน้านี้กำหนดให้ผู้ใช้ต้องหยุดหลังจากแต่ละคำ ระบบของ Reddy ออกคำสั่งด้วยเสียงสำหรับการเล่น หมากรุก

ในช่วงเวลานี้ นักวิจัยชาวโซเวียตได้คิดค้น อัลกอริทึม การบิดเบือนเวลาแบบไดนามิก (DTW) ^{[ 20 ]}และใช้อัลกอริทึมนี้ในการสร้างตัวรับรู้ที่สามารถทำงานกับคำศัพท์ 200 คำได้^{[ 21 ]} DTW ประมวลผลคำพูดโดยแบ่งออกเป็นเฟรมสั้นๆ (เช่น ส่วน 10 มิลลิวินาที) และถือว่าแต่ละเฟรมเป็นหน่วย อย่างไรก็ตาม ปัญหาความเป็นอิสระของผู้พูดยังคงไม่ได้รับการแก้ไข

พ.ศ. 2513–2533

พ.ศ. 2514 – DARPAให้ทุนสนับสนุนโครงการวิจัยการรู้จำเสียงพูดเป็นเวลาห้าปี โครงการวิจัยความเข้าใจเสียงพูด โดยมุ่งเป้าไปที่ขนาดคำศัพท์ขั้นต่ำ 1,000 คำ โครงการนี้ถือว่าความเข้าใจเสียงพูดเป็นกุญแจสำคัญในการบรรลุความก้าวหน้าในการรู้จำเสียงพูด ซึ่งต่อมาได้รับการพิสูจน์แล้วว่าไม่ถูกต้อง^{[ 22 ]} BBN , IBM, Carnegie Mellon (CMU) และStanford Research Instituteเข้าร่วม^{[ 23 ]}^{[ 24 ]}
ปี 1972 – กลุ่มวิจัยด้านเสียง การพูด และการประมวลสัญญาณของ IEEE จัดการประชุมขึ้นที่เมืองนิวตัน รัฐแมสซาชูเซตส์
พ.ศ. 2519 – ICASSPครั้งแรกจัดขึ้นที่ฟิลาเดลเฟียซึ่งกลายเป็นสถานที่สำคัญสำหรับการเผยแพร่ผลงานด้านการรู้จำเสียงพูด^{[ 25 ]}

ในช่วงปลายทศวรรษ 1960 เลียวนาร์ด บอมได้พัฒนาคณิตศาสตร์ของห่วงโซ่มาร์คอฟที่สถาบันวิเคราะห์การป้องกันประเทศหนึ่งทศวรรษต่อมา ที่ CMU นักศึกษาของราช เรดดี้ คือเจมส์ เบเกอร์และเจเน็ต เอ็ม. เบเกอร์เริ่มใช้แบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMM) สำหรับการรู้จำเสียงพูด^{[ 26 ]}เจมส์ เบเกอร์ ได้เรียนรู้เกี่ยวกับ HMM ขณะอยู่ที่สถาบันวิเคราะห์การป้องกันประเทศ [ ^{27 ] HMM}ช่วยให้นักวิจัยสามารถรวมแหล่งความรู้ เช่นเสียงภาษา และไวยากรณ์ เข้าไว้ในแบบจำลองความน่าจะเป็นแบบรวม

ในช่วงกลางทศวรรษ 1980 ทีม ของ Fred Jelinekที่ IBM ได้สร้างเครื่องพิมพ์ดีดที่สั่งงานด้วยเสียงชื่อ Tangora ซึ่งสามารถจัดการคำศัพท์ได้ถึง 20,000 คำ^{[ 28 ]}แนวทางทางสถิติของ Jelinek ให้ความสำคัญกับการจำลองกระบวนการของสมองมนุษย์น้อยลง และหันมาเน้นการสร้างแบบจำลองทางสถิติแทน (กลุ่มของ Jelinek ค้นพบการประยุกต์ใช้ HMM กับเสียงพูดโดยอิสระ^{[ 27 ]} ) เรื่องนี้เป็นที่ถกเถียงกันในหมู่นักภาษาศาสตร์ เนื่องจาก HMM นั้นเรียบง่ายเกินไปที่จะอธิบายคุณลักษณะหลายอย่างของภาษามนุษย์^{[ 29 ]}อย่างไรก็ตาม HMM พิสูจน์แล้วว่าเป็นวิธีที่มีประโยชน์อย่างมากในการสร้างแบบจำลองเสียงพูด และเข้ามาแทนที่ dynamic time warping ในฐานะอัลกอริทึมการรู้จำเสียงพูดที่โดดเด่นในช่วงทศวรรษ 1980 ^{[ 30 ]}^{[ 31 ]}

พ.ศ. 2525 – Dragon Systemsซึ่งก่อตั้งโดย James และ Janet M. Baker ^{[ 32 ]}เป็นหนึ่งในคู่แข่งเพียงไม่กี่รายของ IBM

การรู้จำเสียงพูดเชิงปฏิบัติ

ทศวรรษ 1980 ยังเป็นช่วงที่มีการนำแบบจำลองภาษา แบบ n-gram มาใช้ด้วย

1987 – โมเดล back-offช่วยให้โมเดลภาษาสามารถใช้n-gram ที่มีความยาวหลายระดับได้ และCSELT ^{[ 33 ]}ใช้ HMM เพื่อจดจำภาษา (ในซอฟต์แวร์และฮาร์ดแวร์ เช่นRIPAC )

เมื่อสิ้นสุดโครงการ DARPA ในปี 1976 คอมพิวเตอร์ที่ดีที่สุดที่นักวิจัยมีคือPDP-10ที่ มี RAM 4 MB ^{[ 34 ]}อาจใช้เวลาถึง 100 นาทีในการถอดรหัสคำพูด 30 วินาที^{[ 35 ]}

ผลิตภัณฑ์ที่ใช้งานได้จริง ได้แก่:

พ.ศ. 2527 – Apricot Portableวางจำหน่ายโดยรองรับคำได้สูงสุด 4096 คำ ซึ่งสามารถเก็บไว้ใน RAM ได้เพียงครั้งละ 64 คำเท่านั้น^{[ 36 ]}
ปี 1987 – อุปกรณ์จดจำใบหน้าจากบริษัท Kurzweil Applied Intelligence
1990 – Dragon Dictate ผลิตภัณฑ์สำหรับผู้บริโภคที่วางจำหน่ายในปี 1990 ^{[ 37 ]}^{[ 38 ]} AT&Tได้นำบริการประมวลผลการโทรด้วยการจดจำเสียงมาใช้ในปี 1992 เพื่อส่งต่อสายโทรศัพท์โดยไม่ต้องมีโอเปเรเตอร์^{[ 39 ]}เทคโนโลยีนี้ได้รับการพัฒนาโดยLawrence Rabinerและคนอื่นๆ ที่ Bell Labs

ในช่วงต้นทศวรรษ 1990 คำศัพท์ของระบบการรู้จำเสียงพูดเชิงพาณิชย์ทั่วไปได้เกินคำศัพท์เฉลี่ยของมนุษย์ไปแล้ว^{[ 34 ]}อดีตนักศึกษาของ Reddy ชื่อXuedong Huangได้พัฒนา ระบบ Sphinx-IIที่ CMU Sphinx-II เป็นระบบแรกที่สามารถรู้จำเสียงพูดต่อเนื่องที่มีคำศัพท์จำนวนมากโดยไม่ขึ้นกับผู้พูด และได้รับรางวัลจากการประเมินของ DARPA ในปี 1992 การจัดการเสียงพูดต่อเนื่องที่มีคำศัพท์จำนวนมากถือเป็นก้าวสำคัญ Huang ได้ก่อตั้งกลุ่มการรู้จำเสียงพูดที่ Microsoftในปี 1993 นักศึกษาของ Reddy ชื่อKai-Fu Leeได้เข้าร่วมงานกับ Apple ซึ่งในปี 1992 เขาได้ช่วยพัฒนาต้นแบบอินเทอร์เฟซเสียงพูด Casper

Lernout & Hauspieบริษัทด้านการรู้จำเสียงพูดจากเบลเยียม ได้เข้าซื้อกิจการบริษัทอื่นๆ รวมถึง Kurzweil Applied Intelligence ในปี 1997 และ Dragon Systems ในปี 2000 L&H ถูกนำไปใช้ในWindows XP L&H เป็นผู้นำในอุตสาหกรรมจนกระทั่งเกิดเรื่องอื้อฉาวทางการบัญชีทำลายบริษัทในปี 2001 เทคโนโลยีเสียงพูดของ L&H ถูกซื้อโดย ScanSoft ซึ่งต่อมากลายเป็นNuanceในปี 2005 Apple ได้รับอนุญาตให้ ^ใช้ซอฟต์แวร์ Nuance สำหรับผู้ช่วยดิจิทัลSiri ของตน [ ^{40 ]}

ทศวรรษ 2000

ในช่วงทศวรรษ 2000 DARPA ได้ให้การสนับสนุนโครงการรู้จำเสียงพูดสองโครงการ ได้แก่ Effective Affordable Reusable Speech-to-Text (EARS) ในปี 2002 ตามด้วยGlobal Autonomous Language Exploitation (GALE) ในปี 2005 มีทีมเข้าร่วมใน EARS สี่ทีม ได้แก่ IBM; ทีมที่นำโดยBBNร่วมกับLIMSIและมหาวิทยาลัยพิตต์สเบิร์ก ; มหาวิทยาลัยเคมบริดจ์ ; และทีมที่ประกอบด้วยICSI , SRIและมหาวิทยาลัยวอชิงตัน EARS ให้ทุนสนับสนุนการรวบรวมคลังข้อมูลเสียงพูด ทางโทรศัพท์ Switchboard ซึ่งประกอบด้วยบทสนทนาที่บันทึกไว้ 260 ชั่วโมงจากผู้พูดมากกว่า 500 คน^{[ 41 ]}โครงการ GALE มุ่งเน้นไปที่ข่าวออกอากาศภาษาอาหรับและภาษาจีนกลาง ความพยายามครั้งแรกของ Googleในการรู้จำเสียงพูดเกิดขึ้นในปี 2007 หลังจากรับสมัครนักวิจัยของ Nuance ^{[ 42 ]}ผลิตภัณฑ์แรกของ Google คือGOOG-411ซึ่งเป็นบริการไดเร็กทอรีทางโทรศัพท์

นับตั้งแต่ปี 2006 เป็นต้นมาสำนักงานความมั่นคงแห่งชาติ ของสหรัฐอเมริกา ได้ใช้การตรวจจับคำหลักซึ่งช่วยให้นักวิเคราะห์สามารถจัดทำดัชนีบทสนทนาที่บันทึกไว้จำนวนมากและระบุคำพูดที่มีคำหลักที่ "น่าสนใจ" ^{[ 43 ]} โครงการวิจัยของรัฐบาลอื่น ๆ ที่มุ่งเน้นการประยุกต์ใช้ด้านข่าวกรอง เช่น โครงการ EARS ของ DARPA และโครงการ BabelของIARPA

ในช่วงต้นทศวรรษ 2000 การรู้จำเสียงพูดถูกครอบงำโดยแบบจำลองมาร์คอฟที่ซ่อนอยู่ร่วมกับโครงข่ายประสาทเทียมแบบ ฟีดฟอร์เวิร์ด (ANN) ^{[ 44 ]}ต่อมา การรู้จำเสียงพูดถูกครอบงำโดยหน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งเป็นโครงข่ายประสาทแบบวนซ้ำ (RNN) ที่ตีพิมพ์โดยSepp HochreiterและJürgen Schmidhuberในปี 1997 ^{[ 45 ]} LSTM RNN หลีกเลี่ยงปัญหาการลดลงของเกรเดียนต์และสามารถเรียนรู้งาน "การเรียนรู้เชิงลึกมาก" ^{[ 46 ]}ซึ่งต้องใช้ความทรงจำของเหตุการณ์ที่เกิดขึ้นเมื่อหลายพันขั้นตอนเวลาที่ไม่ต่อเนื่องก่อนหน้านี้ ซึ่งมีความสำคัญต่อเสียงพูด

ประมาณปี 2007 LSTM ที่ได้รับการฝึกฝนด้วย Connectionist Temporal Classification (CTC) ^{[ 47 ]}เริ่มมีประสิทธิภาพเหนือกว่า^{[ 48 ]}ในปี 2015 Google รายงานว่าอัตราข้อผิดพลาดลดลง 49 เปอร์เซ็นต์ในการจดจำเสียงพูดโดยใช้ LSTM ที่ได้รับการฝึกฝนด้วย CTC ^{[ 49 ]} Transformersซึ่งเป็นโครงข่ายประสาทเทียมประเภทหนึ่งที่ใช้Attention เพียงอย่างเดียว ได้ถูกนำมาใช้ในคอมพิวเตอร์วิชั่น^{[ 50 ]}^{[ 51 ]}และการสร้างแบบจำลองภาษา^{[ 52 ]}^{[ 53 ]}และจากนั้นก็ใช้ในการจดจำเสียงพูด^{[ 54 ]}^{[ 55 ]}^{[ 56 ]}

เครือข่ายฟีดฟอร์เวิร์ดเชิงลึก (ไม่วนซ้ำ) สำหรับการสร้างแบบจำลองเสียงได้รับการแนะนำในปี 2009 โดยGeoffrey Hintonและนักศึกษาของเขาที่มหาวิทยาลัยโทรอนโตและโดย Li Deng ^{[ 57 ]}และเพื่อนร่วมงานที่ Microsoft Research ^{[ 58 ]}^{[ 59 ]}^{[ 60 ]}^{[ 61 ]}เมื่อเปรียบเทียบกับการปรับปรุงแบบค่อยเป็นค่อยไปก่อนหน้านี้ การเรียนรู้เชิงลึกช่วยลดอัตราข้อผิดพลาดลง 30% ^{[ 61 ]}

โครงข่ายประสาทเทียม (ANN) ทั้งแบบตื้นและแบบลึก (เช่น โครงข่ายแบบวนซ้ำ) ได้รับการสำรวจมาตั้งแต่ทศวรรษ 1980 ^{[ 62 ]}^{[ 63 ]}^{[ 64 ]}อย่างไรก็ตาม วิธีการเหล่านี้ไม่เคยเอาชนะ เทคโนโลยีแบบ จำลอง Gaussian mixture model / hidden Markov model (GMM-HMM) ที่สร้างขึ้นด้วยมือภายในที่ไม่สม่ำเสมอได้ ^{[ 65 ]}ปัญหาที่วิเคราะห์ในทศวรรษ 1990 ได้แก่ การลดลงของเกรเดียนต์^{[ 66 ]}และโครงสร้างความสัมพันธ์เชิงเวลาที่อ่อนแอ^{[ 67 ]}^{[ 68 ]}ปัญหาทั้งหมดเหล่านี้รวมกับข้อมูลการฝึกอบรมและกำลังการประมวลผลที่ไม่เพียงพอ การรู้จำเสียงพูดส่วนใหญ่จึงใช้วิธีการสร้างแบบจำลองเชิงกำเนิดจนกระทั่งการเรียนรู้เชิงลึกประสบความสำเร็จ Hinton et al. และ Deng et al. ^{[ 59 ]}^{[ 60 ]}^{[ 69 ]}^{[ 70 ]}

ทศวรรษ 2010

ในช่วงต้นทศวรรษ 2010 การรู้จำเสียงพูด^{[ 71 ]}^{[ 72 ]}^{[ 73 ]}ได้รับการแยกแยะจากการรู้จำผู้พูด และความเป็นอิสระของผู้พูดถือเป็นความก้าวหน้าครั้งสำคัญ ก่อนหน้านั้น ระบบต่างๆ จำเป็นต้องมีช่วงเวลา "ฝึกฝน" สำหรับแต่ละเสียง^{[ 16 ]}

ในปี 2017 นักวิจัยของ Microsoft บรรลุเป้าหมายความเท่าเทียมกับมนุษย์ในการถอดเสียงคำพูดสนทนาในงาน Switchboard ที่ใช้เป็นเกณฑ์มาตรฐานอย่างกว้างขวาง มีการใช้โมเดลการเรียนรู้เชิงลึกหลายแบบเพื่อปรับปรุงความแม่นยำ อัตราข้อผิดพลาดได้รับการรายงานว่าต่ำถึงระดับเดียวกับผู้ถอดเสียงมืออาชีพ 4 คนที่ทำงานร่วมกันในเกณฑ์มาตรฐานเดียวกัน^{[ 74 ]}

แบบจำลอง วิธีการ และอัลกอริธึม

การสร้างแบบจำลองเสียงและการสร้างแบบจำลองภาษา เป็น ส่วนสำคัญของอัลกอริธึมการรู้จำเสียงพูดเชิงสถิติ แบบจำลองมาร์คอฟแบบซ่อนเร้น (HMM) ถูกนำมาใช้กันอย่างแพร่หลายในหลายระบบ การสร้างแบบจำลองภาษายังถูกนำไปใช้ในแอปพลิเคชันการประมวลผลภาษาธรรมชาติอื่นๆ อีกมากมาย เช่น การจำแนกเอกสารหรือการแปลภาษาด้วยเครื่องจักรเชิงสถิติ

แบบจำลองมาร์คอฟที่ซ่อนอยู่

ระบบรู้จำเสียงพูดนั้นใช้แบบจำลองมาร์คอฟแบบฮิวมิก (HMM) เป็นพื้นฐาน HMM เป็นแบบจำลองทางสถิติที่ให้ผลลัพธ์เป็นลำดับของสัญลักษณ์หรือปริมาณ HMM ถูกนำมาใช้ในการรู้จำเสียงพูดเพราะสัญญาณเสียงพูดสามารถมองได้ว่าเป็นสัญญาณแบบคงที่แบบเป็นช่วงๆ หรือสัญญาณแบบคงที่ในช่วงเวลาสั้นๆ ในช่วงเวลาสั้นๆ (เช่น 10 มิลลิวินาที) เสียงพูดสามารถประมาณได้ว่าเป็นกระบวนการแบบคงที่เสียงพูดสามารถคิดได้ว่าเป็นแบบจำลองมาร์คอฟสำหรับวัตถุประสงค์เชิงสุ่มหลายประการ

แบบจำลอง HMM เป็นที่นิยมเนื่องจากสามารถฝึกฝนได้โดยอัตโนมัติ มีความเรียบง่าย และสามารถคำนวณได้ แบบจำลอง HMM จะส่งออกลำดับของเวกเตอร์ค่าจริงn มิติ (โดยที่ nเป็นจำนวนเต็ม เช่น 10) โดยส่งออกหนึ่งเวกเตอร์ทุกๆ 10 มิลลิวินาที เวกเตอร์เหล่านี้ประกอบด้วย สัมประสิทธิ์ เซปสตรัมซึ่งได้มาจากการแปลงฟูริเยร์ของช่วงเวลาสั้นๆ ของเสียงพูด และการลดความสัมพันธ์ของสเปกตรัมโดยใช้การแปลงโคไซน์จากนั้นจึงเลือกสัมประสิทธิ์ตัวแรก (ที่มีนัยสำคัญที่สุด) แบบจำลอง HMM มักจะมีการกระจายทางสถิติในแต่ละสถานะ ซึ่งเป็นการผสมผสานของเกาส์เซียน ความแปรปรวนร่วมแนวทแยง ซึ่งให้ความน่าจะเป็นสำหรับแต่ละเวกเตอร์ที่สังเกตได้ แต่ละคำ หรือ (สำหรับระบบการรู้จำเสียงพูดทั่วไป) แต่ละหน่วยเสียงจะมีการกระจายเอาต์พุตที่แตกต่างกัน แบบจำลอง HMM สำหรับลำดับของคำหรือหน่วยเสียงจะสร้างขึ้นโดยการรวมแบบจำลอง HMM ที่ฝึกฝนแล้วสำหรับคำและหน่วยเสียงแต่ละหน่วยเข้าด้วยกัน

ระบบรู้จำเสียงพูดใช้เทคนิคมาตรฐานหลายอย่างร่วมกันเพื่อปรับปรุงผลลัพธ์ ระบบที่มีคำศัพท์ขนาดใหญ่ทั่วไปจะใช้การพึ่งพาบริบทสำหรับหน่วยเสียง (เพื่อให้หน่วยเสียงที่มีบริบทซ้ายและขวาต่างกันมีการแสดงผลที่แตกต่างกันในสถานะ HMM) ระบบจะใช้การปรับค่าเซปสตรัมเพื่อจัดการกับเงื่อนไขของผู้พูดและการบันทึก อาจใช้การปรับความยาวช่องเสียง (VTLN) สำหรับการปรับค่ามาตรฐานชายหญิง และการถดถอยเชิงเส้นความน่าจะเป็นสูงสุด (MLLR) สำหรับการปรับตัวทั่วไปมากขึ้น คุณลักษณะต่างๆ ใช้สัมประสิทธิ์เดลต้าและเดลต้า-เดลต้าเพื่อจับพลวัตของเสียงพูด และนอกจากนี้อาจใช้ การวิเคราะห์การจำแนกเชิงเส้น แบบเฮเทอโรสเคดาสติก (HLDA) หรืออาจใช้การต่อและ การฉายภาพตาม LDAตามด้วย HLDA หรือการแปลงความแปรปรวนร่วมแบบกึ่งผูกมัดทั่วโลก (หรือที่เรียกว่าการแปลงเชิงเส้นความน่าจะเป็นสูงสุด (MLLT)) ระบบจำนวนมากใช้เทคนิคการฝึกอบรมแบบจำแนกที่ละทิ้งวิธีการทางสถิติล้วนๆ ในการประมาณค่าพารามิเตอร์ HMM และปรับค่าให้เหมาะสมกับมาตรวัดที่เกี่ยวข้องกับการจำแนกประเภทของข้อมูลการฝึกอบรมแทน ตัวอย่างเช่นข้อมูลร่วม สูงสุด (MMI), ข้อผิดพลาดในการจำแนกประเภทต่ำสุด (MCE) และข้อผิดพลาดทางโทรศัพท์ต่ำสุด (MPE)

การรู้จำเสียงพูดโดยใช้การปรับเวลาแบบไดนามิก (DTW)

ในอดีต การปรับเวลาแบบไดนามิก (Dynamic time warping) ถูกนำมาใช้ในการจดจำเสียงพูด แต่ต่อมาถูกแทนที่ด้วย HMM (Hardware-Middle Model)

การปรับเวลาแบบไดนามิก (Dynamic Time Warping หรือ DTW) วัดความคล้ายคลึงกันระหว่างลำดับภาพสองลำดับที่อาจแตกต่างกันในด้านเวลาหรือความเร็ว ตัวอย่างเช่น สามารถตรวจจับความคล้ายคลึงกันในรูปแบบการเดินได้ แม้ว่าในวิดีโอหนึ่งบุคคลเดินช้าและในอีกวิดีโอหนึ่งเดินเร็วขึ้น หรือแม้ว่าจะมีการเร่งความเร็วและการลดความเร็วเกิดขึ้นในระหว่างการสังเกตเดียวกันก็ตาม DTW ถูกนำไปใช้กับวิดีโอ เสียง และกราฟิก – ข้อมูลใดๆ ที่สามารถแปลงเป็นรูปแบบเชิงเส้นได้ ก็สามารถวิเคราะห์ด้วย DTW ได้

วิธีนี้สามารถจัดการกับเสียงพูดที่มีความเร็วในการพูดต่างกันได้ โดยทั่วไปแล้ว วิธีนี้จะช่วยให้เกิดการจับคู่ที่เหมาะสมที่สุดระหว่างลำดับสองลำดับ (เช่น อนุกรมเวลา) ภายใต้ข้อจำกัดบางประการ ลำดับเหล่านั้นจะถูก "บิดเบี้ยว" อย่างไม่เป็นเชิงเส้นเพื่อให้เข้ากันได้ วิธีการจัดเรียงลำดับนี้มักใช้ในบริบทของ HMMs

เครือข่ายประสาทเทียม

เครือข่ายประสาทเทียมเริ่มเป็นที่น่าสนใจในช่วงปลายทศวรรษ 1980 ก่อนที่จะเริ่มมีบทบาทเด่นในช่วงทศวรรษ 2010 เครือข่ายประสาทเทียมถูกนำไปใช้ในหลายแง่มุมของการรู้จำเสียงพูด เช่น การจำแนกหน่วยเสียง^{[ 75 ]}การจำแนกหน่วยเสียงผ่านอัลกอริธึมวิวัฒนาการแบบหลายวัตถุประสงค์^{[ 76 ]}การรู้จำคำเดี่ยว^{[ 77 ]}การรู้จำเสียงพูดแบบภาพและ เสียง การรู้จำผู้พูดแบบภาพและเสียง และการปรับตัวของผู้พูด

เครือข่ายประสาทเทียมตั้งสมมติฐานเกี่ยวกับคุณสมบัติทางสถิติของฟีเจอร์น้อยกว่า HMM เมื่อใช้ในการประมาณความน่าจะเป็นของส่วนของคำพูด เครือข่ายประสาทเทียมช่วยให้การฝึกอบรมแบบจำแนกมีประสิทธิภาพและเป็นธรรมชาติ อย่างไรก็ตาม แม้ว่าจะมีประสิทธิภาพในการจำแนกหน่วยเวลาสั้นๆ เช่น เสียงสระและพยัญชนะเดี่ยว^{[ 78 ]}เครือข่ายประสาทเทียมในยุคแรกๆ มักไม่ประสบความสำเร็จในการจดจำแบบต่อเนื่องเนื่องจากความสามารถที่จำกัดในการจำลองการพึ่งพาเชิงเวลา

แนวทางหนึ่งคือการใช้โครงข่ายประสาทเทียมสำหรับการแปลงคุณลักษณะหรือการลดมิติ^{[ 79 ]}อย่างไรก็ตาม เมื่อไม่นานมานี้ LSTM และโครงข่ายประสาทเทียมแบบวนซ้ำที่เกี่ยวข้อง (RNNs) ^{[ 45 ]}^{[ 49 ]}^{[ 80 ]}^{[ 81 ]}โครงข่ายประสาทเทียมแบบหน่วงเวลา (TDNNs) ^{[ 82 ]}และทรานส์ฟอร์เมอร์^{[ 54 ]}^{[ 55 ]}^{[ 56 ]}ได้แสดงให้เห็นถึงประสิทธิภาพที่ดีขึ้น

โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดและแบบวนซ้ำเชิงลึก

นักวิจัยกำลังสำรวจโครงข่ายประสาทเทียมเชิงลึก (DNN) และตัวเข้ารหัสอัตโนมัติแบบลดสัญญาณรบกวน^{[ 83 ]} DNN เป็นโครงข่ายประสาทเทียมชนิดหนึ่งที่มีเลเยอร์ซ่อนหลายชั้นระหว่างอินพุตและเอาต์พุต^{[ 59 ]}เช่นเดียวกับโครงข่ายประสาทเทียมที่ง่ายกว่า DNN สามารถจำลองความสัมพันธ์ที่ซับซ้อนและไม่เป็นเชิงเส้นได้ อย่างไรก็ตาม สถาปัตยกรรมที่ลึกกว่าของพวกมันทำให้สามารถสร้างการแสดงผลที่ซับซ้อนมากขึ้นซึ่งรวมคุณสมบัติจากเลเยอร์ก่อนหน้าเข้าด้วยกัน ทำให้พวกมันมีความสามารถอันทรงพลังในการเรียนรู้และจดจำรูปแบบที่ซับซ้อนในข้อมูลเสียงพูด^{[ 84 ]}

ความก้าวหน้าครั้งสำคัญในการใช้ DNN สำหรับการรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากเกิดขึ้นในปี 2010 ในความร่วมมือระหว่างภาคอุตสาหกรรมและสถาบันการศึกษา นักวิจัยได้ใช้ DNN ที่มีเลเยอร์เอาต์พุตขนาดใหญ่โดยอิงจากสถานะ HMM ที่ขึ้นอยู่กับบริบทซึ่งสร้างขึ้นโดยใช้ต้นไม้ตัดสินใจ^{[ 85 ]}^{[ 86 ]}^{[ 87 ]}แนวทางนี้ช่วยปรับปรุงประสิทธิภาพได้อย่างมาก^{[ 88 ]}^{[ 89 ]}^{[ 90 ]}

แนวคิดหลักเบื้องหลังการเรียนรู้เชิงลึกคือการกำจัดความจำเป็นในการออกแบบคุณลักษณะด้วยตนเอง และเรียนรู้โดยตรงจากข้อมูลอินพุตแทน สิ่งนี้ได้รับการสาธิตครั้งแรกโดยใช้ deep autoencoders ที่ฝึกฝนบนสเปกโตรแกรมดิบหรือคุณลักษณะฟิลเตอร์แบงค์เชิงเส้น^{[ 91 ]}โมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าคุณลักษณะ Mel-Cepstral แบบดั้งเดิม ซึ่งอาศัยการแปลงคงที่ เมื่อไม่นานมานี้ นักวิจัยได้แสดงให้เห็นว่ารูปคลื่นสามารถให้ผลลัพธ์ที่ยอดเยี่ยมในการรู้จำเสียงพูดขนาดใหญ่^{[ 92 ]}

การเรียนรู้แบบครบวงจร

นับตั้งแต่ปี 2014 งานวิจัยจำนวนมากได้พิจารณาถึง ASR แบบ "ครบวงจร" แนวทางแบบดั้งเดิมที่ใช้สัทศาสตร์ (เช่น โมเดลที่ใช้ HMM ทั้งหมด ) ต้องใช้ส่วนประกอบและการฝึกอบรมแยกต่างหากสำหรับการออกเสียง เสียง และภาษาโมเดลแบบครบวงจรเรียนรู้จากส่วนประกอบทั้งหมดพร้อมกัน ซึ่งช่วยลดความซับซ้อนของกระบวนการฝึกอบรมและการใช้งาน ตัวอย่างเช่นโมเดลภาษา n-gramเป็นสิ่งจำเป็นสำหรับระบบที่ใช้ HMM ทั้งหมด และโมเดลภาษา n-gram ทั่วไปในยุคปี 2025 มักใช้หน่วยความจำหลายกิกะไบต์ ทำให้ไม่สามารถใช้งานบนอุปกรณ์เคลื่อนที่ได้^{[ 93 ]}ด้วยเหตุนี้ ระบบ ASR จากGoogleและApple (ณ ปี 2017) จึงใช้งานบนเซิร์ฟเวอร์และต้องใช้การเชื่อมต่อเครือข่ายในการทำงาน

ความพยายามครั้งแรกในการสร้าง ASR แบบครบวงจรคือ ระบบที่ใช้ Connectionist Temporal Classification (CTC) ซึ่งแนะนำโดยAlex GravesจากGoogle DeepMindและ Navdeep Jaitly จากมหาวิทยาลัยโทรอนโตในปี 2014 ^{[ 94 ]}โมเดลประกอบด้วย RNN และเลเยอร์ CTC โดยรวมแล้ว โมเดล RNN-CTC เรียนรู้การออกเสียงและโมเดลเสียงไปพร้อมกัน อย่างไรก็ตาม มันไม่สามารถเรียนรู้โมเดลภาษาได้เนื่องจาก สมมติฐาน ความเป็นอิสระแบบมีเงื่อนไขคล้ายกับ HMM ดังนั้น โมเดล CTC จึงสามารถเรียนรู้การแมปเสียงพูดไปยังตัวอักษรภาษาอังกฤษได้โดยตรง แต่โมเดลเหล่านี้มักทำผิดพลาดในการสะกดคำทั่วไป และต้องอาศัยโมเดลภาษาแยกต่างหากเพื่อสรุปการถอดเสียง ต่อมาBaiduได้ขยายงานด้วยชุดข้อมูลขนาดใหญ่มาก และแสดงให้เห็นถึงความสำเร็จเชิงพาณิชย์ในภาษาจีนกลางและภาษาอังกฤษ^{[ 95 ]}

ในปี 2016 มหาวิทยาลัยออกซ์ฟอร์ดได้นำเสนอLipNet [ ⁹⁶^]ซึ่งเป็นโมเดลการอ่านริมฝีปากระดับประโยคแบบครบวงจรตัวแรก โดยใช้การแปลงเชิงพื้นที่และเวลาควบคู่กับสถาปัตยกรรม RNN-CTC ซึ่งมีประสิทธิภาพเหนือกว่ามนุษย์ในชุดข้อมูลที่จำกัด^[^{97 ] ใน} ปี 2018 Google DeepMind ได้นำเสนอสถาปัตยกรรม convolutional -RNN-CTC ขนาดใหญ่ซึ่งมีประสิทธิภาพดีกว่าผู้เชี่ยวชาญถึง 6 เท่า^{[ 98 ]}ในปี 2019 Nvidiaได้เปิดตัวโมเดล ASR CNN-CTC สองรุ่น ได้แก่ Jasper และ QuarzNet โดยมีอัตราข้อผิดพลาดของคำ (WER) โดยรวมอยู่ที่ 3% ^{[ 99 ]}^{[ 100 ]}เช่นเดียวกับแอปพลิเคชันการเรียนรู้เชิงลึกอื่นๆการเรียนรู้แบบถ่ายโอนและการปรับตัวให้เข้ากับโดเมนเป็นกลยุทธ์ที่สำคัญสำหรับการนำกลับมาใช้ใหม่และขยายขีดความสามารถของโมเดลการเรียนรู้เชิงลึก โดยเฉพาะอย่างยิ่งเนื่องจากขนาดของคลังข้อมูลที่มีอยู่มีขนาดเล็กในหลายภาษาและ/หรือโดเมนเฉพาะ^{[ 101 ]}^{[ 102 ]}^{[ 103 ]}

ในปี 2018 นักวิจัยที่MIT Media Labประกาศผลงานเบื้องต้นของ AlterEgo ซึ่งเป็นอุปกรณ์ที่ใช้อิเล็กโทรดในการอ่านสัญญาณประสาทกล้ามเนื้อที่ผู้ใช้สร้างขึ้นขณะเปล่งเสียงในใจ [ ^{104 ] พวก}เขาฝึกเครือข่ายประสาทเทียมแบบคอนโวลูชันเพื่อแปลสัญญาณอิเล็กโทรดเป็นคำพูด^{[ 105 ]}

โมเดลที่อิงตามความสนใจ

โมเดล ASR ที่ใช้กลไกความสนใจได้รับการแนะนำโดย Chan et al. จากมหาวิทยาลัย Carnegie MellonและGoogle Brainและ Bahdanau et al. จากมหาวิทยาลัย Montrealในปี 2016 ^{[ 106 ]}^{[ 107 ]}โมเดลที่ชื่อว่า "Listen, Attend and Spell" (LAS) นั้น "ฟัง" สัญญาณเสียง "ให้ความสนใจ" กับทุกส่วนของสัญญาณ และ "สะกด" ข้อความที่ถอดเสียงออกมาทีละตัวอักษร แตกต่างจากโมเดลที่ใช้ CTC โมเดลที่ใช้กลไกความสนใจต้องการสมมติฐานความเป็นอิสระแบบมีเงื่อนไข และสามารถเรียนรู้ส่วนประกอบทั้งหมดของตัวรู้จำเสียงพูดได้โดยตรง ซึ่งหมายความว่าในระหว่างการใช้งาน ไม่ จำเป็นต้องมีโมเดลภาษา ล่วงหน้าทำให้มีความต้องการน้อยลงสำหรับแอปพลิเคชันที่มีหน่วยความจำจำกัด

โมเดลที่ใช้ความสนใจมีประสิทธิภาพเหนือกว่าโมเดล CTC ทันที (ไม่ว่าจะใช้โมเดลภาษาภายนอกหรือไม่ก็ตาม) และยังคงพัฒนาต่อ ไป ^{[ 108 ]}การแยกส่วนลำดับแฝง (LSD) ได้รับการเสนอโดยมหาวิทยาลัยคาร์เนกีเมลลอน, MIT และ Google Brain เพื่อสร้างหน่วยย่อยของคำโดยตรงซึ่งเป็นธรรมชาติมากกว่าตัวอักษรภาษาอังกฤษ^{[ 109 ]}มหาวิทยาลัยออกซ์ฟอร์ดและ Google DeepMind ได้ขยาย LAS เป็น "ดู ฟัง ใส่ใจ และสะกด" (WLAS) เพื่อจัดการกับการอ่านริมฝีปากและมีประสิทธิภาพเหนือกว่าระดับมนุษย์^{[ 110 ]}

แอปพลิเคชัน

ระบบภายในรถยนต์

คำสั่งเสียงอาจใช้เพื่อเริ่มการโทร เลือกสถานีวิทยุ หรือเล่นเพลง ความสามารถในการจดจำเสียงจะแตกต่างกันไปตามยี่ห้อและรุ่นของรถยนต์ บางรุ่นมีระบบจดจำเสียงพูดแบบธรรมชาติ ทำให้ผู้ขับขี่สามารถใช้ประโยคเต็มและวลีทั่วไปในลักษณะการสนทนาได้ ด้วยระบบดังกล่าว ไม่จำเป็นต้องใช้คำสั่งตายตัว^{[ 111 ]}

การศึกษา

การประเมินการออกเสียงอัตโนมัติคือการใช้การรู้จำเสียงพูดเพื่อตรวจสอบความถูกต้องของเสียงพูด^{[ 112 ]}ซึ่งแตกต่างจากการประเมินโดยบุคคล^{[ 113 ]}เรียกอีกอย่างว่าการตรวจสอบเสียงพูด การประเมินการออกเสียง และการให้คะแนนการออกเสียง การประยุกต์ใช้หลักของเทคโนโลยีนี้คือการสอนการออกเสียงโดยใช้คอมพิวเตอร์ช่วย (CAPT) เมื่อรวมกับการสอนโดยใช้คอมพิวเตอร์ช่วยสำหรับการเรียนรู้ภาษาโดยใช้คอมพิวเตอร์ช่วย (CALL) การแก้ไข เสียงพูด หรือการลดสำเนียงการประเมินการออกเสียงไม่ได้กำหนดเสียงพูดที่ไม่รู้จัก (เช่นในการเขียนตามคำบอกหรือการถอดเสียงอัตโนมัติ ) แต่จะเปรียบเทียบเสียงพูดกับแบบจำลองอ้างอิงสำหรับคำที่พูด^{[ 114 ]}^{[ 115 ]}บางครั้งอาจรวมถึงลักษณะเสียงที่ไม่สำคัญเช่นระดับเสียงสูง ต่ำระดับเสียงจังหวะทำนองและการเน้นเสียง [ ^{116 ] การ}ประเมินการออกเสียงยังใช้ในการสอนการอ่านเช่น ในผลิตภัณฑ์ต่างๆ เช่นMicrosoft Teams ^{[ 117 ]}และ Amira Learning ^{[ 118 ]}การประเมินการออกเสียงยังสามารถใช้เพื่อช่วยวินิจฉัยและรักษาความผิดปกติของการพูดเช่นภาวะอะแพรกเซียได้ อีกด้วย ^{[ 119 ]}

การประเมินความเข้าใจได้เป็นสิ่งสำคัญในการหลีกเลี่ยงความไม่ถูกต้องอันเนื่องมาจากอคติด้านสำเนียง โดยเฉพาะอย่างยิ่งในการประเมินที่มีความสำคัญสูง^{[ 120 ]}^{[ 121 ]}^{[ 122 ]}จากคำที่มีการออกเสียงที่ถูกต้องหลายแบบ^{[ 123 ]}และจากข้อผิดพลาดในการเข้ารหัสหน่วยเสียงในพจนานุกรมการออกเสียงดิจิทัล^{[ 124 ]}ในปี 2022 นักวิจัยพบว่าระบบแปลงเสียงเป็นข้อความรุ่นใหม่บางระบบ ซึ่งใช้การเรียนรู้แบบเสริมแรงแบบครบวงจรเพื่อแมปสัญญาณเสียงโดยตรงไปยังคำต่างๆ สามารถสร้างคะแนนความมั่นใจของคำและวลีที่สัมพันธ์อย่างใกล้ชิดกับความเข้าใจได้ของผู้ฟัง^{[ 125 ]}ใน เกณฑ์การประเมิน "การควบคุมเสียงโดยรวม" ของกรอบอ้างอิงร่วมยุโรปสำหรับภาษา (CEFR) ความเข้าใจได้มีความสำคัญมากกว่าการออกเสียงที่ถูกต้องตามรูปแบบในทุกระดับ^{[ 126 ]}

การดูแลสุขภาพ

เอกสารทางการแพทย์

ในภาคการดูแลสุขภาพ การรู้จำเสียงพูดสามารถนำไปใช้ในกระบวนการจัดทำเอกสารทางการแพทย์ได้ทั้งในส่วนหน้าและส่วนหลัง ในการรู้จำเสียงพูดส่วนหน้า ผู้ให้บริการจะพูดใส่เครื่องรู้จำเสียงพูด คำต่างๆ จะถูกแสดงผลเมื่อเครื่องรู้จำเสร็จ และผู้พูดมีหน้าที่แก้ไขและลงนามในเอกสาร ส่วนในการรู้จำเสียงพูดส่วนหลังหรือแบบรอการประมวลผล ผู้ให้บริการจะพูดใส่ ระบบ บันทึกเสียงดิจิทัลเสียงจะถูกส่งผ่านเครื่องรู้จำเสียงพูด และร่างเอกสารจะถูกส่งไปพร้อมกับไฟล์เสียงไปยังบรรณาธิการ ซึ่งจะทำการแก้ไข/สรุปร่างและรายงานฉบับสุดท้าย

ประเด็นสำคัญประการหนึ่งคือพระราชบัญญัติการฟื้นฟูและการลงทุนของอเมริกาปี 2009 ( ARRA ) ให้สิทธิประโยชน์ทางการเงินจำนวนมากแก่แพทย์ที่ใช้ระบบบันทึกสุขภาพอิเล็กทรอนิกส์ (EHR) ที่เป็นไปตามมาตรฐาน "การใช้งานอย่างมีประสิทธิภาพ" (Meaningful Use) มาตรฐานเหล่านี้กำหนดให้ EHR ต้องเก็บรักษาข้อมูลจำนวนมาก การใช้การรู้จำเสียงพูดนั้นเหมาะสมกว่าสำหรับการสร้างข้อความบรรยาย เช่น ส่วนหนึ่งของการตีความภาพรังสี/พยาธิวิทยา บันทึกความคืบหน้า หรือสรุปการจำหน่ายผู้ป่วย ประโยชน์ด้านการใช้งานจากการใช้การรู้จำเสียงพูดในการป้อนข้อมูลแบบแยกส่วนที่มีโครงสร้าง (เช่น ค่าตัวเลขหรือรหัสจากรายการหรือคำศัพท์ควบคุม ) นั้นค่อนข้างน้อยสำหรับผู้ที่มีสายตาปกติและสามารถใช้งานแป้นพิมพ์และเมาส์ได้

ประเด็นสำคัญกว่านั้นคือ ระบบบันทึกข้อมูลสุขภาพอิเล็กทรอนิกส์ (EHR) ส่วนใหญ่ไม่ได้ถูกออกแบบมาเพื่อใช้ประโยชน์จากความสามารถในการจดจำเสียงโดยเฉพาะ การใช้งาน EHR ของแพทย์ส่วนใหญ่เกี่ยวข้องกับการนำทางผ่านอินเทอร์เฟซผู้ใช้ซึ่งพึ่งพาแป้นพิมพ์และเมาส์เป็นอย่างมาก การนำทางด้วยเสียงจึงให้ประโยชน์ด้านการใช้งานเพียงเล็กน้อย ในทางตรงกันข้าม ระบบที่ปรับแต่งมาเป็นพิเศษสำหรับการบันทึกเสียงทางรังสีวิทยาหรือพยาธิวิทยาหลายระบบใช้ "มาโคร" ด้วยเสียง โดยการใช้คำหรือวลีบางอย่าง เช่น "รายงานปกติ" จะกรอกค่าเริ่มต้นจำนวนมากโดยอัตโนมัติ และ/หรือสร้างข้อความมาตรฐาน ซึ่งจะแตกต่างกันไปตามประเภทของการตรวจ เช่น การถ่ายภาพรังสีทรวงอกเทียบกับการถ่ายภาพรังสีระบบทางเดินอาหารด้วยสารทึบแสงสำหรับระบบรังสีวิทยา

การใช้เพื่อการรักษา

การใช้ซอฟต์แวร์การรู้จำเสียงพูดร่วมกับโปรแกรมประมวลผลคำ เป็นเวลานาน แสดงให้เห็นถึงประโยชน์ในการเสริมสร้างความจำระยะสั้นใน ผู้ป่วย AVM ในสมองที่ได้รับการรักษาด้วยการผ่าตัดจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อกำหนดประโยชน์ด้านการรับรู้สำหรับบุคคลที่มี AVM ที่ได้รับการรักษาโดยใช้เทคนิคทางรังสีวิทยา^{[ 127 ]}

ทหาร

อากาศยาน

มีการทุ่มเทความพยายามอย่างมากในการทดสอบและประเมินผลระบบรู้จำเสียงพูดในเครื่องบินรบโดยเฉพาะอย่างยิ่ง โครงการรู้จำเสียงพูดของสหรัฐฯ สำหรับเครื่องบินรบขั้นสูง Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ) โครงการในฝรั่งเศสสำหรับ เครื่องบิน มิราจและโครงการของสหราชอาณาจักรที่เกี่ยวข้องกับเครื่องบินหลากหลายประเภท ในโครงการเหล่านี้ ระบบรู้จำเสียงพูดได้ทำงานอย่างประสบความสำเร็จ โดยมีแอปพลิเคชันต่างๆ เช่น การตั้งความถี่วิทยุ การสั่งการระบบนักบินอัตโนมัติ การตั้งพิกัดจุดบังคับเลี้ยวและพารามิเตอร์การปล่อยอาวุธ และการควบคุมจอแสดงผลการบิน

Englund (2004) รายงานว่าการจดจำแย่ลงเมื่อแรง G เพิ่มขึ้น โดยทำงานร่วมกับนักบินชาวสวีเดนที่บินเครื่องบินJAS-39 Gripen การศึกษาสรุปว่าการปรับตัวช่วยปรับปรุงผลลัพธ์ในทุกกรณีอย่างมาก และการนำแบบจำลองการหายใจมาใช้แสดงให้เห็นว่าช่วยปรับปรุงคะแนนการจดจำได้อย่างมีนัยสำคัญ ตรงกันข้ามกับสิ่งที่อาจคาดไว้ ไม่พบผลกระทบจากภาษาอังกฤษที่ไม่สมบูรณ์ของผู้พูด การพูดแบบธรรมชาติทำให้เกิดปัญหาสำหรับตัวจดจำ ดังที่อาจคาดไว้ ดังนั้นจึงคาดได้ว่าคำศัพท์ที่จำกัด และเหนือสิ่งอื่นใด ไวยากรณ์ที่ถูกต้อง จะช่วยปรับปรุงความแม่นยำในการจดจำได้อย่างมาก^[¹²⁸^]

เครื่องบินEurofighter Typhoonใช้ระบบที่ขึ้นอยู่กับลำโพง ซึ่งกำหนดให้แต่ละนักบินต้องสร้างแม่แบบ ระบบนี้ไม่ได้ใช้สำหรับงานที่สำคัญต่อความปลอดภัยหรืออาวุธ เช่น การปล่อยอาวุธหรือการลดล้อลง แต่ใช้สำหรับฟังก์ชันในห้องนักบินหลายอย่าง คำสั่งเสียงจะได้รับการยืนยันด้วยการตอบรับทางภาพและ/หรือเสียง ระบบนี้ถือเป็นประโยชน์อย่างมากในการลดภาระงาน ของนักบิน [ ¹²⁹^]และช่วยให้นักบินสามารถกำหนดเป้าหมายด้วยคำสั่งเสียงสองคำสั่งหรือให้กับนักบินผู้ช่วยด้วยคำสั่งเพียงห้าคำ^สั่ง^{[ 130 ]}

ระบบที่ไม่ขึ้นกับผู้พูดกำลังอยู่ระหว่างการทดสอบสำหรับเครื่องบินขับไล่ F-35 Lightning II (JSF) และ เครื่องบินขับไล่นำร่อง Alenia Aermacchi M-346 Masterระบบเหล่านี้สร้างคะแนนความแม่นยำของคำพูดได้มากกว่า 98% ^{[ 131 ]}^{[ 132 ]}

เฮลิคอปเตอร์

ปัญหาการบรรลุความแม่นยำในการจดจำสูงภายใต้ความเครียดและเสียงรบกวนนั้นมีความสำคัญอย่างยิ่งใน สภาพแวดล้อม ของเฮลิคอปเตอร์เช่นเดียวกับสภาพแวดล้อมของเครื่องบินรบ ปัญหาเสียงรบกวนนั้นรุนแรงกว่าในสภาพแวดล้อมของเฮลิคอปเตอร์ เนื่องจากระดับเสียงที่สูง และเนื่องจากนักบินเฮลิคอปเตอร์โดยทั่วไปไม่ได้สวมหน้ากากซึ่งจะช่วยลดเสียงรบกวนในไมโครโฟนมีการทดสอบและประเมินผลอย่างจริงจัง โดยเฉพาะอย่างยิ่งโดยหน่วยงานวิจัย และพัฒนาด้านการบินและอวกาศ ของกองทัพสหรัฐฯ (AVRADA) และโดยสถาบันวิจัยการบินและอวกาศแห่งราชวงศ์อังกฤษ ( RAE ) ในสหราชอาณาจักร งานวิจัยในฝรั่งเศสรวมถึงการจดจำเสียงพูดในเฮลิคอปเตอร์พูม่า แอปพลิเคชันเสียงประกอบด้วยการควบคุมวิทยุสื่อสาร ระบบนำทาง และระบบส่งมอบเป้าหมายอัตโนมัติ

ประเด็นสำคัญที่สุดสำหรับระบบเสียงคือผลกระทบต่อประสิทธิภาพการทำงานของนักบิน มีการรายงานผลลัพธ์ที่น่าพอใจจากการทดสอบ AVRADA แม้ว่าจะเป็นเพียงการสาธิตความเป็นไปได้ในสภาพแวดล้อมการทดสอบเท่านั้น ยังคงมีงานอีกมากที่ต้องทำทั้งในด้านการรู้จำเสียงพูดและเทคโนโลยีเสียงพูด โดยรวม เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นอย่างสม่ำเสมอในการใช้งานจริง

การควบคุมการจราจรทางอากาศ

การฝึกอบรมเจ้าหน้าที่ควบคุมการจราจรทางอากาศ (ATC) เป็นตัวอย่างที่ดีเยี่ยมของการนำระบบรู้จำเสียงพูดมาใช้ ปัจจุบันระบบฝึกอบรม ATC หลายระบบจำเป็นต้องมีผู้ฝึกสอนทำหน้าที่เป็น "นักบินจำลอง" โดยสนทนาด้วยเสียงกับผู้เข้ารับการฝึกอบรม ซึ่งเป็นการจำลองบทสนทนาที่เจ้าหน้าที่ควบคุมการจราจรทางอากาศจะมีกับนักบินจริง เทคนิคการรู้จำและสังเคราะห์ เสียงพูด มีศักยภาพที่จะช่วยลดความจำเป็นในการมีบุคคลทำหน้าที่เป็นนักบินจำลอง ซึ่งจะช่วยลดจำนวนบุคลากรด้านการฝึกอบรมและการสนับสนุนลงได้

ในทางทฤษฎี งานควบคุมการจราจรทางอากาศนั้นมีลักษณะเด่นคือการพูดที่มีโครงสร้างสูงเป็นผลลัพธ์หลัก ซึ่งช่วยลดความยากของงานการรู้จำเสียงพูด แต่ในทางปฏิบัติแล้วนั้นแทบจะไม่เป็นเช่นนั้น เอกสาร FAA 7110.65 ระบุรายละเอียดวลีที่ผู้ควบคุมการจราจรทางอากาศควรใช้ แม้ว่าเอกสารนี้จะให้ตัวอย่างวลีเพียงไม่ถึง 150 ตัวอย่าง แต่จำนวนวลีที่ระบบรู้จำเสียงพูดของผู้จำหน่ายโปรแกรมจำลองรายหนึ่งรองรับนั้นมีมากกว่า 500,000 วลี

กองทัพอากาศสหรัฐฯ กองทัพนาวิกโยธินสหรัฐฯ กองทัพบกสหรัฐฯ กองทัพเรือสหรัฐฯ และ FAA รวมถึงองค์กรฝึกอบรม ATC ระหว่างประเทศ เช่น กองทัพอากาศออสเตรเลีย และหน่วยงานการบินพลเรือนในอิตาลี บราซิล และแคนาดา ใช้เครื่องจำลอง ATC ที่มีการจดจำเสียงพูด^{[ 133 ]}

คนพิการ

โปรแกรมการรู้จำเสียงพูดสามารถให้ประโยชน์มากมายแก่ผู้พิการ สำหรับบุคคลที่หูหนวกหรือมีปัญหาทางการได้ยินซอฟต์แวร์การรู้จำเสียงพูดสามารถใช้สร้างคำบรรยายของการสนทนาได้^{[ 134 ]}นอกจากนี้ บุคคลที่ตาบอด (ดูเรื่องตาบอดและการศึกษา ) หรือมีสายตาไม่ดีก็สามารถได้รับประโยชน์จากการฟังเนื้อหาข้อความ รวมถึงได้รับฟังก์ชันการทำงานเพิ่มเติมจากคอมพิวเตอร์โดยการออกคำสั่งด้วยเสียงของตนเอง^{[ 135 ]}

การใช้ซอฟต์แวร์จดจำเสียง ร่วมกับเครื่องบันทึกเสียงดิจิทัลและคอมพิวเตอร์ส่วนบุคคลที่ใช้ซอฟต์แวร์ประมวลผลคำ ได้พิสูจน์แล้วว่ามีประโยชน์ในการฟื้นฟูความสามารถในการจดจำระยะสั้นที่เสียหายในผู้ที่ประสบภาวะเส้นเลือดในสมองแตกหรือได้รับการผ่าตัด สมอง

การรู้จำเสียงพูดได้รับการพิสูจน์แล้วว่ามีประโยชน์อย่างมากสำหรับผู้ที่มีปัญหาในการใช้มือเนื่องจากสาเหตุต่างๆ ตั้งแต่การบาดเจ็บจากการใช้งานซ้ำๆ เล็กน้อยไปจนถึงความพิการที่ทำให้ไม่สามารถใช้อุปกรณ์ป้อนข้อมูลคอมพิวเตอร์แบบดั้งเดิมได้ บุคคลที่มีความพิการทางร่างกายสามารถใช้คำสั่งเสียงและการถอดเสียงเพื่อใช้งานอุปกรณ์อิเล็กทรอนิกส์แบบไม่ต้องใช้มือ^{[ 135 ]}ในความเป็นจริง ผู้ที่พัฒนา อาการบาดเจ็บจากการใช้งานซ้ำๆ (RSI)จากการใช้แป้นพิมพ์กลายเป็นตลาดเป้าหมายเร่งด่วนสำหรับการรู้จำเสียงพูด^{[ 136 ]}^{[ 137 ]}การรู้จำเสียงพูดถูกนำมาใช้ในระบบโทรศัพท์ สำหรับผู้พิการทางการได้ยิน เช่น การแปลงข้อความเสียงเป็นข้อความการบริการถ่ายทอดและโทรศัพท์ที่มี คำบรรยาย บุคคลที่มีความบกพร่องทางการเรียนรู้ที่ประสบปัญหาในการสื่อสารจากความคิดสู่กระดาษอาจได้รับประโยชน์จากซอฟต์แวร์ แต่ความผิดพลาดของผลิตภัณฑ์ยังคงเป็นข้อพิจารณาที่สำคัญสำหรับหลายๆ คน^{[ 138 ]}นอกจากนี้ เทคโนโลยีการแปลงเสียงพูดเป็นข้อความจะเป็นเครื่องมือช่วยเหลือที่มีประสิทธิภาพสำหรับผู้ที่มีความบกพร่องทางสติปัญญาได้ก็ต่อเมื่อมีการฝึกอบรมและทรัพยากรที่เหมาะสม (เช่น ในห้องเรียน) ^{[ 139 ]}

เทคโนโลยีประเภทนี้สามารถช่วยผู้ที่มีภาวะดิสเล็กเซียและความบกพร่องทางการเรียนรู้ ประเภทอื่นได้ การแปลงเสียงเป็นข้อความพบว่าช่วยปรับปรุงคุณภาพการเขียน^{[ 140 ]}ของนักเรียนที่มีความบกพร่องทางการเรียนรู้ เมื่อเปรียบเทียบกับตัวอย่างลายมือ นักเรียนที่มีความบกพร่องทางการเรียนรู้ที่ใช้การแปลงเสียงเป็นข้อความพบว่าเขียนได้เร็วขึ้น^{[ 141 ]}^{[ 142 ]}และมีประโยคที่ยาวและซับซ้อนมากขึ้น^{[ 142 ]}โดยมีข้อผิดพลาดน้อยลง^{[ 143 ]} พบว่าความภาคภูมิใจในตนเอง^{[ 140 ]} ของนักเรียนอายุน้อยที่มีความบกพร่องทางการเรียนรู้เพิ่มขึ้นเมื่อใช้การแปลงเสียงเป็นข้อความเนื่องจากระดับ ความวิตกกังวล^{[ 144 ]}ที่เกี่ยวข้องกับการเขียนลดลง นักเรียนทำผิดพลาดน้อยลงเมื่อใช้ซอฟต์แวร์เมื่อเทียบกับการเขียนด้วยลายมือ ซึ่งทำให้พวกเขามั่นใจในการเขียนมากขึ้น ข้อผิดพลาดที่เกิดจากซอฟต์แวร์ขัดขวางประสิทธิภาพ เนื่องจากคำที่ฟังผิดต้องใช้เวลาในการแก้ไขมากขึ้น^{[ 145 ]}การที่ต้องย้อนกลับไปแก้ไขคำที่ฟังผิดช่วยให้นักเรียนเห็นและแก้ไขข้อผิดพลาดของตนเองได้^{[ 141 ]}สิ่งนี้ได้รับการพิสูจน์แล้วว่าช่วยเพิ่มทักษะการรับรู้ข้อผิดพลาดให้กับผู้ใช้^{[ 144 ]}

โดเมนอื่นๆ

ปัจจุบัน ASR เป็นเรื่องปกติในวงการโทรศัพท์แล้ว ในระบบโทรศัพท์ ASR ถูกนำมาใช้เป็นหลักในศูนย์บริการลูกค้า โดยบูรณาการเข้ากับระบบ IVR

เทคโนโลยีนี้กำลังแพร่หลายมากขึ้นในเกมคอมพิวเตอร์และการจำลองสถานการณ์

แม้ว่าระบบรู้จำเสียงพูดอัตโนมัติ (ASR) จะมีการบูรณาการเข้ากับการประมวลผลคำในคอมพิวเตอร์ส่วนบุคคลทั่วไปในระดับสูง แต่ในด้านการผลิตเอกสาร ระบบ ASR กลับมีการใช้งานเพิ่มขึ้นไม่มากเท่าที่คาดไว้

การพัฒนาความเร็วของหน่วยประมวลผลในอุปกรณ์พกพาทำให้การจดจำเสียงพูดสามารถใช้งานได้จริงในสมาร์ทโฟนโดยส่วนใหญ่แล้วเสียงพูดจะถูกนำมาใช้เป็นส่วนหนึ่งของส่วนติดต่อผู้ใช้ เพื่อสร้างคำสั่งเสียงที่กำหนดไว้ล่วงหน้าหรือคำสั่งเสียงที่กำหนดเอง

การบินและอวกาศเช่นยานลงจอดขั้วโลกดาวอังคาร ของ NASA ใช้เทคโนโลยีการจดจำเสียงพูดจากSensory, Inc.ในไมโครโฟนบนดาวอังคารของยานลงจอด^{[ 146 ]}
การสร้างคำบรรยายอัตโนมัติด้วยการจดจำเสียงพูด
การรับรู้อารมณ์อัตโนมัติ^{[ 147 ]}
การจัดทำรายการ ช็อตอัตโนมัติในงานผลิตภาพและเสียง
การแปลอัตโนมัติ
การค้นหาข้อมูลทางอิเล็กทรอนิกส์
การใช้งานคอมพิวเตอร์แบบแฮนด์ฟรี
ระบบบ้านอัจฉริยะ
ระบบตอบรับด้วยเสียงแบบโต้ตอบ
ระบบโทรศัพท์มือถือรวมถึงอีเมลบนมือถือ
ปฏิสัมพันธ์แบบหลายรูปแบบ^{[ 70 ]}
การสร้างคำบรรยายแบบเรียลไทม์^{[ 148 ]}
หุ่นยนต์
ความปลอดภัย รวมถึงการใช้งานร่วมกับเครื่องสแกนไบโอเมตริกอื่นๆ สำหรับการตรวจสอบสิทธิ์แบบหลายปัจจัย^{[ 149 ]}
แปลงเสียงเป็นข้อความ
ระบบ เทเลเมติกส์เช่น ระบบนำทางรถยนต์
การถอดเสียง
วิดีโอเกมอย่างเช่นTom Clancy's EndWar , Bow-wow BattleและLifeline
ผู้ช่วยเสมือนจริงเช่นSiri

ผลงาน

ประสิทธิภาพของระบบการรู้จำเสียงพูดมักจะได้รับการประเมินในแง่ของความแม่นยำและความเร็ว^{[ 150 ]}^{[ 151 ]}ความแม่นยำมักจะวัดด้วยอัตราข้อผิดพลาดของคำ (WER) ในขณะที่ความเร็วจะวัดจากเวลาที่ผ่านไป การวัดความแม่นยำอื่นๆ ได้แก่อัตราข้อผิดพลาดของคำเดี่ยว (SWER) และอัตราความสำเร็จของคำสั่ง (CSR)

การรู้จำเสียงพูดมีความซับซ้อนเนื่องจากคุณสมบัติหลายประการของเสียงพูด การออกเสียงมีความแตกต่างกันในแง่ของสำเนียง การออกเสียง การออกเสียงที่ชัดเจน ความหยาบกระด้าง ภาษาถิ่น เสียงขึ้นจมูก ระดับเสียง ความดัง และความเร็ว เสียงพูดถูกบิดเบือนโดยเสียงรบกวนพื้นหลัง เสียงสะท้อน และลักษณะการบันทึก ความแม่นยำของการรู้จำเสียงพูดอาจแตกต่างกันไปตามสิ่งต่อไปนี้: ^{[ 152 ]}^{[ 153 ]}

ขนาดของคำศัพท์และความสับสนที่เกิดขึ้นได้
การพึ่งพาผู้พูดเทียบกับการไม่พึ่งพาผู้พูด
คำพูดที่แยกเดี่ยว ไม่ต่อเนื่อง หรือต่อเนื่อง
ข้อจำกัดของงานและภาษา
การอ่านกับการพูดโดยธรรมชาติ
สภาวะที่ไม่เอื้ออำนวย

ความแม่นยำ

ความแม่นยำของการจดจำเสียงพูดอาจแตกต่างกันไปขึ้นอยู่กับปัจจัยต่อไปนี้:

อัตราข้อผิดพลาดจะเพิ่มขึ้นเมื่อขนาดของคำศัพท์เพิ่มขึ้น:

ตัวอย่างเช่น ตัวเลข 10 หลัก ตั้งแต่ "ศูนย์" ถึง "เก้า" สามารถจดจำได้อย่างสมบูรณ์แบบ แต่คำศัพท์ที่มีขนาด 200, 5000 หรือ 100,000 คำ อาจมีอัตราความผิดพลาด 3%, 7% หรือ 45% ตามลำดับ

คำศัพท์จะยากต่อการจดจำหากมีตัวอักษรที่ทำให้สับสน:

เช่น ตัวอักษรภาษาอังกฤษ 26 ตัวนั้นยากที่จะแยกแยะได้ เพราะเป็นคำที่สับสน (โดยเฉพาะอย่างยิ่งชุด E: "B, C, D, E, G, P, T, V, Z (เมื่อ "Z" ออกเสียงว่า "zee" แทนที่จะเป็น "zed" ขึ้นอยู่กับภูมิภาค) อัตราความผิดพลาด 8% ถือว่าดีสำหรับคำศัพท์นี้^{[ 154 ]}

การพึ่งพาผู้พูดกับการไม่พึ่งพาผู้พูด:
- ระบบที่ขึ้นอยู่กับลำโพงนั้นออกแบบมาเพื่อใช้งานกับลำโพงเพียงตัวเดียว
- ระบบที่ไม่ขึ้นกับผู้พูดนั้นมีจุดประสงค์เพื่อให้ผู้พูดทุกคนสามารถใช้งานได้ (ยากกว่า) ^{[ 155 ]}
คำพูดที่แยกเดี่ยว ไม่ต่อเนื่อง หรือต่อเนื่อง
- ในการพูดแบบแยกคำ จะใช้คำเดี่ยวๆ ซึ่งง่ายต่อการจดจำ
- ในการพูดแบบไม่ต่อเนื่อง จะใช้ประโยคเต็มๆ ที่คั่นด้วยความเงียบ ความเงียบนั้นจดจำได้ง่ายกว่า คล้ายกับการพูดแบบแยกเดี่ยว
- ในการพูดต่อเนื่อง จะใช้ประโยคที่พูดตามธรรมชาติ ซึ่งทำให้ยากต่อการจดจำ
ข้อจำกัดของงานและภาษาอาจส่งผลต่อการจดจำ
- แอปพลิเคชันที่ร้องขออาจปฏิเสธสมมติฐานที่ว่า "แอปเปิลเป็นสีแดง"
- ข้อจำกัดอาจเป็นเรื่องความหมาย เช่น การปฏิเสธประโยค "แอปเปิ้ลกำลังโกรธ"
- ด้านไวยากรณ์; ปฏิเสธประโยค "Red is apple the."
- ข้อจำกัดต่างๆ มักแสดงออกมาในรูปแบบของไวยากรณ์
การอ่านกับการพูดโดยธรรมชาติ
- เมื่อคนเราอ่านหนังสือ มักจะอยู่ในบริบทที่ได้เตรียมไว้ล่วงหน้าแล้ว
- เมื่อบุคคลพูดโดยไม่ได้เตรียมตัวมาก่อน การรู้จำจะต้องรับมือกับความไม่คล่องแคล่ว เช่น "อืม" และ "เอ่อ" การเริ่มต้นพูดผิดพลาด ประโยคไม่สมบูรณ์ การพูดติดอ่าง การไอ และการหัวเราะ รวมถึงคำศัพท์ที่จำกัด
สภาวะที่ไม่เอื้ออำนวย
- เสียงรบกวนจากสิ่งแวดล้อม (เช่น ในรถยนต์หรือโรงงาน)
- ความผิดเพี้ยนทางเสียง (เช่น เสียงสะท้อน, สภาพอะคูสติกของห้อง)

การรู้จำเสียงพูดเป็นงานการรู้จำรูปแบบหลายระดับ

สัญญาณเสียงมีโครงสร้างเป็นลำดับชั้นของหน่วยต่างๆ เช่นหน่วยเสียงคำ วลี และประโยค
แต่ละระดับจะมีข้อจำกัดเพิ่มเติม เช่น การออกเสียงคำที่ทราบ หรือลำดับคำที่ถูกต้องตามกฎหมาย ซึ่งสามารถชดเชยข้อผิดพลาดหรือความไม่แน่นอนในระดับที่ต่ำกว่าได้

ลำดับชั้นของข้อจำกัดนี้ช่วยเพิ่มความแม่นยำ โดยการรวมการตัดสินใจแบบสุ่มในทุกระดับล่าง และทำการตัดสินใจขั้นสุดท้ายเฉพาะในระดับสูงสุดเท่านั้น การรู้จำเสียงพูดจึงถูกแบ่งออกเป็นหลายขั้นตอน ในเชิงการคำนวณ มันเป็นปัญหาที่ต้องรู้จำหรือจำแนกรูปแบบเสียงให้อยู่ในหมวดหมู่ที่แสดงถึงความหมายสำหรับมนุษย์ สัญญาณเสียงทุกสัญญาณสามารถแบ่งออกเป็นสัญญาณย่อยที่เล็กกว่าได้ เมื่อสัญญาณเสียงที่ซับซ้อนมากขึ้นถูกแบ่งออก จะเกิดระดับต่างๆ ขึ้น โดยที่ระดับบนสุดจะเป็นเสียงที่ซับซ้อนซึ่งประกอบขึ้นจากเสียงที่ง่ายกว่าในระดับล่าง เป็นต้น ในระดับต่ำสุด จะใช้กฎที่ง่ายและเป็นไปตามความน่าจะเป็นมากกว่า เสียงเหล่านี้จะถูกนำมารวมกันเป็นเสียงที่ซับซ้อนมากขึ้นในระดับบนสุด ชุดกฎที่กำหนดได้แน่นอนมากขึ้นชุดใหม่จะทำนายว่าเสียงที่ซับซ้อนนั้นหมายถึงอะไร ระดับบนสุดของกฎที่กำหนดได้แน่นอนควรจะหาความหมายของสำนวนที่ซับซ้อนได้ เพื่อขยายความรู้ของเราเกี่ยวกับการรู้จำเสียงพูด เราจำเป็นต้องพิจารณาโครงข่ายประสาทเทียม แนวทางของโครงข่ายประสาทเทียมใช้ขั้นตอนต่อไปนี้:

แปลงเสียงพูดให้เป็นดิจิทัล – สำหรับเสียงพูดทางโทรศัพท์ จะมีการบันทึกตัวอย่าง 8,000 ตัวอย่างต่อวินาที^{[ 156 ]}

คำนวณคุณลักษณะของโดเมนสเปกตรัมของเสียงพูด (ด้วยการแปลงฟูริเยร์) โดยคำนวณทุกๆ 10 มิลลิวินาที และแต่ละส่วน 10 มิลลิวินาทีเรียกว่าเฟรม

เสียงเกิดจากการสั่นสะเทือนของอากาศ (หรือตัวกลางอื่นๆ) เสียงสร้างคลื่นที่มีสองมิติ ได้แก่แอมพลิจูด (ความแรง) และความถี่ (การสั่นสะเทือนต่อวินาที) ^{[ 157 ]}ความแม่นยำสามารถคำนวณได้ด้วยความช่วยเหลือของ WER ซึ่งคำนวณโดยการจัดเรียงคำที่รู้จักและคำอ้างอิงโดยใช้การจัดเรียงสตริงแบบไดนามิก ปัญหาอาจเกิดขึ้นขณะคำนวณ WER เนื่องจากความแตกต่างระหว่างความยาวลำดับของคำที่รู้จักและคำอ้างอิง

สูตรในการคำนวณอัตราข้อผิดพลาดของคำ (WER) คือ:

$WER={(s+d+i) \over n}$

โดยที่sคือจำนวนการแทนที่dคือจำนวนการลบiคือจำนวนการแทรก และnคือจำนวนการอ้างอิงคำ^{[ 158 ]}

ในการคำนวณ จะใช้ค่าอัตราการรู้จำคำ (WRR) โดยมีสูตรดังนี้:

WRR=1-WER={(nsdi) \over n}={สวัสดี \over n}

โดยที่hคือจำนวนคำที่จดจำได้อย่างถูกต้อง:

h=n-(s+d).

ความปลอดภัย

การรู้จำเสียงพูดอาจกลายเป็นวิธีการโจมตี การโจรกรรม หรือการใช้งานโดยไม่ได้ตั้งใจ ตัวอย่างเช่น คำสั่งเปิดใช้งานเช่น "Alexa" ที่พูดในการออกอากาศเสียงหรือวิดีโออาจทำให้อุปกรณ์ในบ้านและสำนักงานเริ่มฟังการป้อนข้อมูลอย่างไม่เหมาะสม หรืออาจดำเนินการที่ไม่พึงประสงค์^{[ 159 ]}อุปกรณ์ที่ควบคุมด้วยเสียงอาจเข้าถึงได้โดยผู้ใช้ที่ไม่ได้รับอนุญาต ผู้โจมตีอาจสามารถเข้าถึงข้อมูลส่วนบุคคล เช่น ปฏิทิน เนื้อหาสมุดที่อยู่ ข้อความส่วนตัว และเอกสาร พวกเขายังอาจสามารถปลอมตัวเป็นผู้ใช้เพื่อส่งข้อความหรือทำการซื้อสินค้าออนไลน์ได้

มีการสาธิตการโจมตีสองแบบที่ใช้เสียงสังเคราะห์ แบบหนึ่งส่งคลื่นอัลตราซาวนด์และพยายามส่งคำสั่งโดยที่ผู้คนไม่ทันสังเกต^{[ 160 ]}อีกแบบหนึ่งเพิ่มการบิดเบือนเล็กน้อยที่มนุษย์ไม่ได้ยินลงในคำพูดหรือดนตรีอื่น ๆ ซึ่งสร้างขึ้นเป็นพิเศษเพื่อทำให้ระบบการจดจำคำพูดเฉพาะนั้นสับสนจนจดจำดนตรีเป็นคำพูด หรือทำให้สิ่งที่ฟังดูเหมือนคำสั่งหนึ่งสำหรับมนุษย์ฟังดูเหมือนคำสั่งอื่นสำหรับระบบ^{[ 161 ]}

ข้อมูลเพิ่มเติม

การประชุม

การประชุมวิชาการที่จัดขึ้นเป็นประจำ ได้แก่ SpeechTEK และ SpeechTEK Europe, ICASSP , Interspeech/Eurospeech และ IEEE ASRU ส่วนการประชุมวิชาการในสาขาการประมวลผลภาษาธรรมชาติเช่นACL , NAACL , EMNLP และ HLT จะมีบทความเกี่ยวกับการประมวลผลเสียงพูด รวมอยู่ ด้วย

วารสาร

วารสารหลักคือIEEE/ACM Transactions on Audio, Speech and Language Processing

หนังสือ

หลักการพื้นฐานของการรู้จำเสียงพูดโดยลอว์เรนซ์ ราบินเนอร์ (1993)
วิธีการทางสถิติสำหรับการรู้จำเสียงพูดโดยเฟรเดอริค เจลิเน็ก
การประมวลผลภาษาพูดโดยXuedong Huangและคณะ (2001)
คอมพิวเตอร์แปลงเสียงเป็นข้อความโดยแมนเฟรด อาร์. ชโรเดอร์ (2004)
การประมวลผลคำพูด: แนวทางแบบไดนามิกและมุ่งเน้นการปรับให้เหมาะสมโดย Li Deng และ Doug O'Shaughnessey (2003)
การประมวลผลคำพูดและภาษาโดยJurafskyและ Martin (2008)
หลักการพื้นฐานของการจดจำผู้พูด – แหล่งข้อมูลเชิงลึกสำหรับรายละเอียดล่าสุดเกี่ยวกับทฤษฎีและการปฏิบัติ^{[ 162 ]}
เสียงในเครื่องจักร: การสร้างคอมพิวเตอร์ที่เข้าใจคำพูดโดยโรแบร์โต ปิเอราคชินี (2012) – บทนำ
การรู้จำเสียงพูดอัตโนมัติ: แนวทางการเรียนรู้เชิงลึกโดยนักวิจัยของ Microsoft D. Yu และ L. Deng (2014) – การดำเนินการเชิงคณิตศาสตร์ของวิธีการเรียนรู้เชิงลึกคือ^{[ 88 ]}
การเรียนรู้เชิงลึก: วิธีการและการประยุกต์ใช้โดย L. Deng และ D. Yu (2014) – ภาพรวมที่เน้นวิธีการของการรู้จำเสียงพูดแบบ DNN ^{[ 84 ]}

โครงการต่างๆ

โครงการที่เกี่ยวข้องกับการรู้จำเสียงพูดที่ใหญ่ที่สุดที่ยังคงดำเนินอยู่จนถึงปี 2007 คือโครงการ GALE ซึ่งประกอบด้วยทั้งส่วนการรู้จำเสียงพูดและส่วนการแปล

ซอฟต์แวร์

ชุดเครื่องมือ Sphinxเป็นจุดเริ่มต้นหนึ่งสำหรับการทดลองเกี่ยวกับการจดจำเสียงพูด
หนังสือ HTKและชุดเครื่องมือประกอบ
สามารถใช้ชุดเครื่องมือKaldi ได้ ^{[ 163 ]}
เสียงทั่วไป^{[ 164 ]}^{[ 165 ]} (ใช้TensorFlow ) ^{[ 166 ]}
Coqui STT ^{[ 167 ]} (ได้มาจาก Common Voice โดยใช้ใบอนุญาตโอเพนซอร์สเดียวกัน) ^{[ 168 ]}^{[ 169 ]}
GboardรองรับการจดจำเสียงพูดในแอปพลิเคชันAndroid ทั้งหมด ^{[ 170 ]}
การรู้จำเสียงพูดมีอยู่ในระบบปฏิบัติการMicrosoft Windows ^{[ 171 ]}
API การรู้จำเสียงพูดบนระบบ คลาวด์เชิงพาณิชย์มีให้บริการอย่างแพร่หลาย

ดูเพิ่มเติม

รายการ

อ่านเพิ่มเติม

โคล, โรนัลด์; มารีอานี, โจเซฟ ; อุสโคไรต์, ฮันส์; วาริเล, จิโอวานนี่ บัตติสต้า; ซาเนน, แอนนี่; ซัมโปลี; ซู, วิคเตอร์, สหพันธ์. (1997) การ สำรวจ ความ ทันสมัย ทาง เทคโนโลยี ภาษามนุษย์ เคมบริดจ์ศึกษาด้านการประมวลผลภาษาธรรมชาติ ฉบับที่ สิบสอง–สิบสาม สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ไอเอสบีเอ็น 978-0-521-59277-2.
Junqua, J.-C.; Haton, J.-P. (1995). ความทนทานในการรู้จำเสียงพูดอัตโนมัติ: หลักการพื้นฐานและการประยุกต์ใช้ . สำนักพิมพ์ Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "เทคโนโลยีอินเทอร์เฟซการสนทนา". ในSears, Andrew ; Jacko, Julie A. (บรรณาธิการ). คู่มือปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์: พื้นฐาน เทคโนโลยีที่กำลังพัฒนา และแอปพลิเคชันที่เกิดขึ้นใหม่ (ปัจจัยมนุษย์และสรีรศาสตร์) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
Pieraccini, Roberto (2012). เสียงในเครื่องจักร การสร้างคอมพิวเตอร์ที่เข้าใจคำพูดสำนักพิมพ์ MIT ISBN 978-0-262-01685-8.
Pirani, Giancarlo, บรรณาธิการ (2013). อัลกอริทึมและสถาปัตยกรรมขั้นสูงสำหรับการทำความเข้าใจคำพูด . Springer Science & Business Media. ISBN 978-3-642-84341-9.
Signer, Beat; Hoste, Lode (ธันวาคม 2013). "SpeeG2: อินเทอร์เฟซที่ใช้เสียงและท่าทางเพื่อการป้อนข้อความที่มีประสิทธิภาพโดยไม่ต้องใช้ตัวควบคุม" . รายงานการประชุม ICMI 2013 . การประชุมนานาชาติว่าด้วยปฏิสัมพันธ์แบบหลายรูปแบบครั้งที่ 15. ซิดนีย์ ประเทศออสเตรเลีย.
Woelfel, Matthias; McDonough, John (26 พฤษภาคม 2552). การรู้จำเสียงพูดระยะไกล . Wiley. ISBN 978-0-470-51704-8.

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Speech_recognition&oldid=1359748074 "

การรู้จำเสียงพูด

ประวัติศาสตร์

ก่อนปี 1970

พ.ศ. 2513–2533

การรู้จำเสียงพูดเชิงปฏิบัติ

ทศวรรษ 2000

ทศวรรษ 2010

แบบจำลอง วิธีการ และอัลกอริธึม

แบบจำลองมาร์คอฟที่ซ่อนอยู่

การรู้จำเสียงพูดโดยใช้การปรับเวลาแบบไดนามิก (DTW)

เครือข่ายประสาทเทียม

โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดและแบบวนซ้ำเชิงลึก

การเรียนรู้แบบครบวงจร

โมเดลที่อิงตามความสนใจ

แอปพลิเคชัน

ระบบภายในรถยนต์

การศึกษา

การดูแลสุขภาพ

เอกสารทางการแพทย์

การใช้เพื่อการรักษา

ทหาร

อากาศยาน

เฮลิคอปเตอร์

การควบคุมการจราจรทางอากาศ

คนพิการ

โดเมนอื่นๆ

ผลงาน

ความแม่นยำ

ความปลอดภัย

ข้อมูลเพิ่มเติม

การประชุม

วารสาร

หนังสือ

โครงการต่างๆ

ซอฟต์แวร์

ดูเพิ่มเติม

อ่านเพิ่มเติม

ข้อมูลสำคัญจากบทความ