อ่าน 34 นาที
การรู้จำเสียงพูด
การรู้จำเสียงพูด ( การรู้จำเสียงพูดอัตโนมัติ ( ASR ), การรู้จำเสียงพูดด้วยคอมพิวเตอร์ หรือ การ แปลงเสียงพูดเป็นข้อความ ( STT )) เป็นสาขาย่อยของ ภาษาศาสตร์เชิงคำนวณ...
การรู้จำเสียงพูด
การรู้จำเสียงพูด ( การรู้จำเสียงพูดอัตโนมัติ ( ASR ), การรู้จำเสียงพูดด้วยคอมพิวเตอร์หรือ การ แปลงเสียงพูดเป็นข้อความ ( STT )) เป็นสาขาย่อยของภาษาศาสตร์เชิงคำนวณที่เกี่ยวข้องกับวิธีการและเทคโนโลยีที่แปลภาษาพูดเป็นข้อความหรือรูปแบบอื่นที่สามารถตีความได้[ 1 ]
แอปพลิเคชันการรู้จำเสียงพูดรวมถึงอินเทอร์เฟซผู้ใช้ด้วยเสียงซึ่งผู้ใช้พูดกับอุปกรณ์ อุปกรณ์จะ "ฟัง" และประมวลผลเสียง แอปพลิเคชันเสียงทั่วไป ได้แก่ การตีความคำสั่งสำหรับการโทร การกำหนดเส้นทางการโทร ระบบบ้านอัจฉริยะ และการควบคุมเครื่องบิน แอปพลิเคชันเหล่านี้เรียกว่าการป้อนข้อมูลด้วยเสียงโดยตรง แอปพลิเคชันเพื่อเพิ่มประสิทธิภาพการทำงาน ได้แก่ การค้นหาบันทึกเสียง การสร้างบันทึกถอดเสียง และการเขียนตามคำบอก
การรู้จำเสียงพูดสามารถใช้ในการวิเคราะห์ลักษณะเฉพาะของผู้พูด เช่น การระบุภาษาแม่โดยใช้การประเมินการออกเสียง[ 2 ]
การจดจำเสียง[ 3 ] [ 4 ] [ 5 ] ( การระบุตัวผู้พูด ) [ 6 ] [ 7 ] [ 8 ]หมายถึงการระบุตัวผู้พูด ไม่ใช่เนื้อหาของคำพูดการจดจำผู้พูดสามารถทำให้การแปลคำพูดในระบบที่ฝึกฝนโดยใช้เสียงของบุคคลใดบุคคลหนึ่งง่ายขึ้น นอกจากนี้ยังสามารถใช้เพื่อตรวจสอบความถูกต้องของผู้พูดซึ่งเป็นส่วนหนึ่งของกระบวนการรักษาความปลอดภัยได้อีกด้วย
ประวัติศาสตร์
แอปพลิเคชันสำหรับการรู้จำเสียงพูดได้รับการพัฒนามาหลายทศวรรษ โดยความก้าวหน้าเร่งตัวขึ้นเนื่องจากความก้าวหน้าในการเรียนรู้เชิงลึกและการใช้ข้อมูลขนาดใหญ่ [ 9 ] ความก้าวหน้าเหล่านี้สะท้อนให้เห็นในการเพิ่มขึ้นของเอกสารทางวิชาการ[ 10 ]และการนำระบบไปใช้มากขึ้น[ 11 ]
ด้านสำคัญที่มีการพัฒนา ได้แก่ ขนาดของคำศัพท์ การจดจำเสียงผู้พูดที่ไม่คุ้นเคยได้แม่นยำยิ่งขึ้น (ความเป็นอิสระจากผู้พูด) และความเร็วในการประมวลผลที่เร็วขึ้น
ก่อนปี 1970
- พ.ศ. 2495 – นักวิจัย ของ Bell Labsได้แก่ Stephen Balashek [ 12 ] R. Biddulph และ KH Davis ได้สร้าง Audrey [ 13 ]สำหรับการจดจำตัวเลขจากผู้พูดคนเดียว ระบบของพวกเขาระบุตำแหน่งของฟอร์แมนต์ในสเปกตรัมกำลังของแต่ละคำพูด[ 14 ]
- พ.ศ. 2503 – Gunnar Fantได้พัฒนาและเผยแพร่แบบจำลองแหล่งกำเนิด-ตัวกรองของการผลิตเสียงพูด[ 15 ]
- พ.ศ. 2505 – ระบบจดจำเสียงพูดของเครื่อง "Shoebox" 16 คำของIBM เปิดตัวครั้งแรกใน งานมหกรรมโลกปี พ.ศ. 2505 [ 16 ]
- พ.ศ. 2509 – การเข้ารหัสแบบทำนายเชิงเส้นซึ่ง เป็นวิธี การเข้ารหัสเสียงพูด ได้รับการเสนอโดยFumitada Itakuraจากมหาวิทยาลัยนาโกย่าและ Shuzo Saito จากบริษัท Nippon Telegraph and Telephone [ 17 ]
- พ.ศ. 2512 – การให้ทุนสนับสนุนที่Bell Labsหยุดชะงักไปหลายปีหลังจากที่John R. Pierce หัวหน้าวิศวกรของบริษัท ได้เขียนจดหมายเปิดผนึกวิจารณ์งานวิจัยด้านการรู้จำเสียงพูด[ 18 ]การตัดงบประมาณนี้ดำเนินต่อไปจนกระทั่ง Pierce เกษียณอายุและJames L. Flanaganเข้ามารับตำแหน่งแทน
Raj Reddyเป็นบุคคลแรกที่ทำการจดจำเสียงพูดอย่างต่อเนื่อง[ 19 ]ในฐานะนักศึกษาปริญญาโทที่มหาวิทยาลัยสแตนฟอร์ดในช่วงปลายทศวรรษ 1960 ระบบก่อนหน้านี้กำหนดให้ผู้ใช้ต้องหยุดหลังจากแต่ละคำ ระบบของ Reddy ออกคำสั่งด้วยเสียงสำหรับการเล่น หมากรุก
ในช่วงเวลานี้ นักวิจัยชาวโซเวียตได้คิดค้น อัลกอริทึม การบิดเบือนเวลาแบบไดนามิก (DTW) [ 20 ]และใช้อัลกอริทึมนี้ในการสร้างตัวรับรู้ที่สามารถทำงานกับคำศัพท์ 200 คำได้[ 21 ] DTW ประมวลผลคำพูดโดยแบ่งออกเป็นเฟรมสั้นๆ (เช่น ส่วน 10 มิลลิวินาที) และถือว่าแต่ละเฟรมเป็นหน่วย อย่างไรก็ตาม ปัญหาความเป็นอิสระของผู้พูดยังคงไม่ได้รับการแก้ไข
พ.ศ. 2513–2533
- พ.ศ. 2514 – DARPAให้ทุนสนับสนุนโครงการวิจัยการรู้จำเสียงพูดเป็นเวลาห้าปี โครงการวิจัยความเข้าใจเสียงพูด โดยมุ่งเป้าไปที่ขนาดคำศัพท์ขั้นต่ำ 1,000 คำ โครงการนี้ถือว่าความเข้าใจเสียงพูดเป็นกุญแจสำคัญในการบรรลุความก้าวหน้าในการรู้จำเสียงพูด ซึ่งต่อมาได้รับการพิสูจน์แล้วว่าไม่ถูกต้อง[ 22 ] BBN , IBM, Carnegie Mellon (CMU) และStanford Research Instituteเข้าร่วม[ 23 ] [ 24 ]
- ปี 1972 – กลุ่มวิจัยด้านเสียง การพูด และการประมวลสัญญาณของ IEEE จัดการประชุมขึ้นที่เมืองนิวตัน รัฐแมสซาชูเซตส์
- พ.ศ. 2519 – ICASSPครั้งแรกจัดขึ้นที่ฟิลาเดลเฟียซึ่งกลายเป็นสถานที่สำคัญสำหรับการเผยแพร่ผลงานด้านการรู้จำเสียงพูด[ 25 ]
ในช่วงปลายทศวรรษ 1960 เลียวนาร์ด บอมได้พัฒนาคณิตศาสตร์ของห่วงโซ่มาร์คอฟที่สถาบันวิเคราะห์การป้องกันประเทศหนึ่งทศวรรษต่อมา ที่ CMU นักศึกษาของราช เรดดี้ คือเจมส์ เบเกอร์และเจเน็ต เอ็ม. เบเกอร์เริ่มใช้แบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMM) สำหรับการรู้จำเสียงพูด[ 26 ]เจมส์ เบเกอร์ ได้เรียนรู้เกี่ยวกับ HMM ขณะอยู่ที่สถาบันวิเคราะห์การป้องกันประเทศ [ 27 ] HMMช่วยให้นักวิจัยสามารถรวมแหล่งความรู้ เช่นเสียงภาษา และไวยากรณ์ เข้าไว้ในแบบจำลองความน่าจะเป็นแบบรวม
ในช่วงกลางทศวรรษ 1980 ทีม ของ Fred Jelinekที่ IBM ได้สร้างเครื่องพิมพ์ดีดที่สั่งงานด้วยเสียงชื่อ Tangora ซึ่งสามารถจัดการคำศัพท์ได้ถึง 20,000 คำ[ 28 ]แนวทางทางสถิติของ Jelinek ให้ความสำคัญกับการจำลองกระบวนการของสมองมนุษย์น้อยลง และหันมาเน้นการสร้างแบบจำลองทางสถิติแทน (กลุ่มของ Jelinek ค้นพบการประยุกต์ใช้ HMM กับเสียงพูดโดยอิสระ[ 27 ] ) เรื่องนี้เป็นที่ถกเถียงกันในหมู่นักภาษาศาสตร์ เนื่องจาก HMM นั้นเรียบง่ายเกินไปที่จะอธิบายคุณลักษณะหลายอย่างของภาษามนุษย์[ 29 ]อย่างไรก็ตาม HMM พิสูจน์แล้วว่าเป็นวิธีที่มีประโยชน์อย่างมากในการสร้างแบบจำลองเสียงพูด และเข้ามาแทนที่ dynamic time warping ในฐานะอัลกอริทึมการรู้จำเสียงพูดที่โดดเด่นในช่วงทศวรรษ 1980 [ 30 ] [ 31 ]
- พ.ศ. 2525 – Dragon Systemsซึ่งก่อตั้งโดย James และ Janet M. Baker [ 32 ]เป็นหนึ่งในคู่แข่งเพียงไม่กี่รายของ IBM
การรู้จำเสียงพูดเชิงปฏิบัติ
ทศวรรษ 1980 ยังเป็นช่วงที่มีการนำแบบจำลองภาษา แบบ n-gram มาใช้ด้วย
- 1987 – โมเดล back-offช่วยให้โมเดลภาษาสามารถใช้n-gram ที่มีความยาวหลายระดับได้ และCSELT [ 33 ]ใช้ HMM เพื่อจดจำภาษา (ในซอฟต์แวร์และฮาร์ดแวร์ เช่นRIPAC )
เมื่อสิ้นสุดโครงการ DARPA ในปี 1976 คอมพิวเตอร์ที่ดีที่สุดที่นักวิจัยมีคือPDP-10ที่ มี RAM 4 MB [ 34 ]อาจใช้เวลาถึง 100 นาทีในการถอดรหัสคำพูด 30 วินาที[ 35 ]
ผลิตภัณฑ์ที่ใช้งานได้จริง ได้แก่:
- พ.ศ. 2527 – Apricot Portableวางจำหน่ายโดยรองรับคำได้สูงสุด 4096 คำ ซึ่งสามารถเก็บไว้ใน RAM ได้เพียงครั้งละ 64 คำเท่านั้น[ 36 ]
- ปี 1987 – อุปกรณ์จดจำใบหน้าจากบริษัท Kurzweil Applied Intelligence
- 1990 – Dragon Dictate ผลิตภัณฑ์สำหรับผู้บริโภคที่วางจำหน่ายในปี 1990 [ 37 ] [ 38 ] AT&Tได้นำบริการประมวลผลการโทรด้วยการจดจำเสียงมาใช้ในปี 1992 เพื่อส่งต่อสายโทรศัพท์โดยไม่ต้องมีโอเปเรเตอร์[ 39 ]เทคโนโลยีนี้ได้รับการพัฒนาโดยLawrence Rabinerและคนอื่นๆ ที่ Bell Labs
ในช่วงต้นทศวรรษ 1990 คำศัพท์ของระบบการรู้จำเสียงพูดเชิงพาณิชย์ทั่วไปได้เกินคำศัพท์เฉลี่ยของมนุษย์ไปแล้ว[ 34 ]อดีตนักศึกษาของ Reddy ชื่อXuedong Huangได้พัฒนา ระบบ Sphinx-IIที่ CMU Sphinx-II เป็นระบบแรกที่สามารถรู้จำเสียงพูดต่อเนื่องที่มีคำศัพท์จำนวนมากโดยไม่ขึ้นกับผู้พูด และได้รับรางวัลจากการประเมินของ DARPA ในปี 1992 การจัดการเสียงพูดต่อเนื่องที่มีคำศัพท์จำนวนมากถือเป็นก้าวสำคัญ Huang ได้ก่อตั้งกลุ่มการรู้จำเสียงพูดที่ Microsoftในปี 1993 นักศึกษาของ Reddy ชื่อKai-Fu Leeได้เข้าร่วมงานกับ Apple ซึ่งในปี 1992 เขาได้ช่วยพัฒนาต้นแบบอินเทอร์เฟซเสียงพูด Casper
Lernout & Hauspieบริษัทด้านการรู้จำเสียงพูดจากเบลเยียม ได้เข้าซื้อกิจการบริษัทอื่นๆ รวมถึง Kurzweil Applied Intelligence ในปี 1997 และ Dragon Systems ในปี 2000 L&H ถูกนำไปใช้ในWindows XP L&H เป็นผู้นำในอุตสาหกรรมจนกระทั่งเกิดเรื่องอื้อฉาวทางการบัญชีทำลายบริษัทในปี 2001 เทคโนโลยีเสียงพูดของ L&H ถูกซื้อโดย ScanSoft ซึ่งต่อมากลายเป็นNuanceในปี 2005 Apple ได้รับอนุญาตให้ ใช้ซอฟต์แวร์ Nuance สำหรับผู้ช่วยดิจิทัลSiri ของตน [ 40 ]
ทศวรรษ 2000
ในช่วงทศวรรษ 2000 DARPA ได้ให้การสนับสนุนโครงการรู้จำเสียงพูดสองโครงการ ได้แก่ Effective Affordable Reusable Speech-to-Text (EARS) ในปี 2002 ตามด้วยGlobal Autonomous Language Exploitation (GALE) ในปี 2005 มีทีมเข้าร่วมใน EARS สี่ทีม ได้แก่ IBM; ทีมที่นำโดยBBNร่วมกับLIMSIและมหาวิทยาลัยพิตต์สเบิร์ก ; มหาวิทยาลัยเคมบริดจ์ ; และทีมที่ประกอบด้วยICSI , SRIและมหาวิทยาลัยวอชิงตัน EARS ให้ทุนสนับสนุนการรวบรวมคลังข้อมูลเสียงพูด ทางโทรศัพท์ Switchboard ซึ่งประกอบด้วยบทสนทนาที่บันทึกไว้ 260 ชั่วโมงจากผู้พูดมากกว่า 500 คน[ 41 ]โครงการ GALE มุ่งเน้นไปที่ข่าวออกอากาศภาษาอาหรับและภาษาจีนกลาง ความพยายามครั้งแรกของ Googleในการรู้จำเสียงพูดเกิดขึ้นในปี 2007 หลังจากรับสมัครนักวิจัยของ Nuance [ 42 ]ผลิตภัณฑ์แรกของ Google คือGOOG-411ซึ่งเป็นบริการไดเร็กทอรีทางโทรศัพท์
นับตั้งแต่ปี 2006 เป็นต้นมาสำนักงานความมั่นคงแห่งชาติ ของสหรัฐอเมริกา ได้ใช้การตรวจจับคำหลักซึ่งช่วยให้นักวิเคราะห์สามารถจัดทำดัชนีบทสนทนาที่บันทึกไว้จำนวนมากและระบุคำพูดที่มีคำหลักที่ "น่าสนใจ" [ 43 ] โครงการวิจัยของรัฐบาลอื่น ๆ ที่มุ่งเน้นการประยุกต์ใช้ด้านข่าวกรอง เช่น โครงการ EARS ของ DARPA และโครงการ BabelของIARPA
ในช่วงต้นทศวรรษ 2000 การรู้จำเสียงพูดถูกครอบงำโดยแบบจำลองมาร์คอฟที่ซ่อนอยู่ร่วมกับโครงข่ายประสาทเทียมแบบ ฟีดฟอร์เวิร์ด (ANN) [ 44 ]ต่อมา การรู้จำเสียงพูดถูกครอบงำโดยหน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งเป็นโครงข่ายประสาทแบบวนซ้ำ (RNN) ที่ตีพิมพ์โดยSepp HochreiterและJürgen Schmidhuberในปี 1997 [ 45 ] LSTM RNN หลีกเลี่ยงปัญหาการลดลงของเกรเดียนต์และสามารถเรียนรู้งาน "การเรียนรู้เชิงลึกมาก" [ 46 ]ซึ่งต้องใช้ความทรงจำของเหตุการณ์ที่เกิดขึ้นเมื่อหลายพันขั้นตอนเวลาที่ไม่ต่อเนื่องก่อนหน้านี้ ซึ่งมีความสำคัญต่อเสียงพูด
ประมาณปี 2007 LSTM ที่ได้รับการฝึกฝนด้วย Connectionist Temporal Classification (CTC) [ 47 ]เริ่มมีประสิทธิภาพเหนือกว่า[ 48 ]ในปี 2015 Google รายงานว่าอัตราข้อผิดพลาดลดลง 49 เปอร์เซ็นต์ในการจดจำเสียงพูดโดยใช้ LSTM ที่ได้รับการฝึกฝนด้วย CTC [ 49 ] Transformersซึ่งเป็นโครงข่ายประสาทเทียมประเภทหนึ่งที่ใช้Attention เพียงอย่างเดียว ได้ถูกนำมาใช้ในคอมพิวเตอร์วิชั่น[ 50 ] [ 51 ]และการสร้างแบบจำลองภาษา[ 52 ] [ 53 ]และจากนั้นก็ใช้ในการจดจำเสียงพูด[ 54 ] [ 55 ] [ 56 ]
เครือข่ายฟีดฟอร์เวิร์ดเชิงลึก (ไม่วนซ้ำ) สำหรับการสร้างแบบจำลองเสียงได้รับการแนะนำในปี 2009 โดยGeoffrey Hintonและนักศึกษาของเขาที่มหาวิทยาลัยโทรอนโตและโดย Li Deng [ 57 ]และเพื่อนร่วมงานที่ Microsoft Research [ 58 ] [ 59 ] [ 60 ] [ 61 ]เมื่อเปรียบเทียบกับการปรับปรุงแบบค่อยเป็นค่อยไปก่อนหน้านี้ การเรียนรู้เชิงลึกช่วยลดอัตราข้อผิดพลาดลง 30% [ 61 ]
โครงข่ายประสาทเทียม (ANN) ทั้งแบบตื้นและแบบลึก (เช่น โครงข่ายแบบวนซ้ำ) ได้รับการสำรวจมาตั้งแต่ทศวรรษ 1980 [ 62 ] [ 63 ] [ 64 ]อย่างไรก็ตาม วิธีการเหล่านี้ไม่เคยเอาชนะ เทคโนโลยีแบบ จำลอง Gaussian mixture model / hidden Markov model (GMM-HMM) ที่สร้างขึ้นด้วยมือภายในที่ไม่สม่ำเสมอได้ [ 65 ]ปัญหาที่วิเคราะห์ในทศวรรษ 1990 ได้แก่ การลดลงของเกรเดียนต์[ 66 ]และโครงสร้างความสัมพันธ์เชิงเวลาที่อ่อนแอ[ 67 ] [ 68 ]ปัญหาทั้งหมดเหล่านี้รวมกับข้อมูลการฝึกอบรมและกำลังการประมวลผลที่ไม่เพียงพอ การรู้จำเสียงพูดส่วนใหญ่จึงใช้วิธีการสร้างแบบจำลองเชิงกำเนิดจนกระทั่งการเรียนรู้เชิงลึกประสบความสำเร็จ Hinton et al. และ Deng et al. [ 59 ] [ 60 ] [ 69 ] [ 70 ]
ทศวรรษ 2010
ในช่วงต้นทศวรรษ 2010 การรู้จำเสียงพูด[ 71 ] [ 72 ] [ 73 ]ได้รับการแยกแยะจากการรู้จำผู้พูด และความเป็นอิสระของผู้พูดถือเป็นความก้าวหน้าครั้งสำคัญ ก่อนหน้านั้น ระบบต่างๆ จำเป็นต้องมีช่วงเวลา "ฝึกฝน" สำหรับแต่ละเสียง[ 16 ]
ในปี 2017 นักวิจัยของ Microsoft บรรลุเป้าหมายความเท่าเทียมกับมนุษย์ในการถอดเสียงคำพูดสนทนาในงาน Switchboard ที่ใช้เป็นเกณฑ์มาตรฐานอย่างกว้างขวาง มีการใช้โมเดลการเรียนรู้เชิงลึกหลายแบบเพื่อปรับปรุงความแม่นยำ อัตราข้อผิดพลาดได้รับการรายงานว่าต่ำถึงระดับเดียวกับผู้ถอดเสียงมืออาชีพ 4 คนที่ทำงานร่วมกันในเกณฑ์มาตรฐานเดียวกัน[ 74 ]
แบบจำลอง วิธีการ และอัลกอริธึม
การสร้างแบบจำลองเสียงและการสร้างแบบจำลองภาษา เป็น ส่วนสำคัญของอัลกอริธึมการรู้จำเสียงพูดเชิงสถิติ แบบจำลองมาร์คอฟแบบซ่อนเร้น (HMM) ถูกนำมาใช้กันอย่างแพร่หลายในหลายระบบ การสร้างแบบจำลองภาษายังถูกนำไปใช้ในแอปพลิเคชันการประมวลผลภาษาธรรมชาติอื่นๆ อีกมากมาย เช่น การจำแนกเอกสารหรือการแปลภาษาด้วยเครื่องจักรเชิงสถิติ
แบบจำลองมาร์คอฟที่ซ่อนอยู่
ระบบรู้จำเสียงพูดนั้นใช้แบบจำลองมาร์คอฟแบบฮิวมิก (HMM) เป็นพื้นฐาน HMM เป็นแบบจำลองทางสถิติที่ให้ผลลัพธ์เป็นลำดับของสัญลักษณ์หรือปริมาณ HMM ถูกนำมาใช้ในการรู้จำเสียงพูดเพราะสัญญาณเสียงพูดสามารถมองได้ว่าเป็นสัญญาณแบบคงที่แบบเป็นช่วงๆ หรือสัญญาณแบบคงที่ในช่วงเวลาสั้นๆ ในช่วงเวลาสั้นๆ (เช่น 10 มิลลิวินาที) เสียงพูดสามารถประมาณได้ว่าเป็นกระบวนการแบบคงที่เสียงพูดสามารถคิดได้ว่าเป็นแบบจำลองมาร์คอฟสำหรับวัตถุประสงค์เชิงสุ่มหลายประการ
แบบจำลอง HMM เป็นที่นิยมเนื่องจากสามารถฝึกฝนได้โดยอัตโนมัติ มีความเรียบง่าย และสามารถคำนวณได้ แบบจำลอง HMM จะส่งออกลำดับของเวกเตอร์ค่าจริงn มิติ (โดยที่ nเป็นจำนวนเต็ม เช่น 10) โดยส่งออกหนึ่งเวกเตอร์ทุกๆ 10 มิลลิวินาที เวกเตอร์เหล่านี้ประกอบด้วย สัมประสิทธิ์ เซปสตรัมซึ่งได้มาจากการแปลงฟูริเยร์ของช่วงเวลาสั้นๆ ของเสียงพูด และการลดความสัมพันธ์ของสเปกตรัมโดยใช้การแปลงโคไซน์จากนั้นจึงเลือกสัมประสิทธิ์ตัวแรก (ที่มีนัยสำคัญที่สุด) แบบจำลอง HMM มักจะมีการกระจายทางสถิติในแต่ละสถานะ ซึ่งเป็นการผสมผสานของเกาส์เซียน ความแปรปรวนร่วมแนวทแยง ซึ่งให้ความน่าจะเป็นสำหรับแต่ละเวกเตอร์ที่สังเกตได้ แต่ละคำ หรือ (สำหรับระบบการรู้จำเสียงพูดทั่วไป) แต่ละหน่วยเสียงจะมีการกระจายเอาต์พุตที่แตกต่างกัน แบบจำลอง HMM สำหรับลำดับของคำหรือหน่วยเสียงจะสร้างขึ้นโดยการรวมแบบจำลอง HMM ที่ฝึกฝนแล้วสำหรับคำและหน่วยเสียงแต่ละหน่วยเข้าด้วยกัน
ระบบรู้จำเสียงพูดใช้เทคนิคมาตรฐานหลายอย่างร่วมกันเพื่อปรับปรุงผลลัพธ์ ระบบที่มีคำศัพท์ขนาดใหญ่ทั่วไปจะใช้การพึ่งพาบริบทสำหรับหน่วยเสียง (เพื่อให้หน่วยเสียงที่มีบริบทซ้ายและขวาต่างกันมีการแสดงผลที่แตกต่างกันในสถานะ HMM) ระบบจะใช้การปรับค่าเซปสตรัมเพื่อจัดการกับเงื่อนไขของผู้พูดและการบันทึก อาจใช้การปรับความยาวช่องเสียง (VTLN) สำหรับการปรับค่ามาตรฐานชายหญิง และการถดถอยเชิงเส้นความน่าจะเป็นสูงสุด (MLLR) สำหรับการปรับตัวทั่วไปมากขึ้น คุณลักษณะต่างๆ ใช้สัมประสิทธิ์เดลต้าและเดลต้า-เดลต้าเพื่อจับพลวัตของเสียงพูด และนอกจากนี้อาจใช้ การวิเคราะห์การจำแนกเชิงเส้น แบบเฮเทอโรสเคดาสติก (HLDA) หรืออาจใช้การต่อและ การฉายภาพตาม LDAตามด้วย HLDA หรือการแปลงความแปรปรวนร่วมแบบกึ่งผูกมัดทั่วโลก (หรือที่เรียกว่าการแปลงเชิงเส้นความน่าจะเป็นสูงสุด (MLLT)) ระบบจำนวนมากใช้เทคนิคการฝึกอบรมแบบจำแนกที่ละทิ้งวิธีการทางสถิติล้วนๆ ในการประมาณค่าพารามิเตอร์ HMM และปรับค่าให้เหมาะสมกับมาตรวัดที่เกี่ยวข้องกับการจำแนกประเภทของข้อมูลการฝึกอบรมแทน ตัวอย่างเช่นข้อมูลร่วม สูงสุด (MMI), ข้อผิดพลาดในการจำแนกประเภทต่ำสุด (MCE) และข้อผิดพลาดทางโทรศัพท์ต่ำสุด (MPE)
การรู้จำเสียงพูดโดยใช้การปรับเวลาแบบไดนามิก (DTW)
ในอดีต การปรับเวลาแบบไดนามิก (Dynamic time warping) ถูกนำมาใช้ในการจดจำเสียงพูด แต่ต่อมาถูกแทนที่ด้วย HMM (Hardware-Middle Model)
การปรับเวลาแบบไดนามิก (Dynamic Time Warping หรือ DTW) วัดความคล้ายคลึงกันระหว่างลำดับภาพสองลำดับที่อาจแตกต่างกันในด้านเวลาหรือความเร็ว ตัวอย่างเช่น สามารถตรวจจับความคล้ายคลึงกันในรูปแบบการเดินได้ แม้ว่าในวิดีโอหนึ่งบุคคลเดินช้าและในอีกวิดีโอหนึ่งเดินเร็วขึ้น หรือแม้ว่าจะมีการเร่งความเร็วและการลดความเร็วเกิดขึ้นในระหว่างการสังเกตเดียวกันก็ตาม DTW ถูกนำไปใช้กับวิดีโอ เสียง และกราฟิก – ข้อมูลใดๆ ที่สามารถแปลงเป็นรูปแบบเชิงเส้นได้ ก็สามารถวิเคราะห์ด้วย DTW ได้
วิธีนี้สามารถจัดการกับเสียงพูดที่มีความเร็วในการพูดต่างกันได้ โดยทั่วไปแล้ว วิธีนี้จะช่วยให้เกิดการจับคู่ที่เหมาะสมที่สุดระหว่างลำดับสองลำดับ (เช่น อนุกรมเวลา) ภายใต้ข้อจำกัดบางประการ ลำดับเหล่านั้นจะถูก "บิดเบี้ยว" อย่างไม่เป็นเชิงเส้นเพื่อให้เข้ากันได้ วิธีการจัดเรียงลำดับนี้มักใช้ในบริบทของ HMMs
เครือข่ายประสาทเทียม
เครือข่ายประสาทเทียมเริ่มเป็นที่น่าสนใจในช่วงปลายทศวรรษ 1980 ก่อนที่จะเริ่มมีบทบาทเด่นในช่วงทศวรรษ 2010 เครือข่ายประสาทเทียมถูกนำไปใช้ในหลายแง่มุมของการรู้จำเสียงพูด เช่น การจำแนกหน่วยเสียง[ 75 ]การจำแนกหน่วยเสียงผ่านอัลกอริธึมวิวัฒนาการแบบหลายวัตถุประสงค์[ 76 ]การรู้จำคำเดี่ยว[ 77 ]การรู้จำเสียงพูดแบบภาพและ เสียง การรู้จำผู้พูดแบบภาพและเสียง และการปรับตัวของผู้พูด
เครือข่ายประสาทเทียมตั้งสมมติฐานเกี่ยวกับคุณสมบัติทางสถิติของฟีเจอร์น้อยกว่า HMM เมื่อใช้ในการประมาณความน่าจะเป็นของส่วนของคำพูด เครือข่ายประสาทเทียมช่วยให้การฝึกอบรมแบบจำแนกมีประสิทธิภาพและเป็นธรรมชาติ อย่างไรก็ตาม แม้ว่าจะมีประสิทธิภาพในการจำแนกหน่วยเวลาสั้นๆ เช่น เสียงสระและพยัญชนะเดี่ยว[ 78 ]เครือข่ายประสาทเทียมในยุคแรกๆ มักไม่ประสบความสำเร็จในการจดจำแบบต่อเนื่องเนื่องจากความสามารถที่จำกัดในการจำลองการพึ่งพาเชิงเวลา
แนวทางหนึ่งคือการใช้โครงข่ายประสาทเทียมสำหรับการแปลงคุณลักษณะหรือการลดมิติ[ 79 ]อย่างไรก็ตาม เมื่อไม่นานมานี้ LSTM และโครงข่ายประสาทเทียมแบบวนซ้ำที่เกี่ยวข้อง (RNNs) [ 45 ] [ 49 ] [ 80 ] [ 81 ]โครงข่ายประสาทเทียมแบบหน่วงเวลา (TDNNs) [ 82 ]และทรานส์ฟอร์เมอร์[ 54 ] [ 55 ] [ 56 ]ได้แสดงให้เห็นถึงประสิทธิภาพที่ดีขึ้น
โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดและแบบวนซ้ำเชิงลึก
นักวิจัยกำลังสำรวจโครงข่ายประสาทเทียมเชิงลึก (DNN) และตัวเข้ารหัสอัตโนมัติแบบลดสัญญาณรบกวน[ 83 ] DNN เป็นโครงข่ายประสาทเทียมชนิดหนึ่งที่มีเลเยอร์ซ่อนหลายชั้นระหว่างอินพุตและเอาต์พุต[ 59 ]เช่นเดียวกับโครงข่ายประสาทเทียมที่ง่ายกว่า DNN สามารถจำลองความสัมพันธ์ที่ซับซ้อนและไม่เป็นเชิงเส้นได้ อย่างไรก็ตาม สถาปัตยกรรมที่ลึกกว่าของพวกมันทำให้สามารถสร้างการแสดงผลที่ซับซ้อนมากขึ้นซึ่งรวมคุณสมบัติจากเลเยอร์ก่อนหน้าเข้าด้วยกัน ทำให้พวกมันมีความสามารถอันทรงพลังในการเรียนรู้และจดจำรูปแบบที่ซับซ้อนในข้อมูลเสียงพูด[ 84 ]
ความก้าวหน้าครั้งสำคัญในการใช้ DNN สำหรับการรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากเกิดขึ้นในปี 2010 ในความร่วมมือระหว่างภาคอุตสาหกรรมและสถาบันการศึกษา นักวิจัยได้ใช้ DNN ที่มีเลเยอร์เอาต์พุตขนาดใหญ่โดยอิงจากสถานะ HMM ที่ขึ้นอยู่กับบริบทซึ่งสร้างขึ้นโดยใช้ต้นไม้ตัดสินใจ[ 85 ] [ 86 ] [ 87 ]แนวทางนี้ช่วยปรับปรุงประสิทธิภาพได้อย่างมาก[ 88 ] [ 89 ] [ 90 ]
แนวคิดหลักเบื้องหลังการเรียนรู้เชิงลึกคือการกำจัดความจำเป็นในการออกแบบคุณลักษณะด้วยตนเอง และเรียนรู้โดยตรงจากข้อมูลอินพุตแทน สิ่งนี้ได้รับการสาธิตครั้งแรกโดยใช้ deep autoencoders ที่ฝึกฝนบนสเปกโตรแกรมดิบหรือคุณลักษณะฟิลเตอร์แบงค์เชิงเส้น[ 91 ]โมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าคุณลักษณะ Mel-Cepstral แบบดั้งเดิม ซึ่งอาศัยการแปลงคงที่ เมื่อไม่นานมานี้ นักวิจัยได้แสดงให้เห็นว่ารูปคลื่นสามารถให้ผลลัพธ์ที่ยอดเยี่ยมในการรู้จำเสียงพูดขนาดใหญ่[ 92 ]
การเรียนรู้แบบครบวงจร
นับตั้งแต่ปี 2014 งานวิจัยจำนวนมากได้พิจารณาถึง ASR แบบ "ครบวงจร" แนวทางแบบดั้งเดิมที่ใช้สัทศาสตร์ (เช่น โมเดลที่ใช้ HMM ทั้งหมด ) ต้องใช้ส่วนประกอบและการฝึกอบรมแยกต่างหากสำหรับการออกเสียง เสียง และภาษาโมเดลแบบครบวงจรเรียนรู้จากส่วนประกอบทั้งหมดพร้อมกัน ซึ่งช่วยลดความซับซ้อนของกระบวนการฝึกอบรมและการใช้งาน ตัวอย่างเช่นโมเดลภาษา n-gramเป็นสิ่งจำเป็นสำหรับระบบที่ใช้ HMM ทั้งหมด และโมเดลภาษา n-gram ทั่วไปในยุคปี 2025 มักใช้หน่วยความจำหลายกิกะไบต์ ทำให้ไม่สามารถใช้งานบนอุปกรณ์เคลื่อนที่ได้[ 93 ]ด้วยเหตุนี้ ระบบ ASR จากGoogleและApple (ณ ปี 2017) จึงใช้งานบนเซิร์ฟเวอร์และต้องใช้การเชื่อมต่อเครือข่ายในการทำงาน
ความพยายามครั้งแรกในการสร้าง ASR แบบครบวงจรคือ ระบบที่ใช้ Connectionist Temporal Classification (CTC) ซึ่งแนะนำโดยAlex GravesจากGoogle DeepMindและ Navdeep Jaitly จากมหาวิทยาลัยโทรอนโตในปี 2014 [ 94 ]โมเดลประกอบด้วย RNN และเลเยอร์ CTC โดยรวมแล้ว โมเดล RNN-CTC เรียนรู้การออกเสียงและโมเดลเสียงไปพร้อมกัน อย่างไรก็ตาม มันไม่สามารถเรียนรู้โมเดลภาษาได้เนื่องจาก สมมติฐาน ความเป็นอิสระแบบมีเงื่อนไขคล้ายกับ HMM ดังนั้น โมเดล CTC จึงสามารถเรียนรู้การแมปเสียงพูดไปยังตัวอักษรภาษาอังกฤษได้โดยตรง แต่โมเดลเหล่านี้มักทำผิดพลาดในการสะกดคำทั่วไป และต้องอาศัยโมเดลภาษาแยกต่างหากเพื่อสรุปการถอดเสียง ต่อมาBaiduได้ขยายงานด้วยชุดข้อมูลขนาดใหญ่มาก และแสดงให้เห็นถึงความสำเร็จเชิงพาณิชย์ในภาษาจีนกลางและภาษาอังกฤษ[ 95 ]
ในปี 2016 มหาวิทยาลัยออกซ์ฟอร์ดได้นำเสนอLipNet [ 96 ]ซึ่งเป็นโมเดลการอ่านริมฝีปากระดับประโยคแบบครบวงจรตัวแรก โดยใช้การแปลงเชิงพื้นที่และเวลาควบคู่กับสถาปัตยกรรม RNN-CTC ซึ่งมีประสิทธิภาพเหนือกว่ามนุษย์ในชุดข้อมูลที่จำกัด[ 97 ] ใน ปี 2018 Google DeepMind ได้นำเสนอสถาปัตยกรรม convolutional -RNN-CTC ขนาดใหญ่ซึ่งมีประสิทธิภาพดีกว่าผู้เชี่ยวชาญถึง 6 เท่า[ 98 ]ในปี 2019 Nvidiaได้เปิดตัวโมเดล ASR CNN-CTC สองรุ่น ได้แก่ Jasper และ QuarzNet โดยมีอัตราข้อผิดพลาดของคำ (WER) โดยรวมอยู่ที่ 3% [ 99 ] [ 100 ]เช่นเดียวกับแอปพลิเคชันการเรียนรู้เชิงลึกอื่นๆการเรียนรู้แบบถ่ายโอนและการปรับตัวให้เข้ากับโดเมนเป็นกลยุทธ์ที่สำคัญสำหรับการนำกลับมาใช้ใหม่และขยายขีดความสามารถของโมเดลการเรียนรู้เชิงลึก โดยเฉพาะอย่างยิ่งเนื่องจากขนาดของคลังข้อมูลที่มีอยู่มีขนาดเล็กในหลายภาษาและ/หรือโดเมนเฉพาะ[ 101 ] [ 102 ] [ 103 ]
ในปี 2018 นักวิจัยที่MIT Media Labประกาศผลงานเบื้องต้นของ AlterEgo ซึ่งเป็นอุปกรณ์ที่ใช้อิเล็กโทรดในการอ่านสัญญาณประสาทกล้ามเนื้อที่ผู้ใช้สร้างขึ้นขณะเปล่งเสียงในใจ [ 104 ] พวกเขาฝึกเครือข่ายประสาทเทียมแบบคอนโวลูชันเพื่อแปลสัญญาณอิเล็กโทรดเป็นคำพูด[ 105 ]
โมเดลที่อิงตามความสนใจ
โมเดล ASR ที่ใช้กลไกความสนใจได้รับการแนะนำโดย Chan et al. จากมหาวิทยาลัย Carnegie MellonและGoogle Brainและ Bahdanau et al. จากมหาวิทยาลัย Montrealในปี 2016 [ 106 ] [ 107 ]โมเดลที่ชื่อว่า "Listen, Attend and Spell" (LAS) นั้น "ฟัง" สัญญาณเสียง "ให้ความสนใจ" กับทุกส่วนของสัญญาณ และ "สะกด" ข้อความที่ถอดเสียงออกมาทีละตัวอักษร แตกต่างจากโมเดลที่ใช้ CTC โมเดลที่ใช้กลไกความสนใจต้องการสมมติฐานความเป็นอิสระแบบมีเงื่อนไข และสามารถเรียนรู้ส่วนประกอบทั้งหมดของตัวรู้จำเสียงพูดได้โดยตรง ซึ่งหมายความว่าในระหว่างการใช้งาน ไม่ จำเป็นต้องมีโมเดลภาษา ล่วงหน้าทำให้มีความต้องการน้อยลงสำหรับแอปพลิเคชันที่มีหน่วยความจำจำกัด
โมเดลที่ใช้ความสนใจมีประสิทธิภาพเหนือกว่าโมเดล CTC ทันที (ไม่ว่าจะใช้โมเดลภาษาภายนอกหรือไม่ก็ตาม) และยังคงพัฒนาต่อ ไป [ 108 ]การแยกส่วนลำดับแฝง (LSD) ได้รับการเสนอโดยมหาวิทยาลัยคาร์เนกีเมลลอน, MIT และ Google Brain เพื่อสร้างหน่วยย่อยของคำโดยตรงซึ่งเป็นธรรมชาติมากกว่าตัวอักษรภาษาอังกฤษ[ 109 ]มหาวิทยาลัยออกซ์ฟอร์ดและ Google DeepMind ได้ขยาย LAS เป็น "ดู ฟัง ใส่ใจ และสะกด" (WLAS) เพื่อจัดการกับการอ่านริมฝีปากและมีประสิทธิภาพเหนือกว่าระดับมนุษย์[ 110 ]
แอปพลิเคชัน
ระบบภายในรถยนต์
คำสั่งเสียงอาจใช้เพื่อเริ่มการโทร เลือกสถานีวิทยุ หรือเล่นเพลง ความสามารถในการจดจำเสียงจะแตกต่างกันไปตามยี่ห้อและรุ่นของรถยนต์ บางรุ่นมีระบบจดจำเสียงพูดแบบธรรมชาติ ทำให้ผู้ขับขี่สามารถใช้ประโยคเต็มและวลีทั่วไปในลักษณะการสนทนาได้ ด้วยระบบดังกล่าว ไม่จำเป็นต้องใช้คำสั่งตายตัว[ 111 ]
การศึกษา
การประเมินการออกเสียงอัตโนมัติคือการใช้การรู้จำเสียงพูดเพื่อตรวจสอบความถูกต้องของเสียงพูด[ 112 ]ซึ่งแตกต่างจากการประเมินโดยบุคคล[ 113 ]เรียกอีกอย่างว่าการตรวจสอบเสียงพูด การประเมินการออกเสียง และการให้คะแนนการออกเสียง การประยุกต์ใช้หลักของเทคโนโลยีนี้คือการสอนการออกเสียงโดยใช้คอมพิวเตอร์ช่วย (CAPT) เมื่อรวมกับการสอนโดยใช้คอมพิวเตอร์ช่วยสำหรับการเรียนรู้ภาษาโดยใช้คอมพิวเตอร์ช่วย (CALL) การแก้ไข เสียงพูด หรือการลดสำเนียงการประเมินการออกเสียงไม่ได้กำหนดเสียงพูดที่ไม่รู้จัก (เช่นในการเขียนตามคำบอกหรือการถอดเสียงอัตโนมัติ ) แต่จะเปรียบเทียบเสียงพูดกับแบบจำลองอ้างอิงสำหรับคำที่พูด[ 114 ] [ 115 ]บางครั้งอาจรวมถึงลักษณะเสียงที่ไม่สำคัญเช่นระดับเสียงสูงต่ำระดับเสียงจังหวะทำนองและการเน้นเสียง [ 116 ] การประเมินการออกเสียงยังใช้ในการสอนการอ่านเช่น ในผลิตภัณฑ์ต่างๆ เช่นMicrosoft Teams [ 117 ]และ Amira Learning [ 118 ]การประเมินการออกเสียงยังสามารถใช้เพื่อช่วยวินิจฉัยและรักษาความผิดปกติของการพูดเช่นภาวะอะแพรกเซียได้ อีกด้วย [ 119 ]
การประเมินความเข้าใจได้เป็นสิ่งสำคัญในการหลีกเลี่ยงความไม่ถูกต้องอันเนื่องมาจากอคติด้านสำเนียง โดยเฉพาะอย่างยิ่งในการประเมินที่มีความสำคัญสูง[ 120 ] [ 121 ] [ 122 ]จากคำที่มีการออกเสียงที่ถูกต้องหลายแบบ[ 123 ]และจากข้อผิดพลาดในการเข้ารหัสหน่วยเสียงในพจนานุกรมการออกเสียงดิจิทัล[ 124 ]ในปี 2022 นักวิจัยพบว่าระบบแปลงเสียงเป็นข้อความรุ่นใหม่บางระบบ ซึ่งใช้การเรียนรู้แบบเสริมแรงแบบครบวงจรเพื่อแมปสัญญาณเสียงโดยตรงไปยังคำต่างๆ สามารถสร้างคะแนนความมั่นใจของคำและวลีที่สัมพันธ์อย่างใกล้ชิดกับความเข้าใจได้ของผู้ฟัง[ 125 ]ใน เกณฑ์การประเมิน "การควบคุมเสียงโดยรวม" ของกรอบอ้างอิงร่วมยุโรปสำหรับภาษา (CEFR) ความเข้าใจได้มีความสำคัญมากกว่าการออกเสียงที่ถูกต้องตามรูปแบบในทุกระดับ[ 126 ]
การดูแลสุขภาพ
เอกสารทางการแพทย์
ในภาคการดูแลสุขภาพ การรู้จำเสียงพูดสามารถนำไปใช้ในกระบวนการจัดทำเอกสารทางการแพทย์ได้ทั้งในส่วนหน้าและส่วนหลัง ในการรู้จำเสียงพูดส่วนหน้า ผู้ให้บริการจะพูดใส่เครื่องรู้จำเสียงพูด คำต่างๆ จะถูกแสดงผลเมื่อเครื่องรู้จำเสร็จ และผู้พูดมีหน้าที่แก้ไขและลงนามในเอกสาร ส่วนในการรู้จำเสียงพูดส่วนหลังหรือแบบรอการประมวลผล ผู้ให้บริการจะพูดใส่ ระบบ บันทึกเสียงดิจิทัลเสียงจะถูกส่งผ่านเครื่องรู้จำเสียงพูด และร่างเอกสารจะถูกส่งไปพร้อมกับไฟล์เสียงไปยังบรรณาธิการ ซึ่งจะทำการแก้ไข/สรุปร่างและรายงานฉบับสุดท้าย
ประเด็นสำคัญประการหนึ่งคือพระราชบัญญัติการฟื้นฟูและการลงทุนของอเมริกาปี 2009 ( ARRA ) ให้สิทธิประโยชน์ทางการเงินจำนวนมากแก่แพทย์ที่ใช้ระบบบันทึกสุขภาพอิเล็กทรอนิกส์ (EHR) ที่เป็นไปตามมาตรฐาน "การใช้งานอย่างมีประสิทธิภาพ" (Meaningful Use) มาตรฐานเหล่านี้กำหนดให้ EHR ต้องเก็บรักษาข้อมูลจำนวนมาก การใช้การรู้จำเสียงพูดนั้นเหมาะสมกว่าสำหรับการสร้างข้อความบรรยาย เช่น ส่วนหนึ่งของการตีความภาพรังสี/พยาธิวิทยา บันทึกความคืบหน้า หรือสรุปการจำหน่ายผู้ป่วย ประโยชน์ด้านการใช้งานจากการใช้การรู้จำเสียงพูดในการป้อนข้อมูลแบบแยกส่วนที่มีโครงสร้าง (เช่น ค่าตัวเลขหรือรหัสจากรายการหรือคำศัพท์ควบคุม ) นั้นค่อนข้างน้อยสำหรับผู้ที่มีสายตาปกติและสามารถใช้งานแป้นพิมพ์และเมาส์ได้
ประเด็นสำคัญกว่านั้นคือ ระบบบันทึกข้อมูลสุขภาพอิเล็กทรอนิกส์ (EHR) ส่วนใหญ่ไม่ได้ถูกออกแบบมาเพื่อใช้ประโยชน์จากความสามารถในการจดจำเสียงโดยเฉพาะ การใช้งาน EHR ของแพทย์ส่วนใหญ่เกี่ยวข้องกับการนำทางผ่านอินเทอร์เฟซผู้ใช้ซึ่งพึ่งพาแป้นพิมพ์และเมาส์เป็นอย่างมาก การนำทางด้วยเสียงจึงให้ประโยชน์ด้านการใช้งานเพียงเล็กน้อย ในทางตรงกันข้าม ระบบที่ปรับแต่งมาเป็นพิเศษสำหรับการบันทึกเสียงทางรังสีวิทยาหรือพยาธิวิทยาหลายระบบใช้ "มาโคร" ด้วยเสียง โดยการใช้คำหรือวลีบางอย่าง เช่น "รายงานปกติ" จะกรอกค่าเริ่มต้นจำนวนมากโดยอัตโนมัติ และ/หรือสร้างข้อความมาตรฐาน ซึ่งจะแตกต่างกันไปตามประเภทของการตรวจ เช่น การถ่ายภาพรังสีทรวงอกเทียบกับการถ่ายภาพรังสีระบบทางเดินอาหารด้วยสารทึบแสงสำหรับระบบรังสีวิทยา
การใช้เพื่อการรักษา
การใช้ซอฟต์แวร์การรู้จำเสียงพูดร่วมกับโปรแกรมประมวลผลคำ เป็นเวลานาน แสดงให้เห็นถึงประโยชน์ในการเสริมสร้างความจำระยะสั้นใน ผู้ป่วย AVM ในสมองที่ได้รับการรักษาด้วยการผ่าตัดจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อกำหนดประโยชน์ด้านการรับรู้สำหรับบุคคลที่มี AVM ที่ได้รับการรักษาโดยใช้เทคนิคทางรังสีวิทยา[ 127 ]
ทหาร
อากาศยาน
มีการทุ่มเทความพยายามอย่างมากในการทดสอบและประเมินผลระบบรู้จำเสียงพูดในเครื่องบินรบโดยเฉพาะอย่างยิ่ง โครงการรู้จำเสียงพูดของสหรัฐฯ สำหรับเครื่องบินรบขั้นสูง Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ) โครงการในฝรั่งเศสสำหรับ เครื่องบิน มิราจและโครงการของสหราชอาณาจักรที่เกี่ยวข้องกับเครื่องบินหลากหลายประเภท ในโครงการเหล่านี้ ระบบรู้จำเสียงพูดได้ทำงานอย่างประสบความสำเร็จ โดยมีแอปพลิเคชันต่างๆ เช่น การตั้งความถี่วิทยุ การสั่งการระบบนักบินอัตโนมัติ การตั้งพิกัดจุดบังคับเลี้ยวและพารามิเตอร์การปล่อยอาวุธ และการควบคุมจอแสดงผลการบิน
Englund (2004) รายงานว่าการจดจำแย่ลงเมื่อแรง G เพิ่มขึ้น โดยทำงานร่วมกับนักบินชาวสวีเดนที่บินเครื่องบินJAS-39 Gripen การศึกษาสรุปว่าการปรับตัวช่วยปรับปรุงผลลัพธ์ในทุกกรณีอย่างมาก และการนำแบบจำลองการหายใจมาใช้แสดงให้เห็นว่าช่วยปรับปรุงคะแนนการจดจำได้อย่างมีนัยสำคัญ ตรงกันข้ามกับสิ่งที่อาจคาดไว้ ไม่พบผลกระทบจากภาษาอังกฤษที่ไม่สมบูรณ์ของผู้พูด การพูดแบบธรรมชาติทำให้เกิดปัญหาสำหรับตัวจดจำ ดังที่อาจคาดไว้ ดังนั้นจึงคาดได้ว่าคำศัพท์ที่จำกัด และเหนือสิ่งอื่นใด ไวยากรณ์ที่ถูกต้อง จะช่วยปรับปรุงความแม่นยำในการจดจำได้อย่างมาก[ 128 ]
เครื่องบินEurofighter Typhoonใช้ระบบที่ขึ้นอยู่กับลำโพง ซึ่งกำหนดให้แต่ละนักบินต้องสร้างแม่แบบ ระบบนี้ไม่ได้ใช้สำหรับงานที่สำคัญต่อความปลอดภัยหรืออาวุธ เช่น การปล่อยอาวุธหรือการลดล้อลง แต่ใช้สำหรับฟังก์ชันในห้องนักบินหลายอย่าง คำสั่งเสียงจะได้รับการยืนยันด้วยการตอบรับทางภาพและ/หรือเสียง ระบบนี้ถือเป็นประโยชน์อย่างมากในการลดภาระงาน ของนักบิน [ 129 ]และช่วยให้นักบินสามารถกำหนดเป้าหมายด้วยคำสั่งเสียงสองคำสั่งหรือให้กับนักบินผู้ช่วยด้วยคำสั่งเพียงห้าคำสั่ง[ 130 ]
ระบบที่ไม่ขึ้นกับผู้พูดกำลังอยู่ระหว่างการทดสอบสำหรับเครื่องบินขับไล่ F-35 Lightning II (JSF) และ เครื่องบินขับไล่นำร่อง Alenia Aermacchi M-346 Masterระบบเหล่านี้สร้างคะแนนความแม่นยำของคำพูดได้มากกว่า 98% [ 131 ] [ 132 ]
เฮลิคอปเตอร์
ปัญหาการบรรลุความแม่นยำในการจดจำสูงภายใต้ความเครียดและเสียงรบกวนนั้นมีความสำคัญอย่างยิ่งใน สภาพแวดล้อม ของเฮลิคอปเตอร์เช่นเดียวกับสภาพแวดล้อมของเครื่องบินรบ ปัญหาเสียงรบกวนนั้นรุนแรงกว่าในสภาพแวดล้อมของเฮลิคอปเตอร์ เนื่องจากระดับเสียงที่สูง และเนื่องจากนักบินเฮลิคอปเตอร์โดยทั่วไปไม่ได้สวมหน้ากากซึ่งจะช่วยลดเสียงรบกวนในไมโครโฟนมีการทดสอบและประเมินผลอย่างจริงจัง โดยเฉพาะอย่างยิ่งโดยหน่วยงานวิจัย และพัฒนาด้านการบินและอวกาศ ของกองทัพสหรัฐฯ (AVRADA) และโดยสถาบันวิจัยการบินและอวกาศแห่งราชวงศ์อังกฤษ ( RAE ) ในสหราชอาณาจักร งานวิจัยในฝรั่งเศสรวมถึงการจดจำเสียงพูดในเฮลิคอปเตอร์พูม่า แอปพลิเคชันเสียงประกอบด้วยการควบคุมวิทยุสื่อสาร ระบบนำทาง และระบบส่งมอบเป้าหมายอัตโนมัติ
ประเด็นสำคัญที่สุดสำหรับระบบเสียงคือผลกระทบต่อประสิทธิภาพการทำงานของนักบิน มีการรายงานผลลัพธ์ที่น่าพอใจจากการทดสอบ AVRADA แม้ว่าจะเป็นเพียงการสาธิตความเป็นไปได้ในสภาพแวดล้อมการทดสอบเท่านั้น ยังคงมีงานอีกมากที่ต้องทำทั้งในด้านการรู้จำเสียงพูดและเทคโนโลยีเสียงพูด โดยรวม เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นอย่างสม่ำเสมอในการใช้งานจริง
การควบคุมการจราจรทางอากาศ
การฝึกอบรมเจ้าหน้าที่ควบคุมการจราจรทางอากาศ (ATC) เป็นตัวอย่างที่ดีเยี่ยมของการนำระบบรู้จำเสียงพูดมาใช้ ปัจจุบันระบบฝึกอบรม ATC หลายระบบจำเป็นต้องมีผู้ฝึกสอนทำหน้าที่เป็น "นักบินจำลอง" โดยสนทนาด้วยเสียงกับผู้เข้ารับการฝึกอบรม ซึ่งเป็นการจำลองบทสนทนาที่เจ้าหน้าที่ควบคุมการจราจรทางอากาศจะมีกับนักบินจริง เทคนิคการรู้จำและสังเคราะห์ เสียงพูด มีศักยภาพที่จะช่วยลดความจำเป็นในการมีบุคคลทำหน้าที่เป็นนักบินจำลอง ซึ่งจะช่วยลดจำนวนบุคลากรด้านการฝึกอบรมและการสนับสนุนลงได้
ในทางทฤษฎี งานควบคุมการจราจรทางอากาศนั้นมีลักษณะเด่นคือการพูดที่มีโครงสร้างสูงเป็นผลลัพธ์หลัก ซึ่งช่วยลดความยากของงานการรู้จำเสียงพูด แต่ในทางปฏิบัติแล้วนั้นแทบจะไม่เป็นเช่นนั้น เอกสาร FAA 7110.65 ระบุรายละเอียดวลีที่ผู้ควบคุมการจราจรทางอากาศควรใช้ แม้ว่าเอกสารนี้จะให้ตัวอย่างวลีเพียงไม่ถึง 150 ตัวอย่าง แต่จำนวนวลีที่ระบบรู้จำเสียงพูดของผู้จำหน่ายโปรแกรมจำลองรายหนึ่งรองรับนั้นมีมากกว่า 500,000 วลี
กองทัพอากาศสหรัฐฯ กองทัพนาวิกโยธินสหรัฐฯ กองทัพบกสหรัฐฯ กองทัพเรือสหรัฐฯ และ FAA รวมถึงองค์กรฝึกอบรม ATC ระหว่างประเทศ เช่น กองทัพอากาศออสเตรเลีย และหน่วยงานการบินพลเรือนในอิตาลี บราซิล และแคนาดา ใช้เครื่องจำลอง ATC ที่มีการจดจำเสียงพูด[ 133 ]
คนพิการ
โปรแกรมการรู้จำเสียงพูดสามารถให้ประโยชน์มากมายแก่ผู้พิการ สำหรับบุคคลที่หูหนวกหรือมีปัญหาทางการได้ยินซอฟต์แวร์การรู้จำเสียงพูดสามารถใช้สร้างคำบรรยายของการสนทนาได้[ 134 ]นอกจากนี้ บุคคลที่ตาบอด (ดูเรื่องตาบอดและการศึกษา ) หรือมีสายตาไม่ดีก็สามารถได้รับประโยชน์จากการฟังเนื้อหาข้อความ รวมถึงได้รับฟังก์ชันการทำงานเพิ่มเติมจากคอมพิวเตอร์โดยการออกคำสั่งด้วยเสียงของตนเอง[ 135 ]
การใช้ซอฟต์แวร์จดจำเสียง ร่วมกับเครื่องบันทึกเสียงดิจิทัลและคอมพิวเตอร์ส่วนบุคคลที่ใช้ซอฟต์แวร์ประมวลผลคำ ได้พิสูจน์แล้วว่ามีประโยชน์ในการฟื้นฟูความสามารถในการจดจำระยะสั้นที่เสียหายในผู้ที่ประสบภาวะเส้นเลือดในสมองแตกหรือได้รับการผ่าตัด สมอง
การรู้จำเสียงพูดได้รับการพิสูจน์แล้วว่ามีประโยชน์อย่างมากสำหรับผู้ที่มีปัญหาในการใช้มือเนื่องจากสาเหตุต่างๆ ตั้งแต่การบาดเจ็บจากการใช้งานซ้ำๆ เล็กน้อยไปจนถึงความพิการที่ทำให้ไม่สามารถใช้อุปกรณ์ป้อนข้อมูลคอมพิวเตอร์แบบดั้งเดิมได้ บุคคลที่มีความพิการทางร่างกายสามารถใช้คำสั่งเสียงและการถอดเสียงเพื่อใช้งานอุปกรณ์อิเล็กทรอนิกส์แบบไม่ต้องใช้มือ[ 135 ]ในความเป็นจริง ผู้ที่พัฒนา อาการบาดเจ็บจากการใช้งานซ้ำๆ (RSI)จากการใช้แป้นพิมพ์กลายเป็นตลาดเป้าหมายเร่งด่วนสำหรับการรู้จำเสียงพูด[ 136 ] [ 137 ]การรู้จำเสียงพูดถูกนำมาใช้ในระบบโทรศัพท์ สำหรับผู้พิการทางการได้ยิน เช่น การแปลงข้อความเสียงเป็นข้อความการบริการถ่ายทอดและโทรศัพท์ที่มี คำบรรยาย บุคคลที่มีความบกพร่องทางการเรียนรู้ที่ประสบปัญหาในการสื่อสารจากความคิดสู่กระดาษอาจได้รับประโยชน์จากซอฟต์แวร์ แต่ความผิดพลาดของผลิตภัณฑ์ยังคงเป็นข้อพิจารณาที่สำคัญสำหรับหลายๆ คน[ 138 ]นอกจากนี้ เทคโนโลยีการแปลงเสียงพูดเป็นข้อความจะเป็นเครื่องมือช่วยเหลือที่มีประสิทธิภาพสำหรับผู้ที่มีความบกพร่องทางสติปัญญาได้ก็ต่อเมื่อมีการฝึกอบรมและทรัพยากรที่เหมาะสม (เช่น ในห้องเรียน) [ 139 ]
เทคโนโลยีประเภทนี้สามารถช่วยผู้ที่มีภาวะดิสเล็กเซียและความบกพร่องทางการเรียนรู้ ประเภทอื่นได้ การแปลงเสียงเป็นข้อความพบว่าช่วยปรับปรุงคุณภาพการเขียน[ 140 ]ของนักเรียนที่มีความบกพร่องทางการเรียนรู้ เมื่อเปรียบเทียบกับตัวอย่างลายมือ นักเรียนที่มีความบกพร่องทางการเรียนรู้ที่ใช้การแปลงเสียงเป็นข้อความพบว่าเขียนได้เร็วขึ้น[ 141 ] [ 142 ]และมีประโยคที่ยาวและซับซ้อนมากขึ้น[ 142 ]โดยมีข้อผิดพลาดน้อยลง[ 143 ] พบว่าความภาคภูมิใจในตนเอง[ 140 ] ของนักเรียนอายุน้อยที่มีความบกพร่องทางการเรียนรู้เพิ่มขึ้นเมื่อใช้การแปลงเสียงเป็นข้อความเนื่องจากระดับ ความวิตกกังวล[ 144 ]ที่เกี่ยวข้องกับการเขียนลดลง นักเรียนทำผิดพลาดน้อยลงเมื่อใช้ซอฟต์แวร์เมื่อเทียบกับการเขียนด้วยลายมือ ซึ่งทำให้พวกเขามั่นใจในการเขียนมากขึ้น ข้อผิดพลาดที่เกิดจากซอฟต์แวร์ขัดขวางประสิทธิภาพ เนื่องจากคำที่ฟังผิดต้องใช้เวลาในการแก้ไขมากขึ้น[ 145 ]การที่ต้องย้อนกลับไปแก้ไขคำที่ฟังผิดช่วยให้นักเรียนเห็นและแก้ไขข้อผิดพลาดของตนเองได้[ 141 ]สิ่งนี้ได้รับการพิสูจน์แล้วว่าช่วยเพิ่มทักษะการรับรู้ข้อผิดพลาดให้กับผู้ใช้[ 144 ]
โดเมนอื่นๆ
ปัจจุบัน ASR เป็นเรื่องปกติในวงการโทรศัพท์แล้ว ในระบบโทรศัพท์ ASR ถูกนำมาใช้เป็นหลักในศูนย์บริการลูกค้า โดยบูรณาการเข้ากับระบบ IVR
เทคโนโลยีนี้กำลังแพร่หลายมากขึ้นในเกมคอมพิวเตอร์และการจำลองสถานการณ์
แม้ว่าระบบรู้จำเสียงพูดอัตโนมัติ (ASR) จะมีการบูรณาการเข้ากับการประมวลผลคำในคอมพิวเตอร์ส่วนบุคคลทั่วไปในระดับสูง แต่ในด้านการผลิตเอกสาร ระบบ ASR กลับมีการใช้งานเพิ่มขึ้นไม่มากเท่าที่คาดไว้
การพัฒนาความเร็วของหน่วยประมวลผลในอุปกรณ์พกพาทำให้การจดจำเสียงพูดสามารถใช้งานได้จริงในสมาร์ทโฟนโดยส่วนใหญ่แล้วเสียงพูดจะถูกนำมาใช้เป็นส่วนหนึ่งของส่วนติดต่อผู้ใช้ เพื่อสร้างคำสั่งเสียงที่กำหนดไว้ล่วงหน้าหรือคำสั่งเสียงที่กำหนดเอง
- การบินและอวกาศเช่นยานลงจอดขั้วโลกดาวอังคาร ของ NASA ใช้เทคโนโลยีการจดจำเสียงพูดจากSensory, Inc.ในไมโครโฟนบนดาวอังคารของยานลงจอด[ 146 ]
- การสร้างคำบรรยายอัตโนมัติด้วยการจดจำเสียงพูด
- การรับรู้อารมณ์อัตโนมัติ[ 147 ]
- การจัดทำรายการ ช็อตอัตโนมัติในงานผลิตภาพและเสียง
- การแปลอัตโนมัติ
- การค้นหาข้อมูลทางอิเล็กทรอนิกส์
- การใช้งานคอมพิวเตอร์แบบแฮนด์ฟรี
- ระบบบ้านอัจฉริยะ
- ระบบตอบรับด้วยเสียงแบบโต้ตอบ
- ระบบโทรศัพท์มือถือรวมถึงอีเมลบนมือถือ
- ปฏิสัมพันธ์แบบหลายรูปแบบ[ 70 ]
- การสร้างคำบรรยายแบบเรียลไทม์[ 148 ]
- หุ่นยนต์
- ความปลอดภัย รวมถึงการใช้งานร่วมกับเครื่องสแกนไบโอเมตริกอื่นๆ สำหรับการตรวจสอบสิทธิ์แบบหลายปัจจัย[ 149 ]
- แปลงเสียงเป็นข้อความ
- ระบบ เทเลเมติกส์เช่น ระบบนำทางรถยนต์
- การถอดเสียง
- วิดีโอเกมอย่างเช่นTom Clancy's EndWar , Bow-wow BattleและLifeline
- ผู้ช่วยเสมือนจริงเช่นSiri
ผลงาน
ประสิทธิภาพของระบบการรู้จำเสียงพูดมักจะได้รับการประเมินในแง่ของความแม่นยำและความเร็ว[ 150 ] [ 151 ]ความแม่นยำมักจะวัดด้วยอัตราข้อผิดพลาดของคำ (WER) ในขณะที่ความเร็วจะวัดจากเวลาที่ผ่านไป การวัดความแม่นยำอื่นๆ ได้แก่อัตราข้อผิดพลาดของคำเดี่ยว (SWER) และอัตราความสำเร็จของคำสั่ง (CSR)
การรู้จำเสียงพูดมีความซับซ้อนเนื่องจากคุณสมบัติหลายประการของเสียงพูด การออกเสียงมีความแตกต่างกันในแง่ของสำเนียง การออกเสียง การออกเสียงที่ชัดเจน ความหยาบกระด้าง ภาษาถิ่น เสียงขึ้นจมูก ระดับเสียง ความดัง และความเร็ว เสียงพูดถูกบิดเบือนโดยเสียงรบกวนพื้นหลัง เสียงสะท้อน และลักษณะการบันทึก ความแม่นยำของการรู้จำเสียงพูดอาจแตกต่างกันไปตามสิ่งต่อไปนี้: [ 152 ] [ 153 ]
- ขนาดของคำศัพท์และความสับสนที่เกิดขึ้นได้
- การพึ่งพาผู้พูดเทียบกับการไม่พึ่งพาผู้พูด
- คำพูดที่แยกเดี่ยว ไม่ต่อเนื่อง หรือต่อเนื่อง
- ข้อจำกัดของงานและภาษา
- การอ่านกับการพูดโดยธรรมชาติ
- สภาวะที่ไม่เอื้ออำนวย
ความแม่นยำ
ความแม่นยำของการจดจำเสียงพูดอาจแตกต่างกันไปขึ้นอยู่กับปัจจัยต่อไปนี้:
- อัตราข้อผิดพลาดจะเพิ่มขึ้นเมื่อขนาดของคำศัพท์เพิ่มขึ้น:
- ตัวอย่างเช่น ตัวเลข 10 หลัก ตั้งแต่ "ศูนย์" ถึง "เก้า" สามารถจดจำได้อย่างสมบูรณ์แบบ แต่คำศัพท์ที่มีขนาด 200, 5000 หรือ 100,000 คำ อาจมีอัตราความผิดพลาด 3%, 7% หรือ 45% ตามลำดับ
- คำศัพท์จะยากต่อการจดจำหากมีตัวอักษรที่ทำให้สับสน:
- เช่น ตัวอักษรภาษาอังกฤษ 26 ตัวนั้นยากที่จะแยกแยะได้ เพราะเป็นคำที่สับสน (โดยเฉพาะอย่างยิ่งชุด E: "B, C, D, E, G, P, T, V, Z (เมื่อ "Z" ออกเสียงว่า "zee" แทนที่จะเป็น "zed" ขึ้นอยู่กับภูมิภาค) อัตราความผิดพลาด 8% ถือว่าดีสำหรับคำศัพท์นี้[ 154 ]
- การพึ่งพาผู้พูดกับการไม่พึ่งพาผู้พูด:
- ระบบที่ขึ้นอยู่กับลำโพงนั้นออกแบบมาเพื่อใช้งานกับลำโพงเพียงตัวเดียว
- ระบบที่ไม่ขึ้นกับผู้พูดนั้นมีจุดประสงค์เพื่อให้ผู้พูดทุกคนสามารถใช้งานได้ (ยากกว่า) [ 155 ]
- คำพูดที่แยกเดี่ยว ไม่ต่อเนื่อง หรือต่อเนื่อง
- ในการพูดแบบแยกคำ จะใช้คำเดี่ยวๆ ซึ่งง่ายต่อการจดจำ
- ในการพูดแบบไม่ต่อเนื่อง จะใช้ประโยคเต็มๆ ที่คั่นด้วยความเงียบ ความเงียบนั้นจดจำได้ง่ายกว่า คล้ายกับการพูดแบบแยกเดี่ยว
- ในการพูดต่อเนื่อง จะใช้ประโยคที่พูดตามธรรมชาติ ซึ่งทำให้ยากต่อการจดจำ
- ข้อจำกัดของงานและภาษาอาจส่งผลต่อการจดจำ
- แอปพลิเคชันที่ร้องขออาจปฏิเสธสมมติฐานที่ว่า "แอปเปิลเป็นสีแดง"
- ข้อจำกัดอาจเป็นเรื่องความหมาย เช่น การปฏิเสธประโยค "แอปเปิ้ลกำลังโกรธ"
- ด้านไวยากรณ์; ปฏิเสธประโยค "Red is apple the."
- ข้อจำกัดต่างๆ มักแสดงออกมาในรูปแบบของไวยากรณ์
- การอ่านกับการพูดโดยธรรมชาติ
- เมื่อคนเราอ่านหนังสือ มักจะอยู่ในบริบทที่ได้เตรียมไว้ล่วงหน้าแล้ว
- เมื่อบุคคลพูดโดยไม่ได้เตรียมตัวมาก่อน การรู้จำจะต้องรับมือกับความไม่คล่องแคล่ว เช่น "อืม" และ "เอ่อ" การเริ่มต้นพูดผิดพลาด ประโยคไม่สมบูรณ์ การพูดติดอ่าง การไอ และการหัวเราะ รวมถึงคำศัพท์ที่จำกัด
- สภาวะที่ไม่เอื้ออำนวย
- เสียงรบกวนจากสิ่งแวดล้อม (เช่น ในรถยนต์หรือโรงงาน)
- ความผิดเพี้ยนทางเสียง (เช่น เสียงสะท้อน, สภาพอะคูสติกของห้อง)
การรู้จำเสียงพูดเป็นงานการรู้จำรูปแบบหลายระดับ
- สัญญาณเสียงมีโครงสร้างเป็นลำดับชั้นของหน่วยต่างๆ เช่นหน่วยเสียงคำ วลี และประโยค
- แต่ละระดับจะมีข้อจำกัดเพิ่มเติม เช่น การออกเสียงคำที่ทราบ หรือลำดับคำที่ถูกต้องตามกฎหมาย ซึ่งสามารถชดเชยข้อผิดพลาดหรือความไม่แน่นอนในระดับที่ต่ำกว่าได้
ลำดับชั้นของข้อจำกัดนี้ช่วยเพิ่มความแม่นยำ โดยการรวมการตัดสินใจแบบสุ่มในทุกระดับล่าง และทำการตัดสินใจขั้นสุดท้ายเฉพาะในระดับสูงสุดเท่านั้น การรู้จำเสียงพูดจึงถูกแบ่งออกเป็นหลายขั้นตอน ในเชิงการคำนวณ มันเป็นปัญหาที่ต้องรู้จำหรือจำแนกรูปแบบเสียงให้อยู่ในหมวดหมู่ที่แสดงถึงความหมายสำหรับมนุษย์ สัญญาณเสียงทุกสัญญาณสามารถแบ่งออกเป็นสัญญาณย่อยที่เล็กกว่าได้ เมื่อสัญญาณเสียงที่ซับซ้อนมากขึ้นถูกแบ่งออก จะเกิดระดับต่างๆ ขึ้น โดยที่ระดับบนสุดจะเป็นเสียงที่ซับซ้อนซึ่งประกอบขึ้นจากเสียงที่ง่ายกว่าในระดับล่าง เป็นต้น ในระดับต่ำสุด จะใช้กฎที่ง่ายและเป็นไปตามความน่าจะเป็นมากกว่า เสียงเหล่านี้จะถูกนำมารวมกันเป็นเสียงที่ซับซ้อนมากขึ้นในระดับบนสุด ชุดกฎที่กำหนดได้แน่นอนมากขึ้นชุดใหม่จะทำนายว่าเสียงที่ซับซ้อนนั้นหมายถึงอะไร ระดับบนสุดของกฎที่กำหนดได้แน่นอนควรจะหาความหมายของสำนวนที่ซับซ้อนได้ เพื่อขยายความรู้ของเราเกี่ยวกับการรู้จำเสียงพูด เราจำเป็นต้องพิจารณาโครงข่ายประสาทเทียม แนวทางของโครงข่ายประสาทเทียมใช้ขั้นตอนต่อไปนี้:
- แปลงเสียงพูดให้เป็นดิจิทัล – สำหรับเสียงพูดทางโทรศัพท์ จะมีการบันทึกตัวอย่าง 8,000 ตัวอย่างต่อวินาที[ 156 ]
- คำนวณคุณลักษณะของโดเมนสเปกตรัมของเสียงพูด (ด้วยการแปลงฟูริเยร์) โดยคำนวณทุกๆ 10 มิลลิวินาที และแต่ละส่วน 10 มิลลิวินาทีเรียกว่าเฟรม
เสียงเกิดจากการสั่นสะเทือนของอากาศ (หรือตัวกลางอื่นๆ) เสียงสร้างคลื่นที่มีสองมิติ ได้แก่แอมพลิจูด (ความแรง) และความถี่ (การสั่นสะเทือนต่อวินาที) [ 157 ]ความแม่นยำสามารถคำนวณได้ด้วยความช่วยเหลือของ WER ซึ่งคำนวณโดยการจัดเรียงคำที่รู้จักและคำอ้างอิงโดยใช้การจัดเรียงสตริงแบบไดนามิก ปัญหาอาจเกิดขึ้นขณะคำนวณ WER เนื่องจากความแตกต่างระหว่างความยาวลำดับของคำที่รู้จักและคำอ้างอิง
สูตรในการคำนวณอัตราข้อผิดพลาดของคำ (WER) คือ:
โดยที่sคือจำนวนการแทนที่dคือจำนวนการลบiคือจำนวนการแทรก และnคือจำนวนการอ้างอิงคำ[ 158 ]
ในการคำนวณ จะใช้ค่าอัตราการรู้จำคำ (WRR) โดยมีสูตรดังนี้:
โดยที่hคือจำนวนคำที่จดจำได้อย่างถูกต้อง:
ความปลอดภัย
การรู้จำเสียงพูดอาจกลายเป็นวิธีการโจมตี การโจรกรรม หรือการใช้งานโดยไม่ได้ตั้งใจ ตัวอย่างเช่น คำสั่งเปิดใช้งานเช่น "Alexa" ที่พูดในการออกอากาศเสียงหรือวิดีโออาจทำให้อุปกรณ์ในบ้านและสำนักงานเริ่มฟังการป้อนข้อมูลอย่างไม่เหมาะสม หรืออาจดำเนินการที่ไม่พึงประสงค์[ 159 ]อุปกรณ์ที่ควบคุมด้วยเสียงอาจเข้าถึงได้โดยผู้ใช้ที่ไม่ได้รับอนุญาต ผู้โจมตีอาจสามารถเข้าถึงข้อมูลส่วนบุคคล เช่น ปฏิทิน เนื้อหาสมุดที่อยู่ ข้อความส่วนตัว และเอกสาร พวกเขายังอาจสามารถปลอมตัวเป็นผู้ใช้เพื่อส่งข้อความหรือทำการซื้อสินค้าออนไลน์ได้
มีการสาธิตการโจมตีสองแบบที่ใช้เสียงสังเคราะห์ แบบหนึ่งส่งคลื่นอัลตราซาวนด์และพยายามส่งคำสั่งโดยที่ผู้คนไม่ทันสังเกต[ 160 ]อีกแบบหนึ่งเพิ่มการบิดเบือนเล็กน้อยที่มนุษย์ไม่ได้ยินลงในคำพูดหรือดนตรีอื่น ๆ ซึ่งสร้างขึ้นเป็นพิเศษเพื่อทำให้ระบบการจดจำคำพูดเฉพาะนั้นสับสนจนจดจำดนตรีเป็นคำพูด หรือทำให้สิ่งที่ฟังดูเหมือนคำสั่งหนึ่งสำหรับมนุษย์ฟังดูเหมือนคำสั่งอื่นสำหรับระบบ[ 161 ]
ข้อมูลเพิ่มเติม
การประชุม
การประชุมวิชาการที่จัดขึ้นเป็นประจำ ได้แก่ SpeechTEK และ SpeechTEK Europe, ICASSP , Interspeech/Eurospeech และ IEEE ASRU ส่วนการประชุมวิชาการในสาขาการประมวลผลภาษาธรรมชาติเช่นACL , NAACL , EMNLP และ HLT จะมีบทความเกี่ยวกับการประมวลผลเสียงพูด รวมอยู่ ด้วย
วารสาร
วารสารหลักคือIEEE/ACM Transactions on Audio, Speech and Language Processing
หนังสือ
- หลักการพื้นฐานของการรู้จำเสียงพูดโดยลอว์เรนซ์ ราบินเนอร์ (1993)
- วิธีการทางสถิติสำหรับการรู้จำเสียงพูดโดยเฟรเดอริค เจลิเน็ก
- การประมวลผลภาษาพูดโดยXuedong Huangและคณะ (2001)
- คอมพิวเตอร์แปลงเสียงเป็นข้อความโดยแมนเฟรด อาร์. ชโรเดอร์ (2004)
- การประมวลผลคำพูด: แนวทางแบบไดนามิกและมุ่งเน้นการปรับให้เหมาะสมโดย Li Deng และ Doug O'Shaughnessey (2003)
- การประมวลผลคำพูดและภาษาโดยJurafskyและ Martin (2008)
- หลักการพื้นฐานของการจดจำผู้พูด – แหล่งข้อมูลเชิงลึกสำหรับรายละเอียดล่าสุดเกี่ยวกับทฤษฎีและการปฏิบัติ[ 162 ]
- เสียงในเครื่องจักร: การสร้างคอมพิวเตอร์ที่เข้าใจคำพูดโดยโรแบร์โต ปิเอราคชินี (2012) – บทนำ
- การรู้จำเสียงพูดอัตโนมัติ: แนวทางการเรียนรู้เชิงลึกโดยนักวิจัยของ Microsoft D. Yu และ L. Deng (2014) – การดำเนินการเชิงคณิตศาสตร์ของวิธีการเรียนรู้เชิงลึกคือ[ 88 ]
- การเรียนรู้เชิงลึก: วิธีการและการประยุกต์ใช้โดย L. Deng และ D. Yu (2014) – ภาพรวมที่เน้นวิธีการของการรู้จำเสียงพูดแบบ DNN [ 84 ]
โครงการต่างๆ
โครงการที่เกี่ยวข้องกับการรู้จำเสียงพูดที่ใหญ่ที่สุดที่ยังคงดำเนินอยู่จนถึงปี 2007 คือโครงการ GALE ซึ่งประกอบด้วยทั้งส่วนการรู้จำเสียงพูดและส่วนการแปล
ซอฟต์แวร์
- ชุดเครื่องมือ Sphinxเป็นจุดเริ่มต้นหนึ่งสำหรับการทดลองเกี่ยวกับการจดจำเสียงพูด
- หนังสือ HTKและชุดเครื่องมือประกอบ
- สามารถใช้ชุดเครื่องมือKaldi ได้ [ 163 ]
- เสียงทั่วไป[ 164 ] [ 165 ] (ใช้TensorFlow ) [ 166 ]
- Coqui STT [ 167 ] (ได้มาจาก Common Voice โดยใช้ใบอนุญาตโอเพนซอร์สเดียวกัน) [ 168 ] [ 169 ]
- GboardรองรับการจดจำเสียงพูดในแอปพลิเคชันAndroid ทั้งหมด [ 170 ]
- การรู้จำเสียงพูดมีอยู่ในระบบปฏิบัติการMicrosoft Windows [ 171 ]
- API การรู้จำเสียงพูดบนระบบ คลาวด์เชิงพาณิชย์มีให้บริการอย่างแพร่หลาย
ดูเพิ่มเติม
- เอฟเฟกต์ AI
- อัลแพค
- แท็กภาษาแอปพลิเคชันสำหรับการรู้จำเสียงพูด
- การรู้จำเสียงพูดตามการออกเสียง
- การขุดเสียง
- การรู้จำเสียงพูดด้วยภาพและเสียง
- โปรแกรมแปลภาษาอัตโนมัติ
- ชุดเครื่องเสียงรถยนต์
- ไบรน่า
- แคชโมเดลภาษา
- มังกรพูดตามธรรมชาติ
- เทคโนโลยีเสียงฟลูเอนซ์
- การค้นหาด้วยเสียงของ Google
- ไอบีเอ็ม ไวอาวซ์
- การค้นหาคำหลัก
- ไคเนค
- มอนเดเกริน
- การค้นหาข้อมูลมัลติมีเดีย
- ที่มาของคำพูด
- เทคโนโลยีการค้นหาตามหลักสัทศาสตร์
- การแยกเสียงผู้พูด
- การรับรองผู้พูด
- การวิเคราะห์คำพูด
- แนวทางการใช้งานอินเทอร์เฟซเสียงพูด
- ซอฟต์แวร์รู้จำเสียงพูดสำหรับลินุกซ์
- การสังเคราะห์เสียงพูด
- การตรวจสอบเสียงพูด
- คำบรรยาย (คำอธิบายภาพ)
- วอยซ์เอ็กซ์เอ็มแอล
- ว็อกซ์ฟอร์จ
- การรู้จำเสียงพูดของ Windows
- รายการ
อ่านเพิ่มเติม
- โคล, โรนัลด์; มารีอานี, โจเซฟ ; อุสโคไรต์, ฮันส์; วาริเล, จิโอวานนี่ บัตติสต้า; ซาเนน, แอนนี่; ซัมโปลี; ซู, วิคเตอร์, สหพันธ์. (1997) การ สำรวจ ความ ทันสมัย ทาง เทคโนโลยี ภาษามนุษย์ เคมบริดจ์ศึกษาด้านการประมวลผลภาษาธรรมชาติ ฉบับที่ สิบสอง–สิบสาม สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ไอเอสบีเอ็น 978-0-521-59277-2.
- Junqua, J.-C.; Haton, J.-P. (1995). ความทนทานในการรู้จำเสียงพูดอัตโนมัติ: หลักการพื้นฐานและการประยุกต์ใช้ . สำนักพิมพ์ Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
- Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "เทคโนโลยีอินเทอร์เฟซการสนทนา". ในSears, Andrew ; Jacko, Julie A. (บรรณาธิการ). คู่มือปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์: พื้นฐาน เทคโนโลยีที่กำลังพัฒนา และแอปพลิเคชันที่เกิดขึ้นใหม่ (ปัจจัยมนุษย์และสรีรศาสตร์) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
- Pieraccini, Roberto (2012). เสียงในเครื่องจักร การสร้างคอมพิวเตอร์ที่เข้าใจคำพูดสำนักพิมพ์ MIT ISBN 978-0-262-01685-8.
- Pirani, Giancarlo, บรรณาธิการ (2013). อัลกอริทึมและสถาปัตยกรรมขั้นสูงสำหรับการทำความเข้าใจคำพูด . Springer Science & Business Media. ISBN 978-3-642-84341-9.
- Signer, Beat; Hoste, Lode (ธันวาคม 2013). "SpeeG2: อินเทอร์เฟซที่ใช้เสียงและท่าทางเพื่อการป้อนข้อความที่มีประสิทธิภาพโดยไม่ต้องใช้ตัวควบคุม" . รายงานการประชุม ICMI 2013 . การประชุมนานาชาติว่าด้วยปฏิสัมพันธ์แบบหลายรูปแบบครั้งที่ 15. ซิดนีย์ ประเทศออสเตรเลีย.
- Woelfel, Matthias; McDonough, John (26 พฤษภาคม 2552). การรู้จำเสียงพูดระยะไกล . Wiley. ISBN 978-0-470-51704-8.