กลับไปหน้าบทความ

อ่าน 2 นาที

พจนานุกรมการออกเสียง CMU

พจนานุกรม การออกเสียง CMU (หรือที่รู้จักกันในชื่อ CMUdict ) เป็น พจนานุกรม การออกเสียง แบบโอเพนซอร์ส ที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของ มหาวิทยาลัยคาร์เนกีเมลลอน (CMU)...

พจนานุกรมการออกเสียง CMU

พจนานุกรมการออกเสียง CMU
นักพัฒนามหาวิทยาลัยคาร์เนกีเมลลอน
เวอร์ชันเสถียร
0.7b / 19 พฤศจิกายน 2014 ( 19 พฤศจิกายน 2014 )
มีจำหน่ายในภาษาอังกฤษ
ใบอนุญาตบีเอสดี
เว็บไซต์www.speech.cs.cmu.edu/cgi-bin/cmudict

พจนานุกรมการออกเสียง CMU (หรือที่รู้จักกันในชื่อCMUdict ) เป็นพจนานุกรมการออกเสียงแบบโอเพนซอร์สที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของมหาวิทยาลัยคาร์เนกีเมลลอน (CMU) เพื่อใช้ในการวิจัย ด้านการรู้จำเสียงพูด

CMUdict ให้การแมปการสะกด/การออกเสียงสำหรับคำภาษาอังกฤษในการออกเสียงแบบอเมริกาเหนือ โดยทั่วไปจะใช้เพื่อสร้างการแสดงผลสำหรับการรู้จำเสียงพูด (ASR) เช่น ระบบ CMU Sphinxและการสังเคราะห์เสียงพูด (TTS) เช่น ระบบ Festival CMUdict สามารถใช้เป็นคลังข้อมูลฝึกฝนสำหรับการสร้างแบบจำลองกราฟีมเป็นเสียง (g2p) ทางสถิติ[ 1 ]ที่จะสร้างการออกเสียงสำหรับคำที่ยังไม่รวมอยู่ในพจนานุกรม

เวอร์ชันล่าสุดคือ 0.7b ซึ่งมีรายการมากกว่า 134,000 รายการ มีเวอร์ชันค้นหาแบบโต้ตอบให้ใช้งานได้[ 2 ]

รูปแบบฐานข้อมูล

ฐานข้อมูลถูกแจกจ่ายในรูปแบบไฟล์ข้อความธรรมดา โดยมีหนึ่งรายการต่อบรรทัดในรูปแบบ " WORD  <pronunciation>" โดยมีช่องว่างสองช่องคั่นระหว่างส่วนต่างๆ หากมีการออกเสียงหลายแบบสำหรับคำใดคำหนึ่ง จะมีการระบุรูปแบบต่างๆ โดยใช้หมายเลขกำกับ (เช่นWORD(1)) การออกเสียงจะถูกเข้ารหัสโดยใช้ ระบบ ARPABET ในรูปแบบที่ดัดแปลง โดยเพิ่มเครื่องหมายเน้นเสียงบนสระระดับ 0, 1 และ 2 ;;;โทเค็นเริ่มต้นบรรทัดแสดงถึงความคิดเห็น นอกจากนี้ยังมีรูปแบบที่ได้มาซึ่งเหมาะสมโดยตรงสำหรับเครื่องมือรู้จำเสียงพูดรวมอยู่ในชุดการแจกจ่ายด้วย รูปแบบนี้จะยุบความแตกต่างของการเน้นเสียง (ซึ่งโดยทั่วไปไม่ได้ใช้ใน ASR)

ต่อไปนี้เป็นตารางหน่วยเสียงที่ใช้โดยพจนานุกรมการออกเสียงของ CMU [ 2 ]

สระ
อาร์ปาเบ็ต เรสเปิลไอพีเอตัวอย่าง
AAอ่าɑแปลก
AEเอæที่
AH0əəเกี่ยวกับ
AHเอ่อʌกระท่อม
AOโอ้ɔหายใจ , เรื่องราว
AWโอ๊ยอะวัว
AYดวงตาเอซ่อน
EHเอ่อɛอีดี
สระ
อาร์ปาเบ็ต เรสเปิลไอพีเอตัวอย่าง
ERur , ərɝ , ɚเจ็บ
EYอายกิน
IHฉัน , ฉันɪมัน
IYอีอีฉันกิน
OWโอ้โอข้าวโอ๊ต
OYoyɔɪของเล่น
UHอูʊฮู
UWooคุณสอง
ความเครียด
เอบี คำอธิบาย
0 ไม่ต้องเครียด
1 ความเครียดหลัก
2 ความเครียดรอง
พยัญชนะ
อาร์ปาเบ็ต เรสเปิลไอพีเอตัวอย่าง
Bเป็น
CHทีเอชีส
Dดีอี
DHdhðทีอี
Fเอฟเอฟค่าธรรมเนียม
Gจีɡสีเขียว
HHชม.ชม.เขา
JHเจจีอี
พยัญชนะ
อาร์ปาเบ็ต เรสเปิลไอพีเอตัวอย่าง
Kเคเคสำคัญ
Lลี
Mฉัน
Nnnเข่า
NGŋปิ
Pพีพีพีอี
Rอ่าน
S , สสทะเล
พยัญชนะ
อาร์ปาเบ็ต เรสเปิลไอพีเอตัวอย่าง
SHʃเธอ
Tทีทีชา
THไทยθเธเอตา
Vวีวีวีอี
W , เรา
Yyเจผลผลิต
Zzzซีอี
ZHzhʒsei z ure

ประวัติศาสตร์

เวอร์ชั่น วันที่วางจำหน่าย[ 3 ]ใบอนุญาต
0.1 16 กันยายน 2536 สาธารณสมบัติ
0.2 10 มีนาคม 2537 สาธารณสมบัติ
0.3 28 กันยายน 2537 สาธารณสมบัติ
0.4 8 พฤศจิกายน 2538 สาธารณสมบัติ
0.5 ไม่มีการเผยแพร่สู่สาธารณะ สาธารณสมบัติ
0.6 11 สิงหาคม 2541 สาธารณสมบัติ
0.7 ไม่มีการเผยแพร่สู่สาธารณะ สาธารณสมบัติ
0.7a 18 กุมภาพันธ์ 2551 BSD 2 ข้อ
0.7b 19 พฤศจิกายน 2014 [ 4 ]BSD 2 ข้อ
GitHub (ไม่มีการกำหนดเวอร์ชัน) 26 พฤษภาคม 2564 BSD 2 ข้อ

แอปพลิเคชัน

  • โปรแกรมแปลงสัญญาณ Unifonนี้ใช้พจนานุกรมการออกเสียงของ CMU เป็นพื้นฐาน
  • ชุดเครื่องมือภาษาธรรมชาติ (Natural Language Toolkit)ประกอบด้วยส่วนต่อประสานกับพจนานุกรมการออกเสียงของ CMU (CMU Pronouncing Dictionary)
  • เครื่องมือ Carnegie Mellon Logios [ 5 ]รวมพจนานุกรมการออกเสียงของ CMU ไว้ด้วย
  • PronunDictเป็นพจนานุกรมการออกเสียงภาษาอังกฤษแบบอเมริกัน โดยใช้พจนานุกรมการออกเสียงของ CMU เป็นแหล่งข้อมูล การออกเสียงจะถูกถอดเสียงด้วย สัญลักษณ์ IPAพจนานุกรมนี้ยังรองรับการค้นหาตามการออกเสียงอีก ด้วย
  • ซอฟต์แวร์สังเคราะห์เสียงร้องบางตัว เช่นCeVIO Creative StudioและSynthesizer Vใช้พจนานุกรมการออกเสียง CMU เวอร์ชันดัดแปลงสำหรับการสังเคราะห์เสียงร้องภาษาอังกฤษ
  • Transcriberเป็นเครื่องมือสำหรับการถอดเสียงข้อความเต็มรูปแบบตามหลักสัทศาสตร์ โดยใช้พจนานุกรมการออกเสียงของ CMU
  • 15.aiซึ่งเป็นเครื่องมือแปลงข้อความเป็นเสียงแบบเรียลไทม์โดยใช้ปัญญาประดิษฐ์ ใช้พจนานุกรมการออกเสียงของ CMU

ดูเพิ่มเติม

  • พจนานุกรมฉบับปัจจุบันอยู่ที่SourceForgeแม้ว่าจะมีเวอร์ชันที่ดูแลอยู่บนGitHubด้วย เช่นกัน
  • หน้าแรก – มีฟังก์ชันค้นหาในฐานข้อมูล
  • RDFถูกแปลงเป็นResource Description Frameworkโดยโครงการ โอเพนซอร์ส Texai
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=CMU_Pronouncing_Dictionary&oldid=1335435932 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ พจนานุกรมการออกเสียง CMU

พจนานุกรม การออกเสียง CMU (หรือที่รู้จักกันในชื่อ CMUdict ) เป็น พจนานุกรม การออกเสียง แบบโอเพนซอร์ส ที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของ มหาวิทยาลัยคาร์เนกีเมลลอน (CMU)...

รูปแบบฐานข้อมูล

ฐานข้อมูลถูกแจกจ่ายในรูปแบบไฟล์ข้อความธรรมดา โดยมีหนึ่งรายการต่อบรรทัดในรูปแบบ " WORD " โดยมีช่องว่างสองช่องคั่นระหว่างส่วนต่างๆ หากมีการออกเสียงหลายแบบสำหรับคำใดคำหนึ่ง จะมีการระบุรูปแบบต่างๆ โดยใช้หมายเลขกำกับ (เช่น WORD(1) ) การออกเสียงจะถูกเข้ารหัสโดยใช้...

ประวัติศาสตร์

เวอร์ชั่น วันที่วางจำหน่าย [ 3 ] ใบอนุญาต 0.1 16 กันยายน 2536 สาธารณสมบัติ 0.2 10 มีนาคม 2537 สาธารณสมบัติ 0.3 28 กันยายน 2537 สาธารณสมบัติ 0.4 8 พฤศจิกายน 2538 สาธารณสมบัติ 0.5 ไม่มีการเผยแพร่สู่สาธารณะ สาธารณสมบัติ 0.6 11 สิงหาคม 2541 สาธารณสมบัติ 0.

แอปพลิเคชัน

โปรแกรมแปลงสัญญาณ Unifon นี้ใช้พจนานุกรมการออกเสียงของ CMU เป็นพื้นฐาน ชุด เครื่องมือภาษาธรรมชาติ (Natural Language Toolkit) ประกอบด้วยส่วนต่อประสานกับพจนานุกรมการออกเสียงของ CMU (CMU Pronouncing Dictionary) เครื่องมือ Carnegie Mellon Logios [ 5 ]...