อ่าน 2 นาที
พจนานุกรมการออกเสียง CMU
พจนานุกรม การออกเสียง CMU (หรือที่รู้จักกันในชื่อ CMUdict ) เป็น พจนานุกรม การออกเสียง แบบโอเพนซอร์ส ที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของ มหาวิทยาลัยคาร์เนกีเมลลอน (CMU)...
พจนานุกรมการออกเสียง CMU
| พจนานุกรมการออกเสียง CMU | |
|---|---|
| นักพัฒนา | มหาวิทยาลัยคาร์เนกีเมลลอน |
| เวอร์ชันเสถียร | 0.7b / 19 พฤศจิกายน 2014 |
| มีจำหน่ายใน | ภาษาอังกฤษ |
| ใบอนุญาต | บีเอสดี |
| เว็บไซต์ | www.speech.cs.cmu.edu/cgi-bin/cmudict |
พจนานุกรมการออกเสียง CMU (หรือที่รู้จักกันในชื่อCMUdict ) เป็นพจนานุกรมการออกเสียงแบบโอเพนซอร์สที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของมหาวิทยาลัยคาร์เนกีเมลลอน (CMU) เพื่อใช้ในการวิจัย ด้านการรู้จำเสียงพูด
CMUdict ให้การแมปการสะกด/การออกเสียงสำหรับคำภาษาอังกฤษในการออกเสียงแบบอเมริกาเหนือ โดยทั่วไปจะใช้เพื่อสร้างการแสดงผลสำหรับการรู้จำเสียงพูด (ASR) เช่น ระบบ CMU Sphinxและการสังเคราะห์เสียงพูด (TTS) เช่น ระบบ Festival CMUdict สามารถใช้เป็นคลังข้อมูลฝึกฝนสำหรับการสร้างแบบจำลองกราฟีมเป็นเสียง (g2p) ทางสถิติ[ 1 ]ที่จะสร้างการออกเสียงสำหรับคำที่ยังไม่รวมอยู่ในพจนานุกรม
เวอร์ชันล่าสุดคือ 0.7b ซึ่งมีรายการมากกว่า 134,000 รายการ มีเวอร์ชันค้นหาแบบโต้ตอบให้ใช้งานได้[ 2 ]
รูปแบบฐานข้อมูล
ฐานข้อมูลถูกแจกจ่ายในรูปแบบไฟล์ข้อความธรรมดา โดยมีหนึ่งรายการต่อบรรทัดในรูปแบบ " WORD <pronunciation>" โดยมีช่องว่างสองช่องคั่นระหว่างส่วนต่างๆ หากมีการออกเสียงหลายแบบสำหรับคำใดคำหนึ่ง จะมีการระบุรูปแบบต่างๆ โดยใช้หมายเลขกำกับ (เช่นWORD(1)) การออกเสียงจะถูกเข้ารหัสโดยใช้ ระบบ ARPABET ในรูปแบบที่ดัดแปลง โดยเพิ่มเครื่องหมายเน้นเสียงบนสระระดับ 0, 1 และ 2 ;;;โทเค็นเริ่มต้นบรรทัดแสดงถึงความคิดเห็น นอกจากนี้ยังมีรูปแบบที่ได้มาซึ่งเหมาะสมโดยตรงสำหรับเครื่องมือรู้จำเสียงพูดรวมอยู่ในชุดการแจกจ่ายด้วย รูปแบบนี้จะยุบความแตกต่างของการเน้นเสียง (ซึ่งโดยทั่วไปไม่ได้ใช้ใน ASR)
ต่อไปนี้เป็นตารางหน่วยเสียงที่ใช้โดยพจนานุกรมการออกเสียงของ CMU [ 2 ]
| อาร์ปาเบ็ต | เรสเปิล | ไอพีเอ | ตัวอย่าง |
|---|---|---|---|
AA | อ่า | ɑ | แปลก |
AE | เอ | æ | ที่ |
AH0 | ə | ə | เกี่ยวกับ |
AH | เอ่อ | ʌ | กระท่อม |
AO | โอ้ | ɔ | หายใจ , เรื่องราว |
AW | โอ๊ย | อะ | วัว |
AY | ดวงตา | เอ | ซ่อน |
EH | เอ่อ | ɛ | อีดี |
| อาร์ปาเบ็ต | เรสเปิล | ไอพีเอ | ตัวอย่าง |
|---|---|---|---|
ER | ur , ər | ɝ , ɚ | เจ็บ |
EY | อาย | eɪ | กิน |
IH | ฉัน , ฉัน | ɪ | มัน |
IY | อีอี | ฉัน | กิน |
OW | โอ้ | โอ | ข้าวโอ๊ต |
OY | oy | ɔɪ | ของเล่น |
UH | อู | ʊ | ฮูด |
UW | oo | คุณ | สอง |
| เอบี | คำอธิบาย |
|---|---|
| 0 | ไม่ต้องเครียด |
| 1 | ความเครียดหลัก |
| 2 | ความเครียดรอง |
| อาร์ปาเบ็ต | เรสเปิล | ไอพีเอ | ตัวอย่าง |
|---|---|---|---|
B | ข | ข | เป็น |
CH | ชทช | ทีเอ | ชีส |
D | ง | ง | ดีอี |
DH | dh | ð | ทีอี |
F | เอฟ | เอฟ | ค่าธรรมเนียม |
G | จี | ɡ | สีเขียว |
HH | ชม. | ชม. | เขา |
JH | เจ | dʒ | จีอี |
| อาร์ปาเบ็ต | เรสเปิล | ไอพีเอ | ตัวอย่าง |
|---|---|---|---|
K | เค | เค | สำคัญ |
L | ล | ล | ลี |
M | ม | ม | ฉัน |
N | n | n | เข่า |
NG | ง | ŋ | ปิง |
P | พี | พี | พีอี |
R | ร | ร | อ่าน |
S | ส , สส | ส | ทะเล |
| อาร์ปาเบ็ต | เรสเปิล | ไอพีเอ | ตัวอย่าง |
|---|---|---|---|
SH | ช | ʃ | เธอ |
T | ที | ที | ชา |
TH | ไทย | θ | เธเอตา |
V | วี | วี | วีอี |
W | ว , ว | ว | เรา |
Y | y | เจ | ผลผลิต |
Z | z | z | ซีอี |
ZH | zh | ʒ | sei z ure |
ประวัติศาสตร์
| เวอร์ชั่น | วันที่วางจำหน่าย[ 3 ] | ใบอนุญาต |
|---|---|---|
| 0.1 | 16 กันยายน 2536 | สาธารณสมบัติ |
| 0.2 | 10 มีนาคม 2537 | สาธารณสมบัติ |
| 0.3 | 28 กันยายน 2537 | สาธารณสมบัติ |
| 0.4 | 8 พฤศจิกายน 2538 | สาธารณสมบัติ |
| 0.5 | ไม่มีการเผยแพร่สู่สาธารณะ | สาธารณสมบัติ |
| 0.6 | 11 สิงหาคม 2541 | สาธารณสมบัติ |
| 0.7 | ไม่มีการเผยแพร่สู่สาธารณะ | สาธารณสมบัติ |
| 0.7a | 18 กุมภาพันธ์ 2551 | BSD 2 ข้อ |
| 0.7b | 19 พฤศจิกายน 2014 [ 4 ] | BSD 2 ข้อ |
| GitHub (ไม่มีการกำหนดเวอร์ชัน) | 26 พฤษภาคม 2564 | BSD 2 ข้อ |
แอปพลิเคชัน
- โปรแกรมแปลงสัญญาณ Unifonนี้ใช้พจนานุกรมการออกเสียงของ CMU เป็นพื้นฐาน
- ชุดเครื่องมือภาษาธรรมชาติ (Natural Language Toolkit)ประกอบด้วยส่วนต่อประสานกับพจนานุกรมการออกเสียงของ CMU (CMU Pronouncing Dictionary)
- เครื่องมือ Carnegie Mellon Logios [ 5 ]รวมพจนานุกรมการออกเสียงของ CMU ไว้ด้วย
- PronunDictเป็นพจนานุกรมการออกเสียงภาษาอังกฤษแบบอเมริกัน โดยใช้พจนานุกรมการออกเสียงของ CMU เป็นแหล่งข้อมูล การออกเสียงจะถูกถอดเสียงด้วย สัญลักษณ์ IPAพจนานุกรมนี้ยังรองรับการค้นหาตามการออกเสียงอีก ด้วย
- ซอฟต์แวร์สังเคราะห์เสียงร้องบางตัว เช่นCeVIO Creative StudioและSynthesizer Vใช้พจนานุกรมการออกเสียง CMU เวอร์ชันดัดแปลงสำหรับการสังเคราะห์เสียงร้องภาษาอังกฤษ
- Transcriberเป็นเครื่องมือสำหรับการถอดเสียงข้อความเต็มรูปแบบตามหลักสัทศาสตร์ โดยใช้พจนานุกรมการออกเสียงของ CMU
- 15.aiซึ่งเป็นเครื่องมือแปลงข้อความเป็นเสียงแบบเรียลไทม์โดยใช้ปัญญาประดิษฐ์ ใช้พจนานุกรมการออกเสียงของ CMU
ดูเพิ่มเติม
- Moby Pronunciatorเป็นโครงการที่คล้ายกัน
ลิงก์ภายนอก
- พจนานุกรมฉบับปัจจุบันอยู่ที่SourceForgeแม้ว่าจะมีเวอร์ชันที่ดูแลอยู่บนGitHubด้วย เช่นกัน
- หน้าแรก – มีฟังก์ชันค้นหาในฐานข้อมูล
- RDFถูกแปลงเป็นResource Description Frameworkโดยโครงการ โอเพนซอร์ส Texai
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ พจนานุกรมการออกเสียง CMU
พจนานุกรม การออกเสียง CMU (หรือที่รู้จักกันในชื่อ CMUdict ) เป็น พจนานุกรม การออกเสียง แบบโอเพนซอร์ส ที่สร้างขึ้นโดยกลุ่มวิจัยด้านการพูดของ มหาวิทยาลัยคาร์เนกีเมลลอน (CMU)...
รูปแบบฐานข้อมูล
ฐานข้อมูลถูกแจกจ่ายในรูปแบบไฟล์ข้อความธรรมดา โดยมีหนึ่งรายการต่อบรรทัดในรูปแบบ " WORD " โดยมีช่องว่างสองช่องคั่นระหว่างส่วนต่างๆ หากมีการออกเสียงหลายแบบสำหรับคำใดคำหนึ่ง จะมีการระบุรูปแบบต่างๆ โดยใช้หมายเลขกำกับ (เช่น WORD(1) ) การออกเสียงจะถูกเข้ารหัสโดยใช้...
ประวัติศาสตร์
เวอร์ชั่น วันที่วางจำหน่าย [ 3 ] ใบอนุญาต 0.1 16 กันยายน 2536 สาธารณสมบัติ 0.2 10 มีนาคม 2537 สาธารณสมบัติ 0.3 28 กันยายน 2537 สาธารณสมบัติ 0.4 8 พฤศจิกายน 2538 สาธารณสมบัติ 0.5 ไม่มีการเผยแพร่สู่สาธารณะ สาธารณสมบัติ 0.6 11 สิงหาคม 2541 สาธารณสมบัติ 0.
แอปพลิเคชัน
โปรแกรมแปลงสัญญาณ Unifon นี้ใช้พจนานุกรมการออกเสียงของ CMU เป็นพื้นฐาน ชุด เครื่องมือภาษาธรรมชาติ (Natural Language Toolkit) ประกอบด้วยส่วนต่อประสานกับพจนานุกรมการออกเสียงของ CMU (CMU Pronouncing Dictionary) เครื่องมือ Carnegie Mellon Logios [ 5 ]...