เซเรโปรค

เซเรโปรค
เซเรโปรค
นักพัฒนา	บริษัท เซเรโปรค จำกัด สหราชอาณาจักร
ปล่อย	2548
เวอร์ชันเสถียร	กรกฎาคม 2556
เขียนเป็น	ซี/ไพธอน
ระบบปฏิบัติการ	ข้ามแพลตฟอร์ม
มีจำหน่ายใน	อังกฤษ เยอรมัน ฝรั่งเศส สเปน อิตาลี ดัตช์ คาตาลัน โรมาเนีย ญี่ปุ่น โปรตุเกส สก็อตติชเกลิก สวีเดน โปแลนด์ ไอริช เดนมาร์ก นอร์เวย์ จีนกลาง รัสเซีย ลิทัวเนีย เวลส์
พิมพ์	แปลงข้อความเป็นเสียงพูด
ใบอนุญาต	ทางการค้า
เว็บไซต์	www.cereproc.com

CereProc ( / ˈ s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) เป็น บริษัท สังเคราะห์เสียงพูดที่ตั้งอยู่ในเอดินบะระประเทศสกอตแลนด์ ก่อตั้งขึ้นในปี 2548 บริษัทมีความเชี่ยวชาญในการสร้าง เสียง พูดจากข้อความที่ฟัง ดูเป็นธรรมชาติและสื่ออารมณ์ได้ ดี เสียงสังเคราะห์ที่มีสำเนียงท้องถิ่น และ การ โคลนนิ่ง เสียง

เทคโนโลยีการสร้างเสียง

CereProc สร้างเสียงโดยใช้เทคโนโลยีการสร้างเสียงสองแบบที่แตกต่างกัน ได้แก่ การสังเคราะห์โดยการเลือกหน่วย และการสร้างแบบจำลองพาราเมตริก

เสียงเลือกหน่วยของ CereProc สร้างขึ้นจากฐานข้อมูล ขนาดใหญ่ของเสียงพูด ที่ บันทึก ไว้ในระหว่างการสร้างฐานข้อมูล คำพูดที่บันทึกไว้แต่ละคำจะถูกแบ่งออกเป็นส่วนต่างๆ ดังต่อไปนี้: หน่วยเสียงแต่ละหน่วย พยางค์หน่วยคำ คำวลีและ ประโยค การแบ่งออกเป็นส่วนต่างๆ ทำได้โดยใช้ระบบรู้จำเสียงพูดที่ได้รับการดัดแปลงเป็นพิเศษ[ 1 ] จากนั้นจะสร้างดัชนี ของหน่วย^ใน^ฐาน^{ข้อมูล}เสียงพูดโดยอิงจากการแบ่งส่วนและพารามิเตอร์ทางเสียง เช่นความถี่พื้นฐาน ( ระดับเสียง ) ระยะเวลา ตำแหน่งในพยางค์ และหน่วยเสียงข้างเคียง ในระหว่างการทำงาน เสียงพูดเป้าหมายที่ต้องการจะถูกสร้างขึ้นโดยการกำหนดสายโซ่ที่ดีที่สุดของหน่วยที่เป็นไปได้จากฐานข้อมูล (การเลือกหน่วย) การเลือกหน่วยให้ความเป็นธรรมชาติสูงสุด เนื่องจากใช้การประมวลผลสัญญาณดิจิทัล (DSP) กับเสียงพูดที่บันทึกไว้เฉพาะที่จุดเชื่อมต่อเท่านั้น DSP มักทำให้เสียงพูดที่บันทึกไว้ฟังดูไม่เป็นธรรมชาติ

เสียงพาราเมตริกของ CereProc สร้างการสังเคราะห์เสียงพูดโดยอาศัยวิธีการสร้างแบบจำลองทางสถิติ ในระบบนี้สเปกตรัมความถี่ ( ช่องเสียง ) ความถี่พื้นฐาน (แหล่งกำเนิดเสียง) และระยะเวลา ( จังหวะการพูด) ของเสียงพูดจะถูกสร้างแบบจำลองพร้อมกันรูปคลื่น เสียงพูด จะถูกสร้างขึ้นจากพารามิเตอร์เหล่านี้โดยใช้โวโคเดอร์ที่สำคัญ เสียงเหล่านี้สามารถสร้างได้จากเสียงพูดที่บันทึกไว้น้อยกว่าเสียงแบบเลือกหน่วยอย่างมาก และมีขนาดเล็กกว่ามากเมื่อติดตั้ง ด้วยเหตุนี้จึงใช้สำหรับการโคลนเสียงส่วนตัว^{[ 2 ]}

เสียงและภาษา

CereProc มีเสียงพากย์ให้เลือกใช้ทั่วไป 81 เสียง ซึ่งพูดได้ 24 ภาษา โดยมีสำเนียงท้องถิ่นที่แตกต่างกันหลายแบบ:

ภาษาอังกฤษแบบอเมริกัน: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (เสียงเด็ก), Jordan (เสียงเด็ก), Carolyn, Sam (เสียงไม่ระบุเพศ)
ภาษาอังกฤษแบบภาคใต้: Sarah, William, Jack, Lauren, Giles, Amy, Lily (เสียงเด็ก), Ben (เสียงเด็ก)
ภาษาอังกฤษแบบเหนือ: เจส
ภาษาอังกฤษแบบสก็อต: Heather, Kirsty, Stuart, Andrew (เสียงเด็ก), Mairi (เสียงเด็ก)
ภาษาอังกฤษแบบกลาสโกว์: โดโด
ภาษาอังกฤษแบบแลงคาเชอร์: แคลร์
ภาษาอังกฤษแบบไอริช: เคทลิน
ภาษาอังกฤษแบบเวลส์: เซเรน (เสียงเด็ก), แคทริน (เสียงเด็ก), เกธิน (เสียงเด็ก), โอเวน (เสียงเด็ก), โรดรี (เสียงวัยรุ่น), โทมอส (เสียงวัยรุ่น), ฟิออน (เสียงวัยรุ่น), ไรอัน (เสียงวัยรุ่น)
เวสต์มิดแลนด์ส อิงลิช: ซู
เสียงพากย์พิเศษ: ปีศาจ, ผี, ก็อบลิน, นางฟ้า, หุ่นยนต์
ภาษาฝรั่งเศสแบบเมโทรโพลิแทน: ซูซานน์, ลอเรนต์
ภาษาฝรั่งเศสแบบแคนาดา: ฟลอเรนซ์
ภาษาคาตาลัน: ริต้า
ภาษาสเปนแบบกัสติเลียน: ซาร่า
ภาษาสเปนเม็กซิกัน: อนา
ภาษาอิตาลี: ลอร่า, ดาริโอ, ฟรานเชสโก (เสียงเด็ก), นิโคเลตตา (เสียงเด็ก)
ไอริช: เพ็ก
ภาษาดัตช์: เอดา
ภาษาเยอรมันมาตรฐาน: Gudrun, Alex
ภาษาเยอรมันออสเตรีย: เลโอโปลด์
ภาษาโปรตุเกสยุโรป: ลูเซีย
ภาษาโปรตุเกสบราซิล: กาเบรียล
ภาษาญี่ปุ่น: ยูกิ
ภาษาเกลิกสกอต: Ceitidh
สวีเดน: Ylva, Anders
ภาษาโปแลนด์: โปลา
โรมาเนีย: ดาเรีย
ภาษาอังกฤษสำเนียงฝรั่งเศส: นิโคล
รัสเซีย: อัฟโรรา
ภาษาจีนกลาง: Mailin
ภาษาเดนมาร์ก: มารี, ลาร์ส
นอร์เวย์ (Bokmål): Clara, Magnus
นอร์เวย์ (นีนอร์สค์): ฮูลดา
ภาษาลิทัวเนีย: Mantas, Egle
ภาษาเวลส์: เซเรน (เสียงเด็ก), แคทริน (เสียงเด็ก), เกธิน (เสียงเด็ก), โอเวน (เสียงเด็ก), โรดรี (เสียงวัยรุ่น), โทมอส (เสียงวัยรุ่น), ฟีออน (เสียงวัยรุ่น), ไรอัน (เสียงวัยรุ่น)

นอกจากนี้ บริษัทยังได้พัฒนาเสียงพากย์ของคนดังจำนวนหนึ่งซึ่งโดยทั่วไปแล้วไม่สามารถเข้าถึงได้โดยสาธารณะ ซึ่งรวมถึงเสียงของGeorge W. Bush , Barack ObamaและArnold Schwarzenegger ^{[ 3 ]}

การโคลนเสียง

ในปี 2009 นักวิจารณ์ภาพยนตร์Roger Ebertได้ใช้ CereProc เพื่อสร้างเสียงสังเคราะห์เลียนแบบเสียงของเขา Ebert สูญเสียความสามารถในการพูดหลังจากการผ่าตัดรักษามะเร็งต่อมไทรอยด์ CereProc ได้นำเทปและคำบรรยาย DVD ที่มีเสียงของ Ebert มาสร้างเสียงพูดแบบข้อความต่อเสียงพูดที่ฟังดูคล้ายกับเสียงของเขามากขึ้น^{[ 4 ]} Roger Ebert ใช้เสียงนี้ในการปรากฏตัวในรายการ The Oprah Winfrey Showเมื่อ วันที่ 2 มีนาคม 2010

สตีฟ เกลสันนักกีฬา NFL ได้รับการโคลนเสียงโดย CereProc หลังจากได้รับการวินิจฉัยว่าเป็นโรคMNDเกลสันปรากฏตัวใน โฆษณา Super Bowl XLVIIIของMicrosoftเพื่อยกย่องพลังของเทคโนโลยี โดยใช้เสียงสังเคราะห์ของเขาในการบรรยาย^[⁵^]

ปัจจุบันเทคโนโลยีการโคลนเสียง CereProc กำลังถูกใช้ในสหราชอาณาจักรโดยผู้ป่วย MND เพื่อสร้างเสียงสังเคราะห์ก่อนที่พวกเขาจะสูญเสียความสามารถในการพูด กระบวนการนี้ได้รับการนำเสนอในสารคดีของ BBC Radio 4 เรื่อง Giving the Critic Back His Voiceซึ่งออกอากาศในเดือนสิงหาคม 2011 ^{[ 6 ]}

ความเข้ากันได้ของระบบ

เสียงของ CereProc สามารถใช้งานได้บนระบบปฏิบัติการและอุปกรณ์หลากหลายประเภท เสียงสำหรับเดสก์ท็อปของ CereProc เข้ากันได้กับMicrosoft Windowsและ Apple Mac OS Xโดยจะติดตั้งเป็นเสียงระบบและสามารถใช้งานร่วมกับแอปพลิเคชันที่รองรับการสั่งงานด้วยเสียงอื่นๆ ได้ ระบบ ไคลเอ็นต์/เซิร์ฟเวอร์ cServer ของ CereProc ซึ่งมุ่งเน้นไปที่ตลาด IVR สำหรับองค์กรเป็นหลัก สามารถทำงานได้บน Windows และLinuxเสียงสำหรับมือถือของ CereProc สามารถใช้งานได้บนAndroidและ Apple iOSโดยมี SDK สำหรับ Android, Linux, MacOS, iOS และ Windows SDK มีการเชื่อมต่อสำหรับ C/C++, C#, Java และ Python

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ
โรเจอร์ อีเบิร์ต สาธิตการใช้เสียง CereProc ของเขา ในงาน TED2011นาทีที่ 7:28

ใน

[ 2 ]

[ 3 ]

[ 4 ]

[

[ 6 ]