อ่าน 2 นาที
อัลกอริทึมทางสัทศาสตร์
อั ลกอริทึมทางสัทศาสตร์ คือ อัลกอริทึม สำหรับ การ จัดทำดัชนี คำตาม การออกเสียง หากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก...
อัลกอริทึมทางสัทศาสตร์
อัลกอริทึมทางสัทศาสตร์คืออัลกอริทึมสำหรับการจัดทำดัชนีคำตามการออกเสียงหากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก เนื่องจากอัลกอริทึมทางสัทศาสตร์ส่วนใหญ่ได้รับการพัฒนาสำหรับภาษาอังกฤษจึงมีประโยชน์น้อยกว่าสำหรับการจัดทำดัชนีคำในภาษาอื่น[ 1 ]เนื่องจากการสะกดคำภาษาอังกฤษมีความแตกต่างกันอย่างมากขึ้นอยู่กับหลายปัจจัย เช่น ที่มาและการใช้งานของคำในช่วงเวลาต่างๆ และการยืมคำจากภาษาอื่นๆ อัลกอริทึมทางสัทศาสตร์จึงจำเป็นต้องคำนึงถึงกฎและข้อยกเว้นมากมาย[ 2 ]อัลกอริทึมการจับคู่ทางสัทศาสตร์ทั่วไปจะคำนึงถึงคุณลักษณะการออกเสียงด้วย[ 3 ]
การค้นหาตามหลักสัทศาสตร์มีการใช้งานหลายอย่าง และหนึ่งในกรณีการใช้งานแรกๆ คือการค้นหาเครื่องหมายการค้าเพื่อให้แน่ใจว่าเครื่องหมายการค้าที่จดทะเบียนใหม่จะไม่เสี่ยงต่อการละเมิดเครื่องหมายการค้าที่มีอยู่เนื่องจากการออกเสียง[ 4 ] [ 5 ]
อัลกอริทึม
อัลกอริทึมทางสัทศาสตร์ที่เป็นที่รู้จักกันดี ได้แก่:
- Soundexคือระบบที่พัฒนาขึ้นเพื่อเข้ารหัสชื่อสกุลสำหรับใช้ในการสำรวจสำมะโนประชากร รหัส Soundex เป็นสตริงสี่ตัวอักษร ประกอบด้วยตัวอักษรหนึ่งตัวตามด้วยตัวเลขสามตัว
- Daitch–Mokotoff Soundexคือระบบ Soundex ที่ได้รับการปรับปรุงให้เหมาะสมกับการจับคู่ชื่อสกุลที่มีต้นกำเนิดจากกลุ่มภาษาสลาฟและเยอรมันได้ดียิ่งขึ้น รหัส Daitch–Mokotoff Soundex ประกอบด้วยตัวเลขหกหลัก
- ระบบการออกเสียงโคโลญจ์ : ระบบนี้คล้ายกับ Soundex แต่เหมาะสมกว่าสำหรับคำศัพท์ภาษาเยอรมัน
- MetaphoneและDouble Metaphoneเหมาะสำหรับใช้กับคำศัพท์ภาษาอังกฤษส่วนใหญ่ ไม่ใช่แค่ชื่อเท่านั้น อัลกอริทึม Metaphone เป็นพื้นฐานของโปรแกรมตรวจสอบการสะกดคำยอด นิยมหลาย โปรแกรม
- ระบบการระบุและข่าวกรองของรัฐนิวยอร์ก (NYSIIS) จะจับคู่หน่วยเสียง ที่คล้ายกัน กับตัวอักษรเดียวกัน ผลลัพธ์ที่ได้คือสตริงที่ผู้อ่านสามารถออกเสียงได้โดยไม่ต้องถอดรหัส
- วิธีการจัดอันดับแบบจับคู่ (Match Rating Approach)ที่พัฒนาโดยสายการบินเวสเทิร์นแอร์ไลน์ในปี 1977 - อัลกอริทึมนี้มีเทคนิคการเข้ารหัสและการเปรียบเทียบช่วง
- Caverphoneถูกสร้างขึ้นเพื่อช่วยในการจับคู่ข้อมูลระหว่างรายชื่อผู้มีสิทธิเลือกตั้งในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 โดยปรับให้เหมาะสมกับสำเนียงการพูดที่พบในบางพื้นที่ของประเทศนิวซีแลนด์
การใช้งานทั่วไป
- โปรแกรม ตรวจสอบการสะกดคำมักจะมีอัลกอริทึมทางด้านเสียง ตัวอย่างเช่น อัลกอริ ทึม Metaphoneสามารถนำคำที่สะกดผิดมาสร้างเป็นรหัส จากนั้นจะนำรหัสนี้ไปค้นหาในฐานข้อมูลเพื่อหาคำที่มี Metaphone เดียวกันหรือคล้ายกัน คำที่มี Metaphone เดียวกันหรือคล้ายกันจะกลายเป็นคำสะกดทางเลือกที่เป็นไปได้
- ฟังก์ชัน การค้นหามักจะใช้อัลกอริธึมการออกเสียงเพื่อค้นหาผลลัพธ์ที่ไม่ตรงกับคำที่ใช้ในการค้นหาอย่างแม่นยำ การค้นหาชื่ออาจเป็นเรื่องยาก เนื่องจากชื่อมักมีการสะกดหลายแบบ ตัวอย่างเช่น ชื่อClaireมีสองแบบคือ Clare/Clair ซึ่งออกเสียงเหมือนกันทั้งคู่ การค้นหาด้วยการสะกดแบบใดแบบหนึ่งจะไม่แสดงผลลัพธ์สำหรับการสะกดอีกสองแบบ การใช้Soundexจะให้รหัส Soundex เดียวกันคือ C460 โดยการค้นหาชื่อตามรหัส Soundex นี้ จะแสดงผลลัพธ์ทั้งสามแบบ
- กระบวนการ กำจัดข้อมูลซ้ำซ้อนใช้อัลกอริธึมทางเสียงเพื่อจัดกลุ่มบันทึกที่มีชื่อออกเสียงคล้ายกันเข้าด้วยกันได้อย่างง่ายดาย เพื่อนำไปประเมินเพิ่มเติม
- โมดูลแปลง เสียงเป็นข้อความใช้การเข้ารหัสทางสัทศาสตร์เพื่อค้นหาชุดคำในพจนานุกรมที่ออกเสียงคล้ายกับหน่วยเสียงที่ได้จากสัญญาณเสียงที่ผ่านการประมวลผล
ดูเพิ่มเติม
ลิงก์ภายนอก
- อัลกอริทึมสำหรับแปลงคำเป็นหน่วยเสียงและแปลงกลับเป็นคำ
- StringMetricเป็น โปรเจกต์ ไลบรารี Scalaสำหรับอัลกอริทึมด้านสัทศาสตร์
- clj-fuzzyเป็น โปรเจกต์ไลบรารี Clojureสำหรับอัลกอริทึมทางด้านสัทศาสตร์
- ไลบรารีSoundexBR ซึ่งเป็นไลบรารีของอัลกอริทึมด้านสัทศาสตร์ที่เขียนด้วย ภาษาR
- Talismanคือ ไลบรารี JavaScriptที่รวบรวมอัลกอริธึมการออกเสียงต่างๆ ซึ่งสามารถทดลองใช้ได้ทางออนไลน์
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึมทางสัทศาสตร์
อั ลกอริทึมทางสัทศาสตร์ คือ อัลกอริทึม สำหรับ การ จัดทำดัชนี คำตาม การออกเสียง หากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก...
อัลกอริทึม
อัลกอริทึมทางสัทศาสตร์ที่เป็นที่รู้จักกันดี ได้แก่:
การใช้งานทั่วไป
โปรแกรม ตรวจสอบการสะกดคำ มักจะมีอัลกอริทึมทางด้านเสียง ตัวอย่างเช่น อัลกอริ ทึม Metaphone สามารถนำคำที่สะกดผิดมาสร้างเป็นรหัส จากนั้นจะนำรหัสนี้ไปค้นหาในฐานข้อมูลเพื่อหาคำที่มี Metaphone เดียวกันหรือคล้ายกัน คำที่มี Metaphone...
ดูเพิ่มเติม
การจับคู่สตริงโดยประมาณ ระยะทางแฮมมิง ระยะทางเลเวนสไตน์ ระยะทาง Damerau–Levenshtein