กลับไปหน้าบทความ

อ่าน 2 นาที

อัลกอริทึมทางสัทศาสตร์

อั ลกอริทึมทางสัทศาสตร์ คือ อัลกอริทึม สำหรับ การ จัดทำดัชนี คำตาม การออกเสียง หากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก...

อัลกอริทึมทางสัทศาสตร์

อัลกอริทึมทางสัทศาสตร์คืออัลกอริทึมสำหรับการจัดทำดัชนีคำตามการออกเสียงหากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก เนื่องจากอัลกอริทึมทางสัทศาสตร์ส่วนใหญ่ได้รับการพัฒนาสำหรับภาษาอังกฤษจึงมีประโยชน์น้อยกว่าสำหรับการจัดทำดัชนีคำในภาษาอื่น[ 1 ]เนื่องจากการสะกดคำภาษาอังกฤษมีความแตกต่างกันอย่างมากขึ้นอยู่กับหลายปัจจัย เช่น ที่มาและการใช้งานของคำในช่วงเวลาต่างๆ และการยืมคำจากภาษาอื่นๆ อัลกอริทึมทางสัทศาสตร์จึงจำเป็นต้องคำนึงถึงกฎและข้อยกเว้นมากมาย[ 2 ]อัลกอริทึมการจับคู่ทางสัทศาสตร์ทั่วไปจะคำนึงถึงคุณลักษณะการออกเสียงด้วย[ 3 ]

การค้นหาตามหลักสัทศาสตร์มีการใช้งานหลายอย่าง และหนึ่งในกรณีการใช้งานแรกๆ คือการค้นหาเครื่องหมายการค้าเพื่อให้แน่ใจว่าเครื่องหมายการค้าที่จดทะเบียนใหม่จะไม่เสี่ยงต่อการละเมิดเครื่องหมายการค้าที่มีอยู่เนื่องจากการออกเสียง[ 4 ] [ 5 ]

อัลกอริทึม

อัลกอริทึมทางสัทศาสตร์ที่เป็นที่รู้จักกันดี ได้แก่:

  • Soundexคือระบบที่พัฒนาขึ้นเพื่อเข้ารหัสชื่อสกุลสำหรับใช้ในการสำรวจสำมะโนประชากร รหัส Soundex เป็นสตริงสี่ตัวอักษร ประกอบด้วยตัวอักษรหนึ่งตัวตามด้วยตัวเลขสามตัว
  • Daitch–Mokotoff Soundexคือระบบ Soundex ที่ได้รับการปรับปรุงให้เหมาะสมกับการจับคู่ชื่อสกุลที่มีต้นกำเนิดจากกลุ่มภาษาสลาฟและเยอรมันได้ดียิ่งขึ้น รหัส Daitch–Mokotoff Soundex ประกอบด้วยตัวเลขหกหลัก
  • ระบบการออกเสียงโคโลญจ์ : ระบบนี้คล้ายกับ Soundex แต่เหมาะสมกว่าสำหรับคำศัพท์ภาษาเยอรมัน
  • MetaphoneและDouble Metaphoneเหมาะสำหรับใช้กับคำศัพท์ภาษาอังกฤษส่วนใหญ่ ไม่ใช่แค่ชื่อเท่านั้น อัลกอริทึม Metaphone เป็นพื้นฐานของโปรแกรมตรวจสอบการสะกดคำยอด นิยมหลาย โปรแกรม
  • ระบบการระบุและข่าวกรองของรัฐนิวยอร์ก (NYSIIS) จะจับคู่หน่วยเสียง ที่คล้ายกัน กับตัวอักษรเดียวกัน ผลลัพธ์ที่ได้คือสตริงที่ผู้อ่านสามารถออกเสียงได้โดยไม่ต้องถอดรหัส
  • วิธีการจัดอันดับแบบจับคู่ (Match Rating Approach)ที่พัฒนาโดยสายการบินเวสเทิร์นแอร์ไลน์ในปี 1977 - อัลกอริทึมนี้มีเทคนิคการเข้ารหัสและการเปรียบเทียบช่วง
  • Caverphoneถูกสร้างขึ้นเพื่อช่วยในการจับคู่ข้อมูลระหว่างรายชื่อผู้มีสิทธิเลือกตั้งในช่วงปลายศตวรรษที่ 19 และต้นศตวรรษที่ 20 โดยปรับให้เหมาะสมกับสำเนียงการพูดที่พบในบางพื้นที่ของประเทศนิวซีแลนด์

การใช้งานทั่วไป

  • โปรแกรม ตรวจสอบการสะกดคำมักจะมีอัลกอริทึมทางด้านเสียง ตัวอย่างเช่น อัลกอริ ทึม Metaphoneสามารถนำคำที่สะกดผิดมาสร้างเป็นรหัส จากนั้นจะนำรหัสนี้ไปค้นหาในฐานข้อมูลเพื่อหาคำที่มี Metaphone เดียวกันหรือคล้ายกัน คำที่มี Metaphone เดียวกันหรือคล้ายกันจะกลายเป็นคำสะกดทางเลือกที่เป็นไปได้
  • ฟังก์ชัน การค้นหามักจะใช้อัลกอริธึมการออกเสียงเพื่อค้นหาผลลัพธ์ที่ไม่ตรงกับคำที่ใช้ในการค้นหาอย่างแม่นยำ การค้นหาชื่ออาจเป็นเรื่องยาก เนื่องจากชื่อมักมีการสะกดหลายแบบ ตัวอย่างเช่น ชื่อClaireมีสองแบบคือ Clare/Clair ซึ่งออกเสียงเหมือนกันทั้งคู่ การค้นหาด้วยการสะกดแบบใดแบบหนึ่งจะไม่แสดงผลลัพธ์สำหรับการสะกดอีกสองแบบ การใช้Soundexจะให้รหัส Soundex เดียวกันคือ C460 โดยการค้นหาชื่อตามรหัส Soundex นี้ จะแสดงผลลัพธ์ทั้งสามแบบ
  • กระบวนการ กำจัดข้อมูลซ้ำซ้อนใช้อัลกอริธึมทางเสียงเพื่อจัดกลุ่มบันทึกที่มีชื่อออกเสียงคล้ายกันเข้าด้วยกันได้อย่างง่ายดาย เพื่อนำไปประเมินเพิ่มเติม
  • โมดูลแปลง เสียงเป็นข้อความใช้การเข้ารหัสทางสัทศาสตร์เพื่อค้นหาชุดคำในพจนานุกรมที่ออกเสียงคล้ายกับหน่วยเสียงที่ได้จากสัญญาณเสียงที่ผ่านการประมวลผล

ดูเพิ่มเติม

  • อัลกอริทึมสำหรับแปลงคำเป็นหน่วยเสียงและแปลงกลับเป็นคำ
  • StringMetricเป็น โปรเจกต์ ไลบรารี Scalaสำหรับอัลกอริทึมด้านสัทศาสตร์
  • clj-fuzzyเป็น โปรเจกต์ไลบรารี Clojureสำหรับอัลกอริทึมทางด้านสัทศาสตร์
  • ไลบรารีSoundexBR ซึ่งเป็นไลบรารีของอัลกอริทึมด้านสัทศาสตร์ที่เขียนด้วย ภาษาR
  • Talismanคือ ไลบรารี JavaScriptที่รวบรวมอัลกอริธึมการออกเสียงต่างๆ ซึ่งสามารถทดลองใช้ได้ทางออนไลน์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Phonetic_algorithm&oldid=1328336244 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึมทางสัทศาสตร์

อั ลกอริทึมทางสัทศาสตร์ คือ อัลกอริทึม สำหรับ การ จัดทำดัชนี คำตาม การออกเสียง หากอัลกอริทึมนั้นอิงตามการสะกดคำ จะขึ้นอยู่กับระบบการสะกดคำของภาษาที่ออกแบบมาเป็นอย่างมาก...

อัลกอริทึม

อัลกอริทึมทางสัทศาสตร์ที่เป็นที่รู้จักกันดี ได้แก่:

การใช้งานทั่วไป

โปรแกรม ตรวจสอบการสะกดคำ มักจะมีอัลกอริทึมทางด้านเสียง ตัวอย่างเช่น อัลกอริ ทึม Metaphone สามารถนำคำที่สะกดผิดมาสร้างเป็นรหัส จากนั้นจะนำรหัสนี้ไปค้นหาในฐานข้อมูลเพื่อหาคำที่มี Metaphone เดียวกันหรือคล้ายกัน คำที่มี Metaphone...

ดูเพิ่มเติม

การจับคู่สตริงโดยประมาณ ระยะทางแฮมมิง ระยะทางเลเวนสไตน์ ระยะทาง Damerau–Levenshtein