อ่าน 2 นาที
การหาเลมมาไทเซชัน
ใน ทางภาษาศาสตร์ การหาคำหลัก (หรือเรียกอีกอย่างว่า lemmatisation ) คือกระบวนการจัดกลุ่ม รูปแบบที่ผัน คำเข้าด้วยกันเพื่อให้สามารถวิเคราะห์เป็นรายการเดียวได้ โดยระบุจาก คำหลัก...
การหาเลมมาไทเซชัน
ใน ทางภาษาศาสตร์การหาคำหลัก (หรือเรียกอีกอย่างว่าlemmatisation ) คือกระบวนการจัดกลุ่มรูปแบบที่ผันคำเข้าด้วยกันเพื่อให้สามารถวิเคราะห์เป็นรายการเดียวได้ โดยระบุจากคำหลักหรือรูปแบบพจนานุกรม ของคำนั้น [ 1 ]
ในภาษาศาสตร์เชิงคำนวณการหาคำหลัก (lemmatization) คือกระบวนการทางอัลกอริทึมในการกำหนดคำหลักของคำโดยพิจารณาจากความหมายที่ตั้งใจไว้ แตกต่างจากการหารากศัพท์ (stemming ) การหาคำหลักขึ้นอยู่กับการระบุส่วนของคำพูดและความหมายที่ตั้งใจไว้ของคำในประโยคอย่างถูกต้อง รวมถึงในบริบท ที่กว้างขึ้น โดยรอบประโยคนั้น เช่น ประโยคข้างเคียง หรือแม้แต่เอกสารทั้งหมด ดังนั้น การพัฒนาอัลกอริทึมการหาคำหลักที่มีประสิทธิภาพจึงเป็นหัวข้อการวิจัยที่เปิดกว้าง[ 2 ] [ 3 ] [ 4 ]
คำอธิบาย
ในหลายภาษา คำต่างๆ มักปรากฏใน รูป ผัน หลาย แบบ ตัวอย่างเช่น ในภาษาอังกฤษ คำกริยา 'เดิน' อาจปรากฏในรูป 'เดิน', 'เดินแล้ว', 'เดินหลายรอบ' หรือ 'กำลังเดิน' รูปพื้นฐาน 'เดิน' ที่เราอาจค้นหาความหมายในพจนานุกรม เรียกว่าคำหลัก (lemma)ของคำนั้น ส่วนความสัมพันธ์ระหว่างรูปพื้นฐานกับชนิดของคำ มักเรียกว่าหน่วยคำ (lexeme ) ของคำนั้น
การหาคำหลักมีความเกี่ยวข้องอย่างใกล้ชิดกับการหาคำหลักความแตกต่างคือ การหาคำหลักจะทำงานกับคำเดียวโดยไม่ทราบบริบท ดังนั้นจึงไม่สามารถแยกแยะคำที่มีความหมายต่างกันตามส่วนของคำพูดได้ อย่างไรก็ตาม การหาคำหลักมักจะง่ายต่อการใช้งานและทำงานได้เร็วกว่า ความแม่นยำที่ลดลงอาจไม่สำคัญสำหรับบางแอปพลิเคชัน อันที่จริง เมื่อใช้ภายในระบบการค้นหาข้อมูล การหาคำหลักจะช่วยปรับปรุงความแม่นยำในการเรียกคืน คำค้นหา หรืออัตราการตรวจพบที่ถูกต้อง เมื่อเทียบกับการหาคำหลัก อย่างไรก็ตาม การหาคำหลักจะลดความแม่นยำหรือสัดส่วนของอินสแตนซ์ที่ติดป้ายกำกับเป็นบวกที่เป็นบวกจริง สำหรับระบบดังกล่าว[ 5 ]
ตัวอย่างเช่น:
- คำว่า "better" มีคำว่า "good" เป็นคำหลัก การตัดคำโดยใช้รากศัพท์จะมองข้ามความเชื่อมโยงนี้ไป เพราะต้องอาศัยการค้นหาความหมายในพจนานุกรม
- คำว่า "walk" เป็นคำหลักของคำว่า "walking" ดังนั้นจึงตรงกันทั้งในกระบวนการสร้างคำหลักและการหาคำหลักเฉพาะคำ
- คำว่า "meeting" สามารถเป็นได้ทั้งรูปพื้นฐานของคำนามหรือรูปของคำกริยา ("to meet") ขึ้นอยู่กับบริบท เช่น "in our last meeting" หรือ "We are meeting again tomorrow" ซึ่งแตกต่างจากการตัดคำตามรากศัพท์ (stemming) ตรงที่การหาคำหลัก (lemmatization) พยายามเลือกคำหลักที่ถูกต้องตามบริบท
ซอฟต์แวร์จัดทำดัชนีเอกสารเช่นLucene [ 6 ]สามารถจัดเก็บรูปแบบรากศัพท์พื้นฐานของคำโดยไม่จำเป็นต้องรู้ความหมาย แต่จะพิจารณาเฉพาะกฎไวยากรณ์การสร้างคำเท่านั้น คำที่ตัดรากศัพท์แล้วอาจไม่ใช่คำที่ถูกต้อง: 'lazy' ดังที่เห็นในตัวอย่างด้านล่าง ถูกตัดรากศัพท์โดยโปรแกรมตัดรากศัพท์หลายตัวเป็น 'lazi' นี่เป็นเพราะจุดประสงค์ของการตัดรากศัพท์ไม่ใช่เพื่อสร้างคำหลักที่เหมาะสม ซึ่งเป็นงานที่ท้าทายกว่าที่ต้องอาศัยความรู้เกี่ยวกับบริบท จุดประสงค์หลักของการตัดรากศัพท์คือการแมปรูปแบบต่างๆ ของคำไปยังรูปแบบเดียว[ 7 ]ในฐานะอัลกอริทึมที่ใช้กฎ ซึ่งขึ้นอยู่กับการสะกดคำเท่านั้น มันจึงเสียสละความแม่นยำเพื่อให้แน่ใจว่า ตัวอย่างเช่น เมื่อ 'laziness' ถูกตัดรากศัพท์เป็น 'lazi' มันจะมีรากศัพท์เดียวกันกับ 'lazy'
อัลกอริทึม
วิธีที่ง่ายที่สุดในการหาคำหลัก (lemmatization) คือการค้นหาในพจนานุกรม วิธีนี้ใช้ได้ดีกับคำที่มีการผันคำแบบตรงไปตรงมา แต่ในกรณีอื่นๆ เช่น ในภาษาที่มีคำประสม ยาวๆ จะต้องใช้ ระบบที่ใช้กฎเกณฑ์ กฎเกณฑ์ดังกล่าวสามารถสร้างขึ้นด้วยมือหรือเรียนรู้โดยอัตโนมัติจากคลัง ข้อมูลที่มีการ ระบุ คำอธิบายประกอบ ก็ได้
ใช้ในทางการแพทย์ชีวภาพ
การวิเคราะห์เชิงสัณฐานวิทยาของวรรณกรรมทางการแพทย์ที่ตีพิมพ์สามารถให้ผลลัพธ์ที่เป็นประโยชน์ได้ การประมวลผลเชิงสัณฐานวิทยาของข้อความทางการแพทย์จะมีประสิทธิภาพมากขึ้นด้วยโปรแกรมการหาคำหลักเฉพาะทางสำหรับการแพทย์ชีวภาพ และอาจปรับปรุงความแม่นยำของงานการสกัดข้อมูล เชิงปฏิบัติได้ [ 8 ]
ดูเพิ่มเติม
- การทำให้ เป็นรูปแบบมาตรฐาน (Canonicalization) – กระบวนการแปลงข้อมูลให้เป็นรูปแบบ "มาตรฐาน" "ปกติ" หรือรูปแบบมาตรฐาน
ลิงก์ภายนอก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การหาเลมมาไทเซชัน
ใน ทางภาษาศาสตร์ การหาคำหลัก (หรือเรียกอีกอย่างว่า lemmatisation ) คือกระบวนการจัดกลุ่ม รูปแบบที่ผัน คำเข้าด้วยกันเพื่อให้สามารถวิเคราะห์เป็นรายการเดียวได้ โดยระบุจาก คำหลัก...
คำอธิบาย
ในหลายภาษา คำต่างๆ มักปรากฏใน รูป ผัน หลาย แบบ ตัวอย่างเช่น ในภาษาอังกฤษ คำกริยา 'เดิน' อาจปรากฏในรูป 'เดิน', 'เดินแล้ว', 'เดินหลายรอบ' หรือ 'กำลังเดิน' รูปพื้นฐาน 'เดิน' ที่เราอาจค้นหาความหมายในพจนานุกรม เรียกว่า คำหลัก (lemma) ของคำนั้น...
อัลกอริทึม
วิธีที่ง่ายที่สุดในการหาคำหลัก (lemmatization) คือการค้นหาในพจนานุกรม วิธีนี้ใช้ได้ดีกับคำที่มีการผันคำแบบตรงไปตรงมา แต่ในกรณีอื่นๆ เช่น ในภาษาที่มี คำประสม ยาวๆ จะต้องใช้ ระบบที่ใช้กฎเกณฑ์ กฎเกณฑ์ ดังกล่าวสามารถสร้างขึ้นด้วยมือหรือเรียนรู้โดยอัตโนมัติจาก...
ใช้ในทางการแพทย์ชีวภาพ
การวิเคราะห์เชิงสัณฐานวิทยาของวรรณกรรมทางการแพทย์ที่ตีพิมพ์สามารถให้ผลลัพธ์ที่เป็นประโยชน์ได้ การประมวลผลเชิงสัณฐานวิทยาของข้อความทางการแพทย์จะมีประสิทธิภาพมากขึ้นด้วยโปรแกรมการหาคำหลักเฉพาะทางสำหรับการแพทย์ชีวภาพ และอาจปรับปรุงความแม่นยำของงาน การสกัดข้อมูล...