กลับไปหน้าบทความ

อ่าน 5 นาที

เลปอร์

LEPOR ( Length Penalty, Precision , n-gram Position difference Penalty and Recall ) เป็น ตัวชี้ วัดการประเมินการแปลด้วยเครื่องจักร แบบอัตโนมัติที่ไม่ขึ้นกับภาษา...

เลปอร์

LEPOR ( Length Penalty, Precision , n-gram Position difference Penalty and Recall ) เป็น ตัวชี้ วัดการประเมินการแปลด้วยเครื่องจักร แบบอัตโนมัติที่ไม่ขึ้นกับภาษา มีพารามิเตอร์ที่ปรับได้และปัจจัยเสริม

พื้นหลัง

นับตั้งแต่IBMเสนอและนำระบบBLEU [ 1 ]มาใช้เป็นเมตริกอัตโนมัติสำหรับ การประเมินการแปล ด้วยเครื่อง (MT) [ 2 ]ได้มีการเสนอวิธีการอื่นๆ อีกมากมายเพื่อปรับปรุงหรือพัฒนาระบบนี้ เช่น TER, METEOR [ 3 ]เป็นต้น อย่างไรก็ตามเมตริกการประเมินอัตโนมัติ แบบดั้งเดิมยังคงมีปัญหาอยู่บ้าง เมตริกบางตัวทำงานได้ดีในบางภาษา แต่ทำงานได้ไม่ดีในภาษาอื่นๆ ซึ่งมักเรียกว่าปัญหาความลำเอียงทางภาษา เมตริกบางตัวอาศัยคุณลักษณะทางภาษาหรือข้อมูลทางภาษาศาสตร์จำนวนมาก ทำให้ยากสำหรับนักวิจัยคนอื่นๆ ที่จะทำการทดลองซ้ำ LEPOR เป็นเมตริกการประเมินอัตโนมัติที่พยายามแก้ไขปัญหาที่มีอยู่บางประการ[ 4 ] LEPOR ได้รับการออกแบบด้วยปัจจัยเสริมและพารามิเตอร์ที่ปรับได้ที่เกี่ยวข้องเพื่อแก้ไขปัญหาความลำเอียงทางภาษา นอกจากนี้ ในเวอร์ชันปรับปรุงของ LEPOR เช่น hLEPOR [ 5 ]ยังพยายามใช้คุณลักษณะทางภาษาศาสตร์ที่ได้รับการปรับให้เหมาะสมซึ่งสกัดมาจากtreebanks LEPOR เวอร์ชันขั้นสูงอีกเวอร์ชันหนึ่งคือเมตริก nLEPOR [ 6 ]ซึ่งเพิ่ม คุณลักษณะ n-gramเข้าไปในปัจจัยก่อนหน้า จนถึงปัจจุบัน เมตริก LEPOR ได้รับการพัฒนาเป็นชุด LEPOR [ 7 ] [ 8 ]

เมตริก LEPOR ได้รับการศึกษาและวิเคราะห์โดยนักวิจัยหลายคนจากสาขาต่างๆ เช่น การแปลด้วยเครื่อง[ 9 ] การ สร้างภาษาธรรมชาติ[ 10 ]และการค้นหา[ 11 ]และอื่นๆ อีกมากมาย เมตริก LEPOR กำลังได้รับความสนใจมากขึ้นจากนักวิจัยทางวิทยาศาสตร์ในด้านการประมวลผลภาษาธรรมชาติ

ออกแบบ

LEPOR [ 4 ]ได้รับการออกแบบโดยใช้ปัจจัยการลงโทษความยาวที่เพิ่มขึ้นความแม่นยำการลงโทษลำดับคำตาม n-gram และการเรียกคืนการลงโทษความยาวที่เพิ่มขึ้นทำให้มั่นใจได้ว่าการแปลสมมติฐาน ซึ่งโดยปกติจะแปลโดยระบบการแปลด้วยเครื่องจักร จะถูกลงโทษหากมีความยาวหรือสั้นกว่าการแปลอ้างอิง คะแนนความแม่นยำสะท้อนถึงความถูกต้องของการแปลสมมติฐาน คะแนนการเรียกคืนสะท้อนถึงความภักดีของการแปลสมมติฐานต่อการแปลอ้างอิงหรือภาษาต้นฉบับ ปัจจัยการลงโทษลำดับคำตาม n-gram ได้รับการออกแบบมาสำหรับลำดับตำแหน่งที่แตกต่างกันระหว่างการแปลสมมติฐานและการแปลอ้างอิง ปัจจัยการลงโทษลำดับคำได้รับการพิสูจน์แล้วว่ามีประโยชน์โดยนักวิจัยหลายคน เช่น งานของ Wong และ Kit (2008) [ 12 ]

เนื่องจากเมตริกการจับคู่สตริงพื้นผิวคำถูกวิพากษ์วิจารณ์ว่าขาดความตระหนักรู้ทางไวยากรณ์และความหมาย เมตริก LEPOR ที่พัฒนาเพิ่มเติม (hLEPOR) จึงตรวจสอบการบูรณาการคุณลักษณะทางภาษา เช่น ส่วนของคำพูด (POS) [ 5 ] [ 8 ] POS ถูกนำมาใช้เป็นฟังก์ชันเฉพาะของทั้งมุมมองทางไวยากรณ์และความหมาย เช่น หากโทเค็นของประโยคเอาต์พุตเป็นคำกริยาในขณะที่คาดว่าจะเป็นคำนาม ก็จะมีการลงโทษ และหาก POS เหมือนกันแต่คำที่แน่นอนไม่เหมือนกัน เช่น good กับ nice ผู้สมัครรายนี้จะได้รับคะแนนบางส่วน คะแนนโดยรวมของ hLEPOR จะคำนวณจากการรวมคะแนนระดับคำและคะแนนระดับ POS ด้วยชุดน้ำหนัก ความรู้ n-gram ที่ได้รับแรงบันดาลใจจากการสร้างแบบจำลองภาษายังได้รับการสำรวจอย่างกว้างขวางใน nLEPOR ด้วย[ 6 ] [ 8 ]นอกจากความรู้เกี่ยวกับ n-gram สำหรับการคำนวณค่าปรับความแตกต่างของตำแหน่ง n-gram แล้ว n-gram ยังถูกนำไปใช้กับความแม่นยำของ n-gram และการเรียกคืน n-gram ใน nLEPOR และพารามิเตอร์ n เป็นปัจจัยที่ปรับได้ นอกจากความรู้เกี่ยวกับ POS ใน hLEPOR แล้ว โครงสร้างวลีจากข้อมูลการวิเคราะห์ยังรวมอยู่ใน HPPR เวอร์ชันใหม่[ 13 ]ในการสร้างแบบจำลองการประเมิน HPPR ชุดโครงสร้างวลี เช่นวลีนามวลีกริยา วลีบุพบทวลีวิเศษณ์ จะถูกนำมาพิจารณาในระหว่างการจับคู่จากข้อความผู้สมัครกับข้อความอ้างอิง

การนำซอฟต์แวร์ไปใช้

เมตริก LEPOR เดิมทีถูกนำไปใช้ในภาษาการเขียนโปรแกรม Perl [ 14 ]และเมื่อเร็ว ๆ นี้เวอร์ชัน Python [ 15 ]ก็มีให้ใช้งานโดยนักวิจัยและวิศวกรอื่น ๆ[ 16 ]พร้อมกับการประกาศข่าวประชาสัมพันธ์[ 17 ]จากบริษัท Logrus Global Language Service

ผลงาน

ชุด LEPOR ได้แสดงประสิทธิภาพที่ดีในการประชุมเชิงปฏิบัติการระดับนานาชาติประจำปีของACL เกี่ยวกับการแปลด้วยเครื่องจักรเชิงสถิติ ( ACL-WMT เก็บถาวรเมื่อวันที่ 26 เมษายน 2021 ที่Wayback Machine ) ACL-WMT จัดโดยกลุ่มความสนใจพิเศษด้านการแปลด้วยเครื่องจักร (SIGMT) ในสมาคมระหว่างประเทศเพื่อภาษาศาสตร์เชิงคำนวณ (ACL) ใน ACL-WMT 2013 [ 18 ]มีการแปลและการประเมินสองเส้นทาง ได้แก่ ภาษาอังกฤษเป็นภาษาอื่น และภาษาอื่นเป็นภาษาอังกฤษ ภาษา "อื่น" ได้แก่สเปนฝรั่งเศสเยอรมันเช็และรัสเซีย ในทิศทางภาษาอังกฤษเป็นภาษาอื่น เมตริก nLEPOR มีคะแนนความสัมพันธ์ระดับระบบสูงสุด เมื่อเทียบกับการตัดสินของมนุษย์โดยใช้สัมประสิทธิ์สหสัมพันธ์เพียร์สัน และเป็นคะแนนความสัมพันธ์ระดับระบบสูงสุดอันดับสองเมื่อเทียบกับการตัดสินของมนุษย์โดยใช้ สัมประสิทธิ์สหสัมพันธ์ลำดับสเปีย ร์แมนในการแปลจากภาษาอื่นเป็นภาษาอังกฤษ nLEPOR ทำได้ในระดับปานกลาง ในขณะที่METEORให้คะแนนความสัมพันธ์กับการตัดสินของมนุษย์สูงที่สุด ซึ่งเป็นเพราะ nLEPOR ใช้เพียงคุณลักษณะทางภาษาที่กระชับ เช่น ข้อมูลส่วนของคำพูด นอกเหนือจากข้อมูลการฝึกอบรมที่จัดเตรียมไว้ให้ ในขณะที่ METEOR ใช้แหล่งข้อมูลภายนอกอื่นๆ อีกมากมาย เช่นพจนานุกรม คำพ้อง ความหมายการถอดความและการตัดคำเป็นต้น

งานวิจัยขยายความและบทนำเกี่ยวกับประสิทธิภาพของ LEPOR ภายใต้เงื่อนไขต่างๆ รวมถึงรูปแบบพื้นผิวคำบริสุทธิ์ คุณลักษณะ POSคุณลักษณะแท็กวลี ได้รับการอธิบายไว้ในวิทยานิพนธ์จากมหาวิทยาลัยมาเก๊า[ 8 ]

มีการวิเคราะห์ทางสถิติเชิงลึกเกี่ยวกับประสิทธิภาพของ hLEPOR และ nLEPOR ใน WMT13 ซึ่งแสดงให้เห็นว่าเป็นหนึ่งในตัวชี้วัดที่ดีที่สุด "ทั้งในการประเมินคู่ภาษาแต่ละคู่สำหรับภาษาสเปนเป็นภาษาอังกฤษและชุดรวมของคู่ภาษา 9 คู่" ดูได้จากเอกสาร (Accurate Evaluation of Segment-level Machine Translation Metrics) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. 2015 NAACL ( https://github.com/ygraham/segment-mteval )

ในการนำเสนอของกลุ่มผู้ใช้ MT ในงาน MT Summit 2021 นักวิจัยจากhttps://www.welocalize.com/ได้แสดงให้เห็นว่าตัวชี้วัด hLEPOR มีความสัมพันธ์กับประสิทธิภาพของมนุษย์ในคู่ภาษาที่ทดสอบหลายคู่ รวมถึงภาษาเยอรมัน ภาษาฮินดี (ไม่มีแบบจำลองสำหรับ Prism) ภาษาอิตาลี ภาษารัสเซีย และภาษาจีนตัวย่อ (หน้า 459 https://aclanthology.org/attachments/2021.mtsummit-up.29.Presentation.pdf )

แอปพลิเคชัน

ชุดเมตริกอัตโนมัติ LEPOR ได้รับการนำไปใช้และใช้งานโดยนักวิจัยจำนวนมากจากสาขาต่างๆ ในการประมวลผลภาษาธรรมชาติตัวอย่างเช่น ใน MT มาตรฐานและ Neural MT [ 19 ]นอกจากนี้ นอกเหนือจากชุมชน MT แล้ว[ 11 ] ยัง ได้นำ LEPOR ไปใช้ในการประเมินการค้นหา[ 20 ]ได้กล่าวถึงการประยุกต์ใช้ LEPOR สำหรับการประเมินการสร้างโค้ด (ภาษาโปรแกรม) [ 10 ]ได้ตรวจสอบการประเมินอัตโนมัติของการสร้างภาษาธรรมชาติ[ 21 ]ด้วยเมตริกต่างๆ รวมถึง LEPOR และได้โต้แย้งว่าเมตริกอัตโนมัติสามารถช่วยในการประเมินระดับระบบได้ นอกจากนี้ LEPOR ยังถูกนำไปใช้ในการประเมินคำบรรยายภาพ[ 22 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ปาปิเนนีและคณะ (2002)
  2. ^ฮัน (2016)
  3. ^บาเนอร์จีและลาวี (2005)
  4. ^ a b Han et al. (2012)
  5. ^ a b Han et al. (2013a)
  6. ^ a b Han et al. (2013b)
  7. ^ฮันและคณะ (2014)
  8. ^ a b c d Han (2014)
  9. ^เกรแฮมและคณะ (2015)
  10. ^ a b Novikova et al. (2017)
  11. ^ a b Liu et al. (2021)
  12. ^หว่องและคิท (2008)
  13. ^ Han et al. (2013c)
  14. "GitHub - aaronlifenghan/Aaron-project-lepor: LEPOR: เมตริกการประเมินที่แข็งแกร่งสำหรับการแปลด้วยเครื่องด้วยปัจจัยเสริม " GitHub . 8 มกราคม 2565.
  15. ^ "HLepor: นี่คือพอร์ต Python ของอัลกอริทึมดั้งเดิมโดย Aaron Li-Feng Han "
  16. "GitHub - lHan87/LEPOR" . GitHub . 5 พฤษภาคม 2564
  17. ^ Logrus Global (30 เมษายน 2021). "Logrus Global เพิ่มการใช้งาน Python สำหรับตัวชี้วัดการประเมินคุณภาพการแปล hLEPOR บน PyPi.org" . Slator (ข่าวประชาสัมพันธ์) . สืบค้นเมื่อ2 พฤศจิกายน 2022 .
  18. ^ ACL-WMT (2013)
  19. มาร์ซุก และ ฮันเซน-ชีร์รา (2019)
  20. ^ Liguori et al. (2021)
  21. ^ Çelikyılmaz et al. (2020)
  22. ^ Qiu และคณะ (2020)
  • รหัส LEPOR-google
  • LEPOR และ hLEPOR บน Git
  • เอชเลปอร์
  • เอ็บลู
  • เอชพีพีอาร์
  • สีน้ำเงิน
  • การวัดค่า F
  • ดาวตก
  • เทอร์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=LEPOR&oldid=1345138452 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ เลปอร์

LEPOR ( Length Penalty, Precision , n-gram Position difference Penalty and Recall ) เป็น ตัวชี้ วัดการประเมินการแปลด้วยเครื่องจักร แบบอัตโนมัติที่ไม่ขึ้นกับภาษา...

พื้นหลัง

นับตั้งแต่ IBM เสนอและนำระบบ BLEU [ 1 ] มาใช้เป็นเมตริกอัตโนมัติสำหรับ การประเมินการแปล ด้วย เครื่อง (MT) [ 2 ] ได้มีการเสนอวิธีการอื่นๆ อีกมากมายเพื่อปรับปรุงหรือพัฒนาระบบนี้ เช่น TER, METEOR [ 3 ] เป็นต้น อย่างไรก็ตาม เมตริกการประเมินอัตโนมัติ...

ออกแบบ

LEPOR [ 4 ] ได้รับการออกแบบโดยใช้ปัจจัยการลงโทษความยาวที่เพิ่มขึ้น ความแม่นยำ การลงโทษลำดับคำตาม n-gram และ การเรียกคืน การลงโทษความยาวที่เพิ่มขึ้นทำให้มั่นใจได้ว่าการแปลสมมติฐาน ซึ่งโดยปกติจะแปลโดยระบบการแปลด้วยเครื่องจักร...

การนำซอฟต์แวร์ไปใช้

เมตริก LEPOR เดิมทีถูกนำไปใช้ในภาษาการเขียนโปรแกรม Perl [ 14 ] และเมื่อเร็ว ๆ นี้เวอร์ชัน Python [ 15 ] ก็มีให้ใช้งานโดยนักวิจัยและวิศวกรอื่น ๆ [ 16 ] พร้อมกับการประกาศข่าวประชาสัมพันธ์ [ 17 ] จากบริษัท Logrus Global Language Service