เลปอร์

Q: การนำซอฟต์แวร์ไปใช้

เมตริก LEPOR เดิมทีถูกนำไปใช้ในภาษาการเขียนโปรแกรม Perl [ 14 ] และเมื่อเร็ว ๆ นี้เวอร์ชัน Python [ 15 ] ก็มีให้ใช้งานโดยนักวิจัยและวิศวกรอื่น ๆ [ 16 ] พร้อมกับการประกาศข่าวประชาสัมพันธ์ [ 17 ] จากบริษัท Logrus Global Language Service

LEPOR ( Length Penalty, Precision , n-gram Position difference Penalty and Recall ) เป็น ตัวชี้ วัดการประเมินการแปลด้วยเครื่องจักร แบบอัตโนมัติที่ไม่ขึ้นกับภาษา มีพารามิเตอร์ที่ปรับได้และปัจจัยเสริม

พื้นหลัง

นับตั้งแต่IBMเสนอและนำระบบBLEU ^{[ 1 ]}มาใช้เป็นเมตริกอัตโนมัติสำหรับ การประเมินการแปล ^ด้วยเครื่อง (MT) ^{[ 2 ]}ได้มีการเสนอวิธีการอื่นๆ อีกมากมายเพื่อปรับปรุงหรือพัฒนาระบบนี้ เช่น TER, METEOR [ ³^]เป็นต้น อย่างไรก็ตามเมตริกการประเมินอัตโนมัติ แบบดั้งเดิมยังคงมีปัญหาอยู่บ้าง เมตริกบางตัวทำงานได้ดีในบางภาษา แต่ทำงานได้ไม่ดีในภาษาอื่นๆ ซึ่งมักเรียกว่าปัญหาความลำเอียงทางภาษา เมตริกบางตัวอาศัยคุณลักษณะทางภาษาหรือข้อมูลทางภาษาศาสตร์จำนวนมาก ทำให้ยากสำหรับนักวิจัยคนอื่นๆ ที่จะทำการทดลองซ้ำ LEPOR เป็นเมตริกการประเมินอัตโนมัติที่พยายามแก้ไขปัญหาที่มีอยู่บางประการ^[⁴^] LEPOR ได้รับการออกแบบด้วยปัจจัยเสริมและพารามิเตอร์ที่ปรับได้ที่เกี่ยวข้องเพื่อแก้ไขปัญหาความลำเอียงทางภาษา นอกจากนี้ ในเวอร์ชันปรับปรุงของ LEPOR เช่น hLEPOR ^[⁵^]ยังพยายามใช้คุณลักษณะทางภาษาศาสตร์ที่ได้รับการปรับให้เหมาะสมซึ่งสกัดมาจากtreebanks LEPOR เวอร์ชันขั้นสูงอีกเวอร์ชันหนึ่งคือเมตริก nLEPOR ^[⁶^]ซึ่งเพิ่ม คุณลักษณะ n-gramเข้าไปในปัจจัยก่อนหน้า จนถึงปัจจุบัน เมตริก LEPOR ได้รับการพัฒนาเป็นชุด LEPOR ^[⁷^]^[⁸^]

เมตริก LEPOR ได้รับการศึกษาและวิเคราะห์โดยนักวิจัยหลายคนจากสาขาต่างๆ เช่น การแปลด้วยเครื่อง^{[ 9 ]} การ สร้างภาษาธรรมชาติ^{[ 10 ]}และการค้นหา^{[ 11 ]}และอื่นๆ อีกมากมาย เมตริก LEPOR กำลังได้รับความสนใจมากขึ้นจากนักวิจัยทางวิทยาศาสตร์ในด้านการประมวลผลภาษาธรรมชาติ

ออกแบบ

LEPOR ^{[ 4 ]}ได้รับการออกแบบโดยใช้ปัจจัยการลงโทษความยาวที่เพิ่มขึ้นความแม่นยำการลงโทษลำดับคำตาม n-gram และการเรียกคืนการลงโทษความยาวที่เพิ่มขึ้นทำให้มั่นใจได้ว่าการแปลสมมติฐาน ซึ่งโดยปกติจะแปลโดยระบบการแปลด้วยเครื่องจักร จะถูกลงโทษหากมีความยาวหรือสั้นกว่าการแปลอ้างอิง คะแนนความแม่นยำสะท้อนถึงความถูกต้องของการแปลสมมติฐาน คะแนนการเรียกคืนสะท้อนถึงความภักดีของการแปลสมมติฐานต่อการแปลอ้างอิงหรือภาษาต้นฉบับ ปัจจัยการลงโทษลำดับคำตาม n-gram ได้รับการออกแบบมาสำหรับลำดับตำแหน่งที่แตกต่างกันระหว่างการแปลสมมติฐานและการแปลอ้างอิง ปัจจัยการลงโทษลำดับคำได้รับการพิสูจน์แล้วว่ามีประโยชน์โดยนักวิจัยหลายคน เช่น งานของ Wong และ Kit (2008) ^{[ 12 ]}

เนื่องจากเมตริกการจับคู่สตริงพื้นผิวคำถูกวิพากษ์วิจารณ์ว่าขาดความตระหนักรู้ทางไวยากรณ์และความหมาย เมตริก LEPOR ที่พัฒนาเพิ่มเติม (hLEPOR) จึงตรวจสอบการบูรณาการคุณลักษณะทางภาษา เช่น ส่วนของคำพูด (POS) ^{[ 5 ]}^{[ 8 ]} POS ถูกนำมาใช้เป็นฟังก์ชันเฉพาะของทั้งมุมมองทางไวยากรณ์และความหมาย เช่น หากโทเค็นของประโยคเอาต์พุตเป็นคำกริยาในขณะที่คาดว่าจะเป็นคำนาม ก็จะมีการลงโทษ และหาก POS เหมือนกันแต่คำที่แน่นอนไม่เหมือนกัน เช่น good กับ nice ผู้สมัครรายนี้จะได้รับคะแนนบางส่วน คะแนนโดยรวมของ hLEPOR จะคำนวณจากการรวมคะแนนระดับคำและคะแนนระดับ POS ด้วยชุดน้ำหนัก ความรู้ n-gram ที่ได้รับแรงบันดาลใจจากการสร้างแบบจำลองภาษายังได้รับการสำรวจอย่างกว้างขวางใน nLEPOR ด้วย^{[ 6 ]}^{[ 8 ]}นอกจากความรู้เกี่ยวกับ n-gram สำหรับการคำนวณค่าปรับความแตกต่างของตำแหน่ง n-gram แล้ว n-gram ยังถูกนำไปใช้กับความแม่นยำของ n-gram และการเรียกคืน n-gram ใน nLEPOR และพารามิเตอร์ n เป็นปัจจัยที่ปรับได้ นอกจากความรู้เกี่ยวกับ POS ใน hLEPOR แล้ว โครงสร้างวลีจากข้อมูลการวิเคราะห์ยังรวมอยู่ใน HPPR เวอร์ชันใหม่^{[ 13 ]}ในการสร้างแบบจำลองการประเมิน HPPR ชุดโครงสร้างวลี เช่นวลีนาม วลีกริยา วลีบุพบทวลีวิเศษณ์ จะถูกนำมาพิจารณาในระหว่างการจับคู่จากข้อความผู้สมัครกับข้อความอ้างอิง

การนำซอฟต์แวร์ไปใช้

เมตริก LEPOR เดิมทีถูกนำไปใช้ในภาษาการเขียนโปรแกรม Perl ^{[ 14 ]}และเมื่อเร็ว ๆ นี้เวอร์ชัน Python ^{[ 15 ]}ก็มีให้ใช้งานโดยนักวิจัยและวิศวกรอื่น ๆ^{[ 16 ]}พร้อมกับการประกาศข่าวประชาสัมพันธ์^{[ 17 ]}จากบริษัท Logrus Global Language Service

ผลงาน

ชุด LEPOR ได้แสดงประสิทธิภาพที่ดีในการประชุมเชิงปฏิบัติการระดับนานาชาติประจำปีของACL เกี่ยวกับการแปลด้วยเครื่องจักรเชิงสถิติ ( ACL-WMT เก็บถาวรเมื่อวันที่ 26 เมษายน 2021 ที่Wayback Machine ) ACL-WMT จัดโดยกลุ่มความสนใจพิเศษด้านการแปลด้วยเครื่องจักร (SIGMT) ในสมาคมระหว่างประเทศเพื่อภาษาศาสตร์เชิงคำนวณ (ACL) ใน ACL-WMT 2013 ^{[ 18 ]}มีการแปลและการประเมินสองเส้นทาง ได้แก่ ภาษาอังกฤษเป็นภาษาอื่น และภาษาอื่นเป็นภาษาอังกฤษ ภาษา "อื่น" ได้แก่สเปนฝรั่งเศสเยอรมันเช็ก และ รัสเซีย ในทิศทางภาษาอังกฤษเป็นภาษาอื่น เมตริก nLEPOR มีคะแนนความสัมพันธ์ระดับระบบสูงสุด เมื่อเทียบกับการตัดสินของมนุษย์โดยใช้สัมประสิทธิ์สหสัมพันธ์เพียร์สัน และเป็นคะแนนความสัมพันธ์ระดับระบบสูงสุดอันดับสองเมื่อเทียบกับการตัดสินของมนุษย์โดยใช้ สัมประสิทธิ์สหสัมพันธ์ลำดับสเปีย ร์แมนในการแปลจากภาษาอื่นเป็นภาษาอังกฤษ nLEPOR ทำได้ในระดับปานกลาง ในขณะที่METEORให้คะแนนความสัมพันธ์กับการตัดสินของมนุษย์สูงที่สุด ซึ่งเป็นเพราะ nLEPOR ใช้เพียงคุณลักษณะทางภาษาที่กระชับ เช่น ข้อมูลส่วนของคำพูด นอกเหนือจากข้อมูลการฝึกอบรมที่จัดเตรียมไว้ให้ ในขณะที่ METEOR ใช้แหล่งข้อมูลภายนอกอื่นๆ อีกมากมาย เช่นพจนานุกรม คำพ้อง ความหมาย การถอดความและการตัดคำเป็นต้น

งานวิจัยขยายความและบทนำเกี่ยวกับประสิทธิภาพของ LEPOR ภายใต้เงื่อนไขต่างๆ รวมถึงรูปแบบพื้นผิวคำบริสุทธิ์ คุณลักษณะ POSคุณลักษณะแท็กวลี ได้รับการอธิบายไว้ในวิทยานิพนธ์จากมหาวิทยาลัยมาเก๊า^{[ 8 ]}

มีการวิเคราะห์ทางสถิติเชิงลึกเกี่ยวกับประสิทธิภาพของ hLEPOR และ nLEPOR ใน WMT13 ซึ่งแสดงให้เห็นว่าเป็นหนึ่งในตัวชี้วัดที่ดีที่สุด "ทั้งในการประเมินคู่ภาษาแต่ละคู่สำหรับภาษาสเปนเป็นภาษาอังกฤษและชุดรวมของคู่ภาษา 9 คู่" ดูได้จากเอกสาร (Accurate Evaluation of Segment-level Machine Translation Metrics) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. 2015 NAACL ( https://github.com/ygraham/segment-mteval )

ในการนำเสนอของกลุ่มผู้ใช้ MT ในงาน MT Summit 2021 นักวิจัยจากhttps://www.welocalize.com/ได้แสดงให้เห็นว่าตัวชี้วัด hLEPOR มีความสัมพันธ์กับประสิทธิภาพของมนุษย์ในคู่ภาษาที่ทดสอบหลายคู่ รวมถึงภาษาเยอรมัน ภาษาฮินดี (ไม่มีแบบจำลองสำหรับ Prism) ภาษาอิตาลี ภาษารัสเซีย และภาษาจีนตัวย่อ (หน้า 459 https://aclanthology.org/attachments/2021.mtsummit-up.29.Presentation.pdf )

แอปพลิเคชัน

ชุดเมตริกอัตโนมัติ LEPOR ได้รับการนำไปใช้และใช้งานโดยนักวิจัยจำนวนมากจากสาขาต่างๆ ในการประมวลผลภาษาธรรมชาติตัวอย่างเช่น ใน MT มาตรฐานและ Neural MT ^{[ 19 ]}นอกจากนี้ นอกเหนือจากชุมชน MT แล้ว^{[ 11 ]} ยัง ได้นำ LEPOR ไปใช้ในการประเมินการค้นหา^{[ 20 ]}ได้กล่าวถึงการประยุกต์ใช้ LEPOR สำหรับการประเมินการสร้างโค้ด (ภาษาโปรแกรม) ^{[ 10 ]}ได้ตรวจสอบการประเมินอัตโนมัติของการสร้างภาษาธรรมชาติ^{[ 21 ]}ด้วยเมตริกต่างๆ รวมถึง LEPOR และได้โต้แย้งว่าเมตริกอัตโนมัติสามารถช่วยในการประเมินระดับระบบได้ นอกจากนี้ LEPOR ยังถูกนำไปใช้ในการประเมินคำบรรยายภาพ^{[ 22 ]}

ดูเพิ่มเติม

หมายเหตุ

^ปาปิเนนีและคณะ (2002)
^ฮัน (2016)
^บาเนอร์จีและลาวี (2005)
^ ^a ^b Han et al. (2012)
^ ^a ^b Han et al. (2013a)
^ ^a ^b Han et al. (2013b)
^ฮันและคณะ (2014)
^ ^a ^b ^c ^d Han (2014)
^เกรแฮมและคณะ (2015)
^ ^a ^b Novikova et al. (2017)
^ ^a ^b Liu et al. (2021)
^หว่องและคิท (2008)
^ Han et al. (2013c)
↑ "GitHub - aaronlifenghan/Aaron-project-lepor: LEPOR: เมตริกการประเมินที่แข็งแกร่งสำหรับการแปลด้วยเครื่องด้วยปัจจัยเสริม " GitHub . 8 มกราคม 2565.
^ "HLepor: นี่คือพอร์ต Python ของอัลกอริทึมดั้งเดิมโดย Aaron Li-Feng Han "
↑ "GitHub - lHan87/LEPOR" . GitHub . 5 พฤษภาคม 2564
^ Logrus Global (30 เมษายน 2021). "Logrus Global เพิ่มการใช้งาน Python สำหรับตัวชี้วัดการประเมินคุณภาพการแปล hLEPOR บน PyPi.org" . Slator (ข่าวประชาสัมพันธ์) . สืบค้นเมื่อ2 พฤศจิกายน 2022 .
^ ACL-WMT (2013)
↑มาร์ซุก และ ฮันเซน-ชีร์รา (2019)
^ Liguori et al. (2021)
^ Çelikyılmaz et al. (2020)
^ Qiu และคณะ (2020)

ลิงก์ภายนอก

รหัส LEPOR-google
LEPOR และ hLEPOR บน Git
เอชเลปอร์
เอ็บลู
เอชพีพีอาร์
สีน้ำเงิน
การวัดค่า F
ดาวตก
เทอร์

[1] ปาปิเนนีและคณะ (2002)

[2] ฮัน (2016)

[3] บาเนอร์จีและลาวี (2005)

[auto1-4] Han et al. (2012)

[auto2-5] Han et al. (2013a)

[auto3-6] Han et al. (2013b)

[7] ฮันและคณะ (2014)

[auto4-8] Han (2014)

[9] เกรแฮมและคณะ (2015)

[auto5-10] Novikova et al. (2017)

[auto-11] Liu et al. (2021)

[12] หว่องและคิท (2008)

[13] Han et al. (2013c)

[14] "GitHub - aaronlifenghan/Aaron-project-lepor: LEPOR: เมตริกการประเมินที่แข็งแกร่งสำหรับการแปลด้วยเครื่องด้วยปัจจัยเสริม " GitHub . 8 มกราคม 2565.

[15] "HLepor: นี่คือพอร์ต Python ของอัลกอริทึมดั้งเดิมโดย Aaron Li-Feng Han "

[16] "GitHub - lHan87/LEPOR" . GitHub . 5 พฤษภาคม 2564

[17] Logrus Global (30 เมษายน 2021). "Logrus Global เพิ่มการใช้งาน Python สำหรับตัวชี้วัดการประเมินคุณภาพการแปล hLEPOR บน PyPi.org" . Slator (ข่าวประชาสัมพันธ์) . สืบค้นเมื่อ2 พฤศจิกายน 2022 .

[18] ACL-WMT (2013)

[19] มาร์ซุก และ ฮันเซน-ชีร์รา (2019)

[20] Liguori et al. (2021)

[21] Çelikyılmaz et al. (2020)

[22] Qiu และคณะ (2020)

[ 1 ]

ด้วย

[ 2 ]

[

[

[

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]