กลับไปหน้าบทความ

อ่าน 9 นาที

สีน้ำเงิน

BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับ ประเมิน คุณภาพของข้อความที่ได้รับ การแปลด้วยเครื่อง จาก ภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง...

สีน้ำเงิน

บทความนี้ดีมาก คลิกที่นี่เพื่อดูข้อมูลเพิ่มเติม

BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับประเมินคุณภาพของข้อความที่ได้รับการแปลด้วยเครื่องจากภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง คุณภาพถือเป็นความสอดคล้องระหว่างผลลัพธ์ของเครื่องจักรกับผลลัพธ์ของมนุษย์: "ยิ่งการแปลด้วยเครื่องจักรใกล้เคียงกับการแปลโดยมนุษย์มืออาชีพมากเท่าไหร่ ก็ยิ่งดีเท่านั้น" – นี่คือแนวคิดหลักเบื้องหลัง BLEU [1] BLEU ถูกคิดค้นขึ้นที่IBMในปี 2001 และเป็นหนึ่งในเมตริก แรกๆ ที่อ้างว่า มีความสัมพันธ์สูงกับการตัดสินคุณภาพของมนุษย์[2] [3]และยังคงเป็นหนึ่งในเมตริกอัตโนมัติและราคาไม่แพงที่ได้รับความนิยมมากที่สุด

คะแนนจะถูกคำนวณสำหรับส่วนที่แปลแต่ละส่วน—โดยทั่วไปคือประโยค—โดยการเปรียบเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพดี จากนั้นคะแนนเหล่านั้นจะถูกหาค่าเฉลี่ยทั่วทั้งคลังข้อมูลเพื่อประเมินคุณภาพโดยรวมของคำแปล ความเข้าใจได้หรือความถูกต้องทางไวยากรณ์จะไม่ถูกนำมาพิจารณา[4]

ผลลัพธ์ของ BLEU จะเป็นตัวเลขระหว่าง 0 ถึง 1 เสมอ ค่านี้บ่งชี้ว่าข้อความที่เสนอมีความคล้ายคลึงกับข้อความอ้างอิงมากน้อยเพียงใด โดยค่าที่ใกล้ 1 มากขึ้นจะหมายถึงข้อความที่คล้ายคลึงกันมากขึ้น การแปลโดยมนุษย์ส่วนน้อยเท่านั้นที่จะได้คะแนน 1 เนื่องจากคะแนนนี้จะบ่งชี้ว่าข้อความที่เสนอเหมือนกับการแปลอ้างอิงเพียงรายการเดียว ด้วยเหตุนี้ การได้คะแนน 1 จึงไม่จำเป็น เนื่องจากมีโอกาสจับคู่ได้มากขึ้น การเพิ่มการแปลอ้างอิงเพิ่มเติมจะทำให้คะแนน BLEU สูงขึ้น[5]

นิยามทางคณิตศาสตร์

การตั้งค่าพื้นฐาน

การกำหนดคะแนน BLEU ขั้นพื้นฐานในเบื้องต้นจะต้องใช้พารามิเตอร์สองตัว ได้แก่ สตริงที่ต้องการทดสอบและรายการสตริงอ้างอิงแนวคิดคือ ค่า ของคะแนน BLEU ควรใกล้เคียงกับ 1 เมื่อสตริงที่ต้องการทดสอบคล้ายกับสตริงอ้างอิงและควรใกล้เคียงกับ 0 หากไม่คล้ายกัน

เพื่อเป็นการเปรียบเทียบ คะแนน BLEU ก็เหมือนกับครูสอนภาษาที่พยายามให้คะแนนคุณภาพงานแปลของนักเรียน โดยตรวจสอบ ว่า งานแปลนั้นตรงกับคำตอบต้นฉบับมากน้อยเพียงใด

เนื่องจากในการประมวลผลภาษาธรรมชาติจำเป็นต้องประเมินชุดสตริงผู้สมัครจำนวนมาก จึงต้องขยายคะแนน BLEU ไปยังกรณีที่มีรายการสตริงผู้สมัคร M รายการ (เรียกว่า " คอร์ปัส ") และสำหรับแต่ละสตริงผู้สมัครจะมีรายการสตริงผู้สมัครอ้างอิงด้วย

เมื่อกำหนดสตริงใดๆและจำนวนเต็มใดๆเราจะกำหนดเซตของn-gram ของสตริงนั้น ให้เป็นโปรดสังเกตว่าเซตนี้เป็นเซตขององค์ประกอบที่ไม่ซ้ำกัน ไม่ใช่มัลติเซตที่อนุญาตให้มีองค์ประกอบที่ซ้ำซ้อน ดังนั้น ตัวอย่างเช่น

กำหนดให้สตริงสองสตริงใดๆ ให้ กำหนดจำนวนสตริงย่อยเป็นจำนวนครั้งที่สตริง ปรากฏเป็นสตริงย่อยของสตริงตัวอย่างเช่น...

ตอนนี้ กำหนดชุดข้อมูลผู้สมัครและอ้างอิงชุดข้อมูลผู้สมัครโดยที่แต่ละ.

ความแม่นยำของ n-gram ที่ปรับปรุงแล้ว

กำหนด ฟังก์ชัน ความแม่นยำของ n-gram ที่แก้ไขแล้วเป็นn-gram ที่แก้ไขแล้ว ซึ่งดูซับซ้อนนั้น เป็นเพียงการสรุปทั่วไปอย่างตรงไปตรงมาของกรณีต้นแบบ: ประโยคผู้สมัครหนึ่งประโยคและประโยคอ้างอิงหนึ่งประโยค ในกรณีนี้คือเพื่อให้ได้นิพจน์นี้ เราเริ่มต้นด้วยการรวมจำนวน n-gram ที่ชัดเจนที่สุด: ปริมาณนี้วัดว่า n-gram ในประโยคอ้างอิงถูกสร้างขึ้นใหม่โดยประโยคผู้สมัครกี่ตัว โปรดทราบว่าเรานับสตริงย่อย n- gram ไม่ใช่n-gramตัวอย่างเช่น เมื่อ n-gram = n- gram สตริงย่อย 2-gram ทั้งหมดใน(ab และ ba) ปรากฏใน3 ครั้ง ดังนั้นจำนวนนับคือ 6 ไม่ใช่ 2

อย่างไรก็ตาม ในสถานการณ์ข้างต้น สตริงผู้สมัครนั้นสั้นเกินไป แทนที่จะปรากฏ 3 ครั้ง กลับปรากฏเพียงครั้งเดียว ดังนั้นเราจึงเพิ่มฟังก์ชันขั้นต่ำเพื่อแก้ไขปัญหานี้: ผลรวมของการนับนี้ไม่สามารถใช้เพื่อเปรียบเทียบระหว่างประโยคได้ เนื่องจากไม่ได้ถูกทำให้เป็นมาตรฐาน หากทั้งประโยคอ้างอิงและประโยคผู้สมัครยาว การนับอาจมีขนาดใหญ่ แม้ว่าผู้สมัครจะมีคุณภาพต่ำมากก็ตาม ดังนั้นเราจึงทำให้เป็นมาตรฐานการทำให้เป็นมาตรฐานนั้นเป็นไปในลักษณะที่ว่ามันจะเป็นตัวเลขใน เสมอซึ่งช่วยให้สามารถเปรียบเทียบระหว่างคลังข้อมูลได้อย่างมีความหมาย มันจะเป็นศูนย์หากไม่มีสตริงย่อย n ตัวใดในผู้สมัครปรากฏในประโยคอ้างอิง มันจะเป็นหนึ่งหากทุก n-gram ในผู้สมัครปรากฏในประโยคอ้างอิงอย่างน้อยเท่ากับจำนวนครั้งที่ปรากฏในผู้สมัคร โดยเฉพาะอย่างยิ่ง หากผู้สมัครเป็นสตริงย่อยของประโยคอ้างอิง มันจะมีค่าเป็นหนึ่ง

บทลงโทษสำหรับความกระชับ

ความแม่นยำของ n-gram ที่ถูกปรับเปลี่ยนนั้นให้คะแนนสูงเกินควรแก่สตริงผู้สมัครที่เป็น " แบบย่อ " กล่าวคือ สตริงที่ประกอบด้วย n-gram ทั้งหมดของสตริงอ้างอิง แต่มีจำนวนครั้งน้อยที่สุดเท่าที่จะเป็นไปได้

เพื่อลงโทษสตริงผู้สมัครที่สั้นเกินไป ให้กำหนดค่าปรับความสั้นเป็น โดยที่คือส่วนบวกของ

  • เมื่อใดบทลงโทษสำหรับความกระชับหมายความว่าเราจะไม่ลงโทษผู้สมัครที่ยาวเกินไป แต่จะลงโทษเฉพาะผู้สมัครที่สั้นเกินไปเท่านั้น
  • เมื่อใดบทลงโทษสำหรับความกระชับ

คือความยาวของกลุ่มผู้สมัคร นั่นคือโดยที่คือความยาวของ

คือความยาวของคลังข้อมูลอ้างอิงที่มีประสิทธิภาพซึ่งก็คือประโยคที่มีความยาวใกล้เคียงกับมากที่สุด

สูตรสุดท้าย

BLEU ไม่ได้มีนิยามเดียว แต่มีนิยามหลายแบบ โดยแต่ละนิยามถูกกำหนดพารามิเตอร์ด้วยเวกเตอร์ถ่วงน้ำหนักBLEU คือการแจกแจงความน่าจะเป็นบนนั่นคือและ

เมื่อเลือกค่าใดค่าหนึ่งแล้วคะแนน BLEU จะคำนวณได้จากค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนักของค่าความแม่นยำของ n-gram ที่ปรับเปลี่ยนทั้งหมด คูณด้วยค่าปรับลดความกระชับ เราใช้ค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนัก แทนที่จะใช้ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก เพื่อสนับสนุนคลังข้อมูลที่ตรงตามเกณฑ์ความแม่นยำของ n-gram หลายค่าพร้อมกันอย่างมีประสิทธิภาพ

ตัวเลือกทั่วไปที่สุด ซึ่ง เป็นตัวเลือกที่แนะนำในเอกสารต้นฉบับ คือ[ 1 ]

อัลกอริทึม

ตัวอย่างต่อไปนี้จาก Papineni et al. (2002) แสดงให้เห็นถึงเรื่องนี้:

ตัวอย่างผลลัพธ์การแปลด้วยเครื่องจักรที่ไม่ดี แต่มีความแม่นยำสูง
ผู้สมัคร ที่ที่ที่ที่ที่ที่ที่
อ้างอิง 1 ที่แมวเป็นบนที่เสื่อ
อ้างอิง 2 ที่นั่นเป็นเอแมวบนที่เสื่อ

จากคำทั้งเจ็ดคำในคำแปลที่เสนอ ทุกคำปรากฏอยู่ในคำแปลอ้างอิง ดังนั้น ข้อความที่เสนอจึงมีความแม่นยำในระดับเอกพจน์ (unigram precision) ดังนี้

โดยที่คือจำนวนคำจากต้นฉบับที่เสนอซึ่งพบในต้นฉบับอ้างอิง และคือจำนวนคำทั้งหมดในต้นฉบับที่เสนอ นี่คือคะแนนที่สมบูรณ์แบบ แม้ว่าคำแปลของต้นฉบับที่เสนอข้างต้นจะคงเนื้อหาจากต้นฉบับอ้างอิงทั้งสองไว้น้อยมากก็ตาม

การปรับเปลี่ยนที่ BLEU ทำนั้นค่อนข้างตรงไปตรงมา สำหรับแต่ละคำในคำแปลที่เสนอ อัลกอริทึมจะเลือกจำนวนครั้งรวมสูงสุดของคำนั้น () ในคำแปลอ้างอิงใดๆ ก็ตาม ในตัวอย่างข้างต้น คำว่า "the" ปรากฏสองครั้งในคำแปลอ้างอิงที่ 1 และหนึ่งครั้งในคำแปลอ้างอิงที่ 2 ดังนั้น

สำหรับการแปลตัวเลือกนั้น จำนวนการปรากฏของแต่ละคำจะถูกจำกัดไว้ที่ค่าสูงสุดที่กำหนดไว้สำหรับคำนั้นๆ ในกรณีนี้ คำว่า "the" มีและดังนั้นจึงถูกจำกัดไว้ที่ 2 จากนั้นจำนวนการปรากฏที่จำกัดเหล่านี้จะถูกนำมารวมกันสำหรับคำที่ไม่ซ้ำกันทั้งหมดในตัวเลือก ผลรวมนี้จะถูกหารด้วยจำนวนยูนิแกรม ทั้งหมด ในการแปลตัวเลือก ในตัวอย่างข้างต้น คะแนนความแม่นยำของยูนิแกรมที่แก้ไขแล้วจะเป็นดังนี้:

อย่างไรก็ตาม ในทางปฏิบัติ การใช้คำแต่ละคำเป็นหน่วยเปรียบเทียบนั้นไม่เหมาะสม BLEU จึงคำนวณเมตริกความแม่นยำที่ปรับปรุงแล้วแบบเดียวกันโดยใช้n-gram แทน พบว่าความ ยาวที่มี "ความสัมพันธ์สูงสุดกับการตัดสินของมนุษย์ที่พูดภาษาเดียว" [6]คือสี่ คะแนน unigram พบว่าสามารถบ่งบอกถึงความเพียงพอของการแปล ว่าเก็บรักษาข้อมูลไว้ได้มากน้อยเพียงใด ส่วน คะแนน n -gram ที่ยาวกว่านั้นสามารถบ่งบอกถึงความคล่องแคล่วของการแปล หรือระดับที่อ่านแล้วเหมือน "ภาษาอังกฤษที่ดี"

การเปรียบเทียบตัวชี้วัดสำหรับผู้สมัคร "แมว"
แบบอย่างชุดกรัมคะแนน
ยูนิแกรม"แมว"
ยูนิแกรมแบบกลุ่ม"the"*2, "cat"*1
บิแกรม"แมว"

ตัวอย่างคำแปลที่เหมาะสมสำหรับเอกสารอ้างอิงเดียวกันกับข้างต้น อาจเป็นดังนี้:

แมว

ในตัวอย่างนี้ ความแม่นยำของยูนิแกรมที่ปรับเปลี่ยนแล้วจะเป็นดังนี้

เนื่องจากคำว่า 'the' และคำว่า 'cat' ปรากฏเพียงครั้งเดียวในตัวเลือก และจำนวนคำทั้งหมดคือสองคำ ความแม่นยำของไบแกรม ที่แก้ไขแล้ว จะเป็นเนื่องจากไบแกรม "the cat" ปรากฏเพียงครั้งเดียวในตัวเลือก มีการชี้ให้เห็นว่าความแม่นยำมักจะควบคู่ไปกับการเรียกคืนเพื่อเอาชนะปัญหานี้[7]เนื่องจากการเรียกคืนแบบยูนิแกรมของตัวอย่างนี้จะเป็นหรือปัญหาคือเนื่องจากมีการแปลอ้างอิงหลายรายการ การแปลที่ไม่ดีอาจมีการเรียกคืนที่สูงเกินจริงได้ง่าย เช่น การแปลที่ประกอบด้วยคำทั้งหมดในแต่ละการอ้างอิง[8]

เพื่อให้ได้คะแนนสำหรับคลังข้อมูลทั้งหมด คะแนนความแม่นยำที่ปรับปรุงแล้วสำหรับแต่ละส่วนจะถูกรวมเข้าด้วยกันโดยใช้ค่าเฉลี่ยเรขาคณิตคูณด้วยค่าปรับความกระชับเพื่อป้องกันไม่ให้ข้อความที่สั้นมากได้รับคะแนนสูงเกินไป ให้rเป็นความยาวทั้งหมดของคลังข้อมูลอ้างอิง และcเป็นความยาวทั้งหมดของคลังข้อมูลการแปล ถ้าค่าปรับความกระชับจะถูกนำมาใช้ โดยกำหนดให้เป็น(ในกรณีที่มีประโยคอ้างอิงหลายประโยคrจะถือเป็นผลรวมของความยาวของประโยคที่มีความยาวใกล้เคียงกับความยาวของประโยคผู้สมัครมากที่สุด อย่างไรก็ตาม ในเวอร์ชันของเมตริกที่ใช้โดย การประเมิน ของ NISTก่อนปี 2009 จะใช้ประโยคอ้างอิงที่สั้นที่สุดแทน)

iBLEU เป็นเวอร์ชันแบบโต้ตอบของ BLEU ที่ช่วยให้ผู้ใช้สามารถตรวจสอบคะแนน BLEU ที่ได้รับจากการแปลที่เสนอได้อย่างเห็นภาพ นอกจากนี้ยังช่วยให้สามารถเปรียบเทียบระบบที่แตกต่างกันสองระบบในลักษณะที่เป็นภาพและโต้ตอบได้ ซึ่งเป็นประโยชน์สำหรับการพัฒนาระบบ[9]

ผลงาน

BLEU ได้รับการรายงานบ่อยครั้งว่ามีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์[10] [11] [12]และยังคงเป็นเกณฑ์มาตรฐานสำหรับการประเมินตัวชี้วัดการประเมินใหม่ใดๆ อย่างไรก็ตาม มีข้อวิจารณ์หลายประการที่ถูกกล่าวถึง มีข้อสังเกตว่า แม้ว่าโดยหลักการแล้ว BLEU จะสามารถประเมินการแปลภาษาใดๆ ก็ได้ แต่ในรูปแบบปัจจุบัน BLEU ไม่สามารถจัดการกับภาษาที่ไม่มีขอบเขตคำได้[13]ออกแบบมาเพื่อใช้กับการแปลอ้างอิงหลายรายการ แต่ในทางปฏิบัติใช้กับเพียงรายการเดียวเท่านั้น[ 2 ] BLEU ขึ้นชื่อเรื่องการพึ่งพา เทคนิค การแบ่งคำและคะแนนที่ได้จากเทคนิคที่แตกต่างกันนั้นไม่สามารถเปรียบเทียบกันได้ (ซึ่งมักถูกมองข้าม) เพื่อปรับปรุงความสามารถในการทำซ้ำและการเปรียบเทียบ จึงได้มีการออกแบบตัวแปร SacreBLEU ขึ้น[ 2 ]

มีการโต้แย้งว่าถึงแม้ BLEU จะมีข้อดีมากมาย แต่ก็ไม่มีการรับประกันว่าคะแนน BLEU ที่เพิ่มขึ้นจะเป็นตัวบ่งชี้ถึงคุณภาพการแปลที่ดีขึ้น[14]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ปาปิเนนี, เค. และคณะ (2002)
  2. ^ปาปิเนนี, เค. และคณะ (2002)
  3. ^คอฟลิน, ดี. (2003)
  4. ^ปาปิเนนี, เค. และคณะ (2002)
  5. ^ปาปิเนนี, เค. และคณะ (2002)
  6. ^ปาปิเนนี, เค. และคณะ (2002)
  7. ^คอฟลิน, ดี. (2003)
  8. ^ดอดดิงตัน, จี. (2002)
  9. ^ Denoual, E. และ Lepage, Y. (2005)
  10. ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
  11. ลี, เอ. และ พซีบอคกี, เอ็ม. (2005)
  12. ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
  13. ^หลิน ซี. และ อ็อค เอฟ. (2004)
  14. ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
  15. ^มาดนานี, น. (2011)

บรรณานุกรม

  • Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: วิธีการประเมินการแปลด้วยเครื่องจักรโดยอัตโนมัติ (PDF) . ACL-2002: การประชุมประจำปีครั้งที่ 40 ของสมาคมภาษาศาสตร์เชิงคำนวณ หน้า  311– 318. CiteSeerX  10.1.1.19.9416 .
  • Papineni, K., Roukos, S., Ward, T., Henderson, J และ Reeder, F. (2002). " การประเมินการแปลด้วยเครื่องจักรแบบครอบคลุมและวินิจฉัยโดยใช้คลังข้อมูล: ผลลัพธ์เบื้องต้นของภาษาอาหรับ จีน ฝรั่งเศส และสเปนจัดเก็บไว้เมื่อวันที่ 4 มีนาคม 2016 ที่Wayback Machine " ใน Proceedings of Human Language Technology 2002, San Diego, หน้า 132–137
  • Callison-Burch, C., Osborne, M. และ Koehn, P. (2006) " การประเมินบทบาทของ BLEU ในงานวิจัยการแปลด้วยเครื่องจักรอีกครั้ง เก็บ ถาวร เมื่อ 2008-12-04 ที่Wayback Machine " ในการประชุมครั้งที่ 11 ของสาขายุโรปของสมาคมภาษาศาสตร์เชิงคำนวณ: EACL 2006หน้า 249–256
  • Doddington, G. (2002) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้สถิติการเกิดร่วมกัน ของ n-gram เก็บถาวร เมื่อ 2013-10-12 ที่Wayback Machine " ในProceedings of the Human Language Technology Conference (HLT), San Diego, CAหน้า 128–132
  • Coughlin, D. (2003) " ความสัมพันธ์ระหว่างการประเมินคุณภาพการแปลด้วยเครื่องจักรแบบอัตโนมัติและแบบมนุษย์เก็บถาวรเมื่อ 2008-09-06 ที่Wayback Machine " ในMT Summit IX, นิวออร์ลีนส์, สหรัฐอเมริกาหน้า 23–27
  • Denoual, E. และ Lepage, Y. (2005) " BLEU ในตัวอักษร: มุ่งสู่การประเมิน MT อัตโนมัติในภาษาที่ไม่มีตัวคั่นคำ เก็บถาวรเมื่อ 2011-07-18 ที่Wayback Machine " ในCompanion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processingหน้า 81–86
  • Lee, A. และ Przybocki, M. (2005) ผลการประเมินการแปลด้วยเครื่องจักร NIST 2005 อย่างเป็นทางการ
  • Lin, C. และ Och, F. (2004) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้ลำดับย่อยร่วมที่ยาวที่สุดและสถิติ Skip-Bigram เก็บถาวรเมื่อ 2008-07-05 ที่Wayback Machine " ในรายงานการประชุมประจำปีครั้งที่ 42 ของสมาคมภาษาศาสตร์เชิงคำนวณ
  • Madnani, N. (2011). " iBLEU: การให้คะแนนและแก้ไขข้อผิดพลาดแบบโต้ตอบสำหรับระบบการแปลด้วยเครื่องจักรเชิงสถิติ " ใน "รายงานการประชุมนานาชาติ IEEE ครั้งที่ 5 ว่าด้วยการคำนวณเชิงความหมาย (Demos), Palo Alto, CA" หน้า 213–214
  • BLEU – การประเมินผลแบบสองภาษา (Bilingual Evaluation) ผู้ช่วยบรรยายในหลักสูตรการแปลด้วยเครื่องจักร โดยสถาบันเทคโนโลยีคาร์ลสรูห์ (Karlsruhe Institute of Technology ) Coursera

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=BLEU&oldid=1346245832 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สีน้ำเงิน

BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับ ประเมิน คุณภาพของข้อความที่ได้รับ การแปลด้วยเครื่อง จาก ภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง...

การตั้งค่าพื้นฐาน

การกำหนดคะแนน BLEU ขั้นพื้นฐานในเบื้องต้นจะต้องใช้พารามิเตอร์สองตัว ได้แก่ สตริงที่ต้องการทดสอบและรายการสตริงอ้างอิงแนวคิดคือ ค่า ของคะแนน BLEU ควรใกล้เคียงกับ 1 เมื่อสตริงที่ต้องการทดสอบคล้ายกับสตริงอ้างอิงและควรใกล้เคียงกับ 0 หากไม่คล้ายกัน y ^...

ความแม่นยำของ n-gram ที่ปรับปรุงแล้ว

กำหนด ฟังก์ชัน ความแม่นยำของ n-gram ที่แก้ไขแล้ว เป็นn-gram ที่แก้ไขแล้ว ซึ่งดูซับซ้อนนั้น เป็นเพียงการสรุปทั่วไปอย่างตรงไปตรงมาของกรณีต้นแบบ: ประโยคผู้สมัครหนึ่งประโยคและประโยคอ้างอิงหนึ่งประโยค ในกรณีนี้คือเพื่อให้ได้นิพจน์นี้ เราเริ่มต้นด้วยการรวมจำนวน...

บทลงโทษสำหรับความกระชับ

ความแม่นยำของ n-gram ที่ถูกปรับเปลี่ยนนั้นให้คะแนนสูงเกินควรแก่สตริงผู้สมัครที่เป็น " แบบย่อ " กล่าวคือ สตริงที่ประกอบด้วย n-gram ทั้งหมดของสตริงอ้างอิง แต่มีจำนวนครั้งน้อยที่สุดเท่าที่จะเป็นไปได้