อ่าน 9 นาที
สีน้ำเงิน
BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับ ประเมิน คุณภาพของข้อความที่ได้รับ การแปลด้วยเครื่อง จาก ภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง...
สีน้ำเงิน
BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับประเมินคุณภาพของข้อความที่ได้รับการแปลด้วยเครื่องจากภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง คุณภาพถือเป็นความสอดคล้องระหว่างผลลัพธ์ของเครื่องจักรกับผลลัพธ์ของมนุษย์: "ยิ่งการแปลด้วยเครื่องจักรใกล้เคียงกับการแปลโดยมนุษย์มืออาชีพมากเท่าไหร่ ก็ยิ่งดีเท่านั้น" – นี่คือแนวคิดหลักเบื้องหลัง BLEU [1] BLEU ถูกคิดค้นขึ้นที่IBMในปี 2001 และเป็นหนึ่งในเมตริก แรกๆ ที่อ้างว่า มีความสัมพันธ์สูงกับการตัดสินคุณภาพของมนุษย์[2] [3]และยังคงเป็นหนึ่งในเมตริกอัตโนมัติและราคาไม่แพงที่ได้รับความนิยมมากที่สุด
คะแนนจะถูกคำนวณสำหรับส่วนที่แปลแต่ละส่วน—โดยทั่วไปคือประโยค—โดยการเปรียบเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพดี จากนั้นคะแนนเหล่านั้นจะถูกหาค่าเฉลี่ยทั่วทั้งคลังข้อมูลเพื่อประเมินคุณภาพโดยรวมของคำแปล ความเข้าใจได้หรือความถูกต้องทางไวยากรณ์จะไม่ถูกนำมาพิจารณา[4]
ผลลัพธ์ของ BLEU จะเป็นตัวเลขระหว่าง 0 ถึง 1 เสมอ ค่านี้บ่งชี้ว่าข้อความที่เสนอมีความคล้ายคลึงกับข้อความอ้างอิงมากน้อยเพียงใด โดยค่าที่ใกล้ 1 มากขึ้นจะหมายถึงข้อความที่คล้ายคลึงกันมากขึ้น การแปลโดยมนุษย์ส่วนน้อยเท่านั้นที่จะได้คะแนน 1 เนื่องจากคะแนนนี้จะบ่งชี้ว่าข้อความที่เสนอเหมือนกับการแปลอ้างอิงเพียงรายการเดียว ด้วยเหตุนี้ การได้คะแนน 1 จึงไม่จำเป็น เนื่องจากมีโอกาสจับคู่ได้มากขึ้น การเพิ่มการแปลอ้างอิงเพิ่มเติมจะทำให้คะแนน BLEU สูงขึ้น[5]
นิยามทางคณิตศาสตร์
การตั้งค่าพื้นฐาน
การกำหนดคะแนน BLEU ขั้นพื้นฐานในเบื้องต้นจะต้องใช้พารามิเตอร์สองตัว ได้แก่ สตริงที่ต้องการทดสอบและรายการสตริงอ้างอิงแนวคิดคือ ค่า ของคะแนน BLEU ควรใกล้เคียงกับ 1 เมื่อสตริงที่ต้องการทดสอบคล้ายกับสตริงอ้างอิงและควรใกล้เคียงกับ 0 หากไม่คล้ายกัน
เพื่อเป็นการเปรียบเทียบ คะแนน BLEU ก็เหมือนกับครูสอนภาษาที่พยายามให้คะแนนคุณภาพงานแปลของนักเรียน โดยตรวจสอบ ว่า งานแปลนั้นตรงกับคำตอบต้นฉบับมากน้อยเพียงใด
เนื่องจากในการประมวลผลภาษาธรรมชาติจำเป็นต้องประเมินชุดสตริงผู้สมัครจำนวนมาก จึงต้องขยายคะแนน BLEU ไปยังกรณีที่มีรายการสตริงผู้สมัคร M รายการ (เรียกว่า " คอร์ปัส ") และสำหรับแต่ละสตริงผู้สมัครจะมีรายการสตริงผู้สมัครอ้างอิงด้วย
เมื่อกำหนดสตริงใดๆและจำนวนเต็มใดๆเราจะกำหนดเซตของn-gram ของสตริงนั้น ให้เป็นโปรดสังเกตว่าเซตนี้เป็นเซตขององค์ประกอบที่ไม่ซ้ำกัน ไม่ใช่มัลติเซตที่อนุญาตให้มีองค์ประกอบที่ซ้ำซ้อน ดังนั้น ตัวอย่างเช่น
กำหนดให้สตริงสองสตริงใดๆ ให้ กำหนดจำนวนสตริงย่อยเป็นจำนวนครั้งที่สตริง ปรากฏเป็นสตริงย่อยของสตริงตัวอย่างเช่น...
ตอนนี้ กำหนดชุดข้อมูลผู้สมัครและอ้างอิงชุดข้อมูลผู้สมัครโดยที่แต่ละ.
ความแม่นยำของ n-gram ที่ปรับปรุงแล้ว
กำหนด ฟังก์ชัน ความแม่นยำของ n-gram ที่แก้ไขแล้วเป็นn-gram ที่แก้ไขแล้ว ซึ่งดูซับซ้อนนั้น เป็นเพียงการสรุปทั่วไปอย่างตรงไปตรงมาของกรณีต้นแบบ: ประโยคผู้สมัครหนึ่งประโยคและประโยคอ้างอิงหนึ่งประโยค ในกรณีนี้คือเพื่อให้ได้นิพจน์นี้ เราเริ่มต้นด้วยการรวมจำนวน n-gram ที่ชัดเจนที่สุด: ปริมาณนี้วัดว่า n-gram ในประโยคอ้างอิงถูกสร้างขึ้นใหม่โดยประโยคผู้สมัครกี่ตัว โปรดทราบว่าเรานับสตริงย่อย n- gram ไม่ใช่n-gramตัวอย่างเช่น เมื่อ n-gram = n- gram สตริงย่อย 2-gram ทั้งหมดใน(ab และ ba) ปรากฏใน3 ครั้ง ดังนั้นจำนวนนับคือ 6 ไม่ใช่ 2
อย่างไรก็ตาม ในสถานการณ์ข้างต้น สตริงผู้สมัครนั้นสั้นเกินไป แทนที่จะปรากฏ 3 ครั้ง กลับปรากฏเพียงครั้งเดียว ดังนั้นเราจึงเพิ่มฟังก์ชันขั้นต่ำเพื่อแก้ไขปัญหานี้: ผลรวมของการนับนี้ไม่สามารถใช้เพื่อเปรียบเทียบระหว่างประโยคได้ เนื่องจากไม่ได้ถูกทำให้เป็นมาตรฐาน หากทั้งประโยคอ้างอิงและประโยคผู้สมัครยาว การนับอาจมีขนาดใหญ่ แม้ว่าผู้สมัครจะมีคุณภาพต่ำมากก็ตาม ดังนั้นเราจึงทำให้เป็นมาตรฐานการทำให้เป็นมาตรฐานนั้นเป็นไปในลักษณะที่ว่ามันจะเป็นตัวเลขใน เสมอซึ่งช่วยให้สามารถเปรียบเทียบระหว่างคลังข้อมูลได้อย่างมีความหมาย มันจะเป็นศูนย์หากไม่มีสตริงย่อย n ตัวใดในผู้สมัครปรากฏในประโยคอ้างอิง มันจะเป็นหนึ่งหากทุก n-gram ในผู้สมัครปรากฏในประโยคอ้างอิงอย่างน้อยเท่ากับจำนวนครั้งที่ปรากฏในผู้สมัคร โดยเฉพาะอย่างยิ่ง หากผู้สมัครเป็นสตริงย่อยของประโยคอ้างอิง มันจะมีค่าเป็นหนึ่ง
บทลงโทษสำหรับความกระชับ
ความแม่นยำของ n-gram ที่ถูกปรับเปลี่ยนนั้นให้คะแนนสูงเกินควรแก่สตริงผู้สมัครที่เป็น " แบบย่อ " กล่าวคือ สตริงที่ประกอบด้วย n-gram ทั้งหมดของสตริงอ้างอิง แต่มีจำนวนครั้งน้อยที่สุดเท่าที่จะเป็นไปได้
เพื่อลงโทษสตริงผู้สมัครที่สั้นเกินไป ให้กำหนดค่าปรับความสั้นเป็น โดยที่คือส่วนบวกของ
- เมื่อใดบทลงโทษสำหรับความกระชับหมายความว่าเราจะไม่ลงโทษผู้สมัครที่ยาวเกินไป แต่จะลงโทษเฉพาะผู้สมัครที่สั้นเกินไปเท่านั้น
- เมื่อใดบทลงโทษสำหรับความกระชับ
คือความยาวของกลุ่มผู้สมัคร นั่นคือโดยที่คือความยาวของ
คือความยาวของคลังข้อมูลอ้างอิงที่มีประสิทธิภาพซึ่งก็คือประโยคที่มีความยาวใกล้เคียงกับมากที่สุด
สูตรสุดท้าย
BLEU ไม่ได้มีนิยามเดียว แต่มีนิยามหลายแบบ โดยแต่ละนิยามถูกกำหนดพารามิเตอร์ด้วยเวกเตอร์ถ่วงน้ำหนักBLEU คือการแจกแจงความน่าจะเป็นบนนั่นคือและ
เมื่อเลือกค่าใดค่าหนึ่งแล้วคะแนน BLEU จะคำนวณได้จากค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนักของค่าความแม่นยำของ n-gram ที่ปรับเปลี่ยนทั้งหมด คูณด้วยค่าปรับลดความกระชับ เราใช้ค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนัก แทนที่จะใช้ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก เพื่อสนับสนุนคลังข้อมูลที่ตรงตามเกณฑ์ความแม่นยำของ n-gram หลายค่าพร้อมกันอย่างมีประสิทธิภาพ
ตัวเลือกทั่วไปที่สุด ซึ่ง เป็นตัวเลือกที่แนะนำในเอกสารต้นฉบับ คือ[ 1 ]
อัลกอริทึม
ตัวอย่างต่อไปนี้จาก Papineni et al. (2002) แสดงให้เห็นถึงเรื่องนี้:
| ผู้สมัคร | ที่ | ที่ | ที่ | ที่ | ที่ | ที่ | ที่ |
|---|---|---|---|---|---|---|---|
| อ้างอิง 1 | ที่ | แมว | เป็น | บน | ที่ | เสื่อ | |
| อ้างอิง 2 | ที่นั่น | เป็น | เอ | แมว | บน | ที่ | เสื่อ |
จากคำทั้งเจ็ดคำในคำแปลที่เสนอ ทุกคำปรากฏอยู่ในคำแปลอ้างอิง ดังนั้น ข้อความที่เสนอจึงมีความแม่นยำในระดับเอกพจน์ (unigram precision) ดังนี้
โดยที่คือจำนวนคำจากต้นฉบับที่เสนอซึ่งพบในต้นฉบับอ้างอิง และคือจำนวนคำทั้งหมดในต้นฉบับที่เสนอ นี่คือคะแนนที่สมบูรณ์แบบ แม้ว่าคำแปลของต้นฉบับที่เสนอข้างต้นจะคงเนื้อหาจากต้นฉบับอ้างอิงทั้งสองไว้น้อยมากก็ตาม
การปรับเปลี่ยนที่ BLEU ทำนั้นค่อนข้างตรงไปตรงมา สำหรับแต่ละคำในคำแปลที่เสนอ อัลกอริทึมจะเลือกจำนวนครั้งรวมสูงสุดของคำนั้น () ในคำแปลอ้างอิงใดๆ ก็ตาม ในตัวอย่างข้างต้น คำว่า "the" ปรากฏสองครั้งในคำแปลอ้างอิงที่ 1 และหนึ่งครั้งในคำแปลอ้างอิงที่ 2 ดังนั้น
สำหรับการแปลตัวเลือกนั้น จำนวนการปรากฏของแต่ละคำจะถูกจำกัดไว้ที่ค่าสูงสุดที่กำหนดไว้สำหรับคำนั้นๆ ในกรณีนี้ คำว่า "the" มีและดังนั้นจึงถูกจำกัดไว้ที่ 2 จากนั้นจำนวนการปรากฏที่จำกัดเหล่านี้จะถูกนำมารวมกันสำหรับคำที่ไม่ซ้ำกันทั้งหมดในตัวเลือก ผลรวมนี้จะถูกหารด้วยจำนวนยูนิแกรม ทั้งหมด ในการแปลตัวเลือก ในตัวอย่างข้างต้น คะแนนความแม่นยำของยูนิแกรมที่แก้ไขแล้วจะเป็นดังนี้:
อย่างไรก็ตาม ในทางปฏิบัติ การใช้คำแต่ละคำเป็นหน่วยเปรียบเทียบนั้นไม่เหมาะสม BLEU จึงคำนวณเมตริกความแม่นยำที่ปรับปรุงแล้วแบบเดียวกันโดยใช้n-gram แทน พบว่าความ ยาวที่มี "ความสัมพันธ์สูงสุดกับการตัดสินของมนุษย์ที่พูดภาษาเดียว" [6]คือสี่ คะแนน unigram พบว่าสามารถบ่งบอกถึงความเพียงพอของการแปล ว่าเก็บรักษาข้อมูลไว้ได้มากน้อยเพียงใด ส่วน คะแนน n -gram ที่ยาวกว่านั้นสามารถบ่งบอกถึงความคล่องแคล่วของการแปล หรือระดับที่อ่านแล้วเหมือน "ภาษาอังกฤษที่ดี"
| แบบอย่าง | ชุดกรัม | คะแนน |
|---|---|---|
| ยูนิแกรม | "แมว" | |
| ยูนิแกรมแบบกลุ่ม | "the"*2, "cat"*1 | |
| บิแกรม | "แมว" |
ตัวอย่างคำแปลที่เหมาะสมสำหรับเอกสารอ้างอิงเดียวกันกับข้างต้น อาจเป็นดังนี้:
- แมว
ในตัวอย่างนี้ ความแม่นยำของยูนิแกรมที่ปรับเปลี่ยนแล้วจะเป็นดังนี้
เนื่องจากคำว่า 'the' และคำว่า 'cat' ปรากฏเพียงครั้งเดียวในตัวเลือก และจำนวนคำทั้งหมดคือสองคำ ความแม่นยำของไบแกรม ที่แก้ไขแล้ว จะเป็นเนื่องจากไบแกรม "the cat" ปรากฏเพียงครั้งเดียวในตัวเลือก มีการชี้ให้เห็นว่าความแม่นยำมักจะควบคู่ไปกับการเรียกคืนเพื่อเอาชนะปัญหานี้[7]เนื่องจากการเรียกคืนแบบยูนิแกรมของตัวอย่างนี้จะเป็นหรือปัญหาคือเนื่องจากมีการแปลอ้างอิงหลายรายการ การแปลที่ไม่ดีอาจมีการเรียกคืนที่สูงเกินจริงได้ง่าย เช่น การแปลที่ประกอบด้วยคำทั้งหมดในแต่ละการอ้างอิง[8]
เพื่อให้ได้คะแนนสำหรับคลังข้อมูลทั้งหมด คะแนนความแม่นยำที่ปรับปรุงแล้วสำหรับแต่ละส่วนจะถูกรวมเข้าด้วยกันโดยใช้ค่าเฉลี่ยเรขาคณิตคูณด้วยค่าปรับความกระชับเพื่อป้องกันไม่ให้ข้อความที่สั้นมากได้รับคะแนนสูงเกินไป ให้rเป็นความยาวทั้งหมดของคลังข้อมูลอ้างอิง และcเป็นความยาวทั้งหมดของคลังข้อมูลการแปล ถ้าค่าปรับความกระชับจะถูกนำมาใช้ โดยกำหนดให้เป็น(ในกรณีที่มีประโยคอ้างอิงหลายประโยคrจะถือเป็นผลรวมของความยาวของประโยคที่มีความยาวใกล้เคียงกับความยาวของประโยคผู้สมัครมากที่สุด อย่างไรก็ตาม ในเวอร์ชันของเมตริกที่ใช้โดย การประเมิน ของ NISTก่อนปี 2009 จะใช้ประโยคอ้างอิงที่สั้นที่สุดแทน)
iBLEU เป็นเวอร์ชันแบบโต้ตอบของ BLEU ที่ช่วยให้ผู้ใช้สามารถตรวจสอบคะแนน BLEU ที่ได้รับจากการแปลที่เสนอได้อย่างเห็นภาพ นอกจากนี้ยังช่วยให้สามารถเปรียบเทียบระบบที่แตกต่างกันสองระบบในลักษณะที่เป็นภาพและโต้ตอบได้ ซึ่งเป็นประโยชน์สำหรับการพัฒนาระบบ[9]
ผลงาน
BLEU ได้รับการรายงานบ่อยครั้งว่ามีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์[10] [11] [12]และยังคงเป็นเกณฑ์มาตรฐานสำหรับการประเมินตัวชี้วัดการประเมินใหม่ใดๆ อย่างไรก็ตาม มีข้อวิจารณ์หลายประการที่ถูกกล่าวถึง มีข้อสังเกตว่า แม้ว่าโดยหลักการแล้ว BLEU จะสามารถประเมินการแปลภาษาใดๆ ก็ได้ แต่ในรูปแบบปัจจุบัน BLEU ไม่สามารถจัดการกับภาษาที่ไม่มีขอบเขตคำได้[13]ออกแบบมาเพื่อใช้กับการแปลอ้างอิงหลายรายการ แต่ในทางปฏิบัติใช้กับเพียงรายการเดียวเท่านั้น[ 2 ] BLEU ขึ้นชื่อเรื่องการพึ่งพา เทคนิค การแบ่งคำและคะแนนที่ได้จากเทคนิคที่แตกต่างกันนั้นไม่สามารถเปรียบเทียบกันได้ (ซึ่งมักถูกมองข้าม) เพื่อปรับปรุงความสามารถในการทำซ้ำและการเปรียบเทียบ จึงได้มีการออกแบบตัวแปร SacreBLEU ขึ้น[ 2 ]
มีการโต้แย้งว่าถึงแม้ BLEU จะมีข้อดีมากมาย แต่ก็ไม่มีการรับประกันว่าคะแนน BLEU ที่เพิ่มขึ้นจะเป็นตัวบ่งชี้ถึงคุณภาพการแปลที่ดีขึ้น[14]
ดูเพิ่มเติม
หมายเหตุ
- ^ปาปิเนนี, เค. และคณะ (2002)
- ^ปาปิเนนี, เค. และคณะ (2002)
- ^คอฟลิน, ดี. (2003)
- ^ปาปิเนนี, เค. และคณะ (2002)
- ^ปาปิเนนี, เค. และคณะ (2002)
- ^ปาปิเนนี, เค. และคณะ (2002)
- ^คอฟลิน, ดี. (2003)
- ^ดอดดิงตัน, จี. (2002)
- ^ Denoual, E. และ Lepage, Y. (2005)
- ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
- ↑ลี, เอ. และ พซีบอคกี, เอ็ม. (2005)
- ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
- ^หลิน ซี. และ อ็อค เอฟ. (2004)
- ^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
- ^มาดนานี, น. (2011)
บรรณานุกรม
- Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: วิธีการประเมินการแปลด้วยเครื่องจักรโดยอัตโนมัติ (PDF) . ACL-2002: การประชุมประจำปีครั้งที่ 40 ของสมาคมภาษาศาสตร์เชิงคำนวณ หน้า 311– 318. CiteSeerX 10.1.1.19.9416 .
- Papineni, K., Roukos, S., Ward, T., Henderson, J และ Reeder, F. (2002). " การประเมินการแปลด้วยเครื่องจักรแบบครอบคลุมและวินิจฉัยโดยใช้คลังข้อมูล: ผลลัพธ์เบื้องต้นของภาษาอาหรับ จีน ฝรั่งเศส และสเปนจัดเก็บไว้เมื่อวันที่ 4 มีนาคม 2016 ที่Wayback Machine " ใน Proceedings of Human Language Technology 2002, San Diego, หน้า 132–137
- Callison-Burch, C., Osborne, M. และ Koehn, P. (2006) " การประเมินบทบาทของ BLEU ในงานวิจัยการแปลด้วยเครื่องจักรอีกครั้ง เก็บ ถาวร เมื่อ 2008-12-04 ที่Wayback Machine " ในการประชุมครั้งที่ 11 ของสาขายุโรปของสมาคมภาษาศาสตร์เชิงคำนวณ: EACL 2006หน้า 249–256
- Doddington, G. (2002) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้สถิติการเกิดร่วมกัน ของ n-gram เก็บถาวร เมื่อ 2013-10-12 ที่Wayback Machine " ในProceedings of the Human Language Technology Conference (HLT), San Diego, CAหน้า 128–132
- Coughlin, D. (2003) " ความสัมพันธ์ระหว่างการประเมินคุณภาพการแปลด้วยเครื่องจักรแบบอัตโนมัติและแบบมนุษย์เก็บถาวรเมื่อ 2008-09-06 ที่Wayback Machine " ในMT Summit IX, นิวออร์ลีนส์, สหรัฐอเมริกาหน้า 23–27
- Denoual, E. และ Lepage, Y. (2005) " BLEU ในตัวอักษร: มุ่งสู่การประเมิน MT อัตโนมัติในภาษาที่ไม่มีตัวคั่นคำ เก็บถาวรเมื่อ 2011-07-18 ที่Wayback Machine " ในCompanion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processingหน้า 81–86
- Lee, A. และ Przybocki, M. (2005) ผลการประเมินการแปลด้วยเครื่องจักร NIST 2005 อย่างเป็นทางการ
- Lin, C. และ Och, F. (2004) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้ลำดับย่อยร่วมที่ยาวที่สุดและสถิติ Skip-Bigram เก็บถาวรเมื่อ 2008-07-05 ที่Wayback Machine " ในรายงานการประชุมประจำปีครั้งที่ 42 ของสมาคมภาษาศาสตร์เชิงคำนวณ
- Madnani, N. (2011). " iBLEU: การให้คะแนนและแก้ไขข้อผิดพลาดแบบโต้ตอบสำหรับระบบการแปลด้วยเครื่องจักรเชิงสถิติ " ใน "รายงานการประชุมนานาชาติ IEEE ครั้งที่ 5 ว่าด้วยการคำนวณเชิงความหมาย (Demos), Palo Alto, CA" หน้า 213–214
ลิงก์ภายนอก
- BLEU – การประเมินผลแบบสองภาษา (Bilingual Evaluation) ผู้ช่วยบรรยายในหลักสูตรการแปลด้วยเครื่องจักร โดยสถาบันเทคโนโลยีคาร์ลสรูห์ (Karlsruhe Institute of Technology ) Coursera
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สีน้ำเงิน
BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับ ประเมิน คุณภาพของข้อความที่ได้รับ การแปลด้วยเครื่อง จาก ภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง...
การตั้งค่าพื้นฐาน
การกำหนดคะแนน BLEU ขั้นพื้นฐานในเบื้องต้นจะต้องใช้พารามิเตอร์สองตัว ได้แก่ สตริงที่ต้องการทดสอบและรายการสตริงอ้างอิงแนวคิดคือ ค่า ของคะแนน BLEU ควรใกล้เคียงกับ 1 เมื่อสตริงที่ต้องการทดสอบคล้ายกับสตริงอ้างอิงและควรใกล้เคียงกับ 0 หากไม่คล้ายกัน y ^...
ความแม่นยำของ n-gram ที่ปรับปรุงแล้ว
กำหนด ฟังก์ชัน ความแม่นยำของ n-gram ที่แก้ไขแล้ว เป็นn-gram ที่แก้ไขแล้ว ซึ่งดูซับซ้อนนั้น เป็นเพียงการสรุปทั่วไปอย่างตรงไปตรงมาของกรณีต้นแบบ: ประโยคผู้สมัครหนึ่งประโยคและประโยคอ้างอิงหนึ่งประโยค ในกรณีนี้คือเพื่อให้ได้นิพจน์นี้ เราเริ่มต้นด้วยการรวมจำนวน...
บทลงโทษสำหรับความกระชับ
ความแม่นยำของ n-gram ที่ถูกปรับเปลี่ยนนั้นให้คะแนนสูงเกินควรแก่สตริงผู้สมัครที่เป็น " แบบย่อ " กล่าวคือ สตริงที่ประกอบด้วย n-gram ทั้งหมดของสตริงอ้างอิง แต่มีจำนวนครั้งน้อยที่สุดเท่าที่จะเป็นไปได้