สีน้ำเงิน

BLEU ( bilingual evaluation understudy ) เป็นอัลกอริธึมสำหรับประเมินคุณภาพของข้อความที่ได้รับการแปลด้วยเครื่องจากภาษาธรรมชาติ หนึ่ง ไปยังอีกภาษาหนึ่ง คุณภาพถือเป็นความสอดคล้องระหว่างผลลัพธ์ของเครื่องจักรกับผลลัพธ์ของมนุษย์: "ยิ่งการแปลด้วยเครื่องจักรใกล้เคียงกับการแปลโดยมนุษย์มืออาชีพมากเท่าไหร่ ก็ยิ่งดีเท่านั้น" – นี่คือแนวคิดหลักเบื้องหลัง BLEU ^[1] BLEU ถูกคิดค้นขึ้นที่IBMในปี 2001 และเป็นหนึ่งในเมตริก แรกๆ ที่อ้างว่า มีความสัมพันธ์สูงกับการตัดสินคุณภาพของมนุษย์^[2]^[3]และยังคงเป็นหนึ่งในเมตริกอัตโนมัติและราคาไม่แพงที่ได้รับความนิยมมากที่สุด

คะแนนจะถูกคำนวณสำหรับส่วนที่แปลแต่ละส่วน—โดยทั่วไปคือประโยค—โดยการเปรียบเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพดี จากนั้นคะแนนเหล่านั้นจะถูกหาค่าเฉลี่ยทั่วทั้งคลังข้อมูลเพื่อประเมินคุณภาพโดยรวมของคำแปล ความเข้าใจได้หรือความถูกต้องทางไวยากรณ์จะไม่ถูกนำมาพิจารณา^[4]

ผลลัพธ์ของ BLEU จะเป็นตัวเลขระหว่าง 0 ถึง 1 เสมอ ค่านี้บ่งชี้ว่าข้อความที่เสนอมีความคล้ายคลึงกับข้อความอ้างอิงมากน้อยเพียงใด โดยค่าที่ใกล้ 1 มากขึ้นจะหมายถึงข้อความที่คล้ายคลึงกันมากขึ้น การแปลโดยมนุษย์ส่วนน้อยเท่านั้นที่จะได้คะแนน 1 เนื่องจากคะแนนนี้จะบ่งชี้ว่าข้อความที่เสนอเหมือนกับการแปลอ้างอิงเพียงรายการเดียว ด้วยเหตุนี้ การได้คะแนน 1 จึงไม่จำเป็น เนื่องจากมีโอกาสจับคู่ได้มากขึ้น การเพิ่มการแปลอ้างอิงเพิ่มเติมจะทำให้คะแนน BLEU สูงขึ้น^[5]

นิยามทางคณิตศาสตร์

การตั้งค่าพื้นฐาน

การกำหนดคะแนน BLEU ขั้นพื้นฐานในเบื้องต้นจะต้องใช้พารามิเตอร์สองตัว ได้แก่ สตริงที่ต้องการทดสอบและรายการสตริงอ้างอิงแนวคิดคือ ค่า ของคะแนน BLEU ควรใกล้เคียงกับ 1 เมื่อสตริงที่ต้องการทดสอบคล้ายกับสตริงอ้างอิงและควรใกล้เคียงกับ 0 หากไม่คล้ายกัน ${\hat {y}}$ $(y^{(1)},...,y^{(N)})$ $BLEU({\hat {y}};y^{(1)},...,y^{(N)})$ ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

เพื่อเป็นการเปรียบเทียบ คะแนน BLEU ก็เหมือนกับครูสอนภาษาที่พยายามให้คะแนนคุณภาพงานแปลของนักเรียน โดยตรวจสอบ ว่า งานแปลนั้นตรงกับคำตอบต้นฉบับมากน้อยเพียงใด ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

เนื่องจากในการประมวลผลภาษาธรรมชาติจำเป็นต้องประเมินชุดสตริงผู้สมัครจำนวนมาก จึงต้องขยายคะแนน BLEU ไปยังกรณีที่มีรายการสตริงผู้สมัคร M รายการ (เรียกว่า " คอร์ปัส ") และสำหรับแต่ละสตริงผู้สมัครจะมีรายการสตริงผู้สมัครอ้างอิงด้วย $({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ ${\hat {y}}^{(i)}$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

เมื่อกำหนดสตริงใดๆและจำนวนเต็มใดๆเราจะกำหนดเซตของn-gram ของสตริงนั้น ให้เป็นโปรดสังเกตว่าเซตนี้เป็นเซตขององค์ประกอบที่ไม่ซ้ำกัน ไม่ใช่มัลติเซตที่อนุญาตให้มีองค์ประกอบที่ซ้ำซ้อน ดังนั้น ตัวอย่างเช่น $y=y_{1}y_{2}\cdots y_{K}$ $n\geq 1$ $G_{n}(y)=\{y_{1}\cdots y_{n},y_{2}\cdots y_{n+1},\cdots ,y_{K-n+1}\cdots y_{K}\}$ $G_{2}(อาบับ)=\{ab,ba\}$

กำหนดให้สตริงสองสตริงใดๆ ให้ กำหนดจำนวนสตริงย่อยเป็นจำนวนครั้งที่สตริง ปรากฏเป็นสตริงย่อยของสตริงตัวอย่างเช่น... $s,y$ $C(s,y)$ $s$ $y$ $C(ab,abcbab)=2$

ตอนนี้ กำหนดชุดข้อมูลผู้สมัครและอ้างอิงชุดข้อมูลผู้สมัครโดยที่แต่ละ. ${\hat {S}}:=({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ $S=(S_{1},\cdots ,S_{M})$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

ความแม่นยำของ n-gram ที่ปรับปรุงแล้ว

กำหนด ฟังก์ชัน ความแม่นยำของ n-gram ที่แก้ไขแล้วเป็นn-gram ที่แก้ไขแล้ว ซึ่งดูซับซ้อนนั้น เป็นเพียงการสรุปทั่วไปอย่างตรงไปตรงมาของกรณีต้นแบบ: ประโยคผู้สมัครหนึ่งประโยคและประโยคอ้างอิงหนึ่งประโยค ในกรณีนี้คือเพื่อให้ได้นิพจน์นี้ เราเริ่มต้นด้วยการรวมจำนวน n-gram ที่ชัดเจนที่สุด: ปริมาณนี้วัดว่า n-gram ในประโยคอ้างอิงถูกสร้างขึ้นใหม่โดยประโยคผู้สมัครกี่ตัว โปรดทราบว่าเรานับสตริงย่อย n- gram ไม่ใช่n-gramตัวอย่างเช่น เมื่อ n-gram = n- gram สตริงย่อย 2-gram ทั้งหมดใน(ab และ ba) ปรากฏใน3 ครั้ง ดังนั้นจำนวนนับคือ 6 ไม่ใช่ 2 $p_{n}({\hat {S}};S):={\frac {\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}\min(C(s,{\hat {y}}^{(i)}),\max _{y\in S_{i}}C(s,y))}{\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}C(s,{\hat {y}}^{(i)})}}$ $p_{n}(\{{\hat {y}}\};\{y\})={\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $\sum _{s\in G_{n}({\hat {y}})}C(s,y)={\text{จำนวนสตริงย่อย n ตัวใน }}{\hat {y}}{\text{ ที่ปรากฏใน }}y$ ${\hat {y}}=aba,y=abababa,n=2$ ${\hat {y}}$ $y$

อย่างไรก็ตาม ในสถานการณ์ข้างต้น สตริงผู้สมัครนั้นสั้นเกินไป แทนที่จะปรากฏ 3 ครั้ง กลับปรากฏเพียงครั้งเดียว ดังนั้นเราจึงเพิ่มฟังก์ชันขั้นต่ำเพื่อแก้ไขปัญหานี้: ผลรวมของการนับนี้ไม่สามารถใช้เพื่อเปรียบเทียบระหว่างประโยคได้ เนื่องจากไม่ได้ถูกทำให้เป็นมาตรฐาน หากทั้งประโยคอ้างอิงและประโยคผู้สมัครยาว การนับอาจมีขนาดใหญ่ แม้ว่าผู้สมัครจะมีคุณภาพต่ำมากก็ตาม ดังนั้นเราจึงทำให้เป็นมาตรฐานการทำให้เป็นมาตรฐานนั้นเป็นไปในลักษณะที่ว่ามันจะเป็นตัวเลขใน เสมอซึ่งช่วยให้สามารถเปรียบเทียบระหว่างคลังข้อมูลได้อย่างมีความหมาย มันจะเป็นศูนย์หากไม่มีสตริงย่อย n ตัวใดในผู้สมัครปรากฏในประโยคอ้างอิง มันจะเป็นหนึ่งหากทุก n-gram ในผู้สมัครปรากฏในประโยคอ้างอิงอย่างน้อยเท่ากับจำนวนครั้งที่ปรากฏในผู้สมัคร โดยเฉพาะอย่างยิ่ง หากผู้สมัครเป็นสตริงย่อยของประโยคอ้างอิง มันจะมีค่าเป็นหนึ่ง $ab$ ${\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}$ ${\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $[0,1]$

บทลงโทษสำหรับความกระชับ

ความแม่นยำของ n-gram ที่ถูกปรับเปลี่ยนนั้นให้คะแนนสูงเกินควรแก่สตริงผู้สมัครที่เป็น " แบบย่อ " กล่าวคือ สตริงที่ประกอบด้วย n-gram ทั้งหมดของสตริงอ้างอิง แต่มีจำนวนครั้งน้อยที่สุดเท่าที่จะเป็นไปได้

เพื่อลงโทษสตริงผู้สมัครที่สั้นเกินไป ให้กำหนดค่าปรับความสั้นเป็น โดยที่คือส่วนบวกของ $BP({\hat {S}};S):=e^{-(r/c-1)^{+}}$ $(r/c-1)^{+}=\max(0,r/c-1)$ $r/c-1$

เมื่อใดบทลงโทษสำหรับความกระชับหมายความว่าเราจะไม่ลงโทษผู้สมัครที่ยาวเกินไป แต่จะลงโทษเฉพาะผู้สมัครที่สั้นเกินไปเท่านั้น $r\leq c$ $BP=1$
เมื่อใดบทลงโทษสำหรับความกระชับ $r>c$ $BP=e^{1-r/c}$

$c$ คือความยาวของกลุ่มผู้สมัคร นั่นคือโดยที่คือความยาวของ $c:=\sum _{i=1}^{M}|{\hat {y}}^{(i)}|$ $|y|$ $y$

$r$ คือความยาวของคลังข้อมูลอ้างอิงที่มีประสิทธิภาพซึ่งก็คือประโยคที่มีความยาวใกล้เคียงกับมากที่สุด $r:=\sum _{i=1}^{M}|y^{(i,j)}|$ $y^{(i,j)}=\arg \min _{y\in S_{i}}||y|-|{\hat {y}}^{(i)}||$ $S_{i}$ $|{\hat {y}}^{(i)}|$

สูตรสุดท้าย

BLEU ไม่ได้มีนิยามเดียว แต่มีนิยามหลายแบบ โดยแต่ละนิยามถูกกำหนดพารามิเตอร์ด้วยเวกเตอร์ถ่วงน้ำหนักBLEU คือการแจกแจงความน่าจะเป็นบนนั่นคือและ $w:=(w_{1},w_{2},\cdots )$ $\{1,2,3,\cdots \}$ $\sum _{i=1}^{\infty }w_{i}=1$ $\forall i\in \{1,2,3,\cdots \},w_{i}\in [0,1]$

เมื่อเลือกค่าใดค่าหนึ่งแล้วคะแนน BLEU จะคำนวณได้จากค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนักของค่าความแม่นยำของ n-gram ที่ปรับเปลี่ยนทั้งหมด คูณด้วยค่าปรับลดความกระชับ เราใช้ค่าเฉลี่ยเรขาคณิตถ่วงน้ำหนัก แทนที่จะใช้ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก เพื่อสนับสนุนคลังข้อมูลที่ตรงตามเกณฑ์ความแม่นยำของ n-gram หลายค่าพร้อมกันอย่างมีประสิทธิภาพ $w$ $BLEU_{w}({\hat {S}};S):=BP({\hat {S}};S)\cdot \exp \left(\sum _{n=1}^{\infty }w_{n}\ln p_{n}({\hat {S}};S)\right)$

^{ตัวเลือกทั่วไปที่สุด ซึ่ง เป็น}ตัวเลือกที่แนะนำในเอกสารต้นฉบับ คือ[ ¹^] $w_{1}=\cdots =w_{4}={\frac {1}{4}}$

อัลกอริทึม

ตัวอย่างต่อไปนี้จาก Papineni et al. (2002) แสดงให้เห็นถึงเรื่องนี้:

ตัวอย่างผลลัพธ์การแปลด้วยเครื่องจักรที่ไม่ดี แต่มีความแม่นยำสูง
ผู้สมัคร	ที่	ที่	ที่	ที่	ที่	ที่	ที่
อ้างอิง 1	ที่	แมว	เป็น	บน	ที่	เสื่อ
อ้างอิง 2	ที่นั่น	เป็น	เอ	แมว	บน	ที่	เสื่อ

จากคำทั้งเจ็ดคำในคำแปลที่เสนอ ทุกคำปรากฏอยู่ในคำแปลอ้างอิง ดังนั้น ข้อความที่เสนอจึงมีความแม่นยำในระดับเอกพจน์ (unigram precision) ดังนี้

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

โดยที่คือจำนวนคำจากต้นฉบับที่เสนอซึ่งพบในต้นฉบับอ้างอิง และคือจำนวนคำทั้งหมดในต้นฉบับที่เสนอ นี่คือคะแนนที่สมบูรณ์แบบ แม้ว่าคำแปลของต้นฉบับที่เสนอข้างต้นจะคงเนื้อหาจากต้นฉบับอ้างอิงทั้งสองไว้น้อยมากก็ตาม $~m$ $~w_{t}$

การปรับเปลี่ยนที่ BLEU ทำนั้นค่อนข้างตรงไปตรงมา สำหรับแต่ละคำในคำแปลที่เสนอ อัลกอริทึมจะเลือกจำนวนครั้งรวมสูงสุดของคำนั้น () ในคำแปลอ้างอิงใดๆ ก็ตาม ในตัวอย่างข้างต้น คำว่า "the" ปรากฏสองครั้งในคำแปลอ้างอิงที่ 1 และหนึ่งครั้งในคำแปลอ้างอิงที่ 2 ดังนั้น $~m_{max}$ $~m_{max}=2$

สำหรับการแปลตัวเลือกนั้น จำนวนการปรากฏของแต่ละคำจะถูกจำกัดไว้ที่ค่าสูงสุดที่กำหนดไว้สำหรับคำนั้นๆ ในกรณีนี้ คำว่า "the" มีและดังนั้นจึงถูกจำกัดไว้ที่ 2 จากนั้นจำนวนการปรากฏที่จำกัดเหล่านี้จะถูกนำมารวมกันสำหรับคำที่ไม่ซ้ำกันทั้งหมดในตัวเลือก ผลรวมนี้จะถูกหารด้วยจำนวนยูนิแกรม ทั้งหมด ในการแปลตัวเลือก ในตัวอย่างข้างต้น คะแนนความแม่นยำของยูนิแกรมที่แก้ไขแล้วจะเป็นดังนี้: $m_{w}$ $m_{max}$ $~m_{w}=7$ $~m_{max}=2$ $~m_{w}$ $~m_{w}$

P={\frac {2}{7}}

อย่างไรก็ตาม ในทางปฏิบัติ การใช้คำแต่ละคำเป็นหน่วยเปรียบเทียบนั้นไม่เหมาะสม BLEU จึงคำนวณเมตริกความแม่นยำที่ปรับปรุงแล้วแบบเดียวกันโดยใช้n-gram แทน พบว่าความ ยาวที่มี "ความสัมพันธ์สูงสุดกับการตัดสินของมนุษย์ที่พูดภาษาเดียว" ^[6]คือสี่ คะแนน unigram พบว่าสามารถบ่งบอกถึงความเพียงพอของการแปล ว่าเก็บรักษาข้อมูลไว้ได้มากน้อยเพียงใด ส่วน คะแนน $n$ -gram ที่ยาวกว่านั้นสามารถบ่งบอกถึงความคล่องแคล่วของการแปล หรือระดับที่อ่านแล้วเหมือน "ภาษาอังกฤษที่ดี"

การเปรียบเทียบตัวชี้วัดสำหรับผู้สมัคร "แมว"
แบบอย่าง	ชุดกรัม	คะแนน
ยูนิแกรม	"แมว"	${\frac {1+1+1}{3}}=1$
ยูนิแกรมแบบกลุ่ม	"the"2, "cat"1	${\frac {1+1}{2+1}}={\frac {2}{3}}$
บิแกรม	"แมว"	${\frac {0+1}{2}}={\frac {1}{2}}$

ตัวอย่างคำแปลที่เหมาะสมสำหรับเอกสารอ้างอิงเดียวกันกับข้างต้น อาจเป็นดังนี้:

แมว

ในตัวอย่างนี้ ความแม่นยำของยูนิแกรมที่ปรับเปลี่ยนแล้วจะเป็นดังนี้

P={\frac {1}{2}}+{\frac {1}{2}}={\frac {2}{2}}

เนื่องจากคำว่า 'the' และคำว่า 'cat' ปรากฏเพียงครั้งเดียวในตัวเลือก และจำนวนคำทั้งหมดคือสองคำ ความแม่นยำของไบแกรม ที่แก้ไขแล้ว จะเป็นเนื่องจากไบแกรม "the cat" ปรากฏเพียงครั้งเดียวในตัวเลือก มีการชี้ให้เห็นว่าความแม่นยำมักจะควบคู่ไปกับการเรียกคืนเพื่อเอาชนะปัญหานี้^[7]เนื่องจากการเรียกคืนแบบยูนิแกรมของตัวอย่างนี้จะเป็นหรือปัญหาคือเนื่องจากมีการแปลอ้างอิงหลายรายการ การแปลที่ไม่ดีอาจมีการเรียกคืนที่สูงเกินจริงได้ง่าย เช่น การแปลที่ประกอบด้วยคำทั้งหมดในแต่ละการอ้างอิง^[8] $1/1$ $3/6$ $2/7$

เพื่อให้ได้คะแนนสำหรับคลังข้อมูลทั้งหมด คะแนนความแม่นยำที่ปรับปรุงแล้วสำหรับแต่ละส่วนจะถูกรวมเข้าด้วยกันโดยใช้ค่าเฉลี่ยเรขาคณิตคูณด้วยค่าปรับความกระชับเพื่อป้องกันไม่ให้ข้อความที่สั้นมากได้รับคะแนนสูงเกินไป ให้ $r$ เป็นความยาวทั้งหมดของคลังข้อมูลอ้างอิง และ $c$ เป็นความยาวทั้งหมดของคลังข้อมูลการแปล ถ้าค่าปรับความกระชับจะถูกนำมาใช้ โดยกำหนดให้เป็น(ในกรณีที่มีประโยคอ้างอิงหลายประโยค $r$ จะถือเป็นผลรวมของความยาวของประโยคที่มีความยาวใกล้เคียงกับความยาวของประโยคผู้สมัครมากที่สุด อย่างไรก็ตาม ในเวอร์ชันของเมตริกที่ใช้โดย การประเมิน ของ NISTก่อนปี 2009 จะใช้ประโยคอ้างอิงที่สั้นที่สุดแทน) $c\leq r$ $e^{(1-r/c)}$

iBLEU เป็นเวอร์ชันแบบโต้ตอบของ BLEU ที่ช่วยให้ผู้ใช้สามารถตรวจสอบคะแนน BLEU ที่ได้รับจากการแปลที่เสนอได้อย่างเห็นภาพ นอกจากนี้ยังช่วยให้สามารถเปรียบเทียบระบบที่แตกต่างกันสองระบบในลักษณะที่เป็นภาพและโต้ตอบได้ ซึ่งเป็นประโยชน์สำหรับการพัฒนาระบบ^[9]

ผลงาน

BLEU ได้รับการรายงานบ่อยครั้งว่ามีความสัมพันธ์ที่ดีกับการตัดสินของมนุษย์^[10]^[11]^[12]และยังคงเป็นเกณฑ์มาตรฐานสำหรับการประเมินตัวชี้วัดการประเมินใหม่ใดๆ อย่างไรก็ตาม มีข้อวิจารณ์หลายประการที่ถูกกล่าวถึง มีข้อสังเกตว่า แม้ว่าโดยหลักการแล้ว BLEU จะสามารถประเมินการแปลภาษาใดๆ ก็ได้ แต่ในรูปแบบปัจจุบัน BLEU ไม่สามารถจัดการกับภาษาที่ไม่มีขอบเขตคำได้^[13]ออกแบบมาเพื่อใช้กับการแปลอ้างอิงหลายรายการ แต่ในทางปฏิบัติใช้กับเพียงรายการเดียวเท่านั้น^{[ 2 ]} BLEU ขึ้นชื่อเรื่องการพึ่งพา เทคนิค การแบ่งคำและคะแนนที่ได้จากเทคนิคที่แตกต่างกันนั้นไม่สามารถเปรียบเทียบกันได้ (ซึ่งมักถูกมองข้าม) เพื่อปรับปรุงความสามารถในการทำซ้ำและการเปรียบเทียบ จึงได้มีการออกแบบตัวแปร SacreBLEU ขึ้น^{[ 2 ]}

มีการโต้แย้งว่าถึงแม้ BLEU จะมีข้อดีมากมาย แต่ก็ไม่มีการรับประกันว่าคะแนน BLEU ที่เพิ่มขึ้นจะเป็นตัวบ่งชี้ถึงคุณภาพการแปลที่ดีขึ้น^[14]

ดูเพิ่มเติม

หมายเหตุ

^ปาปิเนนี, เค. และคณะ (2002)
^ปาปิเนนี, เค. และคณะ (2002)
^คอฟลิน, ดี. (2003)
^ปาปิเนนี, เค. และคณะ (2002)
^ปาปิเนนี, เค. และคณะ (2002)
^ปาปิเนนี, เค. และคณะ (2002)
^คอฟลิน, ดี. (2003)
^ดอดดิงตัน, จี. (2002)
^ Denoual, E. และ Lepage, Y. (2005)
^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
↑ลี, เอ. และ พซีบอคกี, เอ็ม. (2005)
^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
^หลิน ซี. และ อ็อค เอฟ. (2004)
^ Callison-Burch, C., Osborne, M. และ Koehn, P. (2006)
^มาดนานี, น. (2011)

บรรณานุกรม

Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: วิธีการประเมินการแปลด้วยเครื่องจักรโดยอัตโนมัติ (PDF) . ACL-2002: การประชุมประจำปีครั้งที่ 40 ของสมาคมภาษาศาสตร์เชิงคำนวณ หน้า 311– 318. CiteSeerX 10.1.1.19.9416 .
Papineni, K., Roukos, S., Ward, T., Henderson, J และ Reeder, F. (2002). " การประเมินการแปลด้วยเครื่องจักรแบบครอบคลุมและวินิจฉัยโดยใช้คลังข้อมูล: ผลลัพธ์เบื้องต้นของภาษาอาหรับ จีน ฝรั่งเศส และสเปนจัดเก็บไว้เมื่อวันที่ 4 มีนาคม 2016 ที่Wayback Machine " ใน Proceedings of Human Language Technology 2002, San Diego, หน้า 132–137
Callison-Burch, C., Osborne, M. และ Koehn, P. (2006) " การประเมินบทบาทของ BLEU ในงานวิจัยการแปลด้วยเครื่องจักรอีกครั้ง เก็บ ถาวร เมื่อ 2008-12-04 ที่Wayback Machine " ในการประชุมครั้งที่ 11 ของสาขายุโรปของสมาคมภาษาศาสตร์เชิงคำนวณ: EACL 2006หน้า 249–256
Doddington, G. (2002) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้สถิติการเกิดร่วมกัน ของ n-gram เก็บถาวร เมื่อ 2013-10-12 ที่Wayback Machine " ในProceedings of the Human Language Technology Conference (HLT), San Diego, CAหน้า 128–132
Coughlin, D. (2003) " ความสัมพันธ์ระหว่างการประเมินคุณภาพการแปลด้วยเครื่องจักรแบบอัตโนมัติและแบบมนุษย์เก็บถาวรเมื่อ 2008-09-06 ที่Wayback Machine " ในMT Summit IX, นิวออร์ลีนส์, สหรัฐอเมริกาหน้า 23–27
Denoual, E. และ Lepage, Y. (2005) " BLEU ในตัวอักษร: มุ่งสู่การประเมิน MT อัตโนมัติในภาษาที่ไม่มีตัวคั่นคำ เก็บถาวรเมื่อ 2011-07-18 ที่Wayback Machine " ในCompanion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processingหน้า 81–86
Lee, A. และ Przybocki, M. (2005) ผลการประเมินการแปลด้วยเครื่องจักร NIST 2005 อย่างเป็นทางการ
Lin, C. และ Och, F. (2004) " การประเมินคุณภาพการแปลด้วยเครื่องจักรโดยอัตโนมัติโดยใช้ลำดับย่อยร่วมที่ยาวที่สุดและสถิติ Skip-Bigram เก็บถาวรเมื่อ 2008-07-05 ที่Wayback Machine " ในรายงานการประชุมประจำปีครั้งที่ 42 ของสมาคมภาษาศาสตร์เชิงคำนวณ
Madnani, N. (2011). " iBLEU: การให้คะแนนและแก้ไขข้อผิดพลาดแบบโต้ตอบสำหรับระบบการแปลด้วยเครื่องจักรเชิงสถิติ " ใน "รายงานการประชุมนานาชาติ IEEE ครั้งที่ 5 ว่าด้วยการคำนวณเชิงความหมาย (Demos), Palo Alto, CA" หน้า 213–214

ลิงก์ภายนอก

BLEU – การประเมินผลแบบสองภาษา (Bilingual Evaluation) ผู้ช่วยบรรยายในหลักสูตรการแปลด้วยเครื่องจักร โดยสถาบันเทคโนโลยีคาร์ลสรูห์ (Karlsruhe Institute of Technology ) Coursera

ตัวเลือกทั่วไปที่สุด ซึ่ง เป็น

[ 2 ]