BLEU

BLEU (Bilingual Evaluation Understudy) es un método de evaluación de la calidad de traducciones realizadas por sistemas de traducción automática. Una traducción tiene mayor calidad cuanto más similar es con respecto a otra de referencia, que se supone correcta. BLEU puede calcularse utilizando más de una traducción de referencia. Esto permite una mayor robustez a la medida frente a traducciones libres realizadas por humanos.

BLEU se calcula normalmente a nivel de frases y halla la precisión en ngramas entre la traducción del sistema y la de referencia. Sin embargo, se utiliza una precisión modificada con el fin de solucionar ciertas deficiencias en la medida.

Precisión modificada

La precisión de ngramas entre 2 frases es:

Ejemplo de precisión en 1-gramas
Candidata 1Acatisonthemat
Candidata 2Thecatexistsintheboard
ReferenciaThecatisonthetable

En este ejemplo la precisión en 1-gramas sería de para la candidata 1 y de para la 2.

La precisión no es una medida adecuada para calcular la similitud entre 2 frases, como se puede ver a continuación:

Ejemplo de mala traducción con una alta precisión
Candidatathethethethethethe
ReferenciaThecatisonthetable

En este caso tendríamos una precisión de . Por ello se ha de tener en cuenta el número máximo de ocurrencias de un ngrama en la frase de referencia, siendo éste el límite a la hora de contabilizar las apariciones en la frase candidata. Con esto en cuenta la precisión modificada sería de en este último ejemplo.

Penalización por brevedad

Si las frases a comparar tienen una longitud muy distinta, no podemos afirmar que sean similares. Si la frase candidata tiene mayor longitud que la de referencia, este aspecto se ve reflejado en la fórmula de precisión modificada anterior. Habrá muchos ngramas en la frase candidata que no aparecerán en la frase de referencia por lo que la precisión será menor. Esto no ocurre cuando la frase de referencia es mucho menor, tal y como se puede observar en el siguiente ejemplo:

Ejemplo de mala traducción con alta precisión
Candidatathethe
ReferenciaThecatisonthetable

La precisión modificada sería de y no reflejaría la similitud entre ambas frases. Por ello se introduce un penalizador por brevedad de las frases candidatas.

donde c es la longitud de la frase candidata y r la longitud de la frase de referencia.

Cálculo de BLEU

Para el cálculo de BLEU se utiliza la media geométrica para los N ngramas que se vayan a utilizar. Cada ngrama tendrá un peso tal que . Típicamente

Referencias

Véase también


Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.