BLEU Score/es

Article
Topic area	Natural Language Processing
Prerequisites	Tokenization, Machine Translation

This page is a translated version of the page BLEU Score and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

La puntuación BLEU (Bilingual Evaluation Understudy) es una métrica de evaluación automática para texto traducido por máquina, presentada por Papineni y colaboradores en IBM Research en 2002. Puntúa una traducción candidata frente a una o más traducciones humanas de referencia en una escala de 0 a 1 (o de 0 a 100 en la forma porcentual más comúnmente reportada), donde valores más altos indican un mayor acuerdo con las referencias. Sus objetivos de diseño eran ser barata, independiente del idioma y correlacionar con el juicio humano en promedio sobre un corpus, de modo que los investigadores en traducción pudieran iterar sobre los sistemas sin encargar una evaluación humana en cada cambio.

BLEU se construye a partir de dos ideas. La primera es la precisión modificada de n-gramas: cuenta cuántos de los n-gramas en el candidato aparecen también en alguna referencia, donde cada n-grama de referencia solo está disponible para ser emparejado un número acotado de veces, de modo que repetir una sola frase común no infle la puntuación. La segunda es una penalización por brevedad que multiplica la puntuación de precisión a la baja siempre que el candidato sea más corto que la referencia, ya que la precisión por sí sola no tiene defensa contra una traducción corta y densa que solo imprime unas pocas palabras de alta confianza. La media geométrica de las precisiones modificadas para n = 1 hasta 4, multiplicada por la penalización por brevedad, es la puntuación BLEU. A pesar de las debilidades bien documentadas, esta construcción ha permanecido como el número de cabecera por defecto en los artículos de traducción automática durante dos décadas, en parte porque es lo bastante reproducible como para que dos grupos puedan ponerse de acuerdo sobre un número, y en parte porque ninguna métrica sucesora es simultáneamente simple, gratuita e independiente del idioma.

Historia y motivación

Antes de BLEU, el método de evaluación dominante en traducción automática era la valoración humana a lo largo de ejes como la adecuación y la fluidez. La evaluación humana es el patrón de oro, pero es lenta y cara: una campaña típica cuesta semanas de trabajo y decenas de miles de dólares, lo cual hizo que fuera poco práctica para usarla durante el desarrollo de sistemas. El equipo de IBM propuso BLEU como un "suplente" al que los investigadores pudieran consultar repetidamente durante un ciclo de desarrollo, reservando la evaluación humana para una calibración ocasional. El artículo de 2002 mostró que BLEU se correlacionaba razonablemente con el juicio humano a nivel de corpus a través de múltiples sistemas e idiomas, y la métrica fue adoptada rápidamente por las campañas de evaluación WMT y NIST. A su introducción se le atribuye ampliamente haber acelerado la era de la traducción automática estadística de mediados de los años 2000.

Precisión modificada de n-gramas

Para un orden dado $$ n $$ , la precisión modificada $$ p_n $$ compara los n-gramas del candidato con las referencias. Sea $$ C $$ el candidato y $\{R_1, \ldots, R_m\}$ el conjunto de referencias. Para cada n-grama $$ g $$ que aparece en $$ C $$ , defina el conteo $\mathrm{count}(g, C)$ en el candidato y el conteo máximo $\mathrm{max\_ref\_count}(g) = \max_i \mathrm{count}(g, R_i)$ sobre las referencias. El conteo recortado es

$\mathrm{count}_{\mathrm{clip}}(g) = \min\big(\mathrm{count}(g, C), \mathrm{max\_ref\_count}(g)\big),$

y la precisión modificada es

$p_n = \frac{\sum_{g \in C} \mathrm{count}_{\mathrm{clip}}(g)}{\sum_{g \in C} \mathrm{count}(g, C)}.$

El paso de recorte es lo que distingue la precisión modificada de la precisión ingenua. El artículo original lo motiva con un ejemplo trabajado: un candidato que consiste únicamente en la palabra "the" repetida siete veces obtendría una precisión de unigrama de 1 contra cualquier referencia que contenga "the", porque cada palabra del candidato está en alguna referencia. El recorte limita la contribución de "the" al número máximo de veces que aparece en una sola referencia, restaurando una puntuación sensata. La misma lógica se aplica a n-gramas más largos; en la práctica, el recorte importa más para los unigramas, donde la repetición patológica es más común.

En una evaluación a nivel de corpus, el numerador y el denominador se suman a través de todos los pares de oraciones antes de tomar el cociente, en lugar de promediar las precisiones a nivel de oración. Esta agregación a nivel de corpus es lo que da a BLEU gran parte de su robustez: una sola oración corta sin n-gramas coincidentes no colapsa la puntuación porque solo aporta unos pocos términos a un denominador mucho mayor.

Penalización por brevedad

La precisión por sí sola recompensa a los candidatos cortos, ya que es más fácil ser preciso cuando se dice menos. Para evitarlo, BLEU multiplica la componente de precisión por una penalización por brevedad $\mathrm{BP}$ definida como

$\mathrm{BP} = \begin{cases} 1 & \text{if } c > r, \\ \exp\!\left(1 - \tfrac{r}{c}\right) & \text{if } c \leq r, \end{cases}$

donde $$ c $$ es la longitud total del corpus candidato y $$ r $$ es la longitud de referencia efectiva. Cuando existen múltiples referencias, $$ r $$ es la suma sobre las oraciones de la longitud de referencia más cercana a la longitud del candidato de esa oración. La penalización es exactamente 1 cuando el candidato es al menos tan largo como la referencia, y decae suavemente hacia 0 a medida que el candidato se vuelve mucho más corto. Deliberadamente no hay una penalización simétrica para candidatos demasiado largos, porque la precisión modificada ya cae cuando palabras adicionales no logran emparejar con las referencias.

La penalización por brevedad opera a nivel de corpus, no por oración. Esta es una elección de diseño deliberada: una oración corta puede ser una traducción fiel de un original corto, así que penalizar a todo candidato corto sería en sí mismo injusto. Agregar las longitudes a través del corpus promedia esta fluctuación.

La fórmula completa de BLEU

La puntuación BLEU convencional combina las precisiones modificadas para n = 1 hasta 4 con la penalización por brevedad:

$\mathrm{BLEU} = \mathrm{BP} \cdot \exp\!\left(\sum_{n=1}^{4} w_n \log p_n\right),$

con pesos uniformes $$ w_n = 1/4 $$ . La exponencial de la suma logarítmica ponderada es la media geométrica de las precisiones, y la media geométrica es lo que hace que BLEU caiga a cero siempre que cualquier $$ p_n $$ individual sea cero. Esto está en consonancia con la intención de la métrica: una traducción que no logra recuperar ningún 4-grama de las referencias no es una buena traducción, incluso si su precisión de unigramas es alta.

La elección de órdenes de n-grama de hasta 4 y pesos uniformes es una convención más que una necesidad matemática. El artículo de 2002 experimentó con varias configuraciones y encontró que la media geométrica de cuatro gramos era la que mejor se correlacionaba con el juicio humano en sus datos; desde entonces la convención ha quedado fijada, en parte porque cambiarla haría que los nuevos resultados fueran incomparables con la literatura. BLEU-1, BLEU-2, etc., se refieren a BLEU calculado con la media geométrica truncada al orden correspondiente, y a veces se reportan por separado para dar una imagen más granular.

Suavizado

Debido a que la media geométrica es cero siempre que cualquier $$ p_n $$ sea cero, BLEU a nivel de oración es altamente inestable: una sola oración a la que le falte una coincidencia de 4-grama puntúa cero, incluso con alta precisión en órdenes inferiores. Esto es aceptable a nivel de corpus, donde las precisiones modificadas iguales a cero son raras una vez que se agrupan suficientes oraciones, pero es un problema serio cuando BLEU se usa como señal de entrenamiento por oración o para evaluar conjuntos de prueba pequeños. Una familia de métodos de suavizado, codificada en el trabajo SmoothBLEU de Chen y Cherry, aborda esto. Las estrategias comunes de suavizado añaden una pequeña constante al numerador y al denominador (suavizado aditivo), sustituyen una fracción minúscula cuando se encuentra cero, o usan un suavizado exponencial que interpola las precisiones de orden inferior en las de orden superior. SacreBLEU expone varias de ellas como opciones con nombre.

Variantes y estandarización

La métrica tal como se especifica en el artículo original deja indeterminadas varias decisiones prácticas: cómo tokenizar, cómo poner en minúsculas, cómo manejar la puntuación y cómo contar cuando hay múltiples referencias. Distintos kits de herramientas tomaron decisiones diferentes y, durante años, dos artículos que reportaran "BLEU 30" podrían haber usado procedimientos incompatibles. SacreBLEU, presentado por Post en 2018, estandariza toda la canalización: tokeniza las referencias y la propia hipótesis usando un esquema fijo, fija el suavizado y reporta una firma con versión etiquetada para que el resultado sea reproducible. La comunidad ha convergido en SacreBLEU como el estándar de facto para los números publicados; el BLEU más antiguo, dependiente de la tokenización, se considera ahora poco fiable para la comparación entre artículos.

Las variantes extienden BLEU a lo largo de varios ejes. BLEU-1 hasta BLEU-4 varían el orden máximo de n-grama, donde BLEU-1 (solo unigrama con penalización por brevedad) se usa a veces como un proxy grueso para la adecuación. NIST reemplaza los pesos uniformes por unos ponderados por información, de modo que los n-gramas raros emparejados contribuyen más que los comunes. ChrF calcula F-scores a nivel de carácter en lugar de precisión a nivel de palabra y es más robusta en idiomas morfológicamente ricos. Self-BLEU y BLEU de retrotraducción reutilizan la métrica para diversidad y estimación de calidad en tareas de generación más allá de la traducción.

Fortalezas, limitaciones y alternativas modernas

Las fortalezas de BLEU son prácticas: es barata, determinista, agnóstica al idioma en el sentido de que no requiere recursos específicos del idioma más allá de un tokenizador, y tiene una literatura suficientemente larga como para que los investigadores tengan una intuición fuerte sobre lo que un número dado significa en un escenario dado. Se correlaciona con el juicio humano lo bastante bien a nivel de corpus, al comparar sistemas de arquitectura similar, como para haber servido como evaluación de cabecera durante toda la era de la traducción automática estadística y de la traducción automática neuronal temprana.

Sus limitaciones están bien catalogadas. Es una métrica de forma superficial que no entiende sinónimos: una traducción perfectamente fluida que use palabras distintas a las de la referencia puede puntuar mal. Es insensible al orden de las palabras más allá de la ventana de n-grama, por lo que los errores de reordenamiento que un lector humano notaría son invisibles para BLEU. Recompensa la superposición de vocabulario con la referencia en lugar de la preservación del significado, lo cual es explotable: los sistemas pueden ser entrenados o ajustados para maximizar BLEU de maneras que se alejan de la calidad valorada por humanos. A nivel de oración es ruidosa, y a nivel de corpus su correlación con el juicio humano es más débil precisamente al comparar sistemas muy fuertes, que es donde opera la investigación moderna en traducción. La métrica METEOR introdujo emparejamiento explícito de sinónimos, tablas de paráfrasis y un componente de recuperación para abordar algunas de estas cuestiones, pero es más cara y dependiente del idioma. TER (translation edit rate) mide el número de ediciones requeridas para transformar el candidato en una referencia, ofreciendo una visión complementaria. Las métricas basadas en embeddings como BERTScore usan representaciones contextuales para puntuar similitud semántica, y las métricas aprendidas como COMET y BLEURT se entrenan directamente sobre datos de juicio humano y ahora superan sustancialmente a BLEU en correlación con valoraciones humanas en sistemas modernos fuertes. La práctica contemporánea en evaluación de traducción automática es reportar SacreBLEU por compatibilidad hacia atrás junto con una o más métricas aprendidas.

Consideraciones prácticas

Al reportar BLEU, importan tres detalles. Primero, especificar siempre el kit de herramientas y la versión, idealmente citando la firma de SacreBLEU; esta es la única manera de hacer un número reproducible. Segundo, distinguir BLEU de corpus de BLEU de oración y del promedio de los BLEU de oración, ya que los tres difieren y solo el BLEU de corpus coincide con la métrica tal como se definió originalmente. Tercero, anotar el número de referencias: la correlación de BLEU con el juicio humano mejora con más referencias, y una puntuación con una sola referencia es una estimación más ruidosa que una puntuación con cuatro referencias en el mismo sistema. Al usar BLEU como objetivo de optimización durante el entrenamiento, el BLEU de oración suavizado o uno de sus sustitutos diferenciables es apropiado; el entrenamiento por riesgo mínimo y el ajuste fino por aprendizaje por refuerzo de sistemas de traducción basados en Transformer usan rutinariamente BLEU como recompensa, y los efectos de pirateo de recompensa resultantes forman parte del argumento más amplio para migrar a métricas aprendidas.

Referencias

^[1] ^[2] ^[3] ^[4] ^[5] ^[6] ^[7]

↑ Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL 2002.
↑ Post, M. A Call for Clarity in Reporting BLEU Scores. Template:Cite arxiv
↑ Chen, B. and Cherry, C. A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. WMT 2014.
↑ Banerjee, S. and Lavie, A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL 2005.
↑ Snover, M., Dorr, B., Schwartz, R., Micciulla, L., and Makhoul, J. A Study of Translation Edit Rate with Targeted Human Annotation. AMTA 2006.
↑ Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. BERTScore: Evaluating Text Generation with BERT. Template:Cite arxiv
↑ Rei, R., Stewart, C., Farinha, A. C., and Lavie, A. COMET: A Neural Framework for MT Evaluation. Template:Cite arxiv

[1] Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL 2002.

[2] Post, M. A Call for Clarity in Reporting BLEU Scores. Template:Cite arxiv

[3] Chen, B. and Cherry, C. A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. WMT 2014.

[4] Banerjee, S. and Lavie, A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL 2005.

[5] Snover, M., Dorr, B., Schwartz, R., Micciulla, L., and Makhoul, J. A Study of Translation Edit Rate with Targeted Human Annotation. AMTA 2006.

[6] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. BERTScore: Evaluating Text Generation with BERT. Template:Cite arxiv

[7] Rei, R., Stewart, C., Farinha, A. C., and Lavie, A. COMET: A Neural Framework for MT Evaluation. Template:Cite arxiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]