Machine Translation/es
| Article | |
|---|---|
| Topic area | Natural Language Processing |
| Prerequisites | Transformer, Cross-Entropy Loss |
Resumen
La traducción automática es la tarea de convertir automáticamente texto o habla de un idioma natural a otro preservando el significado. Es una de las aplicaciones más antiguas de la lingüística computacional, con intentos prácticos que se remontan a la década de 1950, y sigue siendo uno de los usos económicamente más importantes de la tecnología del lenguaje natural, sustentando la búsqueda web multilingüe, la mensajería en tiempo real, la localización de documentos y las herramientas de accesibilidad. Los sistemas modernos plantean el problema como generación de secuencias condicionales: dada una oración fuente, producir una oración en el idioma destino que maximice una probabilidad aprendida bajo un modelo paramétrico.
El campo ha pasado por tres paradigmas amplios. Los sistemas basados en reglas de las décadas de 1970 y 1980 se apoyaban en diccionarios y reglas de transferencia hechos a mano. La traducción automática estadística, dominante desde finales de la década de 1990 hasta principios de la de 2010, aprendía tablas de traducción a nivel de frase y modelos de reordenamiento a partir de corpus paralelos. La traducción automática neuronal, el paradigma actual, modela la distribución condicional de fuente a destino de extremo a extremo con una sola red neuronal, típicamente un codificador-decodificador basado en Transformer. Cada transición se debió menos a un único avance técnico que a la convergencia de mejores datos, más cómputo y métricas como la BLEU Score que hicieron medible el progreso.
Formulación del problema
Dada una secuencia fuente $ x = (x_1, \ldots, x_S) $ sobre un vocabulario fuente y una secuencia destino $ y = (y_1, \ldots, y_T) $ sobre un vocabulario destino, la traducción automática busca la distribución condicional
$ {\displaystyle p(y \mid x) = \prod_{t=1}^{T} p(y_t \mid y_{<t}, x).} $
La factorización es autorregresiva de izquierda a derecha; cada token se predice dados todos los tokens fuente y todos los tokens destino generados previamente. El objetivo de entrenamiento es típicamente la log-verosimilitud negativa de las traducciones de referencia bajo teacher forcing,
$ {\displaystyle \mathcal{L}(\theta) = -\sum_{(x, y) \in \mathcal{D}} \sum_{t=1}^{T} \log p_\theta(y_t \mid y_{<t}, x),} $
que es la Cross-Entropy Loss aplicada posición por posición. La inferencia reemplaza el prefijo de referencia $ y_{<t} $ por las salidas previas del propio modelo, creando un desajuste de exposición entre el entrenamiento y la decodificación que ha motivado una larga línea de soluciones, entre ellas el muestreo programado, el entrenamiento de riesgo mínimo y el ajuste fino por aprendizaje por refuerzo con recompensas basadas en la calidad de la traducción.
Traducción automática estadística
La traducción automática estadística descompone $ p(y \mid x) $ mediante un modelo de canal ruidoso (noisy channel) en un modelo de traducción $ p(x \mid y) $ y un modelo de lenguaje del lado destino $ p(y) $, y luego elige $ \arg\max_y p(x \mid y)\, p(y) $. Los modelos de alineamiento a nivel de palabra, como los Modelos IBM 1 a 5, estiman qué palabras fuente generan qué palabras destino a partir de corpus alineados por oración utilizando esperanza-maximización. La traducción automática estadística basada en frases, el caballo de batalla de los años 2000, generaliza el alineamiento a pares de frases contiguas y añade penalizaciones de reordenamiento y de longitud mediante un modelo discriminativo log-lineal. Las extensiones jerárquicas y basadas en sintaxis intentaron capturar reordenamientos de largo alcance con gramáticas síncronas. Estos sistemas produjeron los primeros servicios de traducción web desplegables y establecieron las líneas base de BLEU que los sistemas neuronales finalmente superaron.
Traducción automática neuronal
Los primeros sistemas neuronales, comenzando con las arquitecturas recurrentes codificador-decodificador de 2014, codificaban la fuente en un vector de longitud fija y decodificaban una secuencia destino con una red Long Short-Term Memory. El cuello de botella de longitud fija limitaba la calidad en oraciones largas y se relajó con el mecanismo de atención aditiva, que permite al decodificador atender a una suma ponderada de los estados del codificador en cada paso. El Transformer, introducido en 2017, reemplazó por completo la recurrencia con capas apiladas de autoatención y Cross-Attention y rápidamente se convirtió en la arquitectura estándar para la traducción y para la mayoría de las demás tareas de secuencias.
Un Transformer de traducción moderno es un codificador-decodificador. El codificador aplica autoatención multi-cabeza y subcapas feed-forward a los embeddings de tokens fuente; el decodificador aplica autoatención enmascarada sobre el prefijo destino, atención cruzada sobre las salidas del codificador y una subcapa feed-forward; ambas pilas usan conexiones residuales y normalización por capa. Las entradas son unidades de subpalabra producidas por Byte-Pair Encoding o por tokenización con modelos de lenguaje unigrama, lo que mantiene los vocabularios pequeños y elude el problema de vocabulario abierto en idiomas morfológicamente ricos.
Entrenamiento e inferencia
Los datos de entrenamiento consisten en corpus paralelos —pares de oraciones en dos idiomas— complementados con datos monolingües mediante retrotraducción, en la que un modelo de destino a fuente produce oraciones fuente sintéticas a partir de texto destino genuino. Los trucos estándar incluyen el suavizado de etiquetas, un calentamiento de la tasa de aprendizaje seguido de un decaimiento por raíz cuadrada inversa, y la optimización en precisión mixta. Los gradientes fluyen a través de todo el codificador-decodificador mediante Backpropagation a través del tiempo en ambas pilas.
La inferencia utiliza búsqueda aproximada porque el argmax exacto sobre las secuencias destino es intratable. La búsqueda en haz con un ancho de haz de 4 a 8 y un término de normalización por longitud es la opción por defecto, aunque trabajos recientes sugieren que el muestreo ancestral con filtros de baja temperatura puede producir traducciones más diversas e igualmente precisas según métricas sin referencia. La velocidad de decodificación suele ser el cuello de botella en producción, lo que ha llevado a variantes no autorregresivas que emiten todo el destino en paralelo, a la Knowledge Distillation de modelos maestros grandes a estudiantes más pequeños y a la cuantización de los pesos del decodificador.
Traducción multilingüe y zero-shot
Un único modelo puede entrenarse para traducir entre muchos pares de idiomas anteponiendo una etiqueta de idioma destino a la fuente. Tales sistemas multilingües amortizan la capacidad del codificador entre idiomas y a menudo mejoran la calidad de traducción para pares de bajos recursos mediante transferencia positiva desde pares de altos recursos. De forma llamativa, suelen producir traducciones razonables entre pares de idiomas que nunca coocurrieron en los datos de entrenamiento, fenómeno conocido como traducción zero-shot. El costo es la interferencia entre idiomas con escrituras o sintaxis muy diferentes, que se manifiesta en errores sistemáticos que las líneas base monolingües no exhiben.
Evaluación
La calidad de la traducción es difícil de medir porque hay muchas traducciones aceptables de cualquier oración dada. La BLEU Score calcula la precisión de n-gramas modificada contra una o más traducciones de referencia y sigue siendo el número titular más reportado a pesar de sus debilidades bien documentadas. Métricas más nuevas basadas en referencia, como chrF, COMET y BLEURT, correlacionan mejor con el juicio humano, especialmente para sistemas de alta calidad donde las pequeñas diferencias en BLEU no son fiables. Las métricas sin referencia, que comparan una traducción candidata con la fuente mediante un modelo de estimación de calidad, se utilizan cada vez más en producción para señalar salidas de baja confianza. La evaluación humana a lo largo de ejes de adecuación y fluidez, o mediante valoración directa, sigue siendo el patrón de oro para la comparación de sistemas y es exigida por las grandes tareas compartidas como la Conference on Machine Translation.
Limitaciones e investigación activa
Incluso los sistemas más fuertes actuales cometen errores sistemáticos. Las alucinaciones —oraciones destino fluidas pero no relacionadas con la fuente— aparecen bajo cambios de dominio o puntuación inusual. Los sesgos de género y otros sesgos sociales se amplifican cuando los pronombres fuente son ambiguos. La coherencia a nivel de documento es pobre porque la mayoría de los sistemas traducen oración por oración y pierden el contexto anafórico y estilístico. Los idiomas de bajos recursos y morfológicamente ricos siguen sustancialmente por detrás del inglés-francés o inglés-alemán. Las direcciones de investigación activa incluyen la traducción consciente del documento y del discurso, la integración con recuperación para anclar nombres y terminología poco frecuentes, los grandes modelos de lenguaje ajustados por instrucciones que realizan traducción como una capacidad entre muchas, y la traducción de habla a habla y de lenguas de signos donde la propia modalidad de entrada no es textual.
Referencias
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv
- ↑ Koehn, P. Statistical Machine Translation. Cambridge University Press, 2010.
- ↑ Brown, P. F. et al. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 1993.
- ↑ Papineni, K. et al. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL, 2002.
- ↑ Template:Cite arxiv
- ↑ Template:Cite arxiv