Efficient Estimation of Word Representations/es

Research Paper
Authors	Tomas Mikolov; Kai Chen; Greg Corrado; Jeffrey Dean
Year	2013
Venue	ICLR Workshop
Topic area	NLP
Difficulty	Research
arXiv	1301.3781
PDF	Download PDF

This page is a translated version of the page Efficient Estimation of Word Representations and the translation is 100% complete.

Other languages:

English
Español
中文

Languages: English | Español | 中文

Efficient Estimation of Word Representations in Vector Space es un artículo de 2013 de Mikolov et al. de Google que presentó Word2Vec, una familia de métodos computacionalmente eficientes para aprender representaciones distribuidas de palabras (word embeddings) a partir de grandes corpus de texto. El artículo propuso dos arquitecturas novedosas — Continuous Bag-of-Words (CBOW) y Skip-gram — que podían entrenarse con miles de millones de palabras en cuestión de horas, produciendo representaciones vectoriales que capturaban relaciones sintácticas y semánticas entre palabras, incluida la célebre propiedad de analogía de palabras.

Resumen

Los trabajos previos sobre representaciones distribuidas de palabras utilizaban modelos de lenguaje neuronales que aprendían conjuntamente vectores de palabras y un modelo de lenguaje, pero estos eran computacionalmente costosos y difíciles de escalar a corpus muy grandes. Modelos más simples como el análisis semántico latente (LSA) capturaban estadísticas de co-ocurrencia, pero no lograban preservar regularidades lineales entre palabras.

Mikolov et al. propusieron dos arquitecturas que eliminaban la complejidad de los modelos de lenguaje neuronales completos — eliminando la capa oculta no lineal — para centrarse en aprender vectores de palabras de manera eficiente. Los modelos resultantes podían entrenarse con corpus de miles de millones de palabras en un solo día utilizando recursos computacionales modestos, produciendo al mismo tiempo vectores de palabras de calidad sorprendentemente alta.

Contribuciones clave

Modelo CBOW: Una arquitectura que predice una palabra objetivo a partir de las palabras de contexto que la rodean, utilizando el promedio de los vectores de las palabras de contexto como entrada.
Modelo Skip-gram: Una arquitectura que predice las palabras de contexto que rodean una palabra objetivo, invirtiendo efectivamente el objetivo de CBOW.
Evaluación de analogías de palabras: Introducción del conjunto de prueba de analogías de palabras para evaluar la calidad de los vectores de palabras, demostrando que la aritmética vectorial captura relaciones semánticas y sintácticas.
Escalabilidad: Demostración de que se podían aprender vectores de palabras de alta calidad a partir de corpus muy grandes (de hasta 6 mil millones de tokens) con tiempos de entrenamiento de menos de un día.

Métodos

Ambos modelos operan sobre una ventana deslizante a lo largo del corpus de texto y aprenden a predecir palabras a partir de su contexto (CBOW) o el contexto a partir de las palabras (Skip-gram).

El modelo Continuous Bag-of-Words (CBOW) predice la palabra central $$ w_t $$ dada una ventana de palabras de contexto $\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}$ . La entrada es el promedio de los vectores de las palabras de contexto:

$\mathbf{h} = \frac{1}{2c} \sum_{-c \leq j \leq c, j \neq 0} \mathbf{v}_{w_{t+j}}$

La probabilidad de la palabra objetivo se calcula utilizando una softmax:

$P(w_t \mid \text{context}) = \frac{\exp(\mathbf{v}'_{w_t} \cdot \mathbf{h})}{\sum_{w \in V} \exp(\mathbf{v}'_w \cdot \mathbf{h})}$

donde $\mathbf{v}_w$ y $\mathbf{v}'_w$ son las representaciones vectoriales de entrada y salida de la palabra $$ w $$ .

El modelo Skip-gram invierte esto, prediciendo las palabras de contexto a partir de la palabra central. Dada la palabra central $$ w_t $$ , el modelo maximiza:

$\frac{1}{T} \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} \mid w_t)$

donde:

$P(w_O \mid w_I) = \frac{\exp(\mathbf{v}'_{w_O} \cdot \mathbf{v}_{w_I})}{\sum_{w \in V} \exp(\mathbf{v}'_w \cdot \mathbf{v}_{w_I})}$

Calcular la softmax completa sobre un vocabulario grande es prohibitivamente costoso. El artículo utilizó la softmax jerárquica con un árbol de Huffman para reducir la complejidad de $$ O(V) $$ a $O(\log V)$ . Un artículo posterior introdujo el negative sampling como una alternativa más simple y a menudo más eficaz.

Una decisión arquitectónica clave fue la eliminación de la capa oculta no lineal presente en los modelos de lenguaje neuronales anteriores. Esta simplificación fue crucial para la eficiencia computacional y, sorprendentemente, no perjudicó la calidad de las representaciones aprendidas.

Resultados

El resultado más sorprendente fue la aparición de relaciones lineales entre los vectores de palabras. Las representaciones aprendidas admitían analogías de palabras mediante aritmética vectorial:

$\text{vector}(\text{"king"}) - \text{vector}(\text{"man"}) + \text{vector}(\text{"woman"}) \approx \text{vector}(\text{"queen"})$

El artículo introdujo un conjunto exhaustivo de prueba de analogías de palabras con 8.869 preguntas de analogías semánticas y 10.675 sintácticas. Los resultados mostraron:

Skip-gram alcanzó la mejor precisión semántica (55%) y una precisión sintáctica competitiva en un corpus de entrenamiento de 783 millones de palabras.
CBOW fue más rápido de entrenar y logró la mejor precisión sintáctica, con una precisión semántica competitiva.
La precisión mejoró de manera consistente con el tamaño de los datos de entrenamiento y la dimensionalidad de los vectores, hasta un punto de rendimientos decrecientes.
Ambos modelos superaron sustancialmente a enfoques previos, incluidos NNLM y RNNLM, en la tarea de analogía, entrenando órdenes de magnitud más rápido.

El entrenamiento sobre un corpus de Google News de 6 mil millones de palabras con vectores de 300 dimensiones (utilizando el enfoque posterior de negative sampling) produjo los ampliamente utilizados vectores Word2Vec preentrenados.

Impacto

Word2Vec transformó el PLN al establecer los embeddings de palabras como la representación de entrada estándar para los sistemas de PLN neuronales. Antes de Word2Vec, la mayoría de los sistemas de PLN se basaban en representaciones dispersas y de alta dimensión, como vectores one-hot o TF-IDF. Word2Vec demostró que vectores densos y de baja dimensión podían capturar una rica estructura lingüística y transferirse de manera significativa entre tareas.

La propiedad de analogía capturó la imaginación del público y se convirtió en un ejemplo icónico de representaciones aprendidas que codifican una estructura significativa. Los embeddings de Word2Vec se utilizaron como características en prácticamente todos los sistemas de PLN de mediados de la década de 2010, desde el análisis de sentimiento hasta la traducción automática.

Los modelos influyeron directamente en trabajos posteriores sobre embeddings, incluidos GloVe, FastText y embeddings contextuales como ELMo y BERT. Aunque los vectores de palabras estáticos han sido en gran medida reemplazados por las representaciones contextuales de los modelos de lenguaje grandes, Word2Vec sigue siendo un punto de referencia fundamental y aún se utiliza en aplicaciones donde la eficiencia computacional es primordial.

Véase también

Referencias

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR 2013 Workshop. arXiv:1301.3781
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. NeurIPS 2013. arXiv:1310.4546.
Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP 2014.