Word Embeddings/es

Article
Topic area	NLP
Difficulty	Intermediate
Prerequisites	Neural Networks

Languages: English | Español | 中文

Los word embeddings son representaciones vectoriales densas y de baja dimensionalidad de palabras en las que las palabras semanticamente similares se mapean a puntos cercanos en el espacio vectorial. Son un componente fundamental del procesamiento del lenguaje natural (PLN) moderno, reemplazando las codificaciones dispersas one-hot con representaciones que capturan significado, analogia y relaciones sintacticas.

La hipotesis distribucional

Los word embeddings se fundamentan en la hipotesis distribucional, enunciada de forma celebre por J. R. Firth (1957): "Conoceras una palabra por la compania que mantiene." La idea es que las palabras que aparecen en contextos similares tienden a tener significados similares. Por ejemplo, "perro" y "gato" aparecen frecuentemente cerca de palabras como "mascota", "pelo" y "veterinario", por lo que deberian tener representaciones similares.

Los enfoques tempranos para explotar la informacion distribucional incluyen matrices de coocurrencia, informacion mutua puntual (PMI) y analisis semantico latente (LSA). Los metodos modernos de word embeddings aprenden vectores densos directamente utilizando redes neuronales.

Representaciones one-hot vs. densas

Codificacion one-hot

En un vocabulario de $$ V $$ palabras, un vector one-hot para la $$ i $$ -esima palabra es un vector de $$ V $$ dimensiones con un 1 en la posicion $$ i $$ y 0 en el resto. Esta representacion tiene dos deficiencias criticas:

Dimensionalidad — los vectores son de dimension extremadamente alta (tipicamente $$ V > 100{,}000 $$ ).
Sin similitud — cada par de vectores one-hot es igualmente distante: $\mathbf{e}_i^\top \mathbf{e}_j = 0$ para $i \neq j$ . "Gato" esta tan lejos de "perro" como lo esta de "democracia."

Embeddings densos

Un word embedding mapea cada palabra a un vector de valores reales de $$ d $$ dimensiones (tipicamente $$ d = 100 $$ – $$ 300 $$ ):

\mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V

Las palabras similares tienen una alta similitud coseno:

\text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|}

Word2Vec

Word2Vec (Mikolov et al., 2013) introdujo dos arquitecturas eficientes para aprender word embeddings a partir de grandes corpus.

Bolsa continua de palabras (CBOW)

CBOW predice una palabra objetivo a partir de sus palabras de contexto circundantes. Dada una ventana de palabras de contexto $\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}$ , el modelo maximiza:

P(w_t \mid w_{t-c}, \ldots, w_{t+c})

Los vectores de las palabras de contexto se promedian y se pasan a traves de una capa softmax. CBOW es mas rapido de entrenar y funciona bien para palabras frecuentes.

Skip-gram

Skip-gram invierte la prediccion: dada una palabra objetivo, predice las palabras de contexto circundantes. Para cada par $(w_t, w_{t+j})$ donde $j \in [-c, c] \setminus \{0\}$ , el modelo maximiza:

P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}'_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_t})}

donde $\mathbf{v}_w$ y $\mathbf{v}'_w$ son los vectores de embedding de entrada y salida. Calcular el softmax completo sobre el vocabulario es costoso, por lo que se utilizan dos aproximaciones comunes:

Muestreo negativo — en lugar de calcular el softmax completo, el modelo contrasta la palabra de contexto verdadera contra $$ k $$ palabras "negativas" muestreadas aleatoriamente.
Softmax jerarquico — organiza el vocabulario en un arbol binario, reduciendo el coste del softmax de $$ O(V) $$ a $O(\log V)$ .

Skip-gram funciona bien con palabras infrecuentes y captura relaciones sutiles. La famosa analogia "rey - hombre + mujer ≈ reina" surgio de embeddings Skip-gram.

GloVe

GloVe (Global Vectors, Pennington et al., 2014) combina las fortalezas de la factorizacion de matrices globales y los metodos de ventana de contexto local. Construye una matriz de coocurrencia de palabras $$ X $$ a partir del corpus, donde $X_{ij}$ cuenta con que frecuencia la palabra $$ j $$ aparece en el contexto de la palabra $$ i $$ , y luego optimiza:

J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2

donde $$ f $$ es una funcion de ponderacion que limita la influencia de coocurrencias muy frecuentes. Los embeddings de GloVe a menudo igualan o superan la calidad de Word2Vec, y el uso explicito de estadisticas globales puede mejorar el rendimiento en tareas de analogia.

fastText

fastText (Bojanowski et al., 2017) extiende Word2Vec representando cada palabra como una bolsa de n-gramas de caracteres. Por ejemplo, la palabra "donde" con $$ n = 3 $$ se representa por los n-gramas {"<do", "don", "ond", "nde", "de>"} mas la palabra completa "<donde>". El embedding de una palabra es la suma de sus vectores de n-gramas.

Este enfoque tiene dos ventajas clave:

Manejo de palabras raras y no vistas — incluso las palabras que no estan en el vocabulario de entrenamiento pueden recibir embeddings al sumar sus vectores de n-gramas de caracteres.
Conciencia morfologica — las palabras que comparten subcadenas (por ejemplo, "ensenar", "ensenanza", "ensenante") comparten automaticamente componentes del embedding.

Evaluacion de embeddings

Los word embeddings se evaluan mediante:

Tipo de evaluacion	Ejemplos	Que mide
Intrinseca: analogia	"rey : reina :: hombre : ?"	Estructura lineal del espacio
Intrinseca: similitud	Correlacion con juicios de similitud humanos (SimLex-999, WS-353)	Calidad semantica
Extrinseca: tarea posterior	Reconocimiento de entidades nombradas, analisis de sentimiento, parsing	Utilidad practica

Las evaluaciones intrinsecas son rapidas pero no siempre predicen el rendimiento en tareas posteriores. La evaluacion extrinseca en la tarea objetivo es, en ultima instancia, la medida mas fiable.

Embeddings contextuales

Los word embeddings tradicionales asignan un unico vector por palabra independientemente del contexto — la palabra "banco" tiene el mismo embedding ya sea que se refiera a un banco de rio o a una institucion financiera. Los embeddings contextuales abordan esta limitacion produciendo representaciones diferentes segun el texto circundante.

Los modelos de embeddings contextuales mas notables incluyen:

ELMo (Peters et al., 2018) — utiliza un LSTM bidireccional para generar representaciones de palabras dependientes del contexto.
BERT (Devlin et al., 2019) — utiliza un codificador Transformer entrenado con modelado de lenguaje enmascarado.
Serie GPT (Radford et al., 2018–) — utiliza un decodificador Transformer entrenado de forma autorregresiva.

Estos modelos han reemplazado en gran medida a los embeddings estaticos para la mayoria de las tareas de PLN, aunque los embeddings estaticos siguen siendo utiles por su eficiencia, interpretabilidad y en entornos con recursos limitados.

Vease tambien

Referencias

Firth, J. R. (1957). "A synopsis of linguistic theory, 1930–1955". In Studies in Linguistic Analysis.
Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781.
Pennington, J., Socher, R. and Manning, C. D. (2014). "GloVe: Global Vectors for Word Representation". EMNLP.
Bojanowski, P. et al. (2017). "Enriching Word Vectors with Subword Information". TACL, 5, 135–146.
Peters, M. E. et al. (2018). "Deep contextualized word representations". NAACL.
Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL.