DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:01Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 119:		Line 119:
	[[Category:NLP]]		[[Category:NLP]]
	[[Category:Intermediate]]		[[Category:Intermediate]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:01:27Z

Pass 2 force re-parse

← Older revision		Revision as of 07:01, 24 April 2026
Line 120:		Line 120:
	[[Category:Intermediate]]		[[Category:Intermediate]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:58:49Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:58, 24 April 2026
Line 119:		Line 119:
	[[Category:NLP]]		[[Category:NLP]]
	[[Category:Intermediate]]		[[Category:Intermediate]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:51Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Word Embeddings}}
{{ArticleInfobox | topic_area = NLP | difficulty = Intermediate | prerequisites = [[Neural Networks]]}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

Los '''word embeddings''' son representaciones vectoriales densas y de baja dimensionalidad de palabras en las que las palabras semanticamente similares se mapean a puntos cercanos en el espacio vectorial. Son un componente fundamental del procesamiento del lenguaje natural (PLN) moderno, reemplazando las codificaciones dispersas one-hot con representaciones que capturan significado, analogia y relaciones sintacticas.

== La hipotesis distribucional ==

Los word embeddings se fundamentan en la '''hipotesis distribucional''', enunciada de forma celebre por J. R. Firth (1957): "Conoceras una palabra por la compania que mantiene." La idea es que las palabras que aparecen en contextos similares tienden a tener significados similares. Por ejemplo, "perro" y "gato" aparecen frecuentemente cerca de palabras como "mascota", "pelo" y "veterinario", por lo que deberian tener representaciones similares.

Los enfoques tempranos para explotar la informacion distribucional incluyen matrices de coocurrencia, informacion mutua puntual (PMI) y analisis semantico latente (LSA). Los metodos modernos de word embeddings aprenden vectores densos directamente utilizando redes neuronales.

== Representaciones one-hot vs. densas ==

=== Codificacion one-hot ===

En un vocabulario de <math>V</math> palabras, un vector one-hot para la <math>i</math>-esima palabra es un vector de <math>V</math> dimensiones con un 1 en la posicion <math>i</math> y 0 en el resto. Esta representacion tiene dos deficiencias criticas:

* '''Dimensionalidad''' — los vectores son de dimension extremadamente alta (tipicamente <math>V > 100{,}000</math>).
* '''Sin similitud''' — cada par de vectores one-hot es igualmente distante: <math>\mathbf{e}_i^\top \mathbf{e}_j = 0</math> para <math>i \neq j</math>. "Gato" esta tan lejos de "perro" como lo esta de "democracia."

=== Embeddings densos ===

Un word embedding mapea cada palabra a un vector de valores reales de <math>d</math> dimensiones (tipicamente <math>d = 100</math>–<math>300</math>):

:<math>\mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V</math>

Las palabras similares tienen una alta similitud coseno:

:<math>\text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|}</math>

== Word2Vec ==

'''Word2Vec''' (Mikolov et al., 2013) introdujo dos arquitecturas eficientes para aprender word embeddings a partir de grandes corpus.

=== Bolsa continua de palabras (CBOW) ===

CBOW predice una palabra objetivo a partir de sus palabras de contexto circundantes. Dada una ventana de palabras de contexto <math>\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}</math>, el modelo maximiza:

:<math>P(w_t \mid w_{t-c}, \ldots, w_{t+c})</math>

Los vectores de las palabras de contexto se promedian y se pasan a traves de una capa softmax. CBOW es mas rapido de entrenar y funciona bien para palabras frecuentes.

=== Skip-gram ===

Skip-gram invierte la prediccion: dada una palabra objetivo, predice las palabras de contexto circundantes. Para cada par <math>(w_t, w_{t+j})</math> donde <math>j \in [-c, c] \setminus \{0\}</math>, el modelo maximiza:

:<math>P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}'_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_t})}</math>

donde <math>\mathbf{v}_w</math> y <math>\mathbf{v}'_w</math> son los vectores de embedding de entrada y salida. Calcular el softmax completo sobre el vocabulario es costoso, por lo que se utilizan dos aproximaciones comunes:

* '''Muestreo negativo''' — en lugar de calcular el softmax completo, el modelo contrasta la palabra de contexto verdadera contra <math>k</math> palabras "negativas" muestreadas aleatoriamente.
* '''Softmax jerarquico''' — organiza el vocabulario en un arbol binario, reduciendo el coste del softmax de <math>O(V)</math> a <math>O(\log V)</math>.

Skip-gram funciona bien con palabras infrecuentes y captura relaciones sutiles. La famosa analogia "rey - hombre + mujer ≈ reina" surgio de embeddings Skip-gram.

== GloVe ==

'''GloVe''' (Global Vectors, Pennington et al., 2014) combina las fortalezas de la factorizacion de matrices globales y los metodos de ventana de contexto local. Construye una matriz de coocurrencia de palabras <math>X</math> a partir del corpus, donde <math>X_{ij}</math> cuenta con que frecuencia la palabra <math>j</math> aparece en el contexto de la palabra <math>i</math>, y luego optimiza:

:<math>J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2</math>

donde <math>f</math> es una funcion de ponderacion que limita la influencia de coocurrencias muy frecuentes. Los embeddings de GloVe a menudo igualan o superan la calidad de Word2Vec, y el uso explicito de estadisticas globales puede mejorar el rendimiento en tareas de analogia.

== fastText ==

'''fastText''' (Bojanowski et al., 2017) extiende Word2Vec representando cada palabra como una bolsa de n-gramas de caracteres. Por ejemplo, la palabra "donde" con <math>n = 3</math> se representa por los n-gramas {"<do", "don", "ond", "nde", "de>"} mas la palabra completa "<donde>". El embedding de una palabra es la suma de sus vectores de n-gramas.

Este enfoque tiene dos ventajas clave:

* '''Manejo de palabras raras y no vistas''' — incluso las palabras que no estan en el vocabulario de entrenamiento pueden recibir embeddings al sumar sus vectores de n-gramas de caracteres.
* '''Conciencia morfologica''' — las palabras que comparten subcadenas (por ejemplo, "ensenar", "ensenanza", "ensenante") comparten automaticamente componentes del embedding.

== Evaluacion de embeddings ==

Los word embeddings se evaluan mediante:

{| class="wikitable"
|-
! Tipo de evaluacion !! Ejemplos !! Que mide
|-
| '''Intrinseca: analogia''' || "rey : reina :: hombre : ?" || Estructura lineal del espacio
|-
| '''Intrinseca: similitud''' || Correlacion con juicios de similitud humanos (SimLex-999, WS-353) || Calidad semantica
|-
| '''Extrinseca: tarea posterior''' || Reconocimiento de entidades nombradas, analisis de sentimiento, parsing || Utilidad practica
|}

Las evaluaciones intrinsecas son rapidas pero no siempre predicen el rendimiento en tareas posteriores. La evaluacion extrinseca en la tarea objetivo es, en ultima instancia, la medida mas fiable.

== Embeddings contextuales ==

Los word embeddings tradicionales asignan un unico vector por palabra independientemente del contexto — la palabra "banco" tiene el mismo embedding ya sea que se refiera a un banco de rio o a una institucion financiera. Los '''embeddings contextuales''' abordan esta limitacion produciendo representaciones diferentes segun el texto circundante.

Los modelos de embeddings contextuales mas notables incluyen:

* '''ELMo''' (Peters et al., 2018) — utiliza un LSTM bidireccional para generar representaciones de palabras dependientes del contexto.
* '''BERT''' (Devlin et al., 2019) — utiliza un codificador Transformer entrenado con modelado de lenguaje enmascarado.
* '''Serie GPT''' (Radford et al., 2018–) — utiliza un decodificador Transformer entrenado de forma autorregresiva.

Estos modelos han reemplazado en gran medida a los embeddings estaticos para la mayoria de las tareas de PLN, aunque los embeddings estaticos siguen siendo utiles por su eficiencia, interpretabilidad y en entornos con recursos limitados.

== Vease tambien ==

* [[Neural Networks]]
* [[Recurrent Neural Networks]]
* [[Loss Functions]]
* [[Backpropagation]]

== Referencias ==

* Firth, J. R. (1957). "A synopsis of linguistic theory, 1930–1955". In ''Studies in Linguistic Analysis''.
* Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". ''arXiv:1301.3781''.
* Pennington, J., Socher, R. and Manning, C. D. (2014). "GloVe: Global Vectors for Word Representation". ''EMNLP''.
* Bojanowski, P. et al. (2017). "Enriching Word Vectors with Subword Information". ''TACL'', 5, 135–146.
* Peters, M. E. et al. (2018). "Deep contextualized word representations". ''NAACL''.
* Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". ''NAACL''.

[[Category:NLP]]
[[Category:Intermediate]]

Word Embeddings/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)