<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Word_Embeddings%2Fzh</id>
	<title>Word Embeddings/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Word_Embeddings%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Word_Embeddings/zh&amp;action=history"/>
	<updated>2026-04-27T18:24:33Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Word_Embeddings/zh&amp;diff=6003&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Word Embeddings unit 46 -&gt; zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Word_Embeddings/zh&amp;diff=6003&amp;oldid=prev"/>
		<updated>2026-04-27T04:06:08Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Word Embeddings unit 46 -&amp;gt; zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
{{ArticleInfobox | topic_area = NLP | difficulty = Intermediate | prerequisites = [[Neural Networks]]}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;词嵌入&amp;#039;&amp;#039;&amp;#039;（word embeddings）是词的稠密、低维向量表示，其中语义相似的词被映射到向量空间中相邻的点。它们是现代自然语言处理（NLP）的基础组件，用能够捕捉含义、类比和句法关系的表示替代了稀疏的 one-hot 编码。&lt;br /&gt;
&lt;br /&gt;
== 分布假说 ==&lt;br /&gt;
&lt;br /&gt;
词嵌入建立在&amp;#039;&amp;#039;&amp;#039;分布假说&amp;#039;&amp;#039;&amp;#039;之上，该假说由 J. R. Firth（1957）提出了著名的表述：&amp;quot;你可以通过一个词的伙伴来认识这个词。&amp;quot; 其核心思想是，出现在相似上下文中的词往往具有相似的含义。例如，&amp;quot;狗&amp;quot;和&amp;quot;猫&amp;quot;经常出现在&amp;quot;宠物&amp;quot;、&amp;quot;皮毛&amp;quot;和&amp;quot;兽医&amp;quot;等词附近，因此它们应该具有相似的表示。&lt;br /&gt;
&lt;br /&gt;
利用分布信息的早期方法包括共现矩阵、点互信息（PMI）和潜在语义分析（LSA）。现代的词嵌入方法直接使用神经网络学习稠密向量。&lt;br /&gt;
&lt;br /&gt;
== One-hot 与稠密表示 ==&lt;br /&gt;
&lt;br /&gt;
=== One-hot 编码 ===&lt;br /&gt;
&lt;br /&gt;
在包含 &amp;lt;math&amp;gt;V&amp;lt;/math&amp;gt; 个词的词表中，第 &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt; 个词的 one-hot 向量是一个 &amp;lt;math&amp;gt;V&amp;lt;/math&amp;gt; 维向量，在位置 &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt; 处为 1，其他位置为 0。这种表示存在两个关键缺陷：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;维度&amp;#039;&amp;#039;&amp;#039; —— 向量维度极高（通常 &amp;lt;math&amp;gt;V &amp;gt; 100{,}000&amp;lt;/math&amp;gt;）。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;无相似性&amp;#039;&amp;#039;&amp;#039; —— 每对 one-hot 向量都等距：当 &amp;lt;math&amp;gt;i \neq j&amp;lt;/math&amp;gt; 时 &amp;lt;math&amp;gt;\mathbf{e}_i^\top \mathbf{e}_j = 0&amp;lt;/math&amp;gt;。&amp;quot;猫&amp;quot;与&amp;quot;狗&amp;quot;的距离与它和&amp;quot;民主&amp;quot;的距离相同。&lt;br /&gt;
&lt;br /&gt;
=== 稠密嵌入 ===&lt;br /&gt;
&lt;br /&gt;
词嵌入将每个词映射到一个 &amp;lt;math&amp;gt;d&amp;lt;/math&amp;gt; 维的实值向量（通常 &amp;lt;math&amp;gt;d = 100&amp;lt;/math&amp;gt;–&amp;lt;math&amp;gt;300&amp;lt;/math&amp;gt;）：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
相似的词具有较高的余弦相似度：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Word2Vec ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Word2Vec&amp;#039;&amp;#039;&amp;#039;（Mikolov 等，2013）引入了两种高效的架构，用于从大规模语料库中学习词嵌入。&lt;br /&gt;
&lt;br /&gt;
=== 连续词袋（CBOW） ===&lt;br /&gt;
&lt;br /&gt;
CBOW 根据周围的上下文词预测目标词。给定上下文词窗口 &amp;lt;math&amp;gt;\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}&amp;lt;/math&amp;gt;，模型最大化：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;P(w_t \mid w_{t-c}, \ldots, w_{t+c})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上下文词向量被取平均后通过 softmax 层。CBOW 训练速度更快，对高频词效果良好。&lt;br /&gt;
&lt;br /&gt;
=== Skip-gram ===&lt;br /&gt;
&lt;br /&gt;
Skip-gram 反转了预测方向：给定一个目标词，预测其周围的上下文词。对于每对 &amp;lt;math&amp;gt;(w_t, w_{t+j})&amp;lt;/math&amp;gt;，其中 &amp;lt;math&amp;gt;j \in [-c, c] \setminus \{0\}&amp;lt;/math&amp;gt;，模型最大化：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}&amp;#039;_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}&amp;#039;_w{}^\top \mathbf{v}_{w_t})}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\mathbf{v}_w&amp;lt;/math&amp;gt; 和 &amp;lt;math&amp;gt;\mathbf{v}&amp;#039;_w&amp;lt;/math&amp;gt; 分别是输入和输出嵌入向量。在整个词表上计算完整的 softmax 代价高昂，因此通常使用两种近似方法：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;负采样&amp;#039;&amp;#039;&amp;#039;（negative sampling）—— 模型不计算完整的 softmax，而是将真实的上下文词与 &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; 个随机采样的&amp;quot;负&amp;quot;词进行对比。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;层次化 softmax&amp;#039;&amp;#039;&amp;#039;（hierarchical softmax）—— 将词表组织为二叉树，将 softmax 的代价从 &amp;lt;math&amp;gt;O(V)&amp;lt;/math&amp;gt; 降低到 &amp;lt;math&amp;gt;O(\log V)&amp;lt;/math&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
Skip-gram 在罕见词上表现良好，并能捕捉微妙的关系。著名的类比&amp;quot;king − man + woman ≈ queen&amp;quot;就源于 Skip-gram 嵌入。&lt;br /&gt;
&lt;br /&gt;
== GloVe ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;GloVe&amp;#039;&amp;#039;&amp;#039;（全局向量，Pennington 等，2014）结合了全局矩阵分解和局部上下文窗口方法的优点。它从语料库中构建一个词共现矩阵 &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt;，其中 &amp;lt;math&amp;gt;X_{ij}&amp;lt;/math&amp;gt; 统计词 &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt; 出现在词 &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt; 上下文中的频率，然后优化：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; 是一个加权函数，用于限制非常高频共现的影响。GloVe 嵌入的质量通常与 Word2Vec 相当或更高，并且对全局统计的显式利用可以提升类比任务的性能。&lt;br /&gt;
&lt;br /&gt;
== fastText ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;fastText&amp;#039;&amp;#039;&amp;#039;（Bojanowski 等，2017）通过将每个词表示为字符 n-gram 的集合来扩展 Word2Vec。例如，当 &amp;lt;math&amp;gt;n = 3&amp;lt;/math&amp;gt; 时，单词&amp;quot;where&amp;quot;由 n-gram {&amp;quot;&amp;lt;wh&amp;quot;, &amp;quot;whe&amp;quot;, &amp;quot;her&amp;quot;, &amp;quot;ere&amp;quot;, &amp;quot;re&amp;gt;&amp;quot;} 加上整个词&amp;quot;&amp;lt;where&amp;gt;&amp;quot;来表示。一个词的嵌入是其 n-gram 向量之和。&lt;br /&gt;
&lt;br /&gt;
这种方法有两个主要优势：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;处理罕见词和未登录词&amp;#039;&amp;#039;&amp;#039; —— 即使是训练词表中不存在的词，也可以通过对其字符 n-gram 向量求和来获得嵌入。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;形态感知&amp;#039;&amp;#039;&amp;#039; —— 共享子串的词（例如&amp;quot;teach&amp;quot;、&amp;quot;teacher&amp;quot;、&amp;quot;teaching&amp;quot;）会自动共享嵌入的组成部分。&lt;br /&gt;
&lt;br /&gt;
== 嵌入的评估 ==&lt;br /&gt;
&lt;br /&gt;
词嵌入通过以下方式进行评估：&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! 评估类型 !! 示例 !! 衡量内容&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;内在评估：类比&amp;#039;&amp;#039;&amp;#039; || &amp;quot;king : queen :: man : ?&amp;quot; || 空间的线性结构&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;内在评估：相似度&amp;#039;&amp;#039;&amp;#039; || 与人类相似度判断的相关性（SimLex-999、WS-353） || 语义质量&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;外在评估：下游任务&amp;#039;&amp;#039;&amp;#039; || 命名实体识别、情感分析、句法分析 || 实际效用&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
内在评估速度快，但并不总能预测下游任务的性能。最终，在目标任务上的外在评估是最可靠的衡量标准。&lt;br /&gt;
&lt;br /&gt;
== 上下文嵌入 ==&lt;br /&gt;
&lt;br /&gt;
传统词嵌入为每个词分配一个固定向量，与上下文无关 —— 无论&amp;quot;bank&amp;quot;指的是河岸还是金融机构，它的嵌入都相同。&amp;#039;&amp;#039;&amp;#039;上下文嵌入&amp;#039;&amp;#039;&amp;#039;通过根据周围文本生成不同的表示来解决这一局限。&lt;br /&gt;
&lt;br /&gt;
著名的上下文嵌入模型包括：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;ELMo&amp;#039;&amp;#039;&amp;#039;（Peters 等，2018）—— 使用双向 LSTM 生成依赖于上下文的词表示。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;BERT&amp;#039;&amp;#039;&amp;#039;（Devlin 等，2019）—— 使用通过掩码语言建模训练的 Transformer 编码器。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;GPT&amp;#039;&amp;#039;&amp;#039; 系列（Radford 等，2018–）—— 使用以自回归方式训练的 Transformer 解码器。&lt;br /&gt;
&lt;br /&gt;
这些模型在大多数 NLP 任务中已基本取代了静态嵌入，不过静态嵌入在效率、可解释性以及低资源场景下仍然有用。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Neural Networks|神经网络]]&lt;br /&gt;
* [[Recurrent Neural Networks|循环神经网络]]&lt;br /&gt;
* [[Loss Functions|损失函数]]&lt;br /&gt;
* [[Backpropagation|反向传播]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
* Firth, J. R. (1957). &amp;quot;A synopsis of linguistic theory, 1930–1955&amp;quot;. 收录于 &amp;#039;&amp;#039;Studies in Linguistic Analysis&amp;#039;&amp;#039;。&lt;br /&gt;
* Mikolov, T. et al. (2013). &amp;quot;Efficient Estimation of Word Representations in Vector Space&amp;quot;. &amp;#039;&amp;#039;arXiv:1301.3781&amp;#039;&amp;#039;。&lt;br /&gt;
* Pennington, J., Socher, R. 与 Manning, C. D. (2014). &amp;quot;GloVe: Global Vectors for Word Representation&amp;quot;. &amp;#039;&amp;#039;EMNLP&amp;#039;&amp;#039;。&lt;br /&gt;
* Bojanowski, P. et al. (2017). &amp;quot;Enriching Word Vectors with Subword Information&amp;quot;. &amp;#039;&amp;#039;TACL&amp;#039;&amp;#039;, 5, 135–146。&lt;br /&gt;
* Peters, M. E. et al. (2018). &amp;quot;Deep contextualized word representations&amp;quot;. &amp;#039;&amp;#039;NAACL&amp;#039;&amp;#039;。&lt;br /&gt;
* Devlin, J. et al. (2019). &amp;quot;BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding&amp;quot;. &amp;#039;&amp;#039;NAACL&amp;#039;&amp;#039;。&lt;br /&gt;
&lt;br /&gt;
[[Category:NLP]]&lt;br /&gt;
[[Category:Intermediate]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>