DeployBot: Batch translate Word Embeddings unit 46 -> zh

2026-04-27T04:06:08Z

Batch translate Word Embeddings unit 46 -> zh

New page

<languages />
{{ArticleInfobox | topic_area = NLP | difficulty = Intermediate | prerequisites = [[Neural Networks]]}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''词嵌入'''（word embeddings）是词的稠密、低维向量表示，其中语义相似的词被映射到向量空间中相邻的点。它们是现代自然语言处理（NLP）的基础组件，用能够捕捉含义、类比和句法关系的表示替代了稀疏的 one-hot 编码。

== 分布假说 ==

词嵌入建立在'''分布假说'''之上，该假说由 J. R. Firth（1957）提出了著名的表述："你可以通过一个词的伙伴来认识这个词。" 其核心思想是，出现在相似上下文中的词往往具有相似的含义。例如，"狗"和"猫"经常出现在"宠物"、"皮毛"和"兽医"等词附近，因此它们应该具有相似的表示。

利用分布信息的早期方法包括共现矩阵、点互信息（PMI）和潜在语义分析（LSA）。现代的词嵌入方法直接使用神经网络学习稠密向量。

== One-hot 与稠密表示 ==

=== One-hot 编码 ===

在包含 <math>V</math> 个词的词表中，第 <math>i</math> 个词的 one-hot 向量是一个 <math>V</math> 维向量，在位置 <math>i</math> 处为 1，其他位置为 0。这种表示存在两个关键缺陷：

* '''维度''' —— 向量维度极高（通常 <math>V > 100{,}000</math>）。
* '''无相似性''' —— 每对 one-hot 向量都等距：当 <math>i \neq j</math> 时 <math>\mathbf{e}_i^\top \mathbf{e}_j = 0</math>。"猫"与"狗"的距离与它和"民主"的距离相同。

=== 稠密嵌入 ===

词嵌入将每个词映射到一个 <math>d</math> 维的实值向量（通常 <math>d = 100</math>–<math>300</math>）：

:<math>\mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V</math>

相似的词具有较高的余弦相似度：

:<math>\text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|}</math>

== Word2Vec ==

'''Word2Vec'''（Mikolov 等，2013）引入了两种高效的架构，用于从大规模语料库中学习词嵌入。

=== 连续词袋（CBOW） ===

CBOW 根据周围的上下文词预测目标词。给定上下文词窗口 <math>\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}</math>，模型最大化：

:<math>P(w_t \mid w_{t-c}, \ldots, w_{t+c})</math>

上下文词向量被取平均后通过 softmax 层。CBOW 训练速度更快，对高频词效果良好。

=== Skip-gram ===

Skip-gram 反转了预测方向：给定一个目标词，预测其周围的上下文词。对于每对 <math>(w_t, w_{t+j})</math>，其中 <math>j \in [-c, c] \setminus \{0\}</math>，模型最大化：

:<math>P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}'_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_t})}</math>

其中 <math>\mathbf{v}_w</math> 和 <math>\mathbf{v}'_w</math> 分别是输入和输出嵌入向量。在整个词表上计算完整的 softmax 代价高昂，因此通常使用两种近似方法：

* '''负采样'''（negative sampling）—— 模型不计算完整的 softmax，而是将真实的上下文词与 <math>k</math> 个随机采样的"负"词进行对比。
* '''层次化 softmax'''（hierarchical softmax）—— 将词表组织为二叉树，将 softmax 的代价从 <math>O(V)</math> 降低到 <math>O(\log V)</math>。

Skip-gram 在罕见词上表现良好，并能捕捉微妙的关系。著名的类比"king − man + woman ≈ queen"就源于 Skip-gram 嵌入。

== GloVe ==

'''GloVe'''（全局向量，Pennington 等，2014）结合了全局矩阵分解和局部上下文窗口方法的优点。它从语料库中构建一个词共现矩阵 <math>X</math>，其中 <math>X_{ij}</math> 统计词 <math>j</math> 出现在词 <math>i</math> 上下文中的频率，然后优化：

:<math>J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2</math>

其中 <math>f</math> 是一个加权函数，用于限制非常高频共现的影响。GloVe 嵌入的质量通常与 Word2Vec 相当或更高，并且对全局统计的显式利用可以提升类比任务的性能。

== fastText ==

'''fastText'''（Bojanowski 等，2017）通过将每个词表示为字符 n-gram 的集合来扩展 Word2Vec。例如，当 <math>n = 3</math> 时，单词"where"由 n-gram {"<wh", "whe", "her", "ere", "re>"} 加上整个词"<where>"来表示。一个词的嵌入是其 n-gram 向量之和。

这种方法有两个主要优势：

* '''处理罕见词和未登录词''' —— 即使是训练词表中不存在的词，也可以通过对其字符 n-gram 向量求和来获得嵌入。
* '''形态感知''' —— 共享子串的词（例如"teach"、"teacher"、"teaching"）会自动共享嵌入的组成部分。

== 嵌入的评估 ==

词嵌入通过以下方式进行评估：

{| class="wikitable"
|-
! 评估类型 !! 示例 !! 衡量内容
|-
| '''内在评估：类比''' || "king : queen :: man : ?" || 空间的线性结构
|-
| '''内在评估：相似度''' || 与人类相似度判断的相关性（SimLex-999、WS-353） || 语义质量
|-
| '''外在评估：下游任务''' || 命名实体识别、情感分析、句法分析 || 实际效用
|}

内在评估速度快，但并不总能预测下游任务的性能。最终，在目标任务上的外在评估是最可靠的衡量标准。

== 上下文嵌入 ==

传统词嵌入为每个词分配一个固定向量，与上下文无关 —— 无论"bank"指的是河岸还是金融机构，它的嵌入都相同。'''上下文嵌入'''通过根据周围文本生成不同的表示来解决这一局限。

著名的上下文嵌入模型包括：

* '''ELMo'''（Peters 等，2018）—— 使用双向 LSTM 生成依赖于上下文的词表示。
* '''BERT'''（Devlin 等，2019）—— 使用通过掩码语言建模训练的 Transformer 编码器。
* '''GPT''' 系列（Radford 等，2018–）—— 使用以自回归方式训练的 Transformer 解码器。

这些模型在大多数 NLP 任务中已基本取代了静态嵌入，不过静态嵌入在效率、可解释性以及低资源场景下仍然有用。

== 参见 ==

* [[Neural Networks|神经网络]]
* [[Recurrent Neural Networks|循环神经网络]]
* [[Loss Functions|损失函数]]
* [[Backpropagation|反向传播]]

== 参考文献 ==

* Firth, J. R. (1957). "A synopsis of linguistic theory, 1930–1955". 收录于 ''Studies in Linguistic Analysis''。
* Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". ''arXiv:1301.3781''。
* Pennington, J., Socher, R. 与 Manning, C. D. (2014). "GloVe: Global Vectors for Word Representation". ''EMNLP''。
* Bojanowski, P. et al. (2017). "Enriching Word Vectors with Subword Information". ''TACL'', 5, 135–146。
* Peters, M. E. et al. (2018). "Deep contextualized word representations". ''NAACL''。
* Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". ''NAACL''。

[[Category:NLP]]
[[Category:Intermediate]]

Word Embeddings/zh - Revision history

DeployBot: Batch translate Word Embeddings unit 46 -> zh