Word Embeddings/zh

Article
Topic area	NLP
Difficulty	Intermediate
Prerequisites	Neural Networks

Other languages:

English
Español
中文

词嵌入（word embeddings）是词的稠密、低维向量表示，其中语义相似的词被映射到向量空间中相邻的点。它们是现代自然语言处理（NLP）的基础组件，用能够捕捉含义、类比和句法关系的表示替代了稀疏的 one-hot 编码。

分布假说

词嵌入建立在分布假说之上，该假说由 J. R. Firth（1957）提出了著名的表述："你可以通过一个词的伙伴来认识这个词。" 其核心思想是，出现在相似上下文中的词往往具有相似的含义。例如，"狗"和"猫"经常出现在"宠物"、"皮毛"和"兽医"等词附近，因此它们应该具有相似的表示。

利用分布信息的早期方法包括共现矩阵、点互信息（PMI）和潜在语义分析（LSA）。现代的词嵌入方法直接使用神经网络学习稠密向量。

One-hot 与稠密表示

One-hot 编码

在包含 $$ V $$ 个词的词表中，第 $$ i $$ 个词的 one-hot 向量是一个 $$ V $$ 维向量，在位置 $$ i $$ 处为 1，其他位置为 0。这种表示存在两个关键缺陷：

维度 —— 向量维度极高（通常 $$ V > 100{,}000 $$ ）。
无相似性 —— 每对 one-hot 向量都等距：当 $i \neq j$ 时 $\mathbf{e}_i^\top \mathbf{e}_j = 0$ 。"猫"与"狗"的距离与它和"民主"的距离相同。

稠密嵌入

词嵌入将每个词映射到一个 $$ d $$ 维的实值向量（通常 $$ d = 100 $$ – $$ 300 $$ ）：

\mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V

相似的词具有较高的余弦相似度：

\text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|}

Word2Vec

Word2Vec（Mikolov 等，2013）引入了两种高效的架构，用于从大规模语料库中学习词嵌入。

连续词袋（CBOW）

CBOW 根据周围的上下文词预测目标词。给定上下文词窗口 $\{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\}$ ，模型最大化：

P(w_t \mid w_{t-c}, \ldots, w_{t+c})

上下文词向量被取平均后通过 softmax 层。CBOW 训练速度更快，对高频词效果良好。

Skip-gram

Skip-gram 反转了预测方向：给定一个目标词，预测其周围的上下文词。对于每对 $(w_t, w_{t+j})$ ，其中 $j \in [-c, c] \setminus \{0\}$ ，模型最大化：

P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}'_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_t})}

其中 $\mathbf{v}_w$ 和 $\mathbf{v}'_w$ 分别是输入和输出嵌入向量。在整个词表上计算完整的 softmax 代价高昂，因此通常使用两种近似方法：

负采样（negative sampling）—— 模型不计算完整的 softmax，而是将真实的上下文词与 $$ k $$ 个随机采样的"负"词进行对比。
层次化 softmax（hierarchical softmax）—— 将词表组织为二叉树，将 softmax 的代价从 $$ O(V) $$ 降低到 $O(\log V)$ 。

Skip-gram 在罕见词上表现良好，并能捕捉微妙的关系。著名的类比"king − man + woman ≈ queen"就源于 Skip-gram 嵌入。

GloVe

GloVe（全局向量，Pennington 等，2014）结合了全局矩阵分解和局部上下文窗口方法的优点。它从语料库中构建一个词共现矩阵 $$ X $$ ，其中 $X_{ij}$ 统计词 $$ j $$ 出现在词 $$ i $$ 上下文中的频率，然后优化：

J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2

其中 $$ f $$ 是一个加权函数，用于限制非常高频共现的影响。GloVe 嵌入的质量通常与 Word2Vec 相当或更高，并且对全局统计的显式利用可以提升类比任务的性能。

fastText

fastText（Bojanowski 等，2017）通过将每个词表示为字符 n-gram 的集合来扩展 Word2Vec。例如，当 $$ n = 3 $$ 时，单词"where"由 n-gram {"<wh", "whe", "her", "ere", "re>"} 加上整个词"<where>"来表示。一个词的嵌入是其 n-gram 向量之和。

这种方法有两个主要优势：

处理罕见词和未登录词 —— 即使是训练词表中不存在的词，也可以通过对其字符 n-gram 向量求和来获得嵌入。
形态感知 —— 共享子串的词（例如"teach"、"teacher"、"teaching"）会自动共享嵌入的组成部分。

嵌入的评估

词嵌入通过以下方式进行评估：

评估类型	示例	衡量内容
内在评估：类比	"king : queen :: man : ?"	空间的线性结构
内在评估：相似度	与人类相似度判断的相关性（SimLex-999、WS-353）	语义质量
外在评估：下游任务	命名实体识别、情感分析、句法分析	实际效用

内在评估速度快，但并不总能预测下游任务的性能。最终，在目标任务上的外在评估是最可靠的衡量标准。

上下文嵌入

传统词嵌入为每个词分配一个固定向量，与上下文无关 —— 无论"bank"指的是河岸还是金融机构，它的嵌入都相同。上下文嵌入通过根据周围文本生成不同的表示来解决这一局限。

著名的上下文嵌入模型包括：

ELMo（Peters 等，2018）—— 使用双向 LSTM 生成依赖于上下文的词表示。
BERT（Devlin 等，2019）—— 使用通过掩码语言建模训练的 Transformer 编码器。
GPT 系列（Radford 等，2018–）—— 使用以自回归方式训练的 Transformer 解码器。

这些模型在大多数 NLP 任务中已基本取代了静态嵌入，不过静态嵌入在效率、可解释性以及低资源场景下仍然有用。

参见

参考文献

Firth, J. R. (1957). "A synopsis of linguistic theory, 1930–1955". 收录于 Studies in Linguistic Analysis。
Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781。
Pennington, J., Socher, R. 与 Manning, C. D. (2014). "GloVe: Global Vectors for Word Representation". EMNLP。
Bojanowski, P. et al. (2017). "Enriching Word Vectors with Subword Information". TACL, 5, 135–146。
Peters, M. E. et al. (2018). "Deep contextualized word representations". NAACL。
Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL。