Word Embeddings/zh

    From Marovi AI
    Revision as of 04:06, 27 April 2026 by DeployBot (talk | contribs) (Batch translate Word Embeddings unit 46 -> zh)
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
    Other languages:
    Article
    Topic area NLP
    Difficulty Intermediate
    Prerequisites Neural Networks

    词嵌入(word embeddings)是词的稠密、低维向量表示,其中语义相似的词被映射到向量空间中相邻的点。它们是现代自然语言处理(NLP)的基础组件,用能够捕捉含义、类比和句法关系的表示替代了稀疏的 one-hot 编码。

    分布假说

    词嵌入建立在分布假说之上,该假说由 J. R. Firth(1957)提出了著名的表述:"你可以通过一个词的伙伴来认识这个词。" 其核心思想是,出现在相似上下文中的词往往具有相似的含义。例如,"狗"和"猫"经常出现在"宠物"、"皮毛"和"兽医"等词附近,因此它们应该具有相似的表示。

    利用分布信息的早期方法包括共现矩阵、点互信息(PMI)和潜在语义分析(LSA)。现代的词嵌入方法直接使用神经网络学习稠密向量。

    One-hot 与稠密表示

    One-hot 编码

    在包含 $ V $ 个词的词表中,第 $ i $ 个词的 one-hot 向量是一个 $ V $ 维向量,在位置 $ i $ 处为 1,其他位置为 0。这种表示存在两个关键缺陷:

    • 维度 —— 向量维度极高(通常 $ V > 100{,}000 $)。
    • 无相似性 —— 每对 one-hot 向量都等距:当 $ i \neq j $$ \mathbf{e}_i^\top \mathbf{e}_j = 0 $。"猫"与"狗"的距离与它和"民主"的距离相同。

    稠密嵌入

    词嵌入将每个词映射到一个 $ d $ 维的实值向量(通常 $ d = 100 $$ 300 $):

    $ \mathbf{w}_i \in \mathbb{R}^d, \quad d \ll V $

    相似的词具有较高的余弦相似度:

    $ \text{sim}(\mathbf{w}_a, \mathbf{w}_b) = \frac{\mathbf{w}_a \cdot \mathbf{w}_b}{\|\mathbf{w}_a\|\;\|\mathbf{w}_b\|} $

    Word2Vec

    Word2Vec(Mikolov 等,2013)引入了两种高效的架构,用于从大规模语料库中学习词嵌入。

    连续词袋(CBOW)

    CBOW 根据周围的上下文词预测目标词。给定上下文词窗口 $ \{w_{t-c}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+c}\} $,模型最大化:

    $ P(w_t \mid w_{t-c}, \ldots, w_{t+c}) $

    上下文词向量被取平均后通过 softmax 层。CBOW 训练速度更快,对高频词效果良好。

    Skip-gram

    Skip-gram 反转了预测方向:给定一个目标词,预测其周围的上下文词。对于每对 $ (w_t, w_{t+j}) $,其中 $ j \in [-c, c] \setminus \{0\} $,模型最大化:

    $ P(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{v}'_{w_{t+j}}{}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V}\exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_t})} $

    其中 $ \mathbf{v}_w $$ \mathbf{v}'_w $ 分别是输入和输出嵌入向量。在整个词表上计算完整的 softmax 代价高昂,因此通常使用两种近似方法:

    • 负采样(negative sampling)—— 模型不计算完整的 softmax,而是将真实的上下文词与 $ k $ 个随机采样的"负"词进行对比。
    • 层次化 softmax(hierarchical softmax)—— 将词表组织为二叉树,将 softmax 的代价从 $ O(V) $ 降低到 $ O(\log V) $

    Skip-gram 在罕见词上表现良好,并能捕捉微妙的关系。著名的类比"king − man + woman ≈ queen"就源于 Skip-gram 嵌入。

    GloVe

    GloVe(全局向量,Pennington 等,2014)结合了全局矩阵分解和局部上下文窗口方法的优点。它从语料库中构建一个词共现矩阵 $ X $,其中 $ X_{ij} $ 统计词 $ j $ 出现在词 $ i $ 上下文中的频率,然后优化:

    $ J = \sum_{i,j=1}^{V} f(X_{ij})\bigl(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\bigr)^2 $

    其中 $ f $ 是一个加权函数,用于限制非常高频共现的影响。GloVe 嵌入的质量通常与 Word2Vec 相当或更高,并且对全局统计的显式利用可以提升类比任务的性能。

    fastText

    fastText(Bojanowski 等,2017)通过将每个词表示为字符 n-gram 的集合来扩展 Word2Vec。例如,当 $ n = 3 $ 时,单词"where"由 n-gram {"<wh", "whe", "her", "ere", "re>"} 加上整个词"<where>"来表示。一个词的嵌入是其 n-gram 向量之和。

    这种方法有两个主要优势:

    • 处理罕见词和未登录词 —— 即使是训练词表中不存在的词,也可以通过对其字符 n-gram 向量求和来获得嵌入。
    • 形态感知 —— 共享子串的词(例如"teach"、"teacher"、"teaching")会自动共享嵌入的组成部分。

    嵌入的评估

    词嵌入通过以下方式进行评估:

    评估类型 示例 衡量内容
    内在评估:类比 "king : queen :: man : ?" 空间的线性结构
    内在评估:相似度 与人类相似度判断的相关性(SimLex-999、WS-353) 语义质量
    外在评估:下游任务 命名实体识别、情感分析、句法分析 实际效用

    内在评估速度快,但并不总能预测下游任务的性能。最终,在目标任务上的外在评估是最可靠的衡量标准。

    上下文嵌入

    传统词嵌入为每个词分配一个固定向量,与上下文无关 —— 无论"bank"指的是河岸还是金融机构,它的嵌入都相同。上下文嵌入通过根据周围文本生成不同的表示来解决这一局限。

    著名的上下文嵌入模型包括:

    • ELMo(Peters 等,2018)—— 使用双向 LSTM 生成依赖于上下文的词表示。
    • BERT(Devlin 等,2019)—— 使用通过掩码语言建模训练的 Transformer 编码器。
    • GPT 系列(Radford 等,2018–)—— 使用以自回归方式训练的 Transformer 解码器。

    这些模型在大多数 NLP 任务中已基本取代了静态嵌入,不过静态嵌入在效率、可解释性以及低资源场景下仍然有用。

    参见

    参考文献

    • Firth, J. R. (1957). "A synopsis of linguistic theory, 1930–1955". 收录于 Studies in Linguistic Analysis
    • Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781
    • Pennington, J., Socher, R. 与 Manning, C. D. (2014). "GloVe: Global Vectors for Word Representation". EMNLP
    • Bojanowski, P. et al. (2017). "Enriching Word Vectors with Subword Information". TACL, 5, 135–146。
    • Peters, M. E. et al. (2018). "Deep contextualized word representations". NAACL
    • Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL