BLEU Score/zh

    From Marovi AI
    This page is a translated version of the page BLEU Score and the translation is 100% complete.
    Other languages:
    Article
    Topic area Natural Language Processing
    Prerequisites Tokenization, Machine Translation


    概述

    BLEU 评分(双语评估替补,Bilingual Evaluation Understudy)是一种用于机器翻译文本的自动评估指标,由 Papineni 等人于 2002 年在 IBM 研究院提出。它将一个候选翻译与一个或多个人类参考译文进行比较打分,分值范围为 0 到 1(或最常以百分比形式报告的 0 到 100),数值越高表示与参考译文的一致性越高。其设计目标是廉价、与语言无关,并在语料库平均上与人类判断相关,使翻译研究人员能够对系统进行迭代而无需为每次更改都委托人工评估。

    BLEU 由两个思想构成。第一个是修正后的 n-元组 精确率:它统计候选译文中有多少 n-元组也出现在任何一个参考译文中,且每个参考 n-元组只能被有限次匹配,从而避免重复某个常见短语就能虚增分数。第二个是简洁惩罚(brevity penalty),当候选译文比参考译文更短时,会将精确率分量向下缩放,因为单独的精确率无法抵御那种只输出少量高置信度词语的简短而密集的译文。把 n = 1 到 4 的修正精确率的几何平均,乘以简洁惩罚,就得到 BLEU 评分。尽管存在记录良好的弱点,这一构造在二十年间始终是机器翻译论文的默认头号指标——一方面因为它的可复现性足以让两组研究者就同一个数字达成一致,另一方面因为没有任何后继指标能同时做到简单、免费且与语言无关。

    历史与动机

    BLEU 出现之前,机器翻译领域的主导评估方法是沿充分性(adequacy)和流畅性(fluency)等维度进行人工打分。人工评估是黄金标准,但缓慢且昂贵:一次典型的评估活动需要数周时间和数万美元,这使其在系统开发期间使用不切实际。IBM 团队提出 BLEU 作为研究人员在开发周期中可以反复查询的"替补"(understudy),将人工评估保留给偶尔的校准。2002 年的论文表明,BLEU 在语料库层面上与多种系统和语言的人类判断有合理的相关性,该指标迅速被 WMT 和 NIST 评估活动采用。其引入被广泛认为加速了 2000 年代中期的统计机器翻译时代。

    修正的 n-元组精确率

    对于给定的阶数 $ n $,修正精确率 $ p_n $ 将候选译文的n-元组与参考译文进行比较。设 $ C $ 为候选,$ \{R_1, \ldots, R_m\} $ 为参考集合。对候选中出现的每个 n-元组 $ g $,定义其在候选中的计数 $ \mathrm{count}(g, C) $,以及在所有参考上的最大计数 $ \mathrm{max\_ref\_count}(g) = \max_i \mathrm{count}(g, R_i) $。截断计数为

    $ {\displaystyle \mathrm{count}_{\mathrm{clip}}(g) = \min\big(\mathrm{count}(g, C), \mathrm{max\_ref\_count}(g)\big),} $

    修正精确率为

    $ {\displaystyle p_n = \frac{\sum_{g \in C} \mathrm{count}_{\mathrm{clip}}(g)}{\sum_{g \in C} \mathrm{count}(g, C)}.} $

    截断这一步正是区分修正精确率与朴素精确率的关键。原始论文用一个具体例子来说明:一个仅由单词 "the" 重复七次组成的候选译文,对任何包含 "the" 的参考都将获得 1 的一元精确率,因为候选中的每个词都出现在某个参考中。截断将 "the" 的贡献限制为它在任何一个参考中出现的最大次数,从而恢复一个合理的分数。同样的逻辑适用于更长的 n-元组;在实践中,截断对一元组最为重要,那里的病态重复最为常见。

    在语料库级评估中,是先对所有句对的分子和分母求和,再取比值,而不是对句子级精确率取平均。这种语料库级的池化正是赋予 BLEU 大部分稳健性的原因:一个没有任何匹配 n-元组的短句不会让整体分数崩塌,因为它对一个大得多的分母只贡献了少数几项。

    简洁惩罚

    单纯的精确率奖励较短的候选,因为说得越少越容易做到精确。为防止这种情况,BLEU 将精确率分量乘以一个简洁惩罚 $ \mathrm{BP} $,其定义为

    $ {\displaystyle \mathrm{BP} = \begin{cases} 1 & \text{if } c > r, \\ \exp\!\left(1 - \tfrac{r}{c}\right) & \text{if } c \leq r, \end{cases}} $

    其中 $ c $ 是候选语料库的总长度,$ r $ 是有效参考长度。当存在多个参考时,$ r $ 是各句中长度最接近该句候选长度的那个参考长度之和。当候选至少与参考一样长时,该惩罚恰好为 1,并随着候选变得短得多而平滑衰减至 0。这里有意没有对过长的候选设置对称的惩罚,因为多余的词若无法与参考匹配,修正精确率本身就会下降。

    简洁惩罚在语料库级别上发挥作用,而非逐句计算。这是一个刻意的设计选择:一个短句可能是对短源句的忠实翻译,因此惩罚每一个短候选本身就并不公平。在整个语料库上聚合长度可以平均掉这种波动。

    完整的 BLEU 公式

    常规的 BLEU 评分将 n = 1 到 4 的修正精确率与简洁惩罚组合在一起:

    $ {\displaystyle \mathrm{BLEU} = \mathrm{BP} \cdot \exp\!\left(\sum_{n=1}^{4} w_n \log p_n\right),} $

    其中均匀权重 $ w_n = 1/4 $。加权对数和的指数即为各精确率的几何平均,而几何平均的特性意味着只要任何一个 $ p_n $ 为零,BLEU 就会降为零。这与该指标的意图一致:一个无法从参考中恢复任何 4-元组的译文,即便其一元精确率很高,也不是好译文。

    选用最高 4 阶的 n-元组及均匀权重是一种惯例,而非数学上的必然。2002 年的论文尝试了多种配置,发现四元组的几何平均在其数据上与人类判断的相关性最佳;此后这一惯例就被固定下来,部分原因是改变它会使新结果与既有文献无法比较。BLEU-1、BLEU-2 等指的是把几何平均截断到相应阶数所计算的 BLEU,有时单独报告以提供更细粒度的视图。

    平滑

    由于几何平均在任何 $ p_n $ 为零时都变为零,句子级 BLEU 高度不稳定:一个缺少 4-元组匹配的句子即便低阶精确率很高,也会得零分。这在语料库层面上是可以接受的——一旦汇集了足够多的句子,零修正精确率就很罕见——但当 BLEU 被用作逐句的训练信号或在小测试集上评估时,这就成了一个严重问题。Chen 和 Cherry 的 SmoothBLEU 工作汇总的一族平滑方法解决了这一问题。常见的平滑策略包括:在分子分母上加一个小常数(加性平滑);遇到零时代入一个极小的分数;或使用指数平滑,将低阶精确率插值到高阶。SacreBLEU 将其中若干暴露为可命名的选项

    变体与标准化

    原始论文所规定的指标对若干实际决策没有给出明确规定:如何分词、如何转小写、如何处理标点,以及在多个参考存在时如何计数。不同的工具包做出了不同的选择,多年来两篇都报告 "BLEU 30" 的论文可能使用了互不兼容的流程。Post 于 2018 年推出的 SacreBLEU 对整个流程进行了标准化:它使用固定方案对参考和假设本身进行分词,固定平滑方式,并报告带版本标签的签名,使结果可复现。学界已经汇聚到将 SacreBLEU 作为已发表数字的事实标准;较旧的、依赖于分词的 BLEU 现在被认为不适合跨论文比较。

    各种变体沿多个维度扩展了 BLEU。BLEU-1 到 BLEU-4 改变最高 n-元组阶数,其中 BLEU-1(仅一元加简洁惩罚)有时被用作充分性的粗略代理。NIST 用按信息加权的权重代替均匀权重,使得罕见 n-元组的匹配贡献大于常见的。ChrF 计算字符级的 F 分数而非词级精确率,在形态丰富的语言上更稳健。Self-BLEU 与回译 BLEU 把该指标重新用于翻译之外的生成任务中的多样性和质量估计。

    优点、局限与现代替代方案

    BLEU 的优点是实用性强:它廉价、确定,且在不需要分词器之外的特定语言资源这一意义上与语言无关,并且其文献积累足够长,使研究者对某个特定数值在特定场景下的含义具有较强直觉。在比较架构类似的系统时,它在语料库层面上与人类判断的相关性足以使其在统计机器翻译和早期神经机器翻译时代一直担任主力评估指标。

    它的局限已有充分记录。它是一种表层形式指标,不理解同义词:一个用词与参考不同但表达完美流畅的译文可能得分很低。它对超出 n-元组窗口的语序变化不敏感,因此人类读者会注意到的语序错误对 BLEU 是不可见的。它奖励与参考的词汇重叠而非语义保留,这是可被利用的:系统可以以偏离人类评分质量的方式被训练或调优以最大化 BLEU。它在句子级噪声较大,而在语料库级,其与人类判断的相关性恰恰在比较非常强的系统时最弱,而这正是现代翻译研究所处的场景。METEOR 指标引入了显式同义词匹配、释义表和一个召回分量以解决其中一些问题,但代价更高且依赖语言。TER(translation edit rate)测量将候选转化为参考所需的编辑数,提供互补视角。基于嵌入的指标如 BERTScore 使用上下文表示来评分语义相似度;学习型指标如 COMET 和 BLEURT 则直接在人类判断数据上训练,现在在现代强系统上与人类评分的相关性大幅超越 BLEU。机器翻译评估的当代做法是同时报告 SacreBLEU(为向后兼容)以及一种或多种学习型指标。

    实践考虑

    报告 BLEU 时,有三个细节很重要。第一,始终指明工具包及其版本,最好引用 SacreBLEU 签名;这是使数字可复现的唯一方式。第二,区分语料库 BLEU、句子 BLEU 与句子 BLEU 的平均,因为三者互不相同,只有语料库 BLEU 与原始定义的指标一致。第三,注意参考数量:BLEU 与人类判断的相关性随参考数量的增加而提升,单参考分数是同一系统上四参考分数的更嘈杂估计。当将 BLEU 用作训练期间的优化目标时,平滑后的句子级 BLEU 或其某个可微替代是合适的;最小风险训练和基于 Transformer 的翻译系统的强化学习微调例行将 BLEU 用作奖励,由此产生的奖励黑客效应也是整体论点中支持迁移到学习型指标的一部分。

    参考文献

    [1] [2] [3] [4] [5] [6] [7]

    1. Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL 2002.
    2. Post, M. A Call for Clarity in Reporting BLEU Scores. Template:Cite arxiv
    3. Chen, B. and Cherry, C. A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. WMT 2014.
    4. Banerjee, S. and Lavie, A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL 2005.
    5. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., and Makhoul, J. A Study of Translation Edit Rate with Targeted Human Annotation. AMTA 2006.
    6. Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. BERTScore: Evaluating Text Generation with BERT. Template:Cite arxiv
    7. Rei, R., Stewart, C., Farinha, A. C., and Lavie, A. COMET: A Neural Framework for MT Evaluation. Template:Cite arxiv