BLEU Score/zh

    From Marovi AI
    This page is a translated version of the page BLEU Score and the translation is 100% complete.
    Other languages:
    Article
    Topic area Natural Language Processing
    Prerequisites Tokenization, Machine Translation


    概述

    BLEU 評分(雙語評估替補,Bilingual Evaluation Understudy)是一種用於機器翻譯文本的自動評估指標,由 Papineni 等人於 2002 年在 IBM 研究院提出。它將一個候選翻譯與一個或多個人類參考譯文進行比較打分,分值範圍為 0 到 1(或最常以百分比形式報告的 0 到 100),數值越高表示與參考譯文的一致性越高。其設計目標是廉價、與語言無關,並在語料庫平均上與人類判斷相關,使翻譯研究人員能夠對系統進行迭代而無需為每次更改都委託人工評估。

    BLEU 由兩個思想構成。第一個是修正後的 n-元組 精確率:它統計候選譯文中有多少 n-元組也出現在任何一個參考譯文中,且每個參考 n-元組只能被有限次匹配,從而避免重複某個常見短語就能虛增分數。第二個是簡潔懲罰(brevity penalty),當候選譯文比參考譯文更短時,會將精確率分量向下縮放,因為單獨的精確率無法抵禦那種只輸出少量高置信度詞語的簡短而密集的譯文。把 n = 1 到 4 的修正精確率的幾何平均,乘以簡潔懲罰,就得到 BLEU 評分。儘管存在記錄良好的弱點,這一構造在二十年間始終是機器翻譯論文的默認頭號指標——一方面因為它的可復現性足以讓兩組研究者就同一個數字達成一致,另一方面因為沒有任何後繼指標能同時做到簡單、免費且與語言無關。

    歷史與動機

    BLEU 出現之前,機器翻譯領域的主導評估方法是沿充分性(adequacy)和流暢性(fluency)等維度進行人工打分。人工評估是黃金標準,但緩慢且昂貴:一次典型的評估活動需要數周時間和數萬美元,這使其在系統開發期間使用不切實際。IBM 團隊提出 BLEU 作為研究人員在開發周期中可以反覆查詢的"替補"(understudy),將人工評估保留給偶爾的校準。2002 年的論文表明,BLEU 在語料庫層面上與多種系統和語言的人類判斷有合理的相關性,該指標迅速被 WMT 和 NIST 評估活動採用。其引入被廣泛認為加速了 2000 年代中期的統計機器翻譯時代。

    修正的 n-元組精確率

    對於給定的階數 $ n $,修正精確率 $ p_n $ 將候選譯文的n-元組與參考譯文進行比較。設 $ C $ 為候選,$ \{R_1, \ldots, R_m\} $ 為參考集合。對候選中出現的每個 n-元組 $ g $,定義其在候選中的計數 $ \mathrm{count}(g, C) $,以及在所有參考上的最大計數 $ \mathrm{max\_ref\_count}(g) = \max_i \mathrm{count}(g, R_i) $。截斷計數為

    $ {\displaystyle \mathrm{count}_{\mathrm{clip}}(g) = \min\big(\mathrm{count}(g, C), \mathrm{max\_ref\_count}(g)\big),} $

    修正精確率為

    $ {\displaystyle p_n = \frac{\sum_{g \in C} \mathrm{count}_{\mathrm{clip}}(g)}{\sum_{g \in C} \mathrm{count}(g, C)}.} $

    截斷這一步正是區分修正精確率與樸素精確率的關鍵。原始論文用一個具體例子來說明:一個僅由單詞 "the" 重複七次組成的候選譯文,對任何包含 "the" 的參考都將獲得 1 的一元精確率,因為候選中的每個詞都出現在某個參考中。截斷將 "the" 的貢獻限制為它在任何一個參考中出現的最大次數,從而恢復一個合理的分數。同樣的邏輯適用於更長的 n-元組;在實踐中,截斷對一元組最為重要,那裡的病態重複最為常見。

    在語料庫級評估中,是先對所有句對的分子和分母求和,再取比值,而不是對句子級精確率取平均。這種語料庫級的池化正是賦予 BLEU 大部分穩健性的原因:一個沒有任何匹配 n-元組的短句不會讓整體分數崩塌,因為它對一個大得多的分母只貢獻了少數幾項。

    簡潔懲罰

    單純的精確率獎勵較短的候選,因為說得越少越容易做到精確。為防止這種情況,BLEU 將精確率分量乘以一個簡潔懲罰 $ \mathrm{BP} $,其定義為

    $ {\displaystyle \mathrm{BP} = \begin{cases} 1 & \text{if } c > r, \\ \exp\!\left(1 - \tfrac{r}{c}\right) & \text{if } c \leq r, \end{cases}} $

    其中 $ c $ 是候選語料庫的總長度,$ r $ 是有效參考長度。當存在多個參考時,$ r $ 是各句中長度最接近該句候選長度的那個參考長度之和。當候選至少與參考一樣長時,該懲罰恰好為 1,並隨着候選變得短得多而平滑衰減至 0。這裡有意沒有對過長的候選設置對稱的懲罰,因為多餘的詞若無法與參考匹配,修正精確率本身就會下降。

    簡潔懲罰在語料庫級別上發揮作用,而非逐句計算。這是一個刻意的設計選擇:一個短句可能是對短源句的忠實翻譯,因此懲罰每一個短候選本身就並不公平。在整個語料庫上聚合長度可以平均掉這種波動。

    完整的 BLEU 公式

    常規的 BLEU 評分將 n = 1 到 4 的修正精確率與簡潔懲罰組合在一起:

    $ {\displaystyle \mathrm{BLEU} = \mathrm{BP} \cdot \exp\!\left(\sum_{n=1}^{4} w_n \log p_n\right),} $

    其中均勻權重 $ w_n = 1/4 $。加權對數和的指數即為各精確率的幾何平均,而幾何平均的特性意味着只要任何一個 $ p_n $ 為零,BLEU 就會降為零。這與該指標的意圖一致:一個無法從參考中恢復任何 4-元組的譯文,即便其一元精確率很高,也不是好譯文。

    選用最高 4 階的 n-元組及均勻權重是一種慣例,而非數學上的必然。2002 年的論文嘗試了多種配置,發現四元組的幾何平均在其數據上與人類判斷的相關性最佳;此後這一慣例就被固定下來,部分原因是改變它會使新結果與既有文獻無法比較。BLEU-1、BLEU-2 等指的是把幾何平均截斷到相應階數所計算的 BLEU,有時單獨報告以提供更細粒度的視圖。

    平滑

    由於幾何平均在任何 $ p_n $ 為零時都變為零,句子級 BLEU 高度不穩定:一個缺少 4-元組匹配的句子即便低階精確率很高,也會得零分。這在語料庫層面上是可以接受的——一旦匯集了足夠多的句子,零修正精確率就很罕見——但當 BLEU 被用作逐句的訓練信號或在小測試集上評估時,這就成了一個嚴重問題。Chen 和 Cherry 的 SmoothBLEU 工作匯總的一族平滑方法解決了這一問題。常見的平滑策略包括:在分子分母上加一個小常數(加性平滑);遇到零時代入一個極小的分數;或使用指數平滑,將低階精確率插值到高階。SacreBLEU 將其中若干暴露為可命名的選項

    變體與標準化

    原始論文所規定的指標對若干實際決策沒有給出明確規定:如何分詞、如何轉小寫、如何處理標點,以及在多個參考存在時如何計數。不同的工具包做出了不同的選擇,多年來兩篇都報告 "BLEU 30" 的論文可能使用了互不兼容的流程。Post 於 2018 年推出的 SacreBLEU 對整個流程進行了標準化:它使用固定方案對參考和假設本身進行分詞,固定平滑方式,並報告帶版本標籤的簽名,使結果可復現。學界已經匯聚到將 SacreBLEU 作為已發表數字的事實標準;較舊的、依賴於分詞的 BLEU 現在被認為不適合跨論文比較。

    各種變體沿多個維度擴展了 BLEU。BLEU-1 到 BLEU-4 改變最高 n-元組階數,其中 BLEU-1(僅一元加簡潔懲罰)有時被用作充分性的粗略代理。NIST 用按信息加權的權重代替均勻權重,使得罕見 n-元組的匹配貢獻大於常見的。ChrF 計算字符級的 F 分數而非詞級精確率,在形態豐富的語言上更穩健。Self-BLEU 與回譯 BLEU 把該指標重新用於翻譯之外的生成任務中的多樣性和質量估計。

    優點、局限與現代替代方案

    BLEU 的優點是實用性強:它廉價、確定,且在不需要分詞器之外的特定語言資源這一意義上與語言無關,並且其文獻積累足夠長,使研究者對某個特定數值在特定場景下的含義具有較強直覺。在比較架構類似的系統時,它在語料庫層面上與人類判斷的相關性足以使其在統計機器翻譯和早期神經機器翻譯時代一直擔任主力評估指標。

    它的局限已有充分記錄。它是一種表層形式指標,不理解同義詞:一個用詞與參考不同但表達完美流暢的譯文可能得分很低。它對超出 n-元組窗口的語序變化不敏感,因此人類讀者會注意到的語序錯誤對 BLEU 是不可見的。它獎勵與參考的詞彙重疊而非語義保留,這是可被利用的:系統可以以偏離人類評分質量的方式被訓練或調優以最大化 BLEU。它在句子級噪聲較大,而在語料庫級,其與人類判斷的相關性恰恰在比較非常強的系統時最弱,而這正是現代翻譯研究所處的場景。METEOR 指標引入了顯式同義詞匹配、釋義表和一個召回分量以解決其中一些問題,但代價更高且依賴語言。TER(translation edit rate)測量將候選轉化為參考所需的編輯數,提供互補視角。基於嵌入的指標如 BERTScore 使用上下文表示來評分語義相似度;學習型指標如 COMET 和 BLEURT 則直接在人類判斷數據上訓練,現在在現代強系統上與人類評分的相關性大幅超越 BLEU。機器翻譯評估的當代做法是同時報告 SacreBLEU(為向後兼容)以及一種或多種學習型指標。

    實踐考慮

    報告 BLEU 時,有三個細節很重要。第一,始終指明工具包及其版本,最好引用 SacreBLEU 簽名;這是使數字可復現的唯一方式。第二,區分語料庫 BLEU、句子 BLEU 與句子 BLEU 的平均,因為三者互不相同,只有語料庫 BLEU 與原始定義的指標一致。第三,注意參考數量:BLEU 與人類判斷的相關性隨參考數量的增加而提升,單參考分數是同一系統上四參考分數的更嘈雜估計。當將 BLEU 用作訓練期間的優化目標時,平滑後的句子級 BLEU 或其某個可微替代是合適的;最小風險訓練和基於 Transformer 的翻譯系統的強化學習微調例行將 BLEU 用作獎勵,由此產生的獎勵黑客效應也是整體論點中支持遷移到學習型指標的一部分。

    參考文獻

    [1] [2] [3] [4] [5] [6] [7]

    1. Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL 2002.
    2. Post, M. A Call for Clarity in Reporting BLEU Scores. Template:Cite arxiv
    3. Chen, B. and Cherry, C. A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU. WMT 2014.
    4. Banerjee, S. and Lavie, A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL 2005.
    5. Snover, M., Dorr, B., Schwartz, R., Micciulla, L., and Makhoul, J. A Study of Translation Edit Rate with Targeted Human Annotation. AMTA 2006.
    6. Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. BERTScore: Evaluating Text Generation with BERT. Template:Cite arxiv
    7. Rei, R., Stewart, C., Farinha, A. C., and Lavie, A. COMET: A Neural Framework for MT Evaluation. Template:Cite arxiv