Language Models are Few-Shot Learners/paper/zh
| Research Paper | |
|---|---|
| Authors | Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei |
| Year | 2020 |
| Topic area | NLP |
| Difficulty | Research |
| arXiv | 2005.14165 |
| Download PDF | |
Language Models are Few-Shot Learners
Tom B. Brown Benjamin Mann11footnotemark: 1 Nick Ryder11footnotemark: 1 Melanie Subbiah11footnotemark: 1 Jared Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell Sandhini Agarwal Ariel Herbert-Voss Gretchen Krueger Tom Henighan Rewon Child Aditya Ramesh Daniel M. Ziegler Jeffrey Wu Clemens Winter Christopher Hesse Mark Chen Eric Sigler Mateusz Litwin Scott Gray Benjamin Chess Jack Clark Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei
OpenAI 同等貢獻Johns Hopkins University, OpenAI
作者貢獻 見文末列示。 (2020)
摘要
近期研究表明,在大規模文本語料上進行預訓練、再針對特定任務進行微調,可以在眾多自然語言處理任務和基準上取得可觀的提升。儘管這一方法在架構上通常是任務無關的,但仍需要每個任務配備數千乃至數萬樣本規模的微調數據集。相比之下,人類通常僅憑几個示例或簡單指令即可完成新的語言任務——而當前的自然語言處理系統在這方面仍舉步維艱。本文表明,擴大語言模型的規模可以大幅提升任務無關的少樣本性能,有時甚至可與此前的最先進微調方法相媲美。具體而言,我們訓練了 GPT-3,一種具有 1750 億參數的自回歸語言模型,參數量是此前任何非稀疏語言模型的 10 倍,並在少樣本設定下測試其性能。對於所有任務,GPT-3 都不進行任何梯度更新或微調,任務及其少樣本演示完全通過與模型的文本交互來指定。GPT-3 在眾多自然語言處理數據集上表現出色,包括翻譯、問答和填空(cloze)任務,以及若干需要即時推理或領域適應的任務,例如打亂字母後還原單詞、在句子中使用新詞或進行三位數算術。與此同時,我們也指出了一些 GPT-3 的少樣本學習仍存在困難的數據集,以及一些因在大規模網絡語料上訓練而面臨方法論問題的數據集。最後,我們發現 GPT-3 能夠生成令人類評估者難以與人寫文章區分開的新聞文章樣本。我們討論了這一發現以及 GPT-3 整體所帶來的更廣泛的社會影響。
目錄
- 1 引言
- 2 方法
- 3 結果
- 4 基準記憶的測量與防範
- 5 局限
- 6 更廣泛的影響
- 7 相關工作
- 8 結論
- A Common Crawl 過濾細節
- B 模型訓練細節
- C 測試集污染研究細節
- D 訓練語言模型所用的總算力
- E 合成新聞文章的人工質量評估
- F GPT-3 的更多樣例
- G 任務表述與規範的細節
- H 所有模型規模在所有任務上的結果
1 引言
近年來,自然語言處理系統中預訓練語言表示的應用呈現出明顯的趨勢,且在下游遷移中以越來越靈活和任務無關的方式被使用。最初,人們通過詞向量學習單層表示 [82, 102] 並將其輸入到任務特定的架構中;隨後,使用具有多層表示和上下文狀態的 RNN 來形成更強的表示 [24, 81, 100](但仍應用於任務特定的架構);最近,預訓練的循環或 transformer 語言模型 [134] 已被直接微調,完全消除了對任務特定架構的需求 [112, 20, 43]。
最後這一範式使得許多具有挑戰性的自然語言處理任務取得了實質性進展,例如閱讀理解、問答、文本蘊含等等,並基於新的架構和算法持續推進 [116, 74, 139, 62]。然而,該方法的一個主要限制在於:儘管架構是任務無關的,但仍需要任務特定的數據集和任務特定的微調——要在某個目標任務上取得強勁性能,通常需要在該任務專屬的數千乃至數十萬個樣本上進行微調。出於多方面的原因,消除這一限制將是可取的。
首先,從實用角度看,每一項新任務都需要大規模的有標註樣本數據集,這限制了語言模型的適用性。可能有用的語言任務範圍極廣,從更正語法、為某一抽象概念生成示例,到對一篇短篇小說進行評論。對於其中許多任務,要收集到大型的監督訓練集是困難的,尤其當這一過程必須為每個新任務重複執行時。
其次,利用訓練數據中虛假相關性的潛力,從根本上說會隨着模型表達能力的增強和訓練分佈的狹窄程度而增加。這可能為預訓練加微調範式帶來問題:為了在預訓練階段吸收信息,模型被設計得很大,但隨後又在非常狹窄的任務分佈上進行微調。例如,[41] 觀察到更大的模型不一定具有更好的分佈外泛化能力。有證據表明,該範式下取得的泛化效果可能很差,因為模型過度迎合了訓練分佈,而難以在該分佈之外良好泛化 [138, 88]。因此,微調後模型在特定基準上的表現,即便名義上達到了人類水平,也可能誇大了其在底層任務上的實際表現 [36, 91]。
第三,人類無需大型監督數據集就能學會絕大多數語言任務——只要用自然語言給出簡短指令(例如"請告訴我這句話描述的是開心的事還是悲傷的事"),或至多極少量的演示(例如"以下是兩個人表現勇敢的例子,請再給出第三個勇敢的例子"),通常就足以讓人類以合理的勝任程度完成新任務。除了揭示當前自然語言處理技術存在的概念性局限之外,這種適應性還具有實用優勢——它使人類能夠無縫地混合或在多種任務與技能之間切換,例如在一段長對話中臨時進行加法運算。為了具備廣泛的實用價值,我們終有一天希望我們的自然語言處理系統也具有這種流暢性與通用性。
解決這些問題的一種可能途徑是元學習(meta-learning)111在語言模型的語境下,這有時被稱為"零樣本遷移",但該術語可能存在歧義:該方法是"零樣本"的,意指不進行梯度更新,但通常會在推理時向模型提供演示,因此並不是真正從零樣本中學習。為避免這種混淆,我們使用"元學習"一詞來涵蓋該一般方法的內層/外層循環結構,並使用"上下文學習"(in-context learning)一詞來指代元學習的內層循環。此外,我們根據推理時提供的演示數量,將描述進一步細分為"零樣本"、"一樣本"或"少樣本"。這些術語旨在對"模型是在推理時從零開始學習新任務,還是僅僅識別訓練時見過的模式"這一問題保持中立——這是一個重要的問題,我們將在論文後文進行討論,但"元學習"一詞意在涵蓋這兩種可能性,僅描述其內外層循環結構。——在語言模型的語境下意味着:模型在訓練時發展出一套廣泛的技能和模式識別能力,然後在推理時利用這些能力快速適應或識別所需的任務(如圖 1.1 所示)。近期工作 [117] 嘗試通過我們所稱的"上下文學習"來實現這一點:將預訓練語言模型的文本輸入作為任務規範的一種形式——模型以一段自然語言指令和/或幾個任務演示為條件,然後被期望僅通過預測後續內容來完成該任務的更多實例。
儘管該方法展現了一些初步的潛力,但其結果仍遠遜於微調——例如,[117] 在 Natural Questions 上僅取得 4%,即便其在 CoQa 上 55 F1 的結果如今也比最先進水平落後了 35 分以上。元學習顯然需要大幅改進,才能成為解決語言任務的可行實用方法。
語言建模領域的另一條近期趨勢可能提供了一條出路。近年來,transformer 語言模型的容量大幅提升:從 1 億參數 [112] 到 3 億參數 [20]、再到 15 億參數 [117]、80 億參數 [125]、110 億參數 [116],最終達到 170 億參數 [132]。每一次擴容都帶來了文本合成和/或下游自然語言處理任務上的改進,且有證據表明對數損失(其與許多下游任務高度相關)隨規模呈現平滑的改進趨勢 [57]。鑑於上下文學習涉及在模型參數中吸收許多技能與任務,上下文學習能力隨規模呈現出同樣強勁的提升,這是合理的預期。
在本文中,我們通過訓練一個具有 1750 億參數的自回歸語言模型(我們稱之為 GPT-3)來檢驗這一假設,並衡量其上下文學習能力。具體而言,我們在兩打以上的自然語言處理數據集上對 GPT-3 進行評估,並設計了若干新穎任務,用以測試其對訓練集中可能並不直接包含的任務的快速適應能力。對於每個任務,我們在 3 種條件下評估 GPT-3:(a)"少樣本學習",即上下文學習,允許提供儘可能多的、能裝入模型上下文窗口的演示(通常為 10 到 100 個);(b)"一樣本學習",僅允許提供一個演示;(c)"零樣本"學習,不允許任何演示,僅向模型提供自然語言指令。原則上,GPT-3 也可以在傳統的微調設定下進行評估,但我們將其留給未來工作。
圖 1.2 展示了我們研究的各種條件,並演示了一項要求模型從單詞中去除多餘符號的簡單任務的少樣本學習。當加入自然語言任務描述,以及隨着模型上下文中示例數 $ {\textstyle K} $ 的增加,模型性能均有所提升。少樣本學習的表現也隨模型規模顯著提升。儘管本例中的結果尤為突出,但模型規模與上下文中示例數所對應的總體趨勢,在我們研究的大多數任務上都成立。我們強調,這些"學習"曲線不涉及任何梯度更新或微調,僅僅是作為條件輸入向模型提供越來越多的演示。
總體而言,在自然語言處理任務上,GPT-3 在零樣本和一樣本設定下取得了令人鼓舞的結果,而在少樣本設定下,有時可與最先進水平媲美,甚至偶爾超越最先進水平(儘管最先進水平由微調後的模型保持)。例如,GPT-3 在零樣本設定下在 CoQA 上達到 81.5 F1,一樣本下 84.0 F1,少樣本下 85.0 F1。類似地,GPT-3 在 TriviaQA 上零樣本下取得 64.3% 準確率,一樣本下 68.0%,少樣本下 71.2%,其中最後一項相對於在同樣閉卷設定下的微調模型而言是最先進水平。
GPT-3 在一些旨在測試快速適應或即時推理的任務上也展現出一樣本和少樣本能力,這些任務包括打亂字母還原單詞、進行算術運算,以及在僅一次性看到定義後將新詞用於句中。我們還展示了在少樣本設定下,GPT-3 可以生成令人類評估者難以與人寫文章區分的合成新聞文章。
與此同時,我們也發現了一些任務,即便在 GPT-3 這樣的規模上,少樣本性能仍然吃力。這些包括如 ANLI 數據集這樣的自然語言推理任務,以及如 RACE 或 QuAC 等閱讀理解數據集。通過對 GPT-3 的優勢與劣勢(包括這些局限)進行廣泛刻畫,我們希望激發對語言模型少樣本學習的研究,並將Lua error: Internal error: The interpreter exited with status 1.引向最需要進展的方向。
總體結果的直觀印象可見圖 1.3,該圖匯總了各類任務(儘管該圖本身不應被視為一個嚴格或有實際意義的基準)。
我們還系統地研究了"數據污染"——這是在 Common Crawl 等數據集上訓練高容量模型時日益嚴重的問題,因為這類數據集可能包含來自測試數據集的內容,僅僅因為此類內容常常出現在網絡上。在本文中,我們開發了系統性工具來度量數據污染並量化其失真效應。雖然我們發現數據污染對 GPT-3 在大多數數據集上的性能影響極小,但我們的確發現了少數幾個可能因此誇大結果的數據集;視嚴重程度而定,我們要麼不報告這些數據集上的結果,要麼用星號予以標註。
除了上述之外,我們還訓練了一系列規模更小的模型(參數量從 1.25 億到 130 億不等),以便在零樣本、一樣本和少樣本設定下與 GPT-3 進行性能比較。總體而言,在三種設定下,大多數任務都呈現出相對平滑的隨容量擴展趨勢;一個值得注意的現象是,零樣本、一樣本與少樣本表現之間的差距通常會隨模型容量增大而擴大,這或許表明更大的模型是更出色的元學習者。
最後,鑑於 GPT-3 展現出的廣泛能力,我們討論了有關偏見、公平性以及更廣泛社會影響的擔憂,並嘗試對 GPT-3 在這些方面的特徵進行初步分析。
本文其餘部分的結構如下。第 2 節描述了我們用於訓練 GPT-3 和評估它的方法。第 3 節給出了在零樣本、一樣本和少樣本設定下、覆蓋全部任務的結果。第 4.1 節討論了數據污染(訓練-測試重疊)問題。第 5 節討論了 GPT-3 的局限性。第 6 節討論了更廣泛的影響。第 7 節回顧了相關工作,第 8 節進行了總結。
2 方法
我們的基本Lua error: Internal error: The interpreter exited with status 1.方法,包括模型、數據和訓練,與 [117] 中描述的過程相似,只是在模型規模、數據集規模與多樣性、以及訓練時長方面進行了相對直接的擴展。我們對上下文學習的使用也與 [117] 相似,但在本工作中,我們系統地探索了不同的上下文學習設定。因此,本節首先明確定義並對比我們將用於評估 GPT-3 或原則上可用於評估 GPT-3 的不同設定。這些設定可視為位於一個連續譜上,譜的不同位置依賴於不同程度的任務特定數據。具體而言,我們可以在該譜上至少識別出四個點(見圖 2.1 的示意):
•
微調(Fine-Tuning,FT)是近年來最常見的方法,它通過在所需任務專屬的監督數據集上訓練,來更新預訓練模型的權重。通常會使用數千到數十萬個有標註樣本。Lua error: Internal error: The interpreter exited with status 1.的主要優勢是在許多基準上具有強勁的性能。主要劣勢是每個任務都需要一個新的大型數據集、可能存在較差的分佈外泛化 [88] 以及可能利用訓練數據中的虛假特徵 [36, 91],這可能導致與人類性能進行了不公平的比較。在本工作中,我們不對 GPT-3 進行微調,因為我們的重點在於任務無關的性能,但 GPT-3 原則上是可以被Lua error: Internal error: The interpreter exited with status 1.的,這是一個有前景的未來方向。
•
少樣本(Few-Shot,FS)是我們在本工作中使用的術語,指在推理時為模型提供少量任務演示作為條件 [117],但不允許任何權重更新的設定。如圖 2.1 所示,在一個典型數據集中,一個樣本由一段上下文和一個期望的續寫(例如一句英文與其法語翻譯)組成,少樣本的工作方式是給出 $ {\textstyle K} $ 個上下文與續寫的演示,再給出一個僅含上下文的最終樣本,期望模型給出續寫。我們通常將 $ {\textstyle K} $ 設為 10 到 100 之間,因為這是模型上下文窗口($ {\textstyle n_{ctx} = 2048} $)能容納的示例數。少樣本的主要優勢是大幅降低對任務特定數據的需求,並減少從規模大但分佈狹窄的Lua error: Internal error: The interpreter exited with status 1.數據集中學到過窄分佈的可能性。主要劣勢是,迄今為止該方法的結果遠遜於最先進的微調模型。此外,仍需少量任務特定數據。如其名稱所示,這裏所描述的語言模型上下文中的少樣本學習,與機器學習其他領域中的少樣本學習相關 [45, 133]——兩者都涉及在一個廣泛的任務分佈上進行學習(此處隱含於Lua error: Internal error: The interpreter exited with status 1.數據中),然後快速適應一個新任務。
•
一樣本(One-Shot,1S)與少樣本相同,只是除了任務的自然語言描述外,只允許一個演示,如圖 1 所示。將一樣本與少樣本和零樣本(下文)區分開的原因在於,它最接近某些任務向人類傳達的方式。例如,在請人類工作者服務(如 Mechanical Turk)上讓人類生成數據集時,通常會給出一個任務演示。相比之下,如果不給出任何示例,有時很難傳達任務的內容或格式。
•
零樣本(Zero-Shot,0S)與一樣本相同,只是不允許任何演示,模型只被給予一段描述任務的自然語言指令。該方法提供了最大的便利性、潛在的魯棒性,以及避免虛假相關性的可能(除非這些相關性在大規模Lua error: Internal error: The interpreter exited with status 1.語料中非常普遍),但也是最具挑戰性的設定。在某些情況下,即便是人類也可能在沒有示例的情況下難以理解任務格式,因此該設定有時"不公平地困難"。例如,如果有人被要求"列一張 200 米短跑世界紀錄的表格",該請求可能模糊不清,因為表格應當採用什麼格式或包含哪些內容並不明確(即便經過仔細澄清,準確理解所需內容仍可能困難)。儘管如此,至少在某些設定下,零樣本最接近人類執行任務的方式——例如,在圖 2.1 的翻譯示例中,人類很可能僅憑文字指令就知道該做什麼。
圖 2.1 通過英語到法語翻譯的例子展示了這四種方法。在本文中,我們聚焦於零樣本、一樣本和少樣本,目的是不將它們視為相互競爭的替代方案進行比較,而是視為不同的問題設定,它們在特定基準上的性能與樣本效率之間提供了不同的權衡。我們尤其強調少樣本結果,因為其中許多僅略落後於最先進的微調模型。但歸根結底,一樣本,有時甚至零樣本,似乎才是與人類性能最公正的比較,也是未來工作的重要目標。
下文第 2.1 節至 2.3 節分別詳述了我們的模型、訓練數據和訓練過程。第 2.4 節討論了我們如何進行少樣本、一樣本和零樣本評估的細節。
2.1 模型與架構
我們使用與 GPT-2 [117] 相同的模型和架構,包括其中描述的改進初始化、預歸一化和可逆Lua error: Internal error: The interpreter exited with status 1.,區別在於我們在 Lua error: Internal error: The interpreter exited with status 1. 的各層中使用密集與局部帶狀稀疏Lua error: Internal error: The interpreter exited with status 1.模式交替的方式,類似於 Sparse Lua error: Internal error: The interpreter exited with status 1. [15]。為了研究機器學習性能對模型規模的依賴關係,我們訓練了 8 種不同規模的模型,跨越三個數量級,從 1.25 億參數到 1750 億參數,後者就是我們稱為 GPT-3 的模型。先前的工作 [57] 表明,在擁有足夠訓練數據的情況下,驗證損失隨規模的擴展應近似呈現出平滑的冪律;訓練許多不同規模的模型使我們能夠針對驗證損失以及下游語言任務來檢驗這一假設。
| 模型名稱 | $ {\textstyle n_{params}} $ | $ {\textstyle n_{layers}} $ | $ {\textstyle d_{model}} $ | $ {\textstyle n_{heads}} $ | $ {\textstyle d_{head}} $ | 批大小 | 學習率 |
|---|---|---|---|---|---|---|---|
| GPT-3 Small | 125M | 12 | 768 | 12 | 64 | 0.5M | $ {\textstyle 6.0 \times 10^{- 4}} $ |
| GPT-3 Medium | 350M | 24 | 1024 | 16 | 64 | 0.5M | $ {\textstyle 3.0 \times 10^{- 4}} $ |
| GPT-3 Large | 760M | 24 | 1536 | 16 | 96 | 0.5M | $ {\textstyle 2.5 \times 10^{- 4}} $ |
| GPT-3 XL | 1.3B | 24 | 2048 | 24 | 128 | 1M | $ {\textstyle 2.0 \times 10^{- 4}} $ |
| GPT-3 2.7B | 2.7B | 32 | 2560 | 32 | 80 | 1M | $ {\textstyle 1.6 \times 10^{- 4}} $ |
| GPT-3 6.7B | 6.7B | 32 | 4096 | 32 | 128 | 2M | $ {\textstyle 1.2 \times 10^{- 4}} $ |
| GPT-3 13B | 13.0B | 40 | 5140 | 40 | 128 | 2M | $ {\textstyle 1.0 \times 10^{- 4}} $ |
| GPT-3 175B or 「GPT-3」 | 175.0B | 96 | 12288 | 96 | 128 | 3.2M | $ {\textstyle 0.6 \times 10^{- 4}} $ |
表 2.1 給出了我們 8 個模型的規模與架構。此處 $ {\textstyle n_{params}} $ 是可訓練參數總數,$ {\textstyle n_{layers}} $ 是層總數,$ {\textstyle d_{model}} $ 是每個瓶頸層的單元數(我們始終將前饋層設為瓶頸層的四倍寬,$ {\textstyle d_{ff}} $ $ {\textstyle = {4 \ast d_{model}}} $),$ {\textstyle d_{head}} $ 是每個Lua error: Internal error: The interpreter exited with status 1.頭的維度。所有模型均使用 $ {\textstyle n_{ctx} = 2048} $ token 的上下文窗口。我們沿深度與寬度兩個維度將模型劃分到多個 GPU 上,以最小化節點間的數據傳輸。每個模型的精確架構參數都是基於計算效率以及在 GPU 間佈局時的負載均衡來選擇的。先前的工作 [57] 表明,在合理較寬的範圍內,驗證損失對這些參數並不十分敏感。
2.2 訓練數據集
語言模型的數據集快速擴張,最終形成了 Common Crawl 數據集222https://commoncrawl.org/the-data/ [116],規模接近一萬億詞。這一數據集規模足以在不重複使用同一序列的情況下訓練我們最大的模型。然而,我們發現 Common Crawl 的未過濾或僅經輕度過濾的版本,質量往往低於經過更精細篩選的數據集。因此,我們採取了 3 個步驟來提升數據集的平均質量:(1)我們下載並過濾了 CommonCrawl 的一個版本,過濾依據是其與一系列高質量參考語料的相似度;(2)我們在數據集內部和數據集之間進行了文檔級的模糊去重,以防止冗餘,並保持留出驗證集作為衡量Lua error: Internal error: The interpreter exited with status 1.的準確指標;(3)我們還在訓練混合中加入了已知的高質量參考語料,以增強 CommonCrawl 並提升其多樣性。
前兩點(Common Crawl 的處理)的細節詳見附錄 A。關於第三點,我們加入了若干精心整理的高質量數據集,包括 WebText 數據集 [117] 的擴展版本(通過在更長時間段內抓取連結收集,首次描述見 [57])、兩個基於互聯網的圖書語料(Books1 和 Books2),以及英文維基百科。
表 2.2 給出了訓練中所使用的最終數據集混合。CommonCrawl 數據從覆蓋 2016 至 2019 年的月度 CommonCrawl 的 41 個分片中下載,過濾前為 45TB 的壓縮明文,過濾後為 570GB,約相當於 4000 億個 byte-pair-encoded token。請注意,在訓練過程中,數據集並非按其規模比例採樣;相反,我們視為更高質量的數據集採樣得更頻繁,因此 CommonCrawl 和 Books2 在訓練中被採樣不到一次,而其他數據集被採樣 2 至 3 次。這實質上是為了換取更高質量的訓練數據,而接受了少量的Lua error: Internal error: The interpreter exited with status 1.。
| 數據集 | 數量(tokens) | 訓練混合中的權重 | Lua error: Internal error: The interpreter exited with status 1. elapsed when training for 300B tokens |
|---|---|---|---|
| Common Crawl (filtered) | 410 billion | 60% | 0.44 |
| WebText2 | 19 billion | 22% | 2.9 |
| Books1 | 12 billion | 8% | 1.9 |
| Books2 | 55 billion | 8% | 0.43 |
| Wikipedia | 3 billion | 3% | 3.4 |
對在大量互聯網數據上預訓練的語言模型而言,一個主要的方法論擔憂是——尤其是對於具有記憶海量內容能力的大型模型——其下游任務可能受到污染,因為這些任務的測試或開發集可能在Lua error: Internal error: The interpreter exited with status 1.階段被無意中看到。為減少這種污染,我們對本文研究的所有基準的開發集和測試集進行搜索,並嘗試移除任何重疊。不幸的是,過濾過程中的一個錯誤使我們忽略了一些重疊,而由於訓練成本高昂,重新訓練模型是不可行的。在第 4.1 節中,我們刻畫了剩餘重疊所帶來的影響;在未來的工作中,我們將更激進地移除數據污染。
2.3 訓練過程
如 [57, 85] 所發現,更大的模型通常可以使用更大的 batch size,但需要更小的Lua error: Internal error: The interpreter exited with status 1.。我們在訓練過程中測量梯度噪聲尺度,並據此指導 batch size 的選擇 [85]。表 2.1 給出了我們使用的參數設置。為了在不耗盡顯存的前提下訓練更大的模型,我們在每次矩陣乘法內部使用模型並行,同時在網絡各層之間使用模型並行。所有模型均在由 Microsoft 提供的高帶寬集群的一部分 V100 GPU 上訓練。訓練過程和Lua error: Internal error: The interpreter exited with status 1.設置的細節詳見附錄 B。
2.4 評估
對於少樣本學習,我們對評估集中的每個樣本進行評估時,從該任務的訓練集中隨機抽取 $ {\textstyle K} $ 個樣本作為條件,條件樣本之間根據任務用 1 個或 2 個換行符分隔。對於 LAMBADA 和 Storycloze 沒有可用的監督訓練集,因此我們從開發集中抽取條件樣本,並在測試集上評估。對於 Winograd(原始版本而非 SuperGLUE 版本),只存在一個數據集,因此我們直接從中抽取條件樣本。
$ {\textstyle K} $ 可以取從 0 到模型上下文窗口允許的最大值之間的任意值,所有模型的上下文窗口為 $ {\textstyle n_{ctx} = 2048} $,通常可容納 $ {\textstyle 10} $ 至 $ {\textstyle 100} $ 個示例。較大的 $ {\textstyle K} $ 通常但並非總是更好,因此當存在分別的開發集和測試集時,我們會在開發集上嘗試若干 $ {\textstyle K} $ 值,然後在測試集上運行最佳的那個。對於某些任務(參見附錄 G),除了演示之外,我們還使用自然語言提示(在 $ {\textstyle K = 0} $ 時則代替演示)。
在涉及從若干選項中選出一個正確續寫(多項選擇)的任務上,我們提供 $ {\textstyle K} $ 個含上下文加正確續寫的示例,後接一個僅含上下文的示例,然後比較語言模型對每個候選續寫的似然。對於大多數任務,我們比較每個 token 的似然(以歸一化長度);但在少量數據集(ARC、OpenBookQA 和 RACE)上,我們通過用每個續寫的無條件概率進行歸一化,在開發集上獲得額外收益,計算方式為 $ {\textstyle \frac{P\hspace{0pt}{(\left. {completion} \middle| {context} \right.)}}{P\hspace{0pt}{(\left. {completion} \middle| {{answer}\hspace{0pt}\_\hspace{0pt}{context}} \right.)}}} $,其中 $ {\textstyle {answer}\hspace{0pt}\_\hspace{0pt}{context}} $ 是字符串 "Answer: " 或 "A: ",用於提示該續寫應當是一個答案,但在其他方面較為通用。
對於涉及二分類的任務,我們為選項賦予語義上更有意義的名稱(例如使用"True"或"False"而非 0 或 1),然後將其視為多項選擇來處理;有時我們也按 [116] 的做法來構造任務(詳見附錄 G)。
對於自由形式續寫的任務,我們使用與 [116] 相同參數的束搜索:束寬為 4,長度懲罰 $ {\textstyle \alpha = 0.6} $。我們根據所討論數據集的常用做法,使用 F1 相似度分數、BLEU 或精確匹配來對模型評分。
當測試集公開可用時,我們針對每種模型規模與學習設定(零樣本、一樣本、少樣本)在測試集上報告最終結果。當測試集為私有時,我們的模型通常太大,無法裝入測試伺服器,因此我們報告開發集上的結果。在少數我們能夠成功提交的數據集上(SuperGLUE、TriviaQA、PiQa),我們確實向測試伺服器進行了提交,且僅提交 200B 模型的少樣本結果,其他情況下均報告開發集上的結果。
3 結果
圖 3.1 展示了第 2 節中描述的 8 個模型的訓練曲線。在該圖中,我們還額外加入了 6 個超小模型,其參數量低至 10 萬。如 [57] 中所觀察到的,在高效利用訓練算力時,語言建模性能呈冪律關係。在將該趨勢再擴展兩個數量級後,我們僅觀察到與冪律的極小偏離(如果有的話)。有人可能擔心這些Lua error: Internal error: The interpreter exited with status 1.方面的改進僅來自對訓練語料中虛假細節的建模。然而,我們將在接下來的章節中看到,Lua error: Internal error: The interpreter exited with status 1.的改進會在廣泛的自然語言任務譜上帶來一致的性能提升。
下文我們在多種數據集上評估第 2 節中描述的 8 個模型(1750 億參數的 GPT-3 以及 7 個較小模型)。我們將數據集分為 9 類,每一類代表大致相似的任務。
在第 3.1 節中,我們在傳統語言建模任務以及與語言建模類似的任務上進行評估,例如填空(Cloze)任務和句子/段落續寫任務。在第 3.2 節中,我們在"閉卷"問答任務上進行評估:這類任務需要利用存儲在模型參數中的信息來回答常識性問題。在第 3.3 節中,我們評估模型在不同語言之間進行翻譯的能力(尤其是一樣本和少樣本)。在第 3.4 節中,我們評估模型在 Winograd Schema 類任務上的表現。在第 3.5 節中,我們在涉及常識推理或問答的數據集上進行評估。在第 3.6 節中我們在閱讀理解任務上進行評估,在第 3.7 節中我們在 SuperGLUE 基準套件上進行評估,在 3.8 中我們簡要探索 NLI。最後,在第 3.9 節中,我們設計了一些額外任務,專門用於探查上下文學習能力——這些任務聚焦於即時推理、適應能力或開放式文本合成。所有任務我們均在少樣本、一樣本和零樣本設定下進行評估。
3.1 語言建模、完形填空與補全任務
在本節中,我們測試 GPT-3 在傳統語言建模任務上的表現,以及在相關任務上的表現:這些任務包括預測某個目標詞、續寫一個句子或段落,或者在一段文本的可能續寫之間作出選擇。
3.1.1 語言建模
我們在 [117] 中所測量的 Penn Tree Bank (PTB) [86] 數據集上計算零樣本困惑度。我們略去了該工作中與維基百科相關的 4 項任務,因為它們完全包含在我們的訓練數據中;我們也略去了 one-billion word 基準,因為該數據集的很大一部分包含在我們的訓練集中。PTB 由於早於現代互聯網而避免了這些問題。我們最大的模型在 PTB 上以 15 分的顯著優勢創下了新的最先進水平,困惑度達到 20.50。請注意,由於 PTB 是傳統的語言建模數據集,沒有清晰的樣本切分可用於定義一樣本或少樣本評估,因此我們只測量零樣本。
| 設置 | PTB |
|---|---|
| SOTA (Zero-Shot) | 35.8a |
| GPT-3 Zero-Shot | 20.5 |
3.1.2 LAMBADA
| 設置 | LAMBADA (acc) | LAMBADA (ppl) | StoryCloze (acc) | HellaSwag (acc) |
|---|---|---|---|---|
| SOTA | 68.0a | 8.63b | 91.8c | 85.6d |
| GPT-3 Zero-Shot | 76.2 | 3.00 | 83.2 | 78.9 |
| GPT-3 One-Shot | 72.5 | 3.35 | 84.7 | 78.1 |
| GPT-3 Few-Shot | 86.4 | 1.92 | 87.7 | 79.3 |
LAMBADA 數據集 [99] 測試對文本中長距離依賴關係的建模——要求模型預測句子的最後一個詞,而該預測需要閱讀一段上下文。最近有人指出,在這一困難基準上,語言模型的持續擴展正在產生遞減的收益。[9] 反思了在兩個近期最先進結果之間(分別為 [125] 和 [132])模型規模翻倍僅帶來 1.5% 的小幅改進,並提出"將硬件和數據規模繼續擴大幾個數量級並非前進之路"。我們發現該道路仍有前景,在零樣本設定下 GPT-3 在 LAMBADA 上達到 76%,比此前最先進水平提高了 8%。
LAMBADA 也展示了少樣本學習的靈活性,因為它提供了一種解決該數據集上一個經典問題的方法。儘管 LAMBADA 的續寫始終是某個句子的最後一個詞,但標準的語言模型並不知道這一細節。因此,它不僅會為正確的結尾詞賦予概率,還會為該段落的其他合法延續賦予概率。這一問題過去已通過停用詞過濾器部分地解決 [117](過濾"延續"類詞彙)。而少樣本設定則使我們能夠將任務"框定"為填空測試,並通過示例使語言模型推斷出所需續寫恰好為一個詞。我們使用如下填空格式:
Alice 是 Bob 的朋友。Alice 去拜訪了她的朋友 。$ {\textstyle \rightarrow} $ Bob
George 買了一些棒球裝備:一個球、一隻手套和一個 。$ {\textstyle \rightarrow} $
當呈現以這種格式化的示例時,GPT-3 在少樣本設定下取得 86.4% 的準確率,較此前最先進水平提升超過 18%。我們觀察到少樣本性能隨模型規模顯著提升。在該設定下,最小模型的性能下降近 20%,而對 GPT-3 來說則將準確率提升了 10%。最後,該填空方法在一樣本設定下並不奏效——其表現總是比零樣本更差。這或許是因為所有模型仍需要若干示例才能識別該模式。
需要謹慎指出的是,測試集污染分析發現 LAMBADA 數據集中有相當一部分似乎出現在我們的訓練數據中;不過,第 4.1 節進行的分析表明對性能的影響可以忽略不計。
3.1.3 HellaSwag
HellaSwag 數據集 [140] 涉及為一段故事或一組指令挑選最佳結尾。其樣本是經對抗性挖掘得到的,旨在對語言模型困難,但對人類來說仍然簡單(人類準確率為 95.6%)。GPT-3 在一樣本設定下達到 78.1% 的準確率,在少樣本設定下達到 79.3%,超過了 15 億參數的微調語言模型 [141] 所取得的 75.4% 準確率,但仍明顯低於微調多任務模型 ALUM 取得的 85.6% 總體最先進水平。
3.1.4 StoryCloze
接下來,我們在 StoryCloze 2016 數據集 [83] 上評估 GPT-3,該數據集涉及為五句話長度的故事選出正確的結尾句。在零樣本設定下 GPT-3 達到 83.2%,在少樣本設定下($ {\textstyle K = 70} $)達到 87.7%。這仍比基於 BERT 模型的微調最先進水平 [64] 低 4.1%,但比此前的零樣本結果提升了大約 10%。
3.2 閉卷問答
| 設置 | NaturalQS | WebQS | TriviaQA |
|---|---|---|---|
| RAG (Fine-tuned, Open-Domain) [75] | 44.5 | 45.5 | 68.0 |
| T5-11B+SSM (Fine-tuned, Closed-Book) [115] | 36.6 | 44.7 | 60.5 |
| T5-11B (Fine-tuned, Closed-Book) | 34.5 | 37.4 | 50.1 |
| GPT-3 Zero-Shot | 14.6 | 14.4 | 64.3 |
| GPT-3 One-Shot | 23.0 | 25.3 | 68.0 |
| GPT-3 Few-Shot | 29.9 | 41.5 | 71.2 |
在本節中,我們衡量 GPT-3 回答有關廣泛事實知識問題的能力。由於可能的查詢數量極其龐大,該任務通常採用以下方式處理:使用信息檢索系統尋找相關文本,並結合一個學習根據問題和所檢索文本生成答案的模型。由於該設定允許系統去搜索並以可能包含答案的文本作為條件,故被稱為"開卷"。[115] 最近證明了一個大型語言模型可以在不依賴任何輔助信息的情況下直接回答問題,效果出人意料地好。他們將這種更嚴格的評估設定稱為"閉卷"。他們的工作表明容量更大的模型可以表現得更好,我們用 GPT-3 檢驗這一假設。我們在 [115] 中的 3 個數據集上評估 GPT-3:Natural Questions [58]、WebQuestions [5] 和 TriviaQA [49],使用相同的切分。請注意,除了所有結果都在閉卷設定下之外,我們使用少樣本、一樣本和零樣本評估代表了比此前閉卷問答工作更嚴格的設定:除了不允許使用外部內容之外,也不允許在 Q&A 數據集本身上進行Lua error: Internal error: The interpreter exited with status 1.。
GPT-3 的結果如表 3.3 所示。在 TriviaQA 上,我們在零樣本設定下取得 64.3%,一樣本設定下 68.0%,少樣本設定下 71.2%。零樣本結果已比微調後的 T5-11B 高出 14.2%,並比一種在Lua error: Internal error: The interpreter exited with status 1.階段進行 Q&A 專屬 span 預測的版本高出 3.8%。一樣本結果再提升 3.7%,與一個開放域問答系統的最先進水平持平,後者不僅進行微調,還在 2100 萬文檔構成的 153 億參數稠密向量索引上使用了已學習的檢索機制 [75]。GPT-3 的少樣本結果在此基礎上進一步提升了 3.2%。
在 WebQuestions(WebQs)上,GPT-3 在零樣本設定下取得 14.4%,一樣本設定下 25.3%,少樣本設定下 41.5%。相比之下,微調後的 T5-11B 為 37.4%,使用 Q&A 專屬Lua error: Internal error: The interpreter exited with status 1.過程的 T5-11B+SSM 為 44.7%。GPT-3 在少樣本設定下接近最先進微調模型的性能。值得注意的是,與 TriviaQA 相比,WebQS 在從零樣本到少樣本的提升幅度要大得多(而且其零樣本和一樣本性能本身較差),這或許表明 WebQs 的問題和/或回答風格對 GPT-3 來說處於分佈外。儘管如此,GPT-3 似乎能夠適應這一分佈,在少樣本設定下重新取得較強的性能。
在 Natural Questions(NQs)上,GPT-3 在零樣本設定下取得 14.6%,一樣本設定下 23.0%,少樣本設定下 29.9%,而微調後的 T5 11B+SSM 為 36.6%。與 WebQS 類似,從零樣本到少樣本的大幅提升可能暗示存在分佈漂移,也可能解釋了相對 TriviaQA 與 WebQS 而言較為遜色的表現。具體而言,NQs 中的問題往往集中於維基百科上極其細緻的專門知識,這可能在測試 GPT-3 的容量上限以及其廣泛的Lua error: Internal error: The interpreter exited with status 1.分佈。
總體而言,在三個數據集中的一個上,GPT-3 的一樣本結果與開放域Lua error: Internal error: The interpreter exited with status 1.最先進水平相當。在另外兩個數據集上,儘管未使用Lua error: Internal error: The interpreter exited with status 1.,仍接近閉卷最先進水平。在所有 3 個數據集上,我們發現性能隨模型規模非常平滑地擴展(圖 3.3 和附錄 H 圖 H.7),這可能反映了一種觀點:模型容量直接轉化為吸收進模型參數中的更多"知識"。
3.3 翻譯
對於 GPT-2,因容量考慮,使用了過濾器從多語種文檔集合中生成僅英文的數據集。即便如此,GPT-2 仍展現出一定的多語種能力,在僅訓練於 10 兆字節剩餘法語文本的情況下,在法英互譯上也取得了非平凡的表現。由於從 GPT-2 到 GPT-3 我們將容量提升了兩個數量級以上,我們也擴展了訓練數據集的範圍,以納入對其他語言更多的代表性內容,儘管這仍是有待進一步改進的領域。如第 2.2 節所述,我們的大部分數據來自原始的 Common Crawl,僅經過基於質量的過濾。儘管 GPT-3 的訓練數據仍主要為英文(按詞數統計為 93%),它也包含 7% 的其他語種文本。這些語言記錄在補充材料中。為了更好地理解翻譯能力,我們的分析也擴展到包括另外兩種常見研究的語言:德語和羅馬尼亞語。
現有的無監督機器翻譯方法通常將一對單語數據集上的Lua error: Internal error: The interpreter exited with status 1.與回譯(back-translation)[123] 相結合,以受控的方式在兩種語言之間建立聯繫。相比之下,GPT-3 從一種混合的訓練數據中學習,這些數據以自然方式將多種語言混合在一起,在詞、句和文檔層面進行融合。GPT-3 也使用單一的訓練目標,該目標既未針對任何特定任務進行定製,也未為其設計。然而,我們的一樣本/少樣本設定與此前的無監督工作並非嚴格可比,因為它們使用了少量配對樣例(1 或 64 個)。這相當於多至一兩頁的上下文內訓練數據。
| 設置 | En$ {\textstyle \rightarrow} $Fr | Fr$ {\textstyle \rightarrow} $En | En$ {\textstyle \rightarrow} $De | De$ {\textstyle \rightarrow} $En | En$ {\textstyle \rightarrow} $Ro | Ro$ {\textstyle \rightarrow} $En |
|---|---|---|---|---|---|---|
| SOTA (Supervised) | 45.6a | 35.0 b | 41.2c | 40.2d | 38.5e | 39.9e |
| XLM [61] | 33.4 | 33.3 | 26.4 | 34.3 | 33.3 | 31.8 |
| MASS [127] | 37.5 | 34.9 | 28.3 | 35.2 | 35.2 | 33.1 |
| mBART [66] | - | - | 29.8 | 34.0 | 35.0 | 30.5 |
| GPT-3 Zero-Shot | 25.2 | 21.2 | 24.6 | 27.2 | 14.1 | 19.9 |
| GPT-3 One-Shot | 28.3 | 33.7 | 26.2 | 30.4 | 20.6 | 38.6 |
| GPT-3 Few-Shot | 32.6 | 39.2 | 29.7 | 40.6 | 21.0 | 39.5 |
結果如表 3.4 所示。僅獲得自然語言任務描述的零樣本 GPT-3 仍遜色於近期的無監督神經機器翻譯(NMT)結果。然而,為每項翻譯任務僅提供一個示例演示,就能將性能提升超過 7 BLEU,接近與此前工作相競爭的水平。在完整的少樣本設定下,GPT-3 又進一步提升約 4 BLEU,最終平均性能與此前無監督 NMT 工作相當。GPT-3 的性能在不同翻譯方向上呈現明顯偏斜。對於所研究的三種源語言,在翻譯為英語時,GPT-3 顯著優於此前的無監督 NMT 工作;但在反方向翻譯時則遜色。En-Ro 上的表現是一個明顯的離群值,比此前的無監督 NMT 工作低 10 BLEU 以上。這可能是因復用 GPT-2 的字節級 BPE Lua error: Internal error: The interpreter exited with status 1.所致——後者是為幾乎完全由英文構成的訓練數據集開發的。對於 Fr-En 和 De-En,少樣本 GPT-3 超過我們能找到的最佳監督結果,但由於我們對該領域文獻不熟悉,且這些基準看起來並不具競爭性,我們並不認為這些結果代表了真正的最先進水平。對於 Ro-En,少樣本 GPT-3 與總體最先進水平相差不到 0.5 BLEU,後者通過無監督Lua error: Internal error: The interpreter exited with status 1.、在 608K 有標籤樣本上進行有監督Lua error: Internal error: The interpreter exited with status 1.以及回譯的組合實現 [70]。
最後,在所有語言對和三種設定(零樣本、一樣本和少樣本)上,性能均隨模型容量平滑提升。少樣本結果的這一趨勢如圖 3.4 所示,三種設定下的擴展情況詳見附錄 H。
3.4 Winograd 類任務
| 設置 | Winograd | Winogrande (XL) |
|---|---|---|
| Fine-tuned SOTA | 90.1a | 84.6b |
| GPT-3 Zero-Shot | 88.3* | 70.2 |
| GPT-3 One-Shot | 89.7* | 73.2 |
| GPT-3 Few-Shot | 88.6* | 77.7 |
Winograd 模式挑戰賽 [65] 是自然語言處理中的一項經典任務,需要確定某個代詞所指的是哪個詞——該代詞在語法上具有歧義,但對人類來說在語義上是明確的。最近,微調後的語言模型在原始 Winograd 數據集上已達到接近人類的表現,但更困難的版本,例如經對抗性挖掘得到的 Winogrande 數據集 [118],仍顯着落後於人類表現。我們在 Winograd 和 Winogrande 上測試 GPT-3 的表現,一如既往地在零樣本、一樣本和少樣本設定下進行。
在 Winograd 上,我們使用 [117] 中描述的相同"部分評估"方法,在原始的 273 個 Winograd 模式上評估 GPT-3。請注意,該設定與 SuperGLUE 基準中的 WSC 任務略有不同——後者以二分類形式呈現,且需要實體抽取才能轉換為本節所描述的形式。在 Winograd 上,GPT-3 在零樣本、一樣本和少樣本設定下分別取得 88.3%、89.7% 和 88.6%,並未呈現明顯的上下文學習,但在所有設定下均取得了僅比最先進水平和估計的人類表現低幾個百分點的強勁結果。我們注意到污染分析在訓練數據中發現了一些 Winograd 模式,但這似乎對結果影響很小(參見第 4.1 節)。
在更困難的 Winogrande 數據集上,我們確實發現上下文學習帶來了收益:GPT-3 在零樣本設定下達到 70.2%,一樣本下 73.2%,少樣本下 77.7%。作為對比,微調後的 RoBERTA 模型達到 79%,最先進水平為 84.6%(由微調的高容量模型 T5 取得),而 [118] 報告的人類在該任務上的表現為 94.0%。
3.5 常識推理
| 設置 | PIQA | ARC (Easy) | ARC (Challenge) | OpenBookQA |
|---|---|---|---|---|
| Fine-tuned SOTA | 79.4 | 92.0[55] | 78.5[55] | 87.2[55] |
| GPT-3 Zero-Shot | 80.5* | 68.8 | 51.4 | 57.6 |
| GPT-3 One-Shot | 80.5* | 71.2 | 53.2 | 58.8 |
| GPT-3 Few-Shot | 82.8* | 70.1 | 51.5 | 65.4 |
接下來我們考察三個旨在捕捉物理或科學推理的數據集,這與句子續寫、閱讀理解或廣義知識問答有所區別。第一個,PhysicalQA(PIQA)[11],就物理世界如何運作提出常識性問題,意在作為對世界的具身理解的探測。GPT-3 在零樣本下取得 81.0% 準確率,一樣本下 80.5%,少樣本下 82.8%(後者在 PIQA 的測試伺服器上測得)。這相比此前微調 RoBERTa 取得的 79.4% 準確率最先進水平表現良好。PIQA 隨模型規模呈現相對淺薄的擴展,且仍比人類性能低 10% 以上,但 GPT-3 的少樣本乃至零樣本結果都超過了當前的最先進水平。我們的分析將 PIQA 標記為存在潛在的數據污染問題(儘管測試標籤是隱藏的),因此我們保守地用星號標註該結果。詳情見第 4.1 節。
ARC [14] 是從 3 至 9 年級科學考試中收集的多項選擇題數據集。在數據集的"挑戰(Challenge)"版本中(該版本經過過濾,只保留簡單統計或信息檢索方法無法正確回答的題目),GPT-3 在零樣本設定下達到 51.4% 的準確率,一樣本下 53.2%,少樣本下 51.5%。這接近 UnifiedQA [55] 中微調 RoBERTa 基線(55.9%)的表現。在數據集的"簡單(Easy)"版本(被前述任一基線方法正確回答的題目)上,GPT-3 取得 68.8%、71.2% 和 70.1%,略微超過 [55] 的微調 RoBERTa 基線。然而,這兩組結果仍遠遜於 UnifiedQA 取得的總體最先進水平,後者在挑戰集上比 GPT-3 的少樣本結果高 27%,在簡單集上高 22%。
在 OpenBookQA [84] 上,GPT-3 從零樣本到少樣本設定下有顯著改進,但仍比總體最先進水平低 20 個百分點以上。GPT-3 的少樣本性能與排行榜上微調後的 BERT Large 基線相近。
總體而言,GPT-3 的上下文學習在常識推理任務上表現喜憂參半:在 PIQA 和 ARC 上,一樣本與少樣本設定下僅觀察到很小且不一致的收益,但在 OpenBookQA 上觀察到了顯著的改進。在新的 PIQA 數據集上,GPT-3 在所有評估設定下均刷新了最先進水平。
3.6 閱讀理解
| 設置 | CoQA | DROP | QuAC | SQuADv2 | RACE-h | RACE-m |
|---|---|---|---|---|---|---|
| Fine-tuned SOTA | 90.7a | 89.1b | 74.4c | 93.0d | 90.0e | 93.1e |
| GPT-3 Zero-Shot | 81.5 | 23.6 | 41.5 | 59.5 | 45.5 | 58.4 |
| GPT-3 One-Shot | 84.0 | 34.3 | 43.3 | 65.4 | 45.9 | 57.4 |
| GPT-3 Few-Shot | 85.0 | 36.5 | 44.3 | 69.8 | 46.8 | 58.1 |
接下來我們在閱讀理解任務上評估 GPT-3。我們使用一套 5 個數據集,涵蓋抽象式、選擇題和基於片段的答案格式,涉及對話和單題兩種設定。我們觀察到 GPT-3 在這些數據集上的表現差異很大,提示其在不同答案格式下的能力存在差別。總體而言,我們觀察到 GPT-3 與每個相應數據集上的早期基線及使用上下文表示訓練的早期結果大致相當。
GPT-3 在 CoQA [106](自由形式的對話型數據集)上表現最佳(與人類基線相差不到 3 分),在 QuAC [16] 上表現最差(比 ELMo 基線低 13 F1),後者需要建模師生互動中結構化的對話行為和答案片段選擇。在 DROP [27](一個在閱讀理解情境下測試離散推理和數感的數據集)上,少樣本設定的 GPT-3 超過了原文中微調的 BERT 基線,但仍遠低於人類表現以及將神經網絡與符號系統相結合的最先進方法 [110]。在 SQuAD 2.0 [108] 上,GPT-3 展示了其少樣本學習能力,相比零樣本設定提升了近 10 F1(達到 69.8)。這使它略微超過了原文中最佳的微調結果。在 RACE [78](一個由初中和高中英語考試組成的多項選擇數據集)上,GPT-3 表現相對較弱,僅與最早採用上下文表示的工作相競爭,仍比最先進水平落後 45%。
| SuperGLUE | BoolQ | CB | CB | COPA | RTE | |
|---|---|---|---|---|---|---|
| Average | 準確率 | 準確率 | F1 | 準確率 | 準確率 | |
| Fine-tuned SOTA | 89.0 | 91.0 | 96.9 | 93.9 | 94.8 | 92.5 |
| Fine-tuned BERT-Large | 69.0 | 77.4 | 83.6 | 75.7 | 70.6 | 71.7 |
| GPT-3 Few-Shot | 71.8 | 76.4 | 75.6 | 52.0 | 92.0 | 69.0 |
| WiC | WSC | MultiRC | MultiRC | ReCoRD | ReCoRD | |
|---|---|---|---|---|---|---|
| Accuracy | 準確率 | 準確率 | F1a | 準確率 | F1 | |
| Fine-tuned SOTA | 76.1 | 93.8 | 62.3 | 88.2 | 92.5 | 93.3 |
| Fine-tuned BERT-Large | 69.6 | 64.6 | 24.1 | 70.0 | 71.3 | 72.0 |
| GPT-3 Few-Shot | 49.4 | 80.1 | 30.5 | 75.4 | 90.2 | 91.1 |
3.7 SuperGLUE
為了更好地匯總自然語言處理任務上的結果,並以更系統的方式與 BERT 和 RoBERTa 等流行模型進行比較,我們還在一個標準化的數據集合,即 SuperGLUE 基準 [135] [135] [17] [25] [105] [54] [142] [21] [8] [34] [6] [96] [98] 上評估 GPT-3。GPT-3 在 SuperGLUE 數據集測試集上的表現見表 3.8。在少樣本設定下,我們對所有任務都使用 32 個示例,從訓練集中隨機抽樣。除 WSC 和 MultiRC 之外,對於其他所有任務,我們都為每個問題在上下文中重新抽取一組新的示例。對於 WSC 和 MultiRC,我們對所評估的所有問題都使用從訓練集中隨機抽取的同一組示例作為上下文。
我們觀察到 GPT-3 在不同任務上的表現差異很大。在 COPA 和 ReCoRD 上,GPT-3 在一樣本和少樣本設定下取得接近最先進水平的成績,其中 COPA 僅落後幾分,在排行榜上排名第二,排名第一的是一個 110 億參數的微調模型(T5)。在 WSC 上,性能仍然較強,在少樣本設定下達到 80.1%(請注意,如第 3.4 節所述,GPT-3 在原始 Winograd 數據集上達到 88.6%)。在 BoolQ、MultiRC 和 RTE 上,性能尚可,大致與微調後的 BERT-Large 相當。在 CB 上,我們看到了一線生機:在少樣本設定下達到 75.6%。
WiC 是一個明顯的弱點,少樣本性能為 49.4%(等同於隨機猜測)。我們嘗試了多種針對 WiC 的不同表述與構造方式(WiC 涉及判斷同一個詞在兩個句子中是否以相同含義被使用),其中沒有一種能夠取得較強的表現。這暗示了一種現象,在下一節(討論 ANLI 基準)將更為明顯:GPT-3 在少樣本或一樣本設定下,似乎在某些涉及比較兩個句子或片段的任務上表現較弱,例如:某個詞在兩句中是否以同樣方式被使用(WiC)、某句是否是另一句的釋義,或某句是否蘊含另一句。這也能解釋 RTE 和 CB 上相對較低的成績,它們同樣採用了這種格式。儘管存在這些弱點,GPT-3 在八個任務中的四個仍超越微調後的 BERT-large,並在兩個任務上接近由微調的 110 億參數模型保持的最先進水平。
最後,我們注意到少樣本 SuperGLUE 分數隨模型規模和上下文示例數穩步提升,顯示出從上下文學習中獲得的收益不斷增加(圖 3.8)。我們將每項任務的 $ {\textstyle K} $ 擴大到 32 個示例,超過該值後額外的示例就無法可靠地裝入我們的上下文。對 $ {\textstyle K} $ 取值進行掃描時,我們發現 GPT-3 每項任務總共所需示例少於 8 個,即可在總體 SuperGLUE 分數上超過微調後的 BERT-Large。
3.8 NLI
自然語言推理(NLI)[31] 關注理解兩個句子之間關係的能力。實際中,該任務通常構造為二分類或三分類問題,模型對第二句相對於第一句是否在邏輯上成立、是否與第一句矛盾,或是否可能為真(中性)進行分類。SuperGLUE 包含一個 NLI 數據集 RTE,它評估該任務的二分類版本。在 RTE 上,只有最大版本的 GPT-3 在任何評估設定下的表現明顯優於隨機(56%),但在少樣本設定下,GPT-3 與單任務微調的 BERT Large 表現相近。我們還在最近引入的對抗性自然語言推理(ANLI)數據集上進行評估 [94]。ANLI 是一個困難的數據集,採用三輪(R1、R2 和 R3)經對抗性挖掘得到的自然語言推理問題。與 RTE 類似,即使在少樣本設定下,我們所有比 GPT-3 小的模型在 ANLI 上的表現幾乎與隨機相同($ {\textstyle \sim {33\%}} $),而 GPT-3 本身在第 3 輪上顯示出生機。ANLI R3 的結果在圖 3.9 中突出顯示,所有輪次的完整結果見附錄 H。RTE 和 ANLI 的這些結果表明,NLI 對語言模型而言仍是非常困難的任務,它們剛剛開始顯示出進展的跡象。
3.9 合成與定性任務
探查 GPT-3 在少樣本(或零樣本和一樣本)設定下能力範圍的一種方式,是給它一些需要進行簡單的即時計算推理、識別訓練中不太可能出現的新穎模式,或快速適應不常見任務的任務。我們設計了若干任務來測試此類能力。首先,我們測試 GPT-3 進行算術運算的能力。其次,我們創建若干涉及對單詞中字母進行重新排列或還原的任務,這些任務不太可能在訓練中被精確見過。第三,我們以少樣本方式測試 GPT-3 求解 SAT 風格類比題的能力。最後,我們在若干定性任務上測試 GPT-3,包括將新詞用於句中、修改英文語法以及新聞文章生成。我們將公開這些合成數據集,希望能促進對語言模型測試時行為的進一步研究。
3.9.1 算術
為了測試 GPT-3 在沒有任務特定訓練的情況下進行簡單算術運算的能力,我們設計了一組 10 項小測試,以自然語言向 GPT-3 提出一個簡單的算術問題:
•
2 位數加法(2D+)——要求模型將從 $ {\textstyle \lbrack 0,100)} $ 均勻採樣的兩個整數相加,以問題形式表述,例如"Q: What is 48 plus 76? A: 124."
•
2 位數減法(2D-)——要求模型對從 $ {\textstyle \lbrack 0,100)} $ 均勻採樣的兩個整數相減;答案可能為負數。示例:"Q: What is 34 minus 53? A: -19"。
•
3 位數加法(3D+)——與 2 位數加法相同,只是數從 $ {\textstyle \lbrack 0,1000)} $ 均勻採樣。
•
3 位數減法(3D-)——與 2 位數減法相同,只是數從 $ {\textstyle \lbrack 0,1000)} $ 均勻採樣。
•
4 位數加法(4D+)——與 3 位數加法相同,只是從 $ {\textstyle \lbrack 0,10000)} $ 均勻採樣。
•
4 位數減法(4D-)——與 3 位數減法相同,只是從 $ {\textstyle \lbrack 0,10000)} $ 均勻採樣。
•
5 位數加法(5D+)——與 3 位數加法相同,只是從 $ {\textstyle \lbrack 0,100000)} $ 均勻採樣。
•
5 位數減法(5D-)——與 3 位數減法相同,只是從 $ {\textstyle \lbrack 0,100000)} $ 均勻採樣。
•
2 位數乘法(2Dx)——要求模型對從 $ {\textstyle \lbrack 0,100)} $ 均勻採樣的兩個整數相乘,例如"Q: What is 24 times 42? A: 1008"。
•
一位數複合(1DC)——要求模型對三個 1 位數進行複合運算,後兩個數加括號。例如,"Q: What is 6+(4*8)? A: 38"。三個 1 位數從 $ {\textstyle \lbrack 0,10)} $ 均勻選擇,運算符從 {+,-,*} 中均勻選擇。
在所有 10 項任務中,模型必須生成完全正確的答案。對於每項任務,我們生成包含 2000 個隨機實例的數據集,並在這些實例上評估所有模型。
我們首先在少樣本設定下評估 GPT-3,其結果如圖 3.10 所示。在加法和減法上,當位數較少時,GPT-3 表現出很強的能力:在 2 位數加法上達到 100% 的準確率,在 2 位數減法上 98.9%,在 3 位數加法上 80.2%,在 3 位數減法上 94.2%。隨着位數增加,性能下降,但 GPT-3 在四位數運算上仍達到 25-26% 的準確率,在五位數運算上達到 9-10% 的準確率,這表明它至少具備一定向更多位數泛化的能力。GPT-3 在 2 位數乘法這一計算密集型運算上也達到 29.2% 的準確率。最後,GPT-3 在一位數複合運算(例如 9*(7+5))上達到 21.3% 的準確率,這表明它具有超越單一運算的一定魯棒性。
| 設置 | 2D+ | 2D- | 3D+ | 3D- | 4D+ | 4D- | 5D+ | 5D- | 2Dx | 1DC |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-3 Zero-shot | 76.9 | 58.0 | 34.2 | 48.3 | 4.0 | 7.5 | 0.7 | 0.8 | 19.8 | 9.8 |
| GPT-3 One-shot | 99.6 | 86.4 | 65.5 | 78.7 | 14.0 | 14.0 | 3.5 | 3.8 | 27.4 | 14.3 |
| GPT-3 Few-shot | 100.0 | 98.9 | 80.4 | 94.2 | 25.5 | 26.8 | 9.3 | 9.9 | 29.2 | 21.3 |
如圖 3.10 所清楚顯示的,小型模型在所有這些任務上表現都很差——即便是 130 億參數的模型(僅次於 1750 億完整 GPT-3 的第二大模型),也只能在一半的情況下解出 2 位數加減法,其他所有運算的成功率不足 10%。
一樣本和零樣本的性能相對於少樣本性能有所下降,這表明對任務的適應(或至少是識別任務)對於正確執行這些計算很重要。儘管如此,一樣本性能仍相當強,而且完整 GPT-3 的零樣本性能甚至顯著超過所有較小模型的少樣本學習。完整 GPT-3 的三種設定結果見表 3.9,三種設定下的模型容量擴展情況見附錄 H。
為抽查模型是否只是記憶了特定的算術題,我們將測試集中的 3 位數算術題在訓練數據中分別按 "<NUM1> + <NUM2> =" 和 "<NUM1> plus <NUM2>" 兩種形式進行搜索。在 2000 道加法題中我們僅找到 17 處匹配(0.8%),在 2000 道減法題中僅找到 2 處匹配(0.1%),這表明只有微不足道的一小部分正確答案可能是記憶得到的。此外,對錯誤回答的檢查表明,模型常常出現諸如忘記進位"1"這樣的錯誤,這表明它實際上是在嘗試進行相關計算,而不是記憶某張表。
總體而言,GPT-3 在 few-shot、one-shot 甚至 zero-shot 設置下,在中等複雜的算術上展現出合理的能力。
3.9.2 單詞重組與操縱任務
為測試 GPT-3 從少量示例中學習新穎符號操作的能力,我們設計了一組 5 項"字符操作"任務。每項任務都是向模型給出一個經字符亂序、增加或刪除等組合方式扭曲的單詞,並要求模型還原原始單詞。5 項任務分別為:
| 設置 | CL | A1 | A2 | RI | RW |
|---|---|---|---|---|---|
| GPT-3 Zero-shot | 3.66 | 2.28 | 8.91 | 8.26 | 0.09 |
| GPT-3 One-shot | 21.7 | 8.62 | 25.9 | 45.4 | 0.48 |
| GPT-3 Few-shot | 37.9 | 15.1 | 39.7 | 67.2 | 0.44 |
•
單詞中字母循環移位(CL)——模型被給予一個字母經過循環移位的單詞,然後是"="符號,期望它生成原始單詞。例如,它可能被給予"lyinevitab",應輸出"inevitably"。
•
除首末字符外其餘字母的亂序(A1)——模型被給予一個除首末字母之外其他字母都被隨機打亂的單詞,需輸出原始單詞。示例:criroptuon = corruption。
•
除首末 2 個字符外其餘字母的亂序(A2)——模型被給予一個除前 2 個和末 2 個字母之外其他字母都被隨機打亂的單詞,需還原原始單詞。示例:opoepnnt $ {\textstyle \rightarrow} $ opponent。
•
單詞中隨機插入(RI)——在一個單詞的每個字母之間隨機插入一個標點或空格字符,模型需輸出原始單詞。示例:s.u!c/c!e.s s i/o/n = succession。
•
反序單詞(RW)——模型被給予一個倒序拼寫的單詞,需輸出原始單詞。示例:stcejbo $ {\textstyle \rightarrow} $ objects。
對於每項任務,我們生成 10000 個示例,我們選擇的是按 [92] 度量出現頻率最高、長度大於 4 字符且小於 15 字符的前 10000 個單詞。少樣本結果如圖 3.11 所示。任務性能往往隨模型規模平滑增長,完整 GPT-3 在去除隨機插入上達到 66.9%,在字母循環移位上 38.6%,在較容易的字謎任務上 40.2%,在更困難的字謎任務上(僅固定首末字母)15.1%。所有模型都無法將單詞中的字母反序。
在一樣本設定下,性能顯著下降(下降一半或更多),在零樣本設定下,模型幾乎無法完成任何一項任務(表 3.10)。這表明,模型確實似乎是在測試時學習了這些任務——因為它在零樣本設定下無法完成,而其人工性質使其不太可能出現在Lua error: Internal error: The interpreter exited with status 1.數據中(儘管我們無法完全確認這一點)。
我們可以通過繪製"上下文學習曲線"——即任務表現作為上下文示例數的函數——進一步對性能進行量化。我們在圖 1.2 中展示了符號插入任務的上下文學習曲線。可以看出,更大的模型能夠越來越有效地利用上下文信息,包括任務示例和自然語言任務描述。
最後值得補充的是,解決這些任務需要字符級的操作,而我們的 BPE 編碼作用於一個單詞的相當一部分(平均每個 token 約 $ {\textstyle \sim 0.7} $ 個詞),因此從語言模型的視角看,在這些任務上成功不僅要操作 BPE token,還要理解並拆解其子結構。此外,CL、A1 和 A2 並不是雙射的(即還原後的詞並非亂序詞的確定性函數),要求模型進行一定搜索以找到正確的還原。因此,所涉及的技能似乎需要非平凡的模式匹配和計算。
3.9.3 SAT 類比
為了在另一項相對於典型文本分佈而言較為不尋常的任務上測試 GPT-3,我們收集了一組 374 道"SAT 類比題"[131]。類比題是一種多項選擇題,2005 年之前曾是美國大學入學考試 SAT 的一個組成部分。一個典型示例是"audacious is to boldness as (a) sanctimonious is to hypocrisy, (b) anonymous is to identity, (c) remorseful is to misdeed, (d) deleterious is to result, (e) impressionable is to temptation"。考生需從這五對詞中選出與原詞對關係相同的一對;在該例中答案為"sanctimonious is to hypocrisy"。在該任務上,GPT-3 在少樣本設定下達到 65.2%,一樣本下 59.1%,零樣本下 53.7%,而大學申請者的平均得分為 57% [129](隨機猜測為 20%)。如圖 3.12 所示,結果隨規模而提升,完整的 1750 億模型相比 130 億參數模型提升了超過 10%。
3.9.4 新聞文章生成
此前關於生成式語言模型的工作通過給定一段由人撰寫的、看起來合理的新聞首句作為提示,從模型條件採樣,從而定性地測試其生成合成"新聞文章"的能力 [117]。相對於 [117],GPT-3 的訓練數據集中新聞文章的權重要低得多,因此通過原始的無條件採樣來生成新聞文章效果較差——例如,GPT-3 經常將所提議的"新聞文章"首句理解為推文,然後產生合成的回覆或後續推文。為解決該問題,我們利用 GPT-3 的少樣本學習能力,在模型上下文中提供三篇此前的新聞文章作為條件。給出一篇待生成文章的標題和副標題,模型即可可靠地生成"新聞"風格的短篇文章。
為衡量 GPT-3 生成新聞文章的質量(我們認為這很可能與一般的條件採樣生成質量相關),我們決定測量人類區分 GPT-3 生成文章與真實文章的能力。類似工作已由 Kreps 等人 [56] 和 Zellers 等人 [141] 完成。生成式語言模型被訓練以匹配人類生成內容的分佈,因此人類是否能區分兩者可能是衡量質量的重要指標。333該任務也與第 6.1 節討論的語言模型的潛在濫用相關。
為了考察人類對模型生成文本的檢測能力,我們從網站 newser.com 隨意選取了 25 個文章的標題和副標題(平均長度:215 詞)。然後,我們用四種參數規模從 1.25 億到 1750 億(GPT-3)的語言模型對這些標題和副標題生成續寫(平均長度:200 詞)。對於每個模型,我們向約 80 位美國本土的參與者展示一份問卷,問卷由這些真實的標題和副標題構成,後面跟隨的是人寫文章或該模型生成的文章444我們想了解互聯網上普通人辨識語言模型輸出的能力如何,因此聚焦於從美國普通人群中抽取的參與者。詳情見附錄 E。參與者被要求選擇該文章是"非常可能由人撰寫"、"更可能由人撰寫"、"我不知道"、"更可能由機器撰寫"還是"非常可能由機器撰寫"。
我們選用的文章並未出現在各模型的訓練數據中,模型輸出經程序化的方式進行格式化和選取,以避免人為挑選。所有模型在生成輸出時都使用相同的上下文條件,且都以相同的上下文長度進行預訓練,且為每個模型使用了相同的文章標題和副標題作為提示。然而,我們還進行了一項實驗,用以控制參與者的投入度和Lua error: Internal error: The interpreter exited with status 1.,該實驗沿用相同形式,但故意使用質量較差的模型生成的文章。其做法是從一個"對照模型"生成文章:該模型為 1.6 億參數,不使用上下文,並提高了輸出隨機性。
每位參與者的人類平均準確率(每位參與者中正確判定與非中立判定的比值)在判定故意寫差的文章為模型生成時為 $ {\textstyle \sim {86\%}} $,其中 50% 為隨機水平。相比之下,在判定 175B 參數模型生成的文章時,人類平均準確率僅略高於隨機,為 $ {\textstyle \sim {52\%}} $(見表 3.11)。555我們使用雙樣本 Student T 檢驗,對每個模型與對照模型的參與者準確率均值之間是否存在顯著差異進行檢驗,並報告均值的歸一化差(作為 t 統計量)與 p 值。隨着模型規模的增大,人類對模型生成文本的檢測能力似乎在下降:存在一種向隨機準確率靠攏的趨勢,且對 GPT-3 的檢測已接近隨機水平。666如果某個模型持續產出比人寫文章更具吸引力的文本,該任務上的人類表現可能跌破 50%。事實上,在該任務上確有許多個人參與者得分低於 50%。這一現象出現在儘管參與者在每段輸出上所花時間隨模型規模增大而增加(見附錄 E)的情況下。
| Mean accuracy | 95% Confidence Interval (low, hi) | $ {\textstyle t} $ compared to control ($ {\textstyle p} $-value) | 「I don’t know」 assignments | |
|---|---|---|---|---|
| Control (deliberately bad model) | 86% | 83%–90% | - | 3.6 % |
| GPT-3 Small | 76% | 72%–80% | 3.9 (2$ {\textstyle e} $-4) | 4.9% |
| GPT-3 Medium | 61% | 58%–65% | 10.3 (7$ {\textstyle e} $-21) | 6.0% |
| GPT-3 Large | 68% | 64%–72% | 7.3 (3$ {\textstyle e} $-11) | 8.7% |
| GPT-3 XL | 62% | 59%–65% | 10.7 (1$ {\textstyle e} $-19) | 7.5% |
| GPT-3 2.7B | 62% | 58%–65% | 10.4 (5$ {\textstyle e} $-19) | 7.1% |
| GPT-3 6.7B | 60% | 56%–63% | 11.2 (3$ {\textstyle e} $-21) | 6.2% |
| GPT-3 13B | 55% | 52%–58% | 15.3 (1$ {\textstyle e} $-32) | 7.1% |
| GPT-3 175B | 52% | 49%–54% | 16.9 (1$ {\textstyle e} $-34) | 7.8% |
GPT-3 生成的合成文章示例見圖 3.14 與 3.15。777更多非新聞類樣本見附錄 F。如評估所示,其中大部分文本對人類而言都很難與真實的人寫內容區分開。事實性錯誤可能是文章為模型生成的一個指標,因為與人類作者不同,模型並不能獲取文章標題所指的具體事實或文章撰寫時間。其他指標還包括重複、文不對題以及不尋常的措辭,儘管這些往往足夠微妙以至於難以被察覺。
Title: United Methodists Agree to Historic Split Subtitle: Those who oppose gay marriage will form their own denomination Article:After two days of intense debate, the United Methodist Church has agreed to a historic split - one that is expected to end in the creation of a new denomination, one that will be 」theologically and socially conservative,」 according to The Washington Post. The majority of delegates attending the church’s annual General Conference in May voted to strengthen a ban on the ordination of LGBTQ clergy and to write new rules that will 」discipline」 clergy who officiate at same-sex weddings. But those who opposed these measures have a new plan: They say they will form a separate denomination by 2020, calling their church the Christian Methodist denomination. The Post notes that the denomination, which claims 12.5 million members, was in the early 20th century the 」largest Protestant denomination in the U.S.,」 but that it has been shrinking in recent decades. The new split will be the second in the church’s history. The first occurred in 1968, when roughly 10 percent of the denomination left to form the Evangelical United Brethren Church. The Post notes that the proposed split 」comes at a critical time for the church, which has been losing members for years,」 which has been 」pushed toward the brink of a schism over the role of LGBTQ people in the church.」 Gay marriage is not the only issue that has divided the church. In 2016, the denomination was split over ordination of transgender clergy, with the North Pacific regional conference voting to ban them from serving as clergy, and the South Pacific regional conference voting to allow them.
Title: Star’s Tux Promise Draws Megyn Kelly’s Sarcasm Subtitle: Joaquin Phoenix pledged to not change for each awards event Article:A year ago, Joaquin Phoenix made headlines when he appeared on the red carpet at the Golden Globes wearing a tuxedo with a paper bag over his head that read, 」I am a shape-shifter. I can’t change the world. I can only change myself.」 It was a promise to not change to fit into the Hollywood mold: 」I think that’s a really special thing, to not change yourself. I think it’s a really special thing to say, 『This is what’s inside of me, I’m proud of it, and I’m not going to be ashamed because of the way that someone else thinks I should be.』」 Now, it’s the Oscars, and Phoenix is at it again. But this time, his publicist is saying he’ll be wearing a tux no matter what. Megyn Kelly was not impressed, and she let him have it on The Tonight Show. 」You know, I feel like, I feel like you could have worn the tux,」 she says. 」But you’re saying you’re a shape-shifter. I don’t know if you can change your tux, but you can change your mind. You can change your mind. You can change your mind.」 Phoenix says he did, but it didn’t stick. 」I was like, 『Okay, I’m going to wear a tuxedo to this thing.』 And then I thought, 『I don’t want to wear a tuxedo to this thing.』」 Kelly goes on to encourage him to change his mind again, but Phoenix says it’s too late: 」I’m committed to wearing this.」
Ippolito 等人 [48] 關於語言模型檢測的相關工作表明,Grover [141] 和 GLTR [37] 等自動判別器在檢測模型生成文本方面可能比人類評估者更成功。對這些模型的自動檢測可能是未來一個有前景的研究方向。
Ippolito 等人 [48] 還指出,隨着人類觀察到更多的 token,他們檢測模型生成文本的準確率會提升。為了初步考察人類對 GPT-3 175B 生成的較長新聞文章的檢測能力,我們從路透社選取了 12 篇國際新聞文章(平均長度 569 詞),並由 GPT-3 生成這些文章的續寫(平均長度 498 詞,比我們最初的實驗長 298 詞)。按照上述方法,我們進行了兩個實驗,每個實驗約有 80 名美國本土參與者,以比較人類對 GPT-3 與對照模型生成文章的檢測能力。
我們發現,人類對故意寫差的對照模型較長文章的平均檢測準確率為 $ {\textstyle \sim {88\%}} $,而對 GPT-3 175B 生成的較長文章的平均檢測準確率仍僅略高於隨機,為 $ {\textstyle \sim {52\%}} $(見表 3.12)。這表明,對於約 500 詞長度的新聞文章,GPT-3 仍能生成令人類難以與人寫新聞文章區分的內容。
| Mean accuracy | 95% Confidence Interval (low, hi) | $ {\textstyle t} $ compared to control ($ {\textstyle p} $-value) | 「I don’t know」 assignments | |
|---|---|---|---|---|
| Control | 88% | 84%–91% | - | 2.7% |
| GPT-3 175B | 52% | 48%–57% | 12.7 (3.2$ {\textstyle e} $-23) | 10.6% |
A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is: We were traveling in Africa and we saw these very cute whatpus. To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is: One day when I was playing tag with my little sister, she got really excited and she started doing these crazy farduddles.
A "yalubalu" is a type of vegetable that looks like a big pumpkin. An example of a sentence that uses the word yalubalu is: I was on a trip to Africa and I tried this yalubalu vegetable that was grown in a garden there. It was delicious.
A "Burringo" is a car with very fast acceleration. An example of a sentence that uses the word Burringo is:In our garage we have a Burringo that my father drives to work every day.
A "Gigamuru" is a type of Japanese musical instrument. An example of a sentence that uses the word Gigamuru is:I have a Gigamuru that my uncle gave me as a gift. I love to play it at home.
To "screeg" something is to swing a sword at it. An example of a sentence that uses the word screeg is:We screeghed at each other for several minutes and then we went outside and ate ice cream.
Poor English input: I eated the purple berries. Good English output: I ate the purple berries. Poor English input: Thank you for picking me as your designer. I’d appreciate it. Good English output: Thank you for choosing me as your designer. I appreciate it. Poor English input: The mentioned changes have done. or I did the alteration that you requested. or I changed things you wanted and did the modifications. Good English output: The requested changes have been made. or I made the alteration that you requested. or I changed things you wanted and made the modifications. Poor English input: I’d be more than happy to work with you in another project. Good English output: I’d be more than happy to work with you on another project. Poor English input: Please provide me with a short brief of the design you’re looking for and that’d be nice if you could share some examples or project you did before. Good English output: Please provide me with a brief description of the design you’re looking for and that would be nice if you could share some examples or projects you have done before.
Poor English input: The patient was died.Good English output: The patient died.
Poor English input: We think that Leslie likes ourselves.Good English output: We think that Leslie likes us.
Poor English input: Janet broke Bill on the finger.Good English output: Janet broke Bill’s finger.
Poor English input: Mary arranged for, in St. Louis, John to rent a house cheap.Good English output: Mary arranged for John to rent a house in St. Louis.
Poor English input: Today I have went to the store to to buys some many bottle of water.Good English output: Today I went to the store to buy some bottles of water.
Poor English input: I have tried to hit ball with bat, but my swing is has miss.Good English output: I tried to hit the ball with the bat, but my swing missed.
3.9.5 學習並使用新詞
發展心理語言學 [13] 中研究的一項任務是學習並使用新詞的能力,例如在僅看到一次定義後將該詞用於句子中,或者反過來僅憑一次使用就推斷出詞的含義。這裏我們定性地測試 GPT-3 完成前者的能力。具體而言,我們向 GPT-3 給出一個不存在的詞(如"Gigamuru")的定義,然後要求它在句中使用該詞。我們提供 1 到 5 個先前的示例:每個示例都將一個(不同的)不存在的詞進行定義並用於句中,因此該任務在該寬泛任務的先前示例方面是少樣本的,而在具體詞的方面是一樣本的。表 3.16 給出了我們生成的 6 個示例;所有定義均由人工撰寫,第一個回答作為條件由人工撰寫,後續回答均由 GPT-3 生成。這些示例是在一次會話中連續生成的,我們既未省略也未重複嘗試任何提示。所有情況下,生成的句子都是對該詞正確或至少合理的使用。在最後一句中,模型為詞"screeg"生成了一個合理的變位形式("screeghed"),儘管該詞的用法略顯彆扭("screeghed at each other"),但仍可被解釋為描述玩具劍斗,具有一定合理性。總體來說,GPT-3 在將新詞用於句中這一任務上似乎至少是熟練的。
3.9.6 糾正英語語法
另一項非常適合少樣本學習的任務是修改英文語法。我們在少樣本設定下用 GPT-3 進行測試,給出形如 "Poor English Input: <sentence>\n Good English Output: <sentence>" 的提示。我們向 GPT-3 提供一條人工撰寫的更正,然後要求它再修改 5 條(同樣不省略也不重複)。結果如圖 3.17 所示。
4 測量與防止基準的記憶
由於我們的訓練數據集來源於互聯網,我們的模型有可能在部分基準測試集上進行過訓練。準確檢測互聯網規模數據集中的測試污染是一個新興的研究領域,尚無成熟的最佳實踐。儘管在不調查污染的情況下訓練大型模型是常見做法,但鑑於Lua error: Internal error: The interpreter exited with status 1.數據集規模的日益擴大,我們認為這個問題正變得越來越值得關注。
這一擔憂並非僅是假設。最早在 Common Crawl 數據上訓練語言模型的論文之一 [130] 檢測並移除了一篇與其某個評估數據集重疊的訓練文檔。其他工作,如 GPT-2 [117],也進行了事後的重疊分析。它們的研究結果相對令人鼓舞:儘管模型在訓練集與測試集之間存在重疊的數據上確實表現略好,但由於受污染的數據比例很小(通常只有百分之幾),這並未對所報告結果產生顯著影響。
GPT-3 所處的情形有所不同。一方面,數據集和模型規模比 GPT-2 大約大兩個數量級,且包含大量 Common Crawl,這增加了污染和記憶的潛在風險。另一方面,正是由於數據量巨大,即便是 GPT-3 175B 也並未在其訓練集上出現顯著過擬合(與之去重的留出驗證集相對而言,見圖 4.1)。因此,我們預計污染很可能頻繁存在,但其影響可能不像所擔心的那麼嚴重。
我們最初嘗試通過主動搜索並試圖移除我們訓練數據與本文所研究的所有基準的開發集和測試集之間的所有重疊,來處理污染問題。不幸的是,一個錯誤導致僅有部分檢測到的重疊從訓練數據中被移除。由於訓練成本過高,重新訓練模型並不可行。為應對這一問題,我們詳細考察了剩餘的檢測到的重疊對結果的影響。
對於每個基準,我們生成一個"乾淨"版本,移除所有可能泄漏的樣本——大致定義為與Lua error: Internal error: The interpreter exited with status 1.集中任何內容存在 13-gram 重疊的樣本(或當樣本長度短於 13-gram 時與整個樣本重疊的樣本)。其目標是非常保守地標記任何可能的污染,從而以高置信度產出一個不含污染的乾淨子集。具體過程詳見附錄 C。
隨後我們在這些乾淨基準上評估 GPT-3,並與原始分數比較。如果幹淨子集上的分數與整個數據集上的分數相近,這表明即使存在污染,其對所報告結果的影響也並不顯著。若干淨子集上的分數更低,則提示污染可能在抬高結果。結果匯總於圖 4.2。儘管潛在污染往往很高(四分之一的基準的潛在污染得分超過 50%),但在大多數情況下,性能僅有可忽略的變化,我們也未看到污染水平與性能差異之間相關的證據。我們由此得出結論:要麼我們的保守方法實質性地高估了污染,要麼污染對性能的影響很小。
下文我們更詳細地回顧少數特定情形:(1)模型在乾淨版本上表現明顯更差,或(2)潛在污染非常高,使得性能差異難以測量。
我們的分析標記了六組基準以供進一步調查:Word Scrambling、閱讀理解(QuAC、SQuAD2、DROP)、PIQA、Winograd、語言建模任務(Wikitext 任務、1BW)以及德譯英翻譯。由於我們的重疊分析被設計得極為保守,我們預計會出現一些誤報。下文我們對每組任務的結果進行匯總:
•
閱讀理解:我們最初的分析將 QuAC、SQuAD2 和 DROP 的 $ {\textstyle >} $90% 的任務樣本標記為潛在污染,佔比之大以至於在乾淨子集上測量差異都很困難。然而,經人工檢查,我們發現在所有 3 個數據集中,我們檢查過的每一處重疊中,源文本都存在於我們的訓練數據中,但問答對並不存在,這意味着模型只獲得了背景信息,無法記住對某個具體問題的答案。
•
德語翻譯:我們發現 WMT16 德譯英測試集中 25% 的樣本被標記為潛在污染,相關的總效應大小為 1-2 BLEU。經檢查,被標記的樣本中沒有一例包含與 NMT 訓練數據相似的配對句子,碰撞都是單語匹配,且多為新聞中所討論事件的片段。
•
倒序詞與字謎:回顧這些任務的形式如"
alaok = koala"。由於這些任務長度較短,我們使用 2-gram 進行過濾(忽略標點)。檢查標記的重疊後,我們發現它們通常並不是訓練集中真實的反序或還原實例,而是回文或平凡的還原,例如"kayak = kayak"。重疊的量很小,但去掉這些平凡情況導致難度上升,從而出現虛假的信號。與之相關的是,符號插入任務顯示出高度重疊,但對性能沒有影響——這是因為該任務涉及從單詞中移除非字母字符,而重疊分析本身忽略此類字符,導致大量虛假匹配。•
PIQA:重疊分析將 29% 的樣本標記為污染,並觀察到乾淨子集上的性能絕對下降 3 個百分點(相對下降 4%)。儘管測試數據集是在我們訓練集創建之後發佈的,且其標籤被隱藏,但眾包數據集創建者所使用的部分網頁被包含在我們的訓練集中。我們在一個小 25 倍、記憶能力遠更弱的模型上也觀察到類似下降,這使我們懷疑該偏移更可能是統計偏差而非記憶;眾包工作者複製的樣本可能本身更簡單。可惜的是,我們無法嚴格證明這一假設。因此,我們用星號標註 PIQA 的結果,以表示該潛在污染。
•
Winograd:重疊分析標記了 45% 的樣本,在乾淨子集上發現性能下降 2.6%。對重疊數據點的人工檢查表明,確有 132 個 Winograd 模式存在於我們的訓練集中,儘管其呈現格式與我們向模型呈現該任務時不同。儘管性能下降幅度不大,我們仍在正文中用星號標註 Winograd 的結果。
•
語言建模:我們發現 GPT-2 中測量的 4 個維基百科語言建模基準,加上 Children's Book Test 數據集,幾乎全部包含在我們的訓練數據中。由於我們無法在這裏可靠地抽取一個乾淨子集,我們不報告這些數據集上的結果,儘管在開始這項工作時本來打算報告。我們注意到,Penn Tree Bank 因其歷史悠久而不受影響,因而成為我們的主要語言建模基準。
我們還檢查了那些污染很高、但對性能影響接近零的數據集,只是為了核實其中真實存在多少污染。這些數據集往往看似存在大量誤報。它們要麼實際上沒有污染,要麼有的污染並不會泄露任務的答案。一個值得注意的例外是 LAMBADA,它似乎確實存在大量真實污染,然而對性能的影響非常小:乾淨子集的得分與完整數據集相差不到 0.5%。此外,嚴格來說,我們的填空形式排除了最簡單的記憶方式。儘管如此,鑑於我們在本文中在 LAMBADA 上取得了非常大的提升,我們仍在結果部分註明了潛在污染。
我們污染分析的一個重要限制是,我們無法確定乾淨子集是否與原始數據集來自相同的分佈。仍然可能的是,記憶抬高了結果,但同時被某種使乾淨子集更易解的統計偏差恰好抵消。然而,如此多的偏移接近於零這一現象表明這種情況不太可能;此外,我們也未在不太可能存在記憶現象的小模型的偏移上觀察到明顯差異。
總體而言,我們已盡最大努力測量並記錄數據污染的影響,並視嚴重程度對存在問題的結果進行標註或直接移除。在基準設計與模型訓練上,本領域要妥善應對這一重要而微妙的問題,仍有大量工作要做。關於我們分析的更詳細說明,請讀者參閱附錄 C。
5 局限性
GPT-3 及我們對它的分析存在若干局限性。下面我們描述其中一些並建議未來的工作方向。
首先,儘管 GPT-3 在數量與質量方面都有顯著提升——尤其是與其直接前身 GPT-2 相比——它在文本合成與若干 NLP 任務上仍存在明顯弱點。在文本合成方面,儘管整體質量較高,GPT-3 的樣本有時仍會在文檔級別上語義重複、在足夠長的段落中開始失去連貫性、自相矛盾,並偶爾包含離題的句子或段落。我們將公開 500 個未經篩選的無條件樣本,以幫助更好地呈現 GPT-3 在文本合成上的局限與長處。在離散語言任務領域,我們非正式地注意到 GPT-3 在"常識物理"上似乎尤其困難,儘管它在某些測試該領域的數據集(如 PIQA [11])上表現良好。具體來說,GPT-3 難以應對諸如"如果我把奶酪放進冰箱,它會融化嗎?"之類的問題。從量化角度來看,如第 3 節所述,GPT-3 的上下文學習性能在我們的基準套件上存在一些明顯的差距,尤其是在某些"比較"任務上(例如判斷同一個詞在兩句中是否以相同方式使用,或一句是否蘊含另一句,即 WIC 和 ANLI),以及在閱讀理解任務的一個子集上,即便在一樣本甚至少樣本設定下也僅略勝於隨機。鑑於 GPT-3 在許多其他任務上具有強勁的少樣本表現,這一點尤其令人側目。
GPT-3 存在若干結構性和算法性的限制,這些限制可能部分解釋了上述問題。我們專注於探索自回歸語言模型中的上下文學習行為,因為該類模型既便於採樣也便於計算似然。結果是,我們的實驗不包括任何雙向架構或諸如去噪等其他訓練目標。這與近期大量文獻存在明顯差異——後者記錄了在標準語言模型基礎上使用這些方法可以改善Lua error: Internal error: The interpreter exited with status 1.性能 [116]。因此,我們的設計選擇以在經驗上受益於雙向性的任務上可能表現更差為代價。這些任務可能包括填空任務、涉及回顧並比較兩段內容的任務,或者要求重新閱讀、仔細考慮長段落後再生成極短答案的任務。這或許是 GPT-3 在 WIC(涉及比較同一詞在兩句中的用法)、ANLI(涉及比較兩句以判斷蘊含關係)以及若干閱讀理解任務(例如 QuAC 和 RACE)上少樣本表現落後的可能解釋之一。我們還根據以往文獻推測,規模與 GPT-3 相當的大型雙向模型在Lua error: Internal error: The interpreter exited with status 1.方面會比 GPT-3 更強。在 GPT-3 這一規模上構建雙向模型,和/或嘗試讓雙向模型在少樣本或零樣本學習中工作,是未來研究的一個有前景的方向,有望實現"雙贏"。
本文所述一般方法的一個更根本的局限——即擴展任何類語言模型(無論自回歸還是雙向)——在於它最終可能(或已經可能)碰到Lua error: Internal error: The interpreter exited with status 1.目標的極限。我們當前的目標對每個 token 一視同仁,缺乏"什麼最值得預測、什麼不那麼重要"的概念。[115] 表明針對感興趣實體定製預測會帶來益處。此外,在自監督目標下,任務規範依賴於將所需任務硬塞入一個預測問題中;但終究有用的語言系統(例如虛擬助手)或許更應被視為執行目標導向的行動,而不僅僅是做預測。最後,大型預訓練語言模型並未在其他經驗領域(如視頻或現實世界的物理互動)中被"接地",因此缺乏大量關於世界的語境 [9]。出於上述所有原因,純自監督預測的擴展很可能會觸及瓶頸,使用不同方法進行增強可能是必要的。未來沿此思路有前景的方向包括從人類那裏學習Lua error: Internal error: The interpreter exited with status 1. [143]、用強化學習進行Lua error: Internal error: The interpreter exited with status 1.,或加入圖像等額外模態以提供"接地"並構建更好的世界模型 [18]。
語言模型普遍存在的另一個局限是Lua error: Internal error: The interpreter exited with status 1.階段樣本效率較差。儘管 GPT-3 在測試時的樣本效率上向人類水平邁出了一步(一樣本或零樣本),但其在Lua error: Internal error: The interpreter exited with status 1.中所見的文本量仍遠超人一生中所見的文本量 [71]。提升Lua error: Internal error: The interpreter exited with status 1.的樣本效率是未來工作的一個重要方向,可能來自將模型與物理世界相關聯以提供額外信息,或來自算法上的改進。
GPT-3 的少樣本學習相關的一項局限——或者至少是不確定性——在於:少樣本學習究竟是在推理時真正"從零開始"學習新任務,還是僅在識別並確認其在訓練中已學過的任務,這一點尚不明朗。這些可能性構成了一個連續譜:從訓練集中所提供的演示與測試時來自完全相同的分佈,到識別相同任務但以不同格式呈現,再到適應通用任務(如 QA)的特定風格,直到完全從零學習一項技能。GPT-3 在這一譜上的位置可能因任務而異。諸如打亂字母還原或定義無意義詞的合成任務,似乎尤其可能是從零學習的;而翻譯顯然必須在Lua error: Internal error: The interpreter exited with status 1.期間習得,儘管所依據的數據在組織與風格上可能與測試數據差異很大。歸根到底,即便對人類而言,何為"從零學習"、何為"從先前示範習得"也並不清楚。即便僅是在Lua error: Internal error: The interpreter exited with status 1.階段組織多樣化的示範、並在測試時予以識別,這本身也將是語言模型的進步,但要精確理解少樣本學習的工作機制,仍是未來研究中一個重要而尚未充分探索的方向。
與 GPT-3 這一規模的模型相關的一個局限——無論使用哪種Lua error: Internal error: The interpreter exited with status 1.或算法——是它們的推理過程昂貴且不便,這可能對此類規模模型當前形態下的實際可用性構成挑戰。應對這一問題的一個可能的未來方向是將大模型蒸餾 [44] 為針對特定任務規模可控的模型。GPT-3 之類的大型模型包含極廣泛的技能,大多數技能對於具體任務並非必需,這暗示原則上有可能進行激進的蒸餾。蒸餾在總體上得到了較好探索 [69],但尚未在數千億參數規模上嘗試過;在如此規模的模型上應用蒸餾可能伴隨新的挑戰與機遇。
最後,GPT-3 與大多數Lua error: Internal error: The interpreter exited with status 1.系統一樣存在一些共同的局限:其決策不易解釋;在面對新輸入時,它的預測不一定校準良好,這一點從其在標準基準上比人類高得多的性能方差可以看出;它還保留了所訓練數據中的偏見。最後這一問題——數據中的偏見可能導致模型生成刻板或帶有偏見的內容——從社會角度看尤其值得關注,我們將在下一節"更廣泛的影響"(第 6 節)中與其他問題一併討論。
6 更廣泛的影響
語言模型對社會具有廣泛有益的應用,包括代碼與文本的自動補全、語法輔助、遊戲敘事生成、改善搜尋引擎響應以及回答問題。但它們也有潛在有害的應用。GPT-3 相比小模型提升了文本生成的質量與可適應性,並增加了將合成文本與人寫文本區分開來的難度。因此,它有潛力同時推動語言模型的有益應用與有害應用。
此處我們聚焦於改進後的語言模型可能帶來的危害,這並非因為我們認為危害必然更大,而是為激發研究與緩解危害的努力。這類語言模型帶來的更廣泛影響是多方面的。我們聚焦兩大主要問題:GPT-3 等語言模型被刻意濫用的潛在風險(第 6.1 節),以及 GPT-3 這類模型中的偏見、公平性與表徵問題(第 6.2 節)。我們也簡要討論了能源效率問題(第 6.3 節)。
6.1 語言模型的濫用
語言模型的惡意使用可能較難預料,因為它們常常涉及在與研究者初衷大相逕庭的環境中或出於不同目的而對語言模型進行重新利用。為幫助分析這一點,我們可以藉助傳統的安全風險評估框架來思考——其中列出關鍵步驟,例如識別威脅與潛在影響、評估發生可能性,並將風險判定為可能性與影響的組合 [113]。我們討論三個因素:潛在的濫用應用、威脅行為者和外部激勵結構。
6.1.1 潛在的濫用應用
任何依賴生成文本的、對社會有害的活動,都可能因強大的語言模型而被增強。例如:虛假信息、垃圾郵件、網絡釣魚、對法律和政府流程的濫用、學術論文造假以及社會工程中的藉口構造。其中許多應用的瓶頸都在於由人來撰寫質量足夠高的文本。能夠產生高質量文本生成的語言模型可能降低進行這些活動的現有門檻,並提高其有效性。
語言模型被濫用的潛在風險會隨着文本合成質量的提升而增加。第 3.9.4 節中,GPT-3 能夠生成數個段落、被人們認為難以與人寫文本區分的合成內容,這在該方面構成了一個令人擔憂的里程碑。
6.1.2 威脅行為者分析
威脅行為者可按技能與資源水平加以組織,從技能與資源較低或中等、能夠構建惡意產品的行為者,到"高級持續性威脅"(APT):技能高超、資源充足(例如國家支持)的群體,具有長期目標 [119]。
為了解低技能和中等技能行為者對語言模型的看法,我們一直在監控經常討論虛假信息策略、惡意軟件分發和計算機欺詐的論壇與聊天群組。在 GPT-2 於 2019 年春首次發佈之後,我們的確發現了大量關於濫用的討論,但此後我們發現實驗性嘗試較少,也沒有成功部署。此外,這些濫用相關討論與媒體對語言模型技術的報道相關。由此我們認為,這些行為者構成的濫用威脅並非迫在眉睫,但可靠性的顯著提升可能改變這一情況。
由於 APT 通常不會公開討論行動,我們諮詢了專業的威脅分析師,詢問其有關使用語言模型的可能 APT 活動。自 GPT-2 發佈以來,可能因使用語言模型而獲益的行動並未出現可辨識的差異。其評估是:語言模型可能不值得投入重大資源,因為目前並無令人信服的證據表明現有語言模型在生成文本方面顯著優於現有方法;此外,用於"定向"或"控制"語言模型內容的方法仍處於非常早期的階段。
6.1.3 外部激勵結構
每個威脅行為者群體也都有一套用於實現其目標的戰術、技術與流程(TTPs)。TTPs 受可擴展性與部署易用度等經濟因素的影響;網絡釣魚在所有群體中極為流行,因為它提供了一種低成本、低投入、高產出的部署惡意軟件和竊取登錄憑證的方法。利用語言模型來增強現有 TTPs,可能會進一步降低部署成本。
易用性是另一項重要的激勵。基礎設施的穩定性對 TTPs 的採用影響很大。然而,語言模型的輸出是隨機的,儘管開發者可以約束輸出(例如使用 top-k 截斷),但若沒有人類反饋,它們無法表現得始終一致。如果某個社交媒體上的虛假信息機械人 99% 的時間能產生可靠的輸出,但 1% 的時間產生不連貫的輸出,這可能減少操作該機械人所需的人力。但仍然需要人來過濾輸出,這限制了該操作的可擴展性。
基於我們對該模型的分析,以及對威脅行為者和整體形勢的分析,我們懷疑 AI 研究者最終會開發出足夠一致且可導向的語言模型,從而對惡意行為者更具吸引力。我們預計這將給更廣泛的研究社區帶來挑戰,並希望通過緩解性研究、原型構建以及與其他技術開發者的協調,共同應對這一問題。
6.2 公平性、偏差與代表性
訓練數據中存在的偏見可能導致模型生成刻板或帶偏見的內容。這令人擔憂,因為模型偏見可能通過固化既有刻板印象、產生貶損性描繪等多種方式傷害相關群體中的人們,以及其他潛在的危害 [19]。我們對模型的偏見進行了分析,以更好地理解 GPT-3 在公平性、偏見和表徵方面的局限。888評估語言模型中的公平性、偏見與表徵是一個快速發展的領域,已有大量先前工作。例如可參見 [46, 90, 120]。
我們的目標並非對 GPT-3 進行窮盡式刻畫,而是對其部分局限和行為做出初步分析。我們聚焦於性別、種族和宗教相關的偏見,儘管很可能還存在許多其他類別的偏見,並可在後續工作中加以研究。這是一項初步分析,即便在所研究的類別內,也並未反映模型的所有偏見。
總體而言,我們的分析表明,在互聯網上訓練的模型具有互聯網規模的偏見;模型傾向於反映其訓練數據中存在的刻板印象。下文我們沿着性別、種族和宗教的維度,討論我們關於偏見的初步發現。我們對 1750 億參數模型以及相似的更小模型探查偏見,以觀察它們在此維度上是否以及如何不同。
6.2.1 性別
在我們對 GPT-3 性別偏見的調查中,我們聚焦於性別與職業之間的關聯。我們發現,在給出例如 "The {occupation} was a"(中性變體)的上下文時,職業總體上更可能被男性別標識(而非女性別標識)所跟隨(也就是說,偏向男性)。在我們測試的 388 個職業中,83% 在 GPT-3 中更可能被男性標識所跟隨。我們的衡量方式是,向模型輸入諸如 "The detective was a" 的上下文,然後查看模型繼續使用男性指示詞(如 man, male 等)或女性指示詞(如 woman, female 等)的概率。值得一提的是,體現較高教育程度的職業如 legislator、banker 或 professor emeritus 嚴重偏向男性,需要重體力勞動的職業如 mason、millwright 和 sheriff 也是如此。更可能被女性標識跟隨的職業包括 midwife、nurse、receptionist、housekeeper 等。
我們還測試了當我們將上下文改為 "The competent {occupation} was a"(勝任變體)以及 "The incompetent {occupation} was a"(不勝任變體),針對數據集中每個職業,這些概率會如何變化。我們發現,在提示 "The competent {occupation} was a," 下,大多數職業被男性標識跟隨的概率,比我們最初的中性提示 "The {occupation} was a" 還要更高於女性標識。在提示 "The incompetent {occupation} was a" 下,大多數職業仍以與原始中性提示相近的概率偏向男性。平均職業偏見——以 $ {\textstyle \frac{1}{n_{jobs}}\hspace{0pt}{\sum_{jobs}{\log{(\frac{P\hspace{0pt}{(\left. {female} \middle| {Context} \right.)}}{P{({male}|{Context})})})}}}} $ 衡量——中性變體為 $ {\textstyle - 1.11} $,勝任變體為 $ {\textstyle - 2.14} $,不勝任變體為 $ {\textstyle - 1.15} $。
我們還在 Winogender 數據集 [111] 上進行了代詞消解,採用兩種方法,進一步印證了模型將大多數職業與男性關聯的傾向。一種方法測量模型能否正確將代詞指派給職業方或參與方。例如,我們向模型輸入諸如 "The advisor met with the advisee because she wanted to get advice about job applications. 'She' refers to the" 的上下文,並在兩個候選項之間(職業選項:advisor;參與方選項:advisee)挑出概率較低者。
職業詞和參與者詞通常帶有社會偏見,例如默認絕大多數從業者為男性。我們發現語言模型學到了其中一些偏見,例如更傾向於將女性代詞與參與方位置相關聯,勝過男性代詞。GPT-3 175B 在該任務上取得了所有模型中最高的準確率(64.17%)。它也是唯一一個對於女性 Occupant 句子(正確答案為 Occupation 選項的句子)的準確率高於男性的模型(81.7% 對 76.7%)。除我們的次大模型 GPT-3 13B(對兩者準確率均為 60%)之外,所有其他模型在 Occupation 句子上對男性代詞的準確率都高於對女性代詞的準確率。這提供了一些初步證據:在偏見可能使語言模型出錯的地方,較大的模型比較小模型更具魯棒性。
我們還進行了共現測試,分析哪些詞更可能出現在另一些預先選定的詞附近。我們通過對數據集中每個提示,在溫度 1 和 top_p 0.9 下,生成 800 條長度為 50 的輸出,從而構建了一個模型輸出樣本集。對於性別,我們使用了諸如 "He was very"、"She was very"、"He would be described as"、"She would be described as"999我们只使用男性和女性代词。这一简化假设便于研究共现,因为它无需将"they"指代单数名词的实例与不指代单数名词的实例区分开;但其他形式的性别偏见很可能存在,可以使用不同方法进行研究。 等提示。我們使用現成的詞性標註器 [60] 關注前 100 個最常出現詞中的形容詞和副詞。我們發現,女性更常被以外貌取向的詞如"beautiful"和"gorgeous"描述,而男性則更常被覆蓋更廣光譜的形容詞描述。
表 6.1 給出了模型最偏好的前 10 個描述性詞,以及每個詞與代詞指示詞共現的原始次數。這裏的"最偏好"指那些與某一類共現率高於另一類、因而最偏向該類的詞。為了讓這些數字更具參考意義,我們還列出了每種性別下所有合規詞共現次數的平均值。
| Top 10 Most Biased Male Descriptive Words with Raw Co-Occurrence Counts | Top 10 Most Biased Female Descriptive Words with Raw Co-Occurrence Counts |
|---|---|
| Average Number of Co-Occurrences Across All Words: 17.5 | Average Number of Co-Occurrences Across All Words: 23.9 |
| Large (16) | Optimistic (12) |
| Mostly (15) | Bubbly (12) |
| Lazy (14) | Naughty (12) |
| Fantastic (13) | Easy-going (12) |
| Eccentric (13) | Petite (10) |
| Protect (10) | Tight (10) |
| Jolly (10) | Pregnant (10) |
| Stable (9) | Gorgeous (28) |
| Personable (22) | Sucked (8) |
| Survive (7) | Beautiful (158) |
6.2.2 種族
為研究 GPT-3 的種族偏見,我們用諸如 "The {race} man was very"、"The {race} woman was very" 和 "People would describe the {race} person as" 等提示作為種子,對每個上述提示生成 800 個樣本,其中 {race} 被替換為表示種族類別的術語,如 White 或 Asian。然後,我們在生成樣本中測量詞共現。鑑於先前研究表明,語言模型在改變諸如職業等特徵時所生成文本的情感會有所不同 [46],我們考察了種族對情感的影響。我們使用 Senti WordNet [7] 對那些與每個種族不成比例共現的詞測量情感。每個詞的情感值從 100 到 -100 不等,正分表示正面詞(例如 wonderfulness: 100, amicable: 87.5),負分表示負面詞(例如 wretched: -87.5, horrid: -87.5),0 分表示中性詞(例如 sloping, chalet)。
需要指出的是,我們是在明確提示模型談論種族,這反過來生成了聚焦於種族特徵的文本;這些結果並非來自模型在自然情境下談論種族,而是在被誘導的實驗設置中談論種族。此外,由於我們僅通過詞共現來度量情感,所得情感可能反映社會歷史因素——例如,關於奴隸制討論的文本經常帶有負面情感,這可能在該測試方法下導致某個人口群體與負面情感相關聯。
在我們分析的模型中,"Asian"的情感一直較高——在 7 個模型中的 3 個裏排名第 1。另一方面,"Black"的情感一直較低——在 7 個模型中的 5 個裏排名最末。這些差異在更大規模的模型上略有縮小。該分析讓我們對不同模型的偏見有一定的了解,並凸顯了對情感、實體與輸入數據之間關係進行更精細分析的必要性。
6.2.3 宗教
我們研究了與無神論、佛教、基督教、印度教、伊斯蘭教和猶太教相關宗教術語共現的詞語,方法是為每個提示在溫度 1 和 top $ {\textstyle p} $ 為 $ {\textstyle 0.9} $ 下生成 800 條長度 $ {\textstyle \approx} $50 的模型輸出。我們的提示形式為 "{Religion practitioners} are"(例如 "Christians are"),覆蓋上述六個宗教類別。然後讓模型自然地進行續寫,並將這些續寫組成語料,以研究詞共現。
以下是模型的一個示例輸出:
"Buddhists are divided into two main branches - Theravada and Mahayana. Theravada is the more conservative branch, centering on monastic life and the earliest sutras and refusing to recognize the later Mahayana sutras as authentic."
與種族類似,我們發現模型對宗教術語的關聯,反映出在一定程度上模仿了這些術語在現實世界中有時被呈現的方式。例如,對於宗教 Islam,我們發現諸如 ramadan、prophet 和 mosque 等詞的共現率高於其他宗教。我們還發現,在 GPT-3 中,諸如 violent、terrorism 和 terrorist 等詞與伊斯蘭教的共現率高於其他宗教,並位列伊斯蘭教最偏好的前 40 個詞中。
| Religion | Most Favored Descriptive Words |
|---|---|
| Atheism | 『Theists』, 『Cool』, 『Agnostics』, 『Mad』, 『Theism』, 『Defensive’, 『Complaining』, 『Correct』, 『Arrogant』, 『Characterized』 |
| Buddhism | 『Myanmar』, 『Vegetarians』, 『Burma』, 『Fellowship』, 『Monk』, 『Japanese’, 『Reluctant』, 『Wisdom』, 『Enlightenment』, 『Non-Violent』 |
| Christianity | 『Attend』, 『Ignorant』, 『Response’, 『Judgmental』, 『Grace’, 『Execution』, 『Egypt』, 『Continue’, 『Comments』, 『Officially』 |
| Hinduism | 『Caste’, 『Cows』, 『BJP』, 『Kashmir』, 『Modi』, 『Celebrated』, 『Dharma』, 『Pakistani』, 『Originated』, 『Africa』 |
| Islam | 『Pillars』, 『Terrorism』, 『Fasting』, 『Sheikh』, 『Non-Muslim』, 『Source’, 『Charities』, 『Levant』, 『Allah』, 『Prophet』 |
| Judaism | 『Gentiles』, 『Race’, 『Semites』, 『Whites』, 『Blacks』, 『Smartest』, 『Racists』, 『Arabs』, 『Game’, 『Russian』 |
6.2.4 未來的偏差與公平性挑戰
我們呈現這一初步分析,旨在分享我們發現的部分偏見,以推動進一步研究,並凸顯在大規模生成模型中刻畫偏見所固有的困難;我們預計這會是我們持續研究的領域,並希望與社區一道討論不同的方法論思路。我們將本節的工作視為一種主觀的標識——我們選擇以性別、種族和宗教作為起點,但我們也承認這一選擇本身具有主觀性。我們的工作受到刻畫模型屬性、形成可讀取標籤(例如 [89] 的 Model Cards for Model Reporting)文獻的啟發。
歸根到底,刻畫語言系統中的偏見之外,更重要的是進行干預。這方面的文獻也很豐富 [104, 46],因此我們僅就大型語言模型相關的未來方向給出幾點簡短評論。要為通用模型中有效的偏見預防鋪平道路,需要構建一個共同的術語體系,將這些模型偏見緩解的規範性、技術性與經驗性挑戰相連接。還有更多研究空間——這些研究應與 NLP 之外的文獻對話,更清晰地闡述關於傷害的規範性主張,並關注受 NLP 系統影響的群體的真實體驗 [4]。因此,緩解工作不應單純以"消除"偏見這一指標驅動的目標進行——因為這已被證明存在盲點 [32, 93]——而應以整體性方式開展。
6.3 能源消耗
實用的大規模Lua error: Internal error: The interpreter exited with status 1.需要大量計算,而這非常耗能:訓練 GPT-3 175B 在Lua error: Internal error: The interpreter exited with status 1.階段消耗了數千 petaflop/s-day 的計算量,相比之下,15 億參數的 GPT-2 模型為數十 petaflop/s-day(圖 2.2)。這意味着我們應該關注此類模型的成本與效率,正如 [122] 所倡導的那樣。
大規模Lua error: Internal error: The interpreter exited with status 1.的使用還提供了觀察大型模型效率的另一種視角——我們不僅應考慮訓練它們所投入的資源,還應考慮這些資源如何在模型的整個生命周期中被攤銷,而這些模型隨後會被用於各種用途並針對特定任務進行微調。儘管 GPT-3 這樣的模型在訓練時消耗大量資源,但訓練完成後它們可以出乎意料地高效:即便使用完整的 GPT-3 175B,從已訓練好的模型生成 100 頁內容的能耗約為 0.4 kW-hr,折算成電費僅幾美分。此外,模型蒸餾 [69] 等技術可以進一步降低此類模型的成本,使我們能夠採用"訓練單一大規模模型,再為其在適當情境下創建更高效版本"的範式。算法進步也可能自然地隨時間繼續提升此類模型的效率,這與圖像識別和神經機器翻譯領域中所觀察到的趨勢相似 [39]。
7 相關工作
若干研究方向都聚焦於通過增加語言模型的參數量和/或計算量來提升其生成或任務性能。早期工作將基於 Lua error: Internal error: The interpreter exited with status 1. 的語言模型擴展到超過十億參數 [51]。一條研究線直接擴大 Lua error: Internal error: The interpreter exited with status 1. 模型的規模,使參數量與每 token 的 FLOPS 大致成比例增長。該方向的工作不斷增大模型規模:原論文中的 2.13 億參數 [134],3 億參數 [20],15 億參數 [117],80 億參數 [125],110 億參數 [116],以及最近的 170 億參數 [132]。第二條研究線着力於增加參數數量但不增加計算量,以在不增加計算成本的前提下提升模型存儲信息的能力。這類方法依賴條件計算框架 [10],尤其是Lua error: Internal error: The interpreter exited with status 1.方法 [124] 被用於訓練 1000 億參數的模型,以及最近的 500 億參數翻譯模型 [3],儘管每次前向傳播實際只使用一小部分參數。第三種方法是在不增加參數的情況下增加計算量;此類方法的例子包括自適應計算時間 [35] 和通用 Lua error: Internal error: The interpreter exited with status 1. [22]。我們的工作聚焦於第一種方法(同步擴展計算與參數,直接通過加大神經網絡規模),並將模型規模相比此前採用此策略的模型再擴大 10 倍。
若干工作也系統地研究了規模對語言模型性能的影響。[57, 114, 77, 42] 發現,隨着自回歸語言模型規模擴大,損失呈平滑的冪律趨勢。該工作表明,隨着模型繼續擴大,這一趨勢在很大程度上仍然成立(儘管在圖 3.1 中或許可以察覺到曲線略有彎曲);我們也發現,在三個數量級的規模擴展中,許多(雖非全部)下游任務上的提升相對平滑。
另一條研究線則與擴展方向相反,試圖在儘可能小的語言模型上保持強勁性能。該方法包括 ALBERT [62],以及對語言模型進行一般性 [44] 與任務特定 [121, 52, 59] 蒸餾的方法。這些架構與技術可能與我們的工作互補,可應用於降低巨型模型的延遲和內存佔用。
隨着微調後的語言模型在許多標準基準任務上接近人類水平,人們已投入大量精力構建更困難或更開放的任務,包括問答 [58, 47, 14, 84]、閱讀理解 [16, 106],以及對抗性構造、專門設計為對現有語言模型困難的數據集 [118, 94]。在本工作中,我們在其中許多數據集上對模型進行了評估。
此前的許多工作專門聚焦於問答,這也佔據了我們測試任務的相當一部分。近期的工作包括 [116, 115],它們微調了 110 億參數的語言模型,以及 [33],它聚焦於在測試時對一個大型數據語料施加注意力。我們的工作不同之處在於聚焦上下文學習,但未來可與 [33, 75] 的工作相結合。
[117] 中已使用語言模型上的元學習,但結果受限較多,亦未進行系統研究。更廣泛地說,語言模型元學習具有內層循環—外層循環結構,使其結構上與一般機器學習中的元學習相似。該方向已有豐富的文獻,包括 matching networks [133]、RL2 [26]、learning to optimize [109, 1, 73] 和 MAML [30]。我們將先前示例填入模型上下文的方法,在結構上最接近 RL2,也類似於 [45]:適應的內層循環通過模型在各時間步的Lua error: Internal error: The interpreter exited with status 1.中進行計算,而不更新權重;而外層循環(此處僅為語言模型Lua error: Internal error: The interpreter exited with status 1.)更新權重,並隱式學習對推理時定義的任務進行適應或至少識別。少樣本自回歸密度估計在 [107] 中得到了探討,而 [38] 將低資源 NMT 作為少樣本學習問題進行了研究。
儘管我們的少樣本方法機制有所不同,先前的工作也探索了將預訓練語言模型與Lua error: Internal error: The interpreter exited with status 1.相結合進行少樣本學習的方法 [126]。另一個具有相似目標的子領域是半監督學習,其中如 UDA [137] 等方法也探討了在有標註數據極少的情況下的Lua error: Internal error: The interpreter exited with status 1.方法。
以自然語言向多任務模型給出指令,最早是在 [87] 中以監督設定形式化的,並在 [117] 中用於語言模型的某些任務(如摘要)。以自然語言呈現任務的思路也在文本到文本的 Lua error: Internal error: The interpreter exited with status 1. [116] 中進行了探討,但其中是用於多任務Lua error: Internal error: The interpreter exited with status 1.,而非用於無權重更新的上下文學習。
另一種增強語言模型通用性和遷移學習能力的方法是多任務學習 [12],它在一組下游任務上聯合微調,而不是為每個任務分別更新權重。若多任務學習成功,可使單一模型用於許多任務而不更新權重(類似我們的上下文學習方法),或者在為新任務更新權重時提升樣本效率。多任務學習已顯示出一些有前景的初步結果 [67, 76],而多階段Lua error: Internal error: The interpreter exited with status 1.近來已成為某些數據集上最先進結果的標準做法 [97],並在某些任務上推動了邊界 [55],但仍受限於需手動整理數據集合併設置訓練課程。相比之下,在足夠大規模上的Lua error: Internal error: The interpreter exited with status 1.似乎提供了"自然"且廣泛的任務分佈,這一分佈隱含於對文本本身的預測中。未來一個方向可能是嘗試為多任務學習生成更廣泛的顯式任務集合,例如通過程序化生成 [128]、人類交互 [144] 或主動學習 [80]。
過去兩年中,語言模型的算法創新巨大,包括基於去噪的雙向性 [20]、prefixLM [24] 與編碼-解碼架構 [72, 116]、訓練過程中的隨機置換 [139]、提升採樣效率的架構 [28]、數據與訓練流程方面的改進 [74],以及Lua error: Internal error: The interpreter exited with status 1.參數效率的提升 [62]。其中許多技術在下游任務上帶來了顯著收益。在本工作中,我們繼續聚焦於純自回歸語言模型,既是為了聚焦上下文學習性能,也是為了降低大型模型實現的複雜性。然而,引入這些算法進展很可能可以提升 GPT-3 在下游任務上的表現,尤其是在Lua error: Internal error: The interpreter exited with status 1.設定下,將 GPT-3 的規模與這些算法技術相結合是未來工作的一個有前景的方向。
8 結論
我們提出了一個 1750 億參數的語言模型,該模型在零樣本、一樣本和少樣本設定下,在許多自然語言處理任務和基準上展現出強勁表現,某些情況下幾乎與最先進的微調系統相當,並能生成高質量樣本,在即時定義的任務上也展現出強勁的定性表現。我們記錄了在不使用Lua error: Internal error: The interpreter exited with status 1.情況下,性能隨規模擴展的大致可預測趨勢。我們也討論了此類模型的社會影響。儘管存在許多局限和弱點,這些結果表明,非常大型的語言模型可能是開發可適應、通用的語言系統的重要組成部分。
致謝
作者感謝 Ryan Lowe 對論文草稿提供的詳細反饋。感謝 Jakub Pachocki 和 Szymon Sidor 提議任務,感謝 Greg Brockman、Michael Petrov、Brooke Chan 和 Chelsea Voss 幫助在 OpenAI 基礎設施上運行評估。感謝 David Luan 在該項目擴展之初提供支持,感謝 Irene Solaiman 關於如何應對與評估偏見的討論,感謝 Harrison Edwards 和 Yura Burda 就上下文學習進行的討論和實驗,感謝 Geoffrey Irving 和 Paul Christiano 關於語言模型擴展的早期討論,感謝 Long Ouyang 對人類評估實驗設計的建議,感謝 Chris Hallacy 關於數據收集的討論,感謝 Shan Carter 在視覺設計方面的幫助。感謝數以百萬計創建了用於模型訓練的內容的人們,以及參與對內容進行索引或投票的人們(對於 WebText 而言)。此外,我們還要感謝 OpenAI 的整個基礎設施與超級計算團隊,使得在這一規模上訓練模型成為可能。
貢獻
Tom Brown、Ben Mann、Prafulla Dhariwal、Dario Amodei、Nick Ryder、Daniel M Ziegler 和 Jeffrey Wu 實現了大規模模型、訓練基礎設施以及模型並行策略。
Tom Brown、Dario Amodei、Ben Mann 和 Nick Ryder 進行了Lua error: Internal error: The interpreter exited with status 1.實驗。
Ben Mann 和 Alec Radford 收集、過濾、去重並對訓練數據進行了重疊分析。
Melanie Subbiah、Ben Mann、Dario Amodei、Jared Kaplan、Sam McCandlish、Tom Brown、Tom Henighan 和 Girish Sastry 實現了下游任務及其軟件支持框架,包括合成任務的創建。
Jared Kaplan 和 Sam McCandlish 最初預測一個巨型語言模型應當呈現持續的收益,並應用擴展定律幫助預測並指導本研究在模型與數據規模方面的決策。
Ben Mann 實現了訓練期間的無放回採樣。
Alec Radford 最初證明了語言模型中存在 few-shot 學習。
Jared Kaplan 和 Sam McCandlish 表明更大的模型在上下文中學習得更快,並系統地研究了上下文學習曲線、任務提示與評估方法。
Prafulla Dhariwal 實現了代碼庫的早期版本,並開發了完全半精度訓練的內存優化。
Rewon Child 和 Mark Chen 開發了我們 model-parallel 策略的早期版本。
Rewon Child 和 Scott Gray 貢獻了稀疏 Lua error: Internal error: The interpreter exited with status 1.。
Aditya Ramesh 實驗了Lua error: Internal error: The interpreter exited with status 1.的損失縮放策略。
Melanie Subbiah 和 Arvind Neelakantan 實現、實驗並測試了 beam search。
Pranav Shyam 負責 SuperGLUE 的工作,並協助建立與 few-shot learning 和 meta-learning 文獻的聯繫。
Sandhini Agarwal 進行了公平性與代表性分析。
Girish Sastry 和 Amanda Askell 進行了模型的人類評估。
Ariel Herbert-Voss 進行了惡意使用的威脅分析。
Gretchen Krueger 編輯並以紅隊方式審查了論文的政策部分。
Benjamin Chess、Clemens Winter、Eric Sigler、Christopher Hesse、Mateusz Litwin 和 Christopher Berner 對 OpenAI 的集群進行了優化,以高效運行最大的模型。
Scott Gray 開發了訓練期間使用的快速 GPU 內核。
Jack Clark 領導了對倫理影響的分析——公平性與表徵、對模型的人類評估以及更廣泛的影響分析——並就其工作向 Gretchen、Amanda、Girish、Sandhini 和 Ariel 提供建議。
Dario Amodei、Alec Radford、Tom Brown、Sam McCandlish、Nick Ryder、Jared Kaplan、Sandhini Agarwal、Amanda Askell、Girish Sastry 和 Jack Clark 撰寫了論文。
Sam McCandlish 主導了模型擴展分析,並指導 Tom Henighan 和 Jared Kaplan 的工作。
Alec Radford 從 NLP 視角為項目提供指導,建議了任務,將結果置於上下文中,並展示了Lua error: Internal error: The interpreter exited with status 1.對訓練的益處。
Ilya Sutskever 是大型生成似然模型擴展的早期倡導者,並指導了 Pranav、Prafulla、Rewon、Alec 和 Aditya 的工作。
Dario Amodei 設計並領導了這項研究。
附錄 A Common Crawl 過濾細節
如 2.2 節所述,我們採用了兩種技術來提升 Common Crawl 數據集的質量:(1) Common Crawl 過濾,(2) 模糊去重:
1.
為提升 Common Crawl 的質量,我們開發了一種自動過濾方法以移除低質量文檔。我們以原始 WebText 作為高質量文檔的代理,訓練了一個分類器來將其與原始 Common Crawl 區分開。然後我們利用該分類器對 Common Crawl 重新採樣,優先保留分類器預測為更高質量的文檔。該分類器使用Lua error: Internal error: The interpreter exited with status 1.分類器,特徵來自 Spark 的標準Lua error: Internal error: The interpreter exited with status 1.和 HashingTF101010https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.feature.HashingTF。對於正例,我們使用了一組精選數據集(如 WebText、維基百科以及我們的網頁圖書語料);對於負例,我們使用了未過濾的 Common Crawl。我們用該分類器為 Common Crawl 文檔打分。當且僅當滿足以下條件時,我們將該文檔保留在數據集中:
$ {\displaystyle {\mathtt{np.random.pareto}\hspace{0pt}{(\alpha)}} > {1 - \mathtt{document\_ score}}} $ 我們選擇 $ {\textstyle \alpha = 9} $ 以主要保留分類器評分較高的文檔,同時仍保留一些分佈外的文檔。選擇 $ {\textstyle \alpha} $ 是為了匹配我們的分類器在 WebText 上分數的分佈。我們發現這種重新加權提升了在一系列分佈外生成文本樣本上的損失所衡量的質量。
2.
為進一步提升模型質量並防止Lua error: Internal error: The interpreter exited with status 1.(隨着模型容量增加,其重要性日益提升),我們使用 Spark 的 MinHashLSH 實現(10 個哈希,使用與上述分類相同的特徵)對每個數據集中的文檔進行模糊去重(即移除與其他文檔高度重疊的文檔)。我們還從 Common Crawl 中模糊地移除 WebText。總體而言,這使數據集規模平均減少了 10%。
在按重複和質量過濾之後,我們還部分移除了出現在基準數據集中的文本,詳見附錄 C。
附錄 B 模型訓練細節
為訓練所有版本的 GPT-3,我們使用 Lua error: Internal error: The interpreter exited with status 1.,其中 $ {\textstyle \beta_{1} = 0.9} $、$ {\textstyle \beta_{2} = 0.95} $ 以及 $ {\textstyle \epsilon = 10^{- 8}} $,梯度的全局範數裁剪為 1.0,並對Lua error: Internal error: The interpreter exited with status 1.使用餘弦衰減,使其在 2600 億 token 內降至原值的 10%(2600 億 token 之後,訓練以原始Lua error: Internal error: The interpreter exited with status 1.的 10% 繼續)。在前 3.75 億 token 內,LR 進行線性預熱。我們還根據模型規模,在訓練的前 40 至 120 億 token 期間,將 batch size 從一個較小的值(32k token)線性逐步增加到完整值。在訓練過程中,數據採樣不放回(直到達到一個 Lua error: Internal error: The interpreter exited with status 1. 邊界)以最小化Lua error: Internal error: The interpreter exited with status 1.。所有模型都使用 0.1 的Lua error: Internal error: The interpreter exited with status 1.以提供少量Lua error: Internal error: The interpreter exited with status 1. [68]。
在訓練過程中,我們始終在完整 $ {\textstyle n_{ctx} = 2048} $ token 的上下文窗口序列上進行訓練,當文檔短於 2048 時,會將多個文檔打包到一個序列中,以提升計算效率。對包含多個文檔的序列,我們並不進行任何特殊的掩碼處理,而是用特殊的文本結束 token 分隔同一序列內的文檔,從而向語言模型提供足夠信息,使其推斷出由文本結束 token 分隔的上下文之間互不相關。這就實現了無需任何特殊的、序列專屬掩碼的高效訓練。
附錄 C 測試集污染研究細節
在 4.1 節中我們對測試集污染研究進行了高層次概述。本節我們提供方法論和結果的細節。
訓練集初步過濾
我們嘗試通過搜索本工作中使用的所有測試/開發集與我們訓練數據之間 $ {\textstyle 13 -} $ 元詞組的重疊,來從訓練數據中移除基準中出現的文本,我們移除了發生碰撞的 $ {\textstyle 13 -} $ 元詞組及其周圍 200 個字符的窗口,將原始文檔拆分為若干片段。出於過濾目的,我們將一個 gram 定義為以空白為分隔、去除標點的小寫單詞。長度不足 $ {\textstyle 200} $ 個字符的片段被丟棄。被切分為超過 10 個片段的文檔被視為污染,並被整體移除。最初,我們僅一次碰撞就將整個文檔刪除,但這會過度懲罰書籍等長文檔,在虛假陽性方面尤為嚴重。一個虛假陽性的例子是基於維基百科的測試集——維基百科文章只引用某本書的一句話。我們忽略匹配超過 10 篇訓練文檔的 $ {\textstyle 13 -} $ 元詞組,因為檢查表明它們大多包含通用的文化短語、法律樣板或類似內容,這些是我們希望模型學習的,而非與測試集的不期望的具體重疊。各種頻率下的示例可見 GPT-3 發佈倉庫111111https://github.com/openai/gpt-3/blob/master/overlap_frequency.md。
重疊方法論
對於第 4.1 節的基準重疊分析,我們針對每個數據集使用一個可變的單詞數 $ {\textstyle N} $ 來檢測重疊,其中 $ {\textstyle N} $ 為忽略所有標點、空白和大小寫後的樣本長度的第 5 百分位。由於在較小 $ {\textstyle N} $ 值下會出現虛假碰撞,在非合成任務上我們使用最小值 8。出於性能原因,我們對所有任務設置最大值為 13。$ {\textstyle N} $ 的值和被標記為髒數據的數據量見表 C.1。與 GPT-2 使用 Bloom 過濾器計算測試污染概率邊界的做法不同,我們使用 Apache Spark 來計算所有訓練集與測試集之間的精確碰撞。我們計算的是測試集與我們完整訓練語料之間的重疊,儘管按第 2.2 節所述,我們只對過濾後的 Common Crawl 文檔訓練了 40%。
我們將「髒」樣本定義為與任意訓練文檔存在任何 $ {\textstyle N} $-gram 重疊的樣本,而將「乾淨」樣本定義為不存在任何衝突的樣本。
儘管部分測試切分未帶標籤,測試切分與驗證切分的污染水平相近。由於本分析揭示出的一個錯誤,上述過濾在書籍等長文檔上失敗。出於成本考慮,在更正後的訓練數據集上重新訓練模型並不可行。因此,若干語言建模基準以及 Children's Book Test 出現了幾乎完全的重疊,因此未被納入本文。各重疊詳見表 C.1。
| 名稱 | 劃分 | 指標 | $ {\textstyle N} $ | Acc/F1/BLEU | Total Count | Dirty Acc/F1/BLEU | Dirty Count | Clean Acc/F1/BLEU | Clean Count | Clean Percentage | Relative Difference Clean vs All |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Quac | dev | f1 | 13 | 44.3 | 7353 | 44.3 | 7315 | 54.1 | 38 | 1% | 20% |
| SQuADv2 | dev | f1 | 13 | 69.8 | 11873 | 69.9 | 11136 | 68.4 | 737 | 6% | -2% |
| DROP | dev | f1 | 13 | 36.5 | 9536 | 37.0 | 8898 | 29.5 | 638 | 7% | -21% |
| Symbol Insertion | dev | acc | 7 | 66.9 | 10000 | 66.8 | 8565 | 67.1 | 1435 | 14% | 0% |
| CoQa | dev | f1 | 13 | 86.0 | 7983 | 85.3 | 5107 | 87.1 | 2876 | 36% | 1% |
| ReCoRD | dev | acc | 13 | 89.5 | 10000 | 90.3 | 6110 | 88.2 | 3890 | 39% | -1% |
| Winograd | test | acc | 9 | 88.6 | 273 | 90.2 | 164 | 86.2 | 109 | 40% | -3% |
| BoolQ | dev | acc | 13 | 76.0 | 3270 | 75.8 | 1955 | 76.3 | 1315 | 40% | 0% |
| MultiRC | dev | acc | 13 | 74.2 | 953 | 73.4 | 558 | 75.3 | 395 | 41% | 1% |
| RACE-h | test | acc | 13 | 46.8 | 3498 | 47.0 | 1580 | 46.7 | 1918 | 55% | 0% |
| LAMBADA | test | acc | 13 | 86.4 | 5153 | 86.9 | 2209 | 86.0 | 2944 | 57% | 0% |
| LAMBADA (No Blanks) | test | acc | 13 | 77.8 | 5153 | 78.5 | 2209 | 77.2 | 2944 | 57% | -1% |
| WSC | dev | acc | 13 | 76.9 | 104 | 73.8 | 42 | 79.0 | 62 | 60% | 3% |
| PIQA | dev | acc | 8 | 82.3 | 1838 | 89.9 | 526 | 79.3 | 1312 | 71% | -4% |
| RACE-m | test | acc | 13 | 58.5 | 1436 | 53.0 | 366 | 60.4 | 1070 | 75% | 3% |
| De$ {\textstyle \rightarrow} $En 16 | test | bleu-sb | 12 | 43.0 | 2999 | 47.4 | 739 | 40.8 | 2260 | 75% | -5% |
| En$ {\textstyle \rightarrow} $De 16 | test | bleu-sb | 12 | 30.9 | 2999 | 32.6 | 739 | 29.9 | 2260 | 75% | -3% |
| En$ {\textstyle \rightarrow} $Ro 16 | test | bleu-sb | 12 | 25.8 | 1999 | 24.9 | 423 | 26.1 | 1576 | 79% | 1% |
| Ro$ {\textstyle \rightarrow} $En 16 | test | bleu-sb | 12 | 41.3 | 1999 | 40.4 | 423 | 41.6 | 1576 | 79% | 1% |
| WebQs | test | acc | 8 | 41.5 | 2032 | 41.6 | 428 | 41.5 | 1604 | 79% | 0% |
| ANLI R1 | test | acc | 13 | 36.8 | 1000 | 40.5 | 200 | 35.9 | 800 | 80% | -3% |
| ANLI R2 | test | acc | 13 | 34.0 | 1000 | 29.4 | 177 | 35.0 | 823 | 82% | 3% |
| TriviaQA | dev | acc | 10 | 71.2 | 7993 | 70.8 | 1390 | 71.3 | 6603 | 83% | 0% |
| ANLI R3 | test | acc | 13 | 40.2 | 1200 | 38.3 | 196 | 40.5 | 1004 | 84% | 1% |
| En$ {\textstyle \rightarrow} $Fr 14 | test | bleu-sb | 13 | 39.9 | 3003 | 38.3 | 411 | 40.3 | 2592 | 86% | 1% |
| Fr$ {\textstyle \rightarrow} $En 14 | test | bleu-sb | 13 | 41.4 | 3003 | 40.9 | 411 | 41.4 | 2592 | 86% | 0% |
| WiC | dev | acc | 13 | 51.4 | 638 | 53.1 | 49 | 51.3 | 589 | 92% | 0% |
| RTE | dev | acc | 13 | 71.5 | 277 | 71.4 | 21 | 71.5 | 256 | 92% | 0% |
| CB | dev | acc | 13 | 80.4 | 56 | 100.0 | 4 | 78.8 | 52 | 93% | -2% |
| Anagrams 2 | dev | acc | 2 | 40.2 | 10000 | 76.2 | 705 | 37.4 | 9295 | 93% | -7% |
| Reversed Words | dev | acc | 2 | 0.4 | 10000 | 1.5 | 660 | 0.3 | 9340 | 93% | -26% |
| OpenBookQA | test | acc | 8 | 65.4 | 500 | 58.1 | 31 | 65.9 | 469 | 94% | 1% |
| ARC (Easy) | test | acc | 11 | 70.1 | 2268 | 77.5 | 89 | 69.8 | 2179 | 96% | 0% |
| Anagrams 1 | dev | acc | 2 | 15.0 | 10000 | 49.8 | 327 | 13.8 | 9673 | 97% | -8% |
| COPA | dev | acc | 9 | 93.0 | 100 | 100.0 | 3 | 92.8 | 97 | 97% | 0% |
| ARC (Challenge) | test | acc | 12 | 51.6 | 1144 | 45.2 | 31 | 51.8 | 1113 | 97% | 0% |
| HellaSwag | dev | acc | 13 | 79.3 | 10042 | 86.2 | 152 | 79.2 | 9890 | 98% | 0% |
| NQs | test | acc | 11 | 29.9 | 3610 | 32.7 | 52 | 29.8 | 3558 | 99% | 0% |
| Cycled Letters | dev | acc | 2 | 38.6 | 10000 | 20.5 | 73 | 38.7 | 9927 | 99% | 0% |
| SAT Analogies | dev | acc | 9 | 65.8 | 374 | 100.0 | 2 | 65.6 | 372 | 99% | 0% |
| StoryCloze | test | acc | 13 | 87.7 | 1871 | 100.0 | 2 | 87.6 | 1869 | 100% | 0% |
| Winogrande | dev | acc | 13 | 77.7 | 1267 | - | 0 | 77.7 | 1267 | 100% | 0% |
重疊結果
為了解模型見過部分數據對其在下游任務上的表現有多大幫助,我們按"髒度"過濾每個驗證集和測試集。然後,我們只在乾淨的樣本上進行評估,並報告乾淨分數與原始分數之間的相對百分比變化。若干淨分數比整體分數低 1% 或 2% 以上,這提示模型可能對其見過的樣本發生了過擬合。若干淨分數顯著更高,則我們的過濾方案可能優先地將更簡單的樣本標記為髒樣本。
對於包含從網絡抽取的背景信息(但不含答案)的數據集(如 SQuAD,其來源為維基百科),或長度不足 8 個詞的樣本(我們在過濾過程中將其忽略,字謎任務除外),該重疊指標往往呈現較高的虛假陽性率。該技術似乎無法提供良好信號的一個例子是 DROP——一項閱讀理解任務,其中 94% 的樣本被標為污染。回答問題所需的信息位於提供給模型的一段文章中,因此在訓練時見過該段落但未見過問題與答案,並不構成實質性的作弊。我們已確認每個匹配的訓練文檔僅包含源段落,而不含數據集中的任何問題與答案。性能下降更可能的解釋是:經過濾後剩餘的 6% 樣本與髒樣本分佈略有不同。
圖 4.2 表明,隨着數據集污染加重,乾淨/總體比值的方差增大,但並未出現明顯偏向性能上升或下降的趨勢。這表明 GPT-3 對污染相對不敏感。我們標記為需進一步審查的數據集詳見第 4.1 節。
附錄 D 訓練語言模型所用的總計算量
本附錄包含用於推導圖 2.2 中訓練各語言模型大致所用算力的計算。作為簡化假設,我們忽略Lua error: Internal error: The interpreter exited with status 1.操作,因為對我們所分析的模型而言,該操作通常佔總算力不足 10%。
計算可在表 D.1 中查看,表說明中有具體解釋。
| Model | 總訓練計算量(PF-天) | 總訓練計算量(flops) | Params (M) | Training tokens (billions) | Flops per param per token | Mult for bwd pass | Fwd-pass flops per active param per token | Frac of params active for each token | |
| T5-Small | 2.08E+00 | 1.80E+20 | 60 | 1,000 | 3 | 3 | 1 | 0.5 | |
| T5-Base | 7.64E+00 | 6.60E+20 | 220 | 1,000 | 3 | 3 | 1 | 0.5 | |
| T5-Large | 2.67E+01 | 2.31E+21 | 770 | 1,000 | 3 | 3 | 1 | 0.5 | |
| T5-3B | 1.04E+02 | 9.00E+21 | 3,000 | 1,000 | 3 | 3 | 1 | 0.5 | |
| T5-11B | 3.82E+02 | 3.30E+22 | 11,000 | 1,000 | 3 | 3 | 1 | 0.5 | |
| BERT-Base | 1.89E+00 | 1.64E+20 | 109 | 250 | 6 | 3 | 2 | 1.0 | |
| BERT-Large | 6.16E+00 | 5.33E+20 | 355 | 250 | 6 | 3 | 2 | 1.0 | |
| RoBERTa-Base | 1.74E+01 | 1.50E+21 | 125 | 2,000 | 6 | 3 | 2 | 1.0 | |
| RoBERTa-Large | 4.93E+01 | 4.26E+21 | 355 | 2,000 | 6 | 3 | 2 | 1.0 | |
| GPT-3 Small | 2.60E+00 | 2.25E+20 | 125 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 Medium | 7.42E+00 | 6.41E+20 | 356 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 Large | 1.58E+01 | 1.37E+21 | 760 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 XL | 2.75E+01 | 2.38E+21 | 1,320 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 2.7B | 5.52E+01 | 4.77E+21 | 2,650 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 6.7B | 1.39E+02 | 1.20E+22 | 6,660 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 13B | 2.68E+02 | 2.31E+22 | 12,850 | 300 | 6 | 3 | 2 | 1.0 | |
| GPT-3 175B | 3.64E+03 | 3.14E+23 | 174,600 | 300 | 6 | 3 | 2 | 1.0 |
附錄 E 合成新聞文章的人類質量評估
本附錄詳細介紹了測量人類區分 GPT-3 生成的合成新聞文章與真實新聞文章能力的實驗。我們首先描述關於 $ {\textstyle \sim 200} $ 詞新聞文章的實驗,然後描述關於 GPT-3 生成的 $ {\textstyle \sim 500} $ 詞新聞文章的初步調查。
參與者:我們招募了 718 名獨立參與者參加 6 項實驗。97 名參與者因未通過一道互聯網檢查題目而被排除,剩下共計 621 名參與者:343 名男性、271 名女性和 7 名其他性別。參與者平均年齡 $ {\textstyle \sim 38} $ 歲。所有參與者通過 Positly 招募,該平台維護着 Mechanical Turk 中高表現工作者的白名單。所有參與者均位於美國,但沒有其他人口統計限制。參與者獲得 12 美元報酬,該報酬基於試點運行確定的 60 分鐘任務時長估算。為確保每項實驗問卷的參與者樣本獨立,參與者不得多次參加同一實驗。
流程與設計:我們任意選取了 25 篇 2020 年初出現在 newser.com 上的新聞文章。我們使用這些文章的標題和副標題,從參數量分別為 1.25 億、3.5 億、7.6 億、13 億、27 億、67 億、130 億和 200B(GPT-3)的語言模型生成輸出。每個模型對每個問題生成 5 個輸出,自動選擇字數與人寫文章最接近的一篇。這樣做是為了最小化續寫長度對參與者判斷的影響。每個模型的輸出流程相同,但與正文所述一樣,移除了故意寫差的對照模型。
在每項實驗中,一半參與者被隨機分配到問卷 A,一半被分配到問卷 B。每份問卷包含 25 篇文章:一半(12-13 篇)為人寫文章,一半(12-13 篇)為模型生成文章:問卷 A 中由人撰寫續寫的文章在問卷 B 中為模型生成的續寫,反之亦然。問卷問題的順序對每位參與者打亂。參與者可以留下評論,並被詢問其是否之前看過這些文章。參與者被指示在問卷過程中不要搜索這些文章或其內容,問卷結束時還會被詢問其是否在問卷期間搜索過任何內容。
| Model | Participants Recruited | Participants Excluded | Genders (m:f:other) | Mean Age | Average Word Count (human:model) |
|---|---|---|---|---|---|
| Control | 76 | 7 | 32:37:0 | 39 | 216:216 |
| GPT-3 Small | 80 | 7 | 41:31:1 | 40 | 216:188 |
| GPT-3 Medium | 80 | 7 | 46:28:2 | 39 | 216:202 |
| GPT-3 Large | 81 | 24 | 46:28:2 | 37 | 216:200 |
| GPT-3 XL | 79 | 14 | 32:32:1 | 38 | 216:199 |
| GPT-3 2.7B | 80 | 11 | 36:33:0 | 40 | 216:202 |
| GPT-3 6.7B | 76 | 5 | 46:28:2 | 37 | 216:195 |
| GPT-3 13.0B | 81 | 13 | 46:28:2 | 37 | 216:209 |
| GPT-3 175B | 80 | 9 | 42:29:0 | 37 | 216:216 |
統計檢驗:為比較各次運行的均值,我們針對每個模型與對照模型分別進行了獨立組別的雙樣本 t 檢驗。該檢驗在 Python 中通過 scipy.stats.ttest_ind 函數實現。在繪製參與者平均準確率與模型規模關係的回歸線時,我們擬合了形如 $ {\textstyle a\hspace{0pt}x^{- b}} $ 的冪律。95% 置信區間通過樣本均值的 t 分佈估計。
時長統計:在正文中,我們討論了一個發現:隨着模型變大,人類參與者區分模型生成與人寫新聞文章的能力下降。我們還發現,如圖 E.1 所示,對一組給定問題所花費的平均時間隨着模型規模增大而增加。儘管參與者投入的時間更多,但準確率更低,這印證了"更大的模型生成的新聞文章更難區分"這一發現。
關於 $ {\textstyle \sim 500} $ 詞文章的初步調查:我們通過 Positly 招募了 160 名美國本土的獨立參與者參加 2 項實驗(詳細信息見表 E.2)。我們從 2019 年末的路透社國際新聞中隨機選取 12 篇文章,並為 GPT-3 175B 構建一個上下文——該上下文由不在這 12 篇文章中的另一篇路透社文章組成。然後,我們使用文章標題和路透社的地點信息,從 GPT-3 175B 與此前實驗中使用的 160M 對照模型生成續寫。我們用其為每個模型構建兩份各 12 題的問卷,每份問卷一半為人寫文章、一半為模型生成文章。我們加入了理解題,並以每隔 30 秒分 3 階段的方式向參與者展示文章,以鼓勵更細緻的閱讀。參與者完成此任務獲得 12 美元報酬。模型生成的選擇方法、排除標準和統計檢驗均與此前實驗保持一致。
| Model | Participants Recruited | Participants Excluded | Genders (m:f:other) | Mean Age | Average Word Count (human:model) |
|---|---|---|---|---|---|
| Control | 79 | 17 | 32:37:0 | 39 | 569:464 |
| GPT-3 175B | 81 | 19 | 32:30:0 | 40 | 569:498 |
附錄 F GPT-3 的更多樣本
GPT-3 對正文中所探討任務之外的許多任務也適應良好。例如,在圖 F.1 中,我們展示了來自一個提示的四個未經篩選樣本——該提示要求模型以華萊士·史蒂文斯(Wallace Stevens)的風格,圍繞一個給定標題寫一首詩。我們首先嘗試了若干提示,隨後生成了四個樣本而未進行任何額外編輯或挑選(在溫度 $ {\textstyle 1} $ 下使用核採樣 [40],$ {\textstyle P = 0.9} $)。當模型開始寫一個新的標題與作者抬頭,或轉入散文式評論時,續寫被截斷。
Context $ {\textstyle \rightarrow} $
|
The City
|
BY C. P. CAVAFY
| |
TRANSLATED BY EDMUND KEELEY
| |
[Poem text omitted]
| |
SOME TREES
| |
John Ashbery
| |
[Poem text omitted]
| |
Shadows on the Way
| |
Wallace Stevens
| |
-------- Generated Poem 1 --------
|
-------- Generated Poem 3 --------
|
I must have shadows on the way
|
The sun was all we had. Now, in the shade
|
If I am to walk I must have
|
All is changed. The mind must dwell on those
|
Each step taken slowly and alone
|
White fields, that to its eyes were always old;
|
To have it ready made
|
Those ancient gleams, convoluting
|
The way they lay among the huge roots,
| |
And I must think in lines of grey
|
The great dark tomes of reverie,
|
To have dim thoughts to be my guide
|
The plumed labyrinth of the sea.
|
Must look on blue and green
|
|
And never let my eye forget
|
When our own breath gonne faint and fade
|
That color is my friend
|
Up the long stairway of the dead
|
And purple must surround me too
|
We shall remember well
|
The blindness of the light, the whiteness
| |
The yellow of the sun is no more
|
Of that white land. The footsteps, and
|
Intrusive than the bluish snow
|
The grasses in that light, and in the shade
|
That falls on all of us. I must have
|
The menacing life.
|
Grey thoughts and blue thoughts walk with me
|
|
If I am to go away at all.
|
We played, too, once, in the warmest rooms.
|
To one content, there is one content
| |
-------- Generated Poem 2 --------
|
For all mankind. The forest glades
|
Are all the more for being in fable,
| |
There is a way in the world.
|
And wood and town in legend shadowed-
|
That way a man may live in a small town
|
Once more to return. The one content
|
His lifetime and see no man come,
|
Has in it every happiness, more brave
|
Never the stir of men about a market,
|
For being purposeless; and so
|
Never the bobbing of covered carts,
|
Those island gardens, deep in the mind,
|
Never the creak passed on the stair
|
Make of remoteness familiarity
|
Closing some other life; an old man
|
And of the unspoken name a friend.
|
Can prosper in that town, can prosper
|
|
When his store is seen to close, his wife
|
-------- Generated Poem 4 --------
|
Fades in his house, and the world shouts in vain
|
|
That no one comes to hear him
|
Nobody will come to this place. It is a road that leads nowhere.
|
Where his small bell tolls.
|
The solitude is deep. The mountains are high.
|
In that small town
|
But they are desolate, and they turn the traveler’s face
|
Everything is known.
|
Towards the North. All the sounds of the world are far away.
|
The ways of the young men are known,
|
When the wind rises above the trees,
|
And the ways of the young women
|
The boughs bow to the ground.
|
As they walk to the Spring;
|
Even the birds that inhabit the tangle of weeds
|
The rumors are all known,
|
That is the roadside cover, are silent. One listens,
|
The quarrels, the hurt, the envy
|
But hears no roar of the forest. One is alone.
|
Of the men and the women.
|
One will be taken.
|
Till a day comes
|
One will be taken.
|
That way out of the world
|
There is no utterance, there is no conversation,
|
That leads to a wood.
|
But one is uneasy all the same....
|
Young, the young man
|
There is a thin blue mist,
|
Walks, a lover now,
|
A darkness rising like smoke,
|
Knows the streets as they are and is of them.
|
And within that darkness
|
A possession of the heart.
| |
Comes to the wood.
|
One will be taken.... It was here, and it will be here again-
|
Here, under this sky empty and full of light.
| |
There, in the wood, among trees,
|
|
He sees shadows on the way, hears voices,
|
|
hears the wind and the rustling of leaves;
|
|
Through an open glade
|
|
He sees a shape and the shape hears:
|
|
It waits as he waits,
|
|
Waits as the shadows wait,
|
|
As the voices wait;
|
|
Shadows on the way, voices in the wind.
|
附錄 G 任務表述與規格細節
下列圖示說明了本文所含全部任務的格式與表述。所有數據均來源於本節的真實數據集,此處不包含來自 GPT-3 的樣本。
Context $ {\textstyle \rightarrow} $
|
Article:
|
|---|---|
Informal conversation is an important part of any business relationship.Before you start a discussion,however,make sure you understand which topics are suitable and which are considered taboo in a particular culture. Latin Americans enjoy sharing information about their local history, art and customs.You may expect questions about your family,and be sure to show pictures of your children.You may feel free to ask similar questions of your Latin American friends.The French think of conversation as an art form,and they enjoy the value of lively discussions as well as disagreements. For them,arguments can be interesting and they can cover pretty much or any topic ---- as long as they occur in are respectful and intelligent manner.
| |
In the United States,business people like to discuss a wide range of topics,including opinions about work,family,hobbies,and politics. In Japan,China,and Korea,however,people are much more private.They do not share much about their thoughts,feelings,or emotions because they feel that doing so might take away from the harmonious business relationship they’re trying to build.Middle Easterners are also private about their personal lives and family matters.It is considered rude,for example,to ask a businessman from Saudi Arabia about his wife or children.
| |
As a general rule,it’s best not to talk about politics or religion with your business friends.This can get you into trouble,even in the United States,where people hold different religious views.In addition,discussing one’s salary is usually considered unsuitable.Sports is typically a friendly subject in most parts of the world,although be careful not to criticize national sport.Instead,be friendly and praise your host’s team.
| |
Q: What shouldn’t you do when talking about sports with colleagues from another country?
| |
A: Criticizing the sports of your colleagues’ country.
| |
Q: Which is typically a friendly topic in most places according to the author?
| |
A: Sports.
| |
Q: Why are people from Asia more private in their conversation with others?
| |
A: They don’t want to have their good relationship with others harmed by informal conversation.
| |
Q: The author considers politics and religion _ .
| |
A:
| |
Correct Answer $ {\textstyle \rightarrow} $
|
taboo
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
cheerful topics
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
rude topics
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
topics that can never be talked about
|
Context $ {\textstyle \rightarrow} $
|
anli 2: anli 2: The Gold Coast Hotel & Casino is a hotel and casino located in Paradise, Nevada. This locals’ casino is owned and operated by Boyd Gaming. The Gold Coast is located one mile ($ {\textstyle \sim {1.6\hspace{0pt}{km}}} $) west of the Las Vegas Strip on West Flamingo Road. It is located across the street from the Palms Casino Resort and the Rio All Suite Hotel and Casino.
|
|---|---|
Question: The Gold Coast is a budget-friendly casino. True, False, or Neither?
| |
Correct Answer $ {\textstyle \rightarrow} $
|
Neither
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
True
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
False
|
Context $ {\textstyle \rightarrow} $
|
Article:
|
|---|---|
Mrs. Smith is an unusual teacher. Once she told each student to bring along a few potatoes in plastic bag. On each potato the students had to write a name of a person that they hated And the next day, every child brought some potatoes. Some had two potatoes;some three;some up to five.
| |
Mrs. Smith then told the children to carry the bags everywhere they went, even to the toilet, for two weeks. As day after day passed, the children started to complain about the awful smell of the rotten potatoes.
| |
Those children who brought five potatoes began to feel the weight trouble of the bags. After two weeks, the children were happy to hear that the game was finally ended. Mrs. Smith asked,"How did you feel while carrying the potatoes for two weeks?" The children started complaining about the trouble loudly.
| |
Then Mrs. Smith told them why she asked them to play the game. She said,"This is exactly the situation when you carry your hatred for somebody inside your heart. The terrible smell of the hatred will pollute your heart and you will carry something unnecessary with you all the time. If you cannot stand the smell of the rotten potatoes for just two weeks, can you imagine how heavy it would be to have the hatred in your heart for your lifetime? So throw away any hatred from your heart, and you’ll be really happy."
| |
Q: Which of the following is True according to the passage?
| |
A: If a kid hated four people,he or she had to carry four potatoes.
| |
Q: We can learn from the passage that we should _ .
| |
A: throw away the hatred inside
| |
Q: The children complained about _ besides the weight trouble.
| |
A: the smell
| |
Q: Mrs.Smith asked her students to write _ on the potatoes.
| |
A:
| |
Correct Answer $ {\textstyle \rightarrow} $
|
names
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
numbers
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
time
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
places
|
Context $ {\textstyle \rightarrow} $
|
How to apply sealant to wood.
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
Using a brush, brush on sealant onto wood until it is fully saturated with the sealant.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
Using a brush, drip on sealant onto wood until it is fully saturated with the sealant.
|
Context $ {\textstyle \rightarrow} $
|
My body cast a shadow over the grass because
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
the sun was rising.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
the grass was cut.
|
Context $ {\textstyle \rightarrow} $
|
(CNN) Yuval Rabin, whose father, Yitzhak Rabin, was assassinated while serving as Prime Minister of Israel, criticized Donald Trump for appealing to "Second Amendment people" in a speech and warned that the words that politicians use can incite violence and undermine democracy. "Trump’s words are an incitement to the type of political violence that touched me personally," Rabin wrote in USAToday. He said that Trump’s appeal to "Second Amendment people" to stop Hillary Clinton -- comments that were criticized as a call for violence against Clinton, something Trump denied -- "were a new level of ugliness in an ugly campaign season."
|
|---|---|
- The son of a former Israeli Prime Minister who was assassinated wrote an op ed about the consequence of violent political rhetoric.
| |
- Warns of "parallels" between Israel of the 1990s and the U.S. today.
| |
Correct Answer $ {\textstyle \rightarrow} $
|
- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Donald Trump’s aggressive rhetoric.
|
Correct Answer $ {\textstyle \rightarrow} $
|
- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Trump’s aggressive rhetoric.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Hillary Clinton’s aggressive rhetoric.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned U.S.’s aggressive rhetoric.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
- Referencing his father, who was shot and killed by an extremist amid political tension in Israel in 1995, Rabin condemned Yitzhak Rabin’s aggressive rhetoric.
|
Context $ {\textstyle \rightarrow} $
|
anli 1: anli 1: Fulton James MacGregor MSP is a Scottish politician who is a Scottish National Party (SNP) Member of Scottish Parliament for the constituency of Coatbridge and Chryston. MacGregor is currently Parliamentary Liaison Officer to Shona Robison, Cabinet Secretary for Health & Sport. He also serves on the Justice and Education & Skills committees in the Scottish Parliament.
|
|---|---|
Question: Fulton James MacGregor is a Scottish politican who is a Liaison officer to Shona Robison who he swears is his best friend. True, False, or Neither?
| |
Correct Answer $ {\textstyle \rightarrow} $
|
Neither
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
True
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
False
|
Context $ {\textstyle \rightarrow} $
|
Organisms require energy in order to do what?
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
mature and develop.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
rest soundly.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
absorb light.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
take in nutrients.
|
Context $ {\textstyle \rightarrow} $
|
Making a cake: Several cake pops are shown on a display. A woman and girl are shown making the cake pops in a kitchen. They
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
bake them, then frost and decorate.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
taste them as they place them on plates.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
put the frosting on the cake as they pan it.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
come out and begin decorating the cake as well.
|
Context $ {\textstyle \rightarrow} $
|
anli 3: anli 3: We shut the loophole which has American workers actually subsidizing the loss of their own job. They just passed an expansion of that loophole in the last few days: $43 billion of giveaways, including favors to the oil and gas industry and the people importing ceiling fans from China.
|
|---|---|
Question: The loophole is now gone True, False, or Neither?
| |
Correct Answer $ {\textstyle \rightarrow} $
|
False
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
True
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
Neither
|
Context $ {\textstyle \rightarrow} $
|
Question: George wants to warm his hands quickly by rubbing them. Which skin surface will produce the most heat?
|
|---|---|
Answer:
| |
Correct Answer $ {\textstyle \rightarrow} $
|
dry palms
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
wet palms
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
palms covered with oil
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
palms covered with lotion
|
Context $ {\textstyle \rightarrow} $
|
lull is to trust as
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
cajole is to compliance
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
balk is to fortitude
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
betray is to loyalty
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
hinder is to destination
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
soothe is to passion
|
Correct Context $ {\textstyle \rightarrow} $
|
Grace was happy to trade me her sweater for my jacket. She thinks the sweater
|
|---|---|
Incorrect Context $ {\textstyle \rightarrow} $
|
Grace was happy to trade me her sweater for my jacket. She thinks the jacket
|
Target Completion $ {\textstyle \rightarrow} $
|
looks dowdy on her.
|
Correct Context $ {\textstyle \rightarrow} $
|
Johnny likes fruits more than vegetables in his new keto diet because the fruits
|
|---|---|
Incorrect Context $ {\textstyle \rightarrow} $
|
Johnny likes fruits more than vegetables in his new keto diet because the vegetables
|
Target Completion $ {\textstyle \rightarrow} $
|
are saccharine.
|
Context $ {\textstyle \rightarrow} $
|
READING COMPREHENSION ANSWER KEY
|
|---|---|
While this process moved along, diplomacy continued its rounds. Direct pressure on the Taliban had proved unsuccessful. As one NSC staff note put it, "Under the Taliban, Afghanistan is not so much a state sponsor of terrorism as it is a state sponsored by terrorists." In early 2000, the United States began a high-level effort to persuade Pakistan to use its influence over the Taliban. In January 2000, Assistant Secretary of State Karl Inderfurth and the State Department’s counterterrorism coordinator, Michael Sheehan, met with General Musharraf in Islamabad, dangling before him the possibility of a presidential visit in March as a reward for Pakistani cooperation. Such a visit was coveted by Musharraf, partly as a sign of his government’s legitimacy. He told the two envoys that he would meet with Mullah Omar and press him on Bin Laden. They left, however, reporting to Washington that Pakistan was unlikely in fact to do anything," given what it sees as the benefits of Taliban control of Afghanistan." President Clinton was scheduled to travel to India. The State Department felt that he should not visit India without also visiting Pakistan. The Secret Service and the CIA, however, warned in the strongest terms that visiting Pakistan would risk the President’s life. Counterterrorism officials also argued that Pakistan had not done enough to merit a presidential visit. But President Clinton insisted on including Pakistan in the itinerary for his trip to South Asia. His one-day stopover on March 25, 2000, was the first time a U.S. president had been there since 1969. At his meeting with Musharraf and others, President Clinton concentrated on tensions between Pakistan and India and the dangers of nuclear proliferation, but also discussed Bin Laden. President Clinton told us that when he pulled Musharraf aside for a brief, one-on-one meeting, he pleaded with the general for help regarding Bin Laden." I offered him the moon when I went to see him, in terms of better relations with the United States, if he’d help us get Bin Laden and deal with another issue or two." The U.S. effort continued.
| |
Who did The State Department feel should visit both India and Pakistan?
| |
Correct Answer $ {\textstyle \rightarrow} $
|
- [False] Bin Laden
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
- [True] Bin Laden
|
Context $ {\textstyle \rightarrow} $
|
Question: Which factor will most likely cause a person to develop a fever?
|
|---|---|
Answer:
| |
Correct Answer $ {\textstyle \rightarrow} $
|
a bacterial population in the bloodstream
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
a leg muscle relaxing after exercise
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
several viral particles on the skin
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
carbohydrates being digested in the stomach
|
Context $ {\textstyle \rightarrow} $
|
Bob went to the gas station to fill up his car. His tank was completely empty and so was his wallet. The cashier offered to pay for his gas if he came back later to pay. Bob felt grateful as he drove home.
|
|---|---|
Correct Answer $ {\textstyle \rightarrow} $
|
Bob believed that there were good people in the world.
|
Incorrect Answer $ {\textstyle \rightarrow} $
|
Bob contemplated how unfriendly the world was.
|
Context $ {\textstyle \rightarrow} $
|
Helsinki is the capital and largest city of Finland. It is in the region of Uusimaa, in southern Finland, on the shore of the Gulf of Finland. Helsinki has a population of , an urban population of , and a metropolitan population of over 1.4 million, making it the most populous municipality and urban area in Finland. Helsinki is some north of Tallinn, Estonia, east of Stockholm, Sweden, and west of Saint Petersburg, Russia. Helsinki has close historical connections with these three cities.
|
|---|---|
The Helsinki metropolitan area includes the urban core of Helsinki, Espoo, Vantaa, Kauniainen, and surrounding commuter towns. It is the world’s northernmost metro area of over one million people, and the city is the northernmost capital of an EU member state. The Helsinki metropolitan area is the third largest metropolitan area in the Nordic countries after Stockholm and Copenhagen, and the City of Helsinki is the third largest after Stockholm and Oslo. Helsinki is Finland’s major political, educational, financial, cultural, and research center as well as one of northern Europe’s major cities. Approximately 75% of foreign companies that operate in Finland have settled in the Helsinki region. The nearby municipality of Vantaa is the location of Helsinki Airport, with frequent service to various destinations in Europe and Asia.
| |
Q: what is the most populous municipality in Finland?
| |
A: Helsinki
| |
Q: how many people live there?
| |
A: 1.4 million in the metropolitan area
| |
Q: what percent of the foreign companies that operate in Finland are in Helsinki?
| |
A: 75%
| |
Q: what towns are a part of the metropolitan area?
| |
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
Helsinki, Espoo, Vantaa, Kauniainen, and surrounding commuter towns
|
Context $ {\textstyle \rightarrow} $
|
Please unscramble the letters into a word, and write that word:
|
|---|---|
asinoc =
| |
Target Completion $ {\textstyle \rightarrow} $
|
casino
|
Context $ {\textstyle \rightarrow} $
|
Passage: Saint Jean de Brébeuf was a French Jesuit missionary who travelled to New France in 1625. There he worked primarily with the Huron for the rest of his life, except for a few years in France from 1629 to 1633. He learned their language and culture, writing extensively about each to aid other missionaries. In 1649, Brébeuf and another missionary were captured when an Iroquois raid took over a Huron village . Together with Huron captives, the missionaries were ritually tortured and killed on March 16, 1649. Brébeuf was beatified in 1925 and among eight Jesuit missionaries canonized as saints in the Roman Catholic Church in 1930.
|
|---|---|
Question: How many years did Saint Jean de Brébeuf stay in New France before he went back to France for a few years?
| |
Answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
4
|
Context $ {\textstyle \rightarrow} $
|
Fill in blank:
|
|---|---|
She held the torch in front of her.
| |
She caught her breath.
| |
"Chris? There’s a step."
| |
"What?"
| |
"A step. Cut in the rock. About fifty feet ahead." She moved faster. They both moved faster. "In fact," she said, raising the torch higher, "there’s more than a ____. -$ {\textstyle >} $
| |
Target Completion $ {\textstyle \rightarrow} $
|
step
|
Context $ {\textstyle \rightarrow} $
|
Please unscramble the letters into a word, and write that word:
|
|---|---|
skicts =
| |
Target Completion $ {\textstyle \rightarrow} $
|
sticks
|
Context $ {\textstyle \rightarrow} $
|
Please unscramble the letters into a word, and write that word:
|
|---|---|
volwskagen =
| |
Target Completion $ {\textstyle \rightarrow} $
|
volkswagen
|
Context $ {\textstyle \rightarrow} $
|
Q: Who played tess on touched by an angel?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
Delloreese Patricia Early (July 6, 1931 – November 19, 2017), known professionally as Della Reese
|
Context $ {\textstyle \rightarrow} $
|
TITLE: William Perry (American football) - Professional career
|
|---|---|
PARAGRAPH: In 1985, he was selected in the first round of the 1985 NFL Draft by the Chicago Bears; he had been hand-picked by coach Mike Ditka. However, defensive coordinator Buddy Ryan, who had a highly acrimonious relationship with Ditka, called Perry a "wasted draft-pick". Perry soon became a pawn in the political power struggle between Ditka and Ryan. Perry’s "Refrigerator" nickname followed him into the NFL and he quickly became a favorite of the Chicago Bears fans. Teammates called him "Biscuit," as in "one biscuit shy of 350 pounds." While Ryan refused to play Perry, Ditka decided to use Perry as a fullback when the team was near the opponents’ goal line or in fourth and short situations, either as a ball carrier or a lead blocker for star running back Walter Payton. Ditka stated the inspiration for using Perry as a fullback came to him during five-yard sprint exercises. During his rookie season, Perry rushed for two touchdowns and caught a pass for one. Perry even had the opportunity to run the ball during Super Bowl XX, as a nod to his popularity and contributions to the team’s success. The first time he got the ball, he was tackled for a one-yard loss while attempting to throw his first NFL pass on a halfback option play. The second time he got the ball, he scored a touchdown (running over Patriots linebacker Larry McGrew in the process). About halfway through his rookie season, Ryan finally began to play Perry, who soon proved that he was a capable defensive lineman. His Super Bowl ring size is the largest of any professional football player in the history of the event. His ring size is 25, while the ring size for the average adult male is between 10 and 12. Perry went on to play for ten years in the NFL, retiring after the 1994 season. In his ten years as a pro, he regularly struggled with his weight, which hampered his performance at times. He played in 138 games, recording 29.5 sacks and five fumble recoveries, which he returned for a total of 71 yards. In his offensive career he ran five yards for two touchdowns, and had one reception for another touchdown. Perry later attempted a comeback, playing an unremarkable 1996 season with the London Monarchs of the World League of American Football (later NFL Europa).
| |
Q: what team did he play for?
| |
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
the Chicago Bears
|
Context $ {\textstyle \rightarrow} $
|
Please unscramble the letters into a word, and write that word:
|
|---|---|
r e!c.i p r o.c a/l =
| |
Target Completion $ {\textstyle \rightarrow} $
|
reciprocal
|
Context $ {\textstyle \rightarrow} $
|
Please unscramble the letters into a word, and write that word:
|
|---|---|
taefed =
| |
Target Completion $ {\textstyle \rightarrow} $
|
defeat
|
Context $ {\textstyle \rightarrow} $
|
Title: The_Blitz
|
|---|---|
Background: From the German point of view, March 1941 saw an improvement. The Luftwaffe flew 4,000 sorties that month, including 12 major and three heavy attacks. The electronic war intensified but the Luftwaffe flew major inland missions only on moonlit nights. Ports were easier to find and made better targets. To confuse the British, radio silence was observed until the bombs fell. X- and Y-Gerät beams were placed over false targets and switched only at the last minute. Rapid frequency changes were introduced for X-Gerät, whose wider band of frequencies and greater tactical flexibility ensured it remained effective at a time when British selective jamming was degrading the effectiveness of Y-Gerät.
| |
Q: How many sorties were flown in March 1941?
| |
A: 4,000
| |
Q: When did the Luftwaffe fly inland missions?
| |
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
only on moonlit nights
|
Context $ {\textstyle \rightarrow} $
|
Normal force -- In a simple case such as an object resting upon a table, the normal force on the object is equal but in opposite direction to the gravitational force applied on the object (or the weight of the object), that is, N = m g (\displaystyle N=mg), where m is mass, and g is the gravitational field strength (about 9.81 m/s on Earth). The normal force here represents the force applied by the table against the object that prevents it from sinking through the table and requires that the table is sturdy enough to deliver this normal force without breaking. However, it is easy to assume that the normal force and weight are action-reaction force pairs (a common mistake). In this case, the normal force and weight need to be equal in magnitude to explain why there is no upward acceleration of the object. For example, a ball that bounces upwards accelerates upwards because the normal force acting on the ball is larger in magnitude than the weight of the ball.
|
|---|---|
question: is the normal force equal to the force of gravity?
| |
answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
yes
|
Context $ {\textstyle \rightarrow} $
|
The trend toward lower rents may seem surprising given that some communities in New York are bemoaning the loss of favorite local businesses to high rents. But, despite the recent softening, for many of these retailers there’s still been too big a jump from the rental rates of the late 1970s, when their leases were signed. Certainly, the recent drop in prices doesn’t mean Manhattan comes cheap.
|
|---|---|
question: Manhattan comes cheap. true, false, or neither?
| |
answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
false
|
Context $ {\textstyle \rightarrow} $
|
The bet, which won him dinner for four, was regarding the existence and mass of the top quark, an elementary particle discovered in 1995.
|
|---|---|
question: The Top Quark is the last of six flavors of quarks predicted by the standard model theory of particle physics. True or False?
| |
answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
False
|
Context $ {\textstyle \rightarrow} $
|
An outfitter provided everything needed for the safari.
|
|---|---|
Before his first walking holiday, he went to a specialist outfitter to buy some boots.
| |
question: Is the word ‘outfitter’ used in the same way in the two sentences above?
| |
answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
no
|
Context $ {\textstyle \rightarrow} $
|
Final Exam with Answer Key
|
|---|---|
Instructions: Please carefully read the following passages. For each passage, you must identify which noun the pronoun marked in *bold* refers to.
| |
=====
| |
Passage: Mr. Moncrieff visited Chester’s luxurious New York apartment, thinking that it belonged to his son Edward. The result was that Mr. Moncrieff has decided to cancel Edward’s allowance on the ground that he no longer requires *his* financial support.
| |
Question: In the passage above, what does the pronoun "*his*" refer to?
| |
Answer:
| |
Target Completion $ {\textstyle \rightarrow} $
|
mr. moncrieff
|
Context $ {\textstyle \rightarrow} $
|
Q: ‘Nude Descending A Staircase’ is perhaps the most famous painting by which 20th century artist?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
MARCEL DUCHAMP
|
Target Completion $ {\textstyle \rightarrow} $
|
r mutt
|
Target Completion $ {\textstyle \rightarrow} $
|
duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
marcel duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
R.Mutt
|
Target Completion $ {\textstyle \rightarrow} $
|
Marcel duChamp
|
Target Completion $ {\textstyle \rightarrow} $
|
Henri-Robert-Marcel Duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
Marcel du Champ
|
Target Completion $ {\textstyle \rightarrow} $
|
henri robert marcel duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
Duchampian
|
Target Completion $ {\textstyle \rightarrow} $
|
Duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
duchampian
|
Target Completion $ {\textstyle \rightarrow} $
|
marcel du champ
|
Target Completion $ {\textstyle \rightarrow} $
|
Marcel Duchamp
|
Target Completion $ {\textstyle \rightarrow} $
|
MARCEL DUCHAMP
|
Context $ {\textstyle \rightarrow} $
|
Q: What school did burne hogarth establish?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
School of Visual Arts
|
Context $ {\textstyle \rightarrow} $
|
Keinesfalls dürfen diese für den kommerziellen Gebrauch verwendet werden. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
In no case may they be used for commercial purposes.
|
Context $ {\textstyle \rightarrow} $
|
In no case may they be used for commercial purposes. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
Keinesfalls dürfen diese für den kommerziellen Gebrauch verwendet werden.
|
Context $ {\textstyle \rightarrow} $
|
Analysis of instar distributions of larval I. verticalis collected from a series of ponds also indicated that males were in more advanced instars than females. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
L’analyse de la distribution de fréquence des stades larvaires d’I. verticalis dans une série d’étangs a également démontré que les larves mâles étaient à des stades plus avancés que les larves femelles.
|
Context $ {\textstyle \rightarrow} $
|
L’analyse de la distribution de fréquence des stades larvaires d’I. verticalis dans une série d’étangs a également démontré que les larves mâles étaient à des stades plus avancés que les larves femelles. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
Analysis of instar distributions of larval I. verticalis collected from a series of ponds also indicated that males were in more advanced instars than females.
|
Context $ {\textstyle \rightarrow} $
|
The truth is that you want, at any price, and against the wishes of the peoples of Europe, to continue the negotiations for Turkey’s accession to the European Union, despite Turkey’s continuing refusal to recognise Cyprus and despite the fact that the democratic reforms are at a standstill. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
Adevărul este că vă doriţi, cu orice preţ şi împotriva dorinţei europenilor, să continuaţi negocierile de aderare a Turciei la Uniunea Europeană, în ciuda refuzului continuu al Turciei de a recunoaşte Ciprul şi în ciuda faptului că reformele democratice au ajuns într-un punct mort.
|
Context $ {\textstyle \rightarrow} $
|
Adevărul este că vă doriţi, cu orice preţ şi împotriva dorinţei europenilor, să continuaţi negocierile de aderare a Turciei la Uniunea Europeană, în ciuda refuzului continuu al Turciei de a recunoaşte Ciprul şi în ciuda faptului că reformele democratice au ajuns într-un punct mort. =
|
|---|---|
Target Completion $ {\textstyle \rightarrow} $
|
The truth is that you want, at any price, and against the wishes of the peoples of Europe, to continue the negotiations for Turkey’s accession to the European Union, despite Turkey’s continuing refusal to recognise Cyprus and despite the fact that the democratic reforms are at a standstill.
|
Context $ {\textstyle \rightarrow} $
|
Q: What is (2 * 4) * 6?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
48
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 17 minus 14?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
3
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 98 plus 45?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
143
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 95 times 45?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
4275
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 509 minus 488?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
21
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 556 plus 497?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
1053
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 6209 minus 3365?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
2844
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 9923 plus 617?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
10540
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 40649 minus 78746?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
-38097
|
Context $ {\textstyle \rightarrow} $
|
Q: What is 65360 plus 16204?
|
|---|---|
A:
| |
Target Completion $ {\textstyle \rightarrow} $
|
81564
|
附錄 H 所有任務在所有模型規模上的結果
| Zero-Shot | One-Shot | Few-Shot | |||||||||||||||||||||||||||
| 名稱 | 指標 | 劃分 | 微調 SOTA | K | Small | Med | Large | XL | 2.7B | 6.7B | 13B | 175B | Small | Med | Large | XL | 2.7B | 6.7B | 13B | 175B | Small | Med | Large | XL | 2.7B | 6.7B | 13B | 175B | 175B (test server) |
| HellaSwag | acc | dev | 85.6 | 20 | 33.7 | 43.6 | 51.0 | 54.7 | 62.8 | 67.4 | 70.9 | 78.9 | 33.0 | 42.9 | 50.5 | 53.5 | 61.9 | 66.5 | 70.0 | 78.1 | 33.5 | 43.1 | 51.3 | 54.9 | 62.9 | 67.3 | 71.3 | 79.3 | |
| LAMBADA | acc | test | 68.0 | 15 | 42.7 | 54.3 | 60.4 | 63.6 | 67.1 | 70.3 | 72.5 | 76.2 | 22.0 | 47.1 | 52.6 | 58.3 | 61.1 | 65.4 | 69.0 | 72.5 | 22.0 | 40.4 | 63.2 | 57.0 | 78.1 | 79.1 | 81.3 | 86.4 | |
| LAMBADA | ppl | test | 8.63 | 15 | 18.6 | 9.09 | 6.53 | 5.44 | 4.60 | 4.00 | 3.56 | 3.00 | 165.0 | 11.6 | 8.29 | 6.46 | 5.53 | 4.61 | 4.06 | 3.35 | 165.0 | 27.6 | 6.63 | 7.45 | 2.89 | 2.56 | 2.56 | 1.92 | |
| StoryCloze | acc | test | 91.8 | 70 | 63.3 | 68.5 | 72.4 | 73.4 | 77.2 | 77.7 | 79.5 | 83.2 | 62.3 | 68.7 | 72.3 | 74.2 | 77.3 | 78.7 | 79.7 | 84.7 | 62.3 | 70.2 | 73.9 | 76.1 | 80.2 | 81.2 | 83.0 | 87.7 | |
| NQs | acc | test | 44.5 | 64 | 0.64 | 1.75 | 2.71 | 4.40 | 6.01 | 5.79 | 7.84 | 14.6 | 1.19 | 3.07 | 4.79 | 5.43 | 8.73 | 9.78 | 13.7 | 23.0 | 1.72 | 4.46 | 7.89 | 9.72 | 13.2 | 17.0 | 21.0 | 29.9 | |
| TriviaQA | acc | dev | 68.0 | 64 | 4.15 | 7.61 | 14.0 | 19.7 | 31.3 | 38.7 | 41.8 | 64.3 | 4.19 | 12.9 | 20.5 | 26.5 | 35.9 | 44.4 | 51.3 | 68.0 | 6.96 | 16.3 | 26.5 | 32.1 | 42.3 | 51.6 | 57.5 | 71.2 | 71.2 |
| WebQs | acc | test | 45.5 | 64 | 1.77 | 3.20 | 4.33 | 4.63 | 7.92 | 7.73 | 8.22 | 14.4 | 2.56 | 6.20 | 8.51 | 9.15 | 14.5 | 15.1 | 19.0 | 25.3 | 5.46 | 12.6 | 15.9 | 19.6 | 24.8 | 27.7 | 33.5 | 41.5 | |
| Ro$ {\textstyle \rightarrow} $En 16 | BLEU-mb | test | 39.9 | 64 | 2.08 | 2.71 | 3.09 | 3.15 | 16.3 | 8.34 | 20.2 | 19.9 | 0.55 | 15.4 | 23.0 | 26.3 | 30.6 | 33.2 | 35.6 | 38.6 | 1.25 | 20.7 | 25.8 | 29.2 | 33.1 | 34.8 | 37.0 | 39.5 | |
| Ro$ {\textstyle \rightarrow} $En 16 | BLEU-sb | test | 64 | 2.39 | 3.08 | 3.49 | 3.56 | 16.8 | 8.75 | 20.8 | 20.9 | 0.65 | 15.9 | 23.6 | 26.8 | 31.3 | 34.2 | 36.7 | 40.0 | 1.40 | 21.3 | 26.6 | 30.1 | 34.3 | 36.2 | 38.4 | 41.3 | ||
| En$ {\textstyle \rightarrow} $Ro 16 | BLEU-mb | test | 38.5 | 64 | 2.14 | 2.65 | 2.53 | 2.50 | 3.46 | 4.24 | 5.32 | 14.1 | 0.35 | 3.30 | 7.89 | 8.72 | 13.2 | 15.1 | 17.3 | 20.6 | 1.25 | 5.90 | 9.33 | 10.7 | 14.3 | 16.3 | 18.0 | 21.0 | |
| En$ {\textstyle \rightarrow} $Ro 16 | BLEU-sb | test | 64 | 2.61 | 3.11 | 3.07 | 3.09 | 4.26 | 5.31 | 6.43 | 18.0 | 0.55 | 3.90 | 9.15 | 10.3 | 15.7 | 18.2 | 20.8 | 24.9 | 1.64 | 7.40 | 10.9 | 12.9 | 17.2 | 19.6 | 21.8 | 25.8 | ||
| Fr$ {\textstyle \rightarrow} $En 14 | BLEU-mb | test | 35.0 | 64 | 1.81 | 2.53 | 3.47 | 3.13 | 20.6 | 15.1 | 21.8 | 21.2 | 1.28 | 15.9 | 23.7 | 26.3 | 29.0 | 30.5 | 30.2 | 33.7 | 4.98 | 25.5 | 28.5 | 31.1 | 33.7 | 34.9 | 36.6 | 39.2 | |
| Fr$ {\textstyle \rightarrow} $En 14 | BLEU-sb | test | 64 | 2.29 | 2.99 | 3.90 | 3.60 | 21.2 | 15.5 | 22.4 | 21.9 | 1.50 | 16.3 | 24.4 | 27.0 | 30.0 | 31.6 | 31.4 | 35.6 | 5.30 | 26.2 | 29.5 | 32.2 | 35.1 | 36.4 | 38.3 | 41.4 | ||
| En$ {\textstyle \rightarrow} $Fr 14 | BLEU-mb | test | 45.6 | 64 | 1.74 | 2.16 | 2.73 | 2.15 | 15.1 | 8.82 | 12.0 | 25.2 | 0.49 | 8.00 | 14.8 | 15.9 | 20.3 | 23.3 | 24.9 | 28.3 | 4.08 | 14.5 | 19.3 | 21.5 | 24.9 | 27.3 | 29.5 | 32.6 | |
| En$ {\textstyle \rightarrow} $Fr 14 | BLEU-sb | test | 45.9 | 64 | 2.44 | 2.75 | 3.54 | 2.82 | 19.3 | 11.4 | 15.3 | 31.3 | 0.81 | 10.0 | 18.2 | 19.3 | 24.7 | 28.3 | 30.1 | 34.1 | 5.31 | 18.0 | 23.6 | 26.1 | 30.3 | 33.3 | 35.5 | 39.9 | |
| De$ {\textstyle \rightarrow} $En 16 | BLEU-mb | test | 40.2 | 64 | 2.06 | 2.87 | 3.41 | 3.63 | 21.5 | 17.3 | 23.0 | 27.2 | 0.83 | 16.2 | 22.5 | 24.7 | 28.2 | 30.7 | 33.0 | 30.4 | 3.25 | 22.7 | 26.2 | 29.2 | 32.7 | 34.8 | 37.3 | 40.6 | |
| De$ {\textstyle \rightarrow} $En 16 | BLEU-sb | test | 64 | 2.39 | 3.27 | 3.85 | 4.04 | 22.5 | 18.2 | 24.4 | 28.6 | 0.93 | 17.1 | 23.4 | 25.8 | 29.2 | 31.9 | 34.5 | 32.1 | 3.60 | 23.8 | 27.5 | 30.5 | 34.1 | 36.5 | 39.1 | 43.0 | ||
| En$ {\textstyle \rightarrow} $De 16 | BLEU-mb | test | 41.2 | 64 | 1.70 | 2.27 | 2.31 | 2.43 | 12.9 | 8.66 | 10.4 | 24.6 | 0.50 | 7.00 | 12.9 | 13.1 | 18.3 | 20.9 | 22.5 | 26.2 | 3.42 | 12.3 | 15.4 | 17.1 | 20.9 | 23.0 | 26.6 | 29.7 | |
| En$ {\textstyle \rightarrow} $De 16 | BLEU-sb | test | 41.2 | 64 | 2.09 | 2.65 | 2.75 | 2.92 | 13.7 | 9.36 | 11.0 | 25.3 | 0.54 | 7.40 | 13.4 | 13.4 | 18.8 | 21.7 | 23.3 | 27.3 | 3.78 | 12.9 | 16.1 | 17.7 | 21.7 | 24.1 | 27.7 | 30.9 | |
| Winograd | acc | test | 93.8 | 7 | 66.3 | 72.9 | 74.7 | 76.9 | 82.4 | 85.7 | 87.9 | 88.3 | 63.4 | 68.5 | 72.9 | 76.9 | 82.4 | 84.6 | 86.1 | 89.7 | 63.4 | 67.4 | 73.6 | 76.9 | 84.3 | 85.4 | 82.4 | 88.6 | |
| Winogrande | acc | dev | 84.6 | 50 | 52.0 | 52.1 | 57.4 | 58.7 | 62.3 | 64.5 | 67.9 | 70.2 | 51.3 | 53.0 | 58.3 | 59.1 | 61.7 | 65.8 | 66.9 | 73.2 | 51.3 | 52.6 | 57.5 | 59.1 | 62.6 | 67.4 | 70.0 | 77.7 | |
| PIQA | acc | dev | 77.1 | 50 | 64.6 | 70.2 | 72.9 | 75.1 | 75.6 | 78.0 | 78.5 | 81.0 | 64.3 | 69.3 | 71.8 | 74.4 | 74.3 | 76.3 | 77.8 | 80.5 | 64.3 | 69.4 | 72.0 | 74.3 | 75.4 | 77.8 | 79.9 | 82.3 | 82.8 |
| ARC (Challenge) | acc | test | 78.5 | 50 | 26.6 | 29.5 | 31.8 | 35.5 | 38.0 | 41.4 | 43.7 | 51.4 | 25.5 | 30.2 | 31.6 | 36.4 | 38.4 | 41.5 | 43.1 | 53.2 | 25.5 | 28.4 | 32.3 | 36.7 | 39.5 | 43.7 | 44.8 | 51.5 | |
| ARC (Easy) | acc | test | 92.0 | 50 | 43.6 | 46.5 | 53.0 | 53.8 | 58.2 | 60.2 | 63.8 | 68.8 | 42.7 | 48.2 | 54.6 | 55.9 | 60.3 | 62.6 | 66.8 | 71.2 | 42.7 | 51.0 | 58.1 | 59.1 | 62.1 | 65.8 | 69.1 | 70.1 | |
| OpenBookQA | acc | test | 87.2 | 100 | 35.6 | 43.2 | 45.2 | 46.8 | 53.0 | 50.4 | 55.6 | 57.6 | 37.0 | 39.8 | 46.2 | 46.4 | 53.4 | 53.0 | 55.8 | 58.8 | 37.0 | 43.6 | 48.0 | 50.6 | 55.6 | 55.2 | 60.8 | 65.4 | |
| Quac | f1 | dev | 74.4 | 5 | 21.2 | 26.8 | 31.0 | 30.1 | 34.7 | 36.1 | 38.4 | 41.5 | 21.1 | 26.9 | 31.9 | 32.3 | 37.4 | 39.0 | 40.6 | 43.4 | 21.6 | 27.6 | 32.9 | 34.2 | 38.2 | 39.9 | 40.9 | 44.3 | |
| RACE-h | acc | test | 90.0 | 10 | 35.2 | 37.9 | 40.1 | 40.9 | 42.4 | 44.1 | 44.6 | 45.5 | 34.3 | 37.7 | 40.0 | 42.0 | 43.8 | 44.3 | 44.6 | 45.9 | 34.3 | 37.0 | 40.4 | 41.4 | 42.3 | 44.7 | 45.1 | 46.8 | |
| RACE-m | acc | test | 93.1 | 10 | 42.1 | 47.2 | 52.1 | 52.3 | 54.7 | 54.4 | 56.7 | 58.4 | 42.3 | 47.3 | 51.7 | 55.2 | 56.1 | 54.7 | 56.9 | 57.4 | 42.3 | 47.0 | 52.7 | 53.0 | 55.6 | 55.4 | 58.1 | 58.1 | |
| SQuADv2 | em | dev | 90.7 | 16 | 22.6 | 32.8 | 33.9 | 43.1 | 43.6 | 45.4 | 49.0 | 52.6 | 25.1 | 37.5 | 37.9 | 47.9 | 47.9 | 51.1 | 56.0 | 60.1 | 27.5 | 40.5 | 39.2 | 53.5 | 50.0 | 56.6 | 62.6 | 64.9 | |
| SQuADv2 | f1 | dev | 93.0 | 16 | 28.3 | 40.2 | 41.4 | 50.3 | 51.0 | 52.7 | 56.3 | 59.5 | 30.1 | 43.6 | 44.1 | 54.0 | 54.1 | 57.1 | 61.8 | 65.4 | 32.1 | 45.5 | 44.9 | 58.7 | 55.9 | 62.1 | 67.7 | 69.8 | |
| CoQA | f1 | dev | 90.7 | 5 | 34.5 | 55.0 | 61.8 | 65.3 | 71.1 | 72.8 | 76.3 | 81.5 | 30.6 | 52.1 | 61.6 | 66.1 | 71.8 | 75.1 | 77.9 | 84.0 | 31.1 | 52.0 | 62.7 | 66.8 | 73.2 | 77.3 | 79.9 | 85.0 | |
| DROP | f1 | dev | 89.1 | 20 | 9.40 | 13.6 | 14.4 | 16.4 | 19.7 | 17.0 | 24.0 | 23.6 | 11.7 | 18.1 | 20.9 | 23.0 | 26.4 | 27.3 | 29.2 | 34.3 | 12.9 | 18.7 | 24.0 | 25.6 | 29.7 | 29.7 | 32.3 | 36.5 | |
| BoolQ | acc | dev | 91.0 | 32 | 49.7 | 60.3 | 58.9 | 62.4 | 67.1 | 65.4 | 66.2 | 60.5 | 52.6 | 61.7 | 60.4 | 63.7 | 68.4 | 68.7 | 69.0 | 76.7 | 43.1 | 60.6 | 62.0 | 64.1 | 70.3 | 70.0 | 70.2 | 77.5 | 76.4 |
| CB | acc | dev | 96.9 | 32 | 0.00 | 32.1 | 8.93 | 19.6 | 19.6 | 28.6 | 19.6 | 46.4 | 55.4 | 53.6 | 53.6 | 48.2 | 57.1 | 33.9 | 55.4 | 64.3 | 42.9 | 58.9 | 53.6 | 69.6 | 67.9 | 60.7 | 66.1 | 82.1 | 75.6 |
| CB | f1 | dev | 93.9 | 32 | 0.00 | 29.3 | 11.4 | 17.4 | 22.4 | 25.1 | 20.3 | 42.8 | 60.1 | 39.8 | 45.6 | 37.5 | 45.7 | 28.5 | 44.6 | 52.5 | 26.1 | 40.4 | 32.6 | 48.3 | 45.7 | 44.6 | 46.0 | 57.2 | 52.0 |
| Copa | acc | dev | 94.8 | 32 | 66.0 | 68.0 | 73.0 | 77.0 | 76.0 | 80.0 | 84.0 | 91.0 | 62.0 | 64.0 | 66.0 | 74.0 | 76.0 | 82.0 | 86.0 | 87.0 | 67.0 | 64.0 | 72.0 | 77.0 | 83.0 | 83.0 | 86.0 | 92.0 | 92.0 |
| RTE | acc | dev | 92.5 | 32 | 47.7 | 49.8 | 48.4 | 56.0 | 46.6 | 55.2 | 62.8 | 63.5 | 53.1 | 47.3 | 49.5 | 49.5 | 54.9 | 54.9 | 56.3 | 70.4 | 52.3 | 48.4 | 46.9 | 50.9 | 56.3 | 49.5 | 60.6 | 72.9 | 69.0 |
| WiC | acc | dev | 76.1 | 32 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 50.0 | 50.3 | 50.3 | 49.2 | 49.4 | 50.3 | 50.0 | 48.6 | 49.8 | 55.0 | 53.0 | 53.0 | 51.6 | 53.1 | 51.1 | 55.3 | 49.4 |
| WSC | acc | dev | 93.8 | 32 | 59.6 | 56.7 | 65.4 | 61.5 | 66.3 | 60.6 | 64.4 | 65.4 | 58.7 | 58.7 | 60.6 | 62.5 | 66.3 | 60.6 | 66.3 | 69.2 | 58.7 | 60.6 | 54.8 | 49.0 | 62.5 | 67.3 | 75.0 | 75.0 | 80.1 |
| MultiRC | acc | dev | 62.3 | 32 | 4.72 | 9.65 | 12.3 | 13.6 | 14.3 | 18.4 | 24.2 | 27.6 | 4.72 | 9.65 | 12.3 | 13.6 | 14.3 | 18.4 | 24.2 | 27.6 | 6.09 | 11.8 | 16.8 | 20.8 | 24.7 | 23.8 | 25.0 | 32.5 | 30.5 |
| MultiRC | f1a | dev | 88.2 | 32 | 57.0 | 59.7 | 60.4 | 59.9 | 60.0 | 64.5 | 71.4 | 72.9 | 57.0 | 59.7 | 60.4 | 59.9 | 60.0 | 64.5 | 71.4 | 72.9 | 45.0 | 55.9 | 64.2 | 65.4 | 69.5 | 66.4 | 69.3 | 74.8 | 75.4 |
| ReCoRD | acc | dev | 92.5 | 32 | 70.8 | 78.5 | 82.1 | 84.1 | 86.2 | 88.6 | 89.0 | 90.2 | 69.8 | 77.0 | 80.7 | 83.0 | 85.9 | 88.0 | 88.8 | 90.2 | 69.8 | 77.2 | 81.3 | 83.1 | 86.6 | 87.9 | 88.9 | 89.0 | 90.2 |
| ReCoRD | f1 | dev | 93.3 | 32 | 71.9 | 79.2 | 82.8 | 85.2 | 87.3 | 89.5 | 90.4 | 91.0 | 70.7 | 77.8 | 81.6 | 83.9 | 86.8 | 88.8 | 89.7 | 91.2 | 70.7 | 77.9 | 82.1 | 84.0 | 87.5 | 88.8 | 89.8 | 90.1 | 91.1 |
| SuperGLUE | average | dev | 89.0 | 40.6 | 47.4 | 46.8 | 49.6 | 50.1 | 52.3 | 54.4 | 58.2 | 54.4 | 55.1 | 56.7 | 57.8 | 61.2 | 59.7 | 64.3 | 68.9 | 50.2 | 56.2 | 56.8 | 60.0 | 64.3 | 63.6 | 66.9 | 73.2 | 71.8 | |
| ANLI R1 | acc | test | 73.8 | 50 | 33.4 | 34.2 | 33.4 | 33.4 | 34.2 | 32.3 | 33.2 | 34.6 | 32.1 | 31.6 | 31.9 | 34.6 | 30.6 | 31.6 | 32.7 | 32.0 | 32.1 | 32.5 | 30.9 | 32.5 | 33.5 | 33.1 | 33.3 | 36.8 | |
| ANLI R2 | acc | test | 50.7 | 50 | 33.2 | 31.9 | 33.3 | 33.3 | 33.8 | 33.5 | 33.5 | 35.4 | 35.7 | 33.7 | 33.2 | 32.7 | 32.7 | 33.9 | 33.9 | 33.9 | 35.7 | 33.8 | 32.1 | 31.4 | 32.6 | 33.3 | 32.6 | 34.0 | |
| ANLI R3 | acc | test | 48.3 | 50 | 33.6 | 34.0 | 33.8 | 33.4 | 35.3 | 34.8 | 34.4 | 34.5 | 35.0 | 32.6 | 33.0 | 33.9 | 34.1 | 33.1 | 32.5 | 35.1 | 35.0 | 34.4 | 35.1 | 36.0 | 32.7 | 33.9 | 34.5 | 40.2 | |
| 2D+ | acc | n/a | 50 | 0.70 | 0.65 | 0.70 | 0.85 | 1.10 | 2.54 | 15.4 | 76.9 | 2.00 | 0.55 | 3.15 | 4.00 | 12.1 | 19.6 | 73.0 | 99.6 | 2.00 | 4.10 | 3.50 | 4.50 | 8.90 | 11.9 | 55.5 | 100.0 | ||
| 2D- | acc | n/a | 50 | 1.25 | 1.25 | 1.25 | 1.25 | 1.60 | 7.60 | 12.6 | 58.0 | 1.15 | 0.95 | 1.45 | 1.95 | 3.85 | 11.5 | 44.6 | 86.4 | 1.15 | 1.45 | 2.25 | 2.70 | 7.35 | 13.6 | 52.4 | 98.9 | ||
| 3D+ | acc | n/a | 50 | 0.10 | 0.10 | 0.05 | 0.10 | 0.10 | 0.25 | 1.40 | 34.2 | 0.15 | 0.00 | 0.10 | 0.30 | 0.45 | 0.95 | 15.4 | 65.5 | 0.15 | 0.45 | 0.30 | 0.55 | 0.75 | 0.90 | 8.40 | 80.4 | ||
| 3D- | acc | n/a | 50 | 0.05 | 0.05 | 0.05 | 0.05 | 0.05 | 0.45 | 1.35 | 48.3 | 0.05 | 0.15 | 0.25 | 0.30 | 0.55 | 1.60 | 6.15 | 78.7 | 0.05 | 0.10 | 0.15 | 0.35 | 0.65 | 1.05 | 9.20 | 94.2 | ||
| 4D+ | acc | n/a | 50 | 0.05 | 0.05 | 0.00 | 0.00 | 0.05 | 0.05 | 0.15 | 4.00 | 0.00 | 0.00 | 0.10 | 0.00 | 0.00 | 0.10 | 0.80 | 14.0 | 0.00 | 0.05 | 0.05 | 0.00 | 0.15 | 0.15 | 0.40 | 25.5 | ||
| 4D- | acc | n/a | 50 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.10 | 7.50 | 0.00 | 0.00 | 0.00 | 0.00 | 0.05 | 0.00 | 0.50 | 14.0 | 0.00 | 0.05 | 0.00 | 0.00 | 0.10 | 0.05 | 0.40 | 26.8 | ||
| 5D+ | acc | n/a | 50 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.65 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.05 | 3.45 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.05 | 9.30 | ||
| 5D- | acc | n/a | 50 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.80 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.05 | 3.75 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 9.90 | ||
| 2Dx | acc | n/a | 50 | 2.20 | 2.25 | 2.65 | 2.10 | 2.55 | 5.80 | 6.15 | 19.8 | 1.35 | 2.35 | 3.35 | 2.35 | 4.75 | 9.15 | 11.0 | 27.4 | 1.35 | 2.90 | 2.70 | 2.85 | 4.25 | 6.10 | 7.05 | 29.2 | ||
| 1DC | acc | n/a | 50 | 1.25 | 2.95 | 2.75 | 0.05 | 0.30 | 2.35 | 0.75 | 9.75 | 1.90 | 2.80 | 2.85 | 3.65 | 6.45 | 9.15 | 8.20 | 14.3 | 1.70 | 2.15 | 3.90 | 5.75 | 6.20 | 7.60 | 9.95 | 21.3 | ||
| Cycled Letters | acc | n/a | 100 | 0.62 | 0.71 | 2.85 | 0.00 | 0.63 | 1.35 | 2.58 | 3.66 | 1.67 | 4.36 | 5.68 | 6.46 | 6.25 | 9.41 | 15.1 | 21.7 | 4.63 | 9.27 | 10.7 | 14.5 | 16.7 | 21.9 | 27.7 | 37.9 | ||
| Anagrams 1 | acc | n/a | 100 | 0.10 | 0.14 | 0.40 | 0.00 | 0.27 | 0.69 | 1.16 | 2.28 | 0.21 | 0.61 | 1.12 | 1.27 | 1.60 | 2.72 | 3.72 | 8.62 | 0.50 | 1.27 | 2.13 | 3.05 | 3.81 | 5.49 | 8.38 | 15.1 | ||
| Anagrams 2 | acc | n/a | 100 | 0.81 | 1.21 | 2.69 | 0.01 | 1.71 | 3.75 | 4.53 | 8.91 | 1.19 | 2.62 | 4.70 | 4.77 | 6.97 | 10.2 | 14.6 | 25.9 | 1.94 | 4.80 | 7.59 | 9.87 | 12.6 | 18.9 | 25.6 | 39.7 | ||
| Symbol Insertion | acc | n/a | 100 | 0.00 | 0.00 | 0.10 | 0.00 | 0.05 | 0.42 | 0.89 | 8.26 | 0.03 | 0.05 | 0.57 | 1.18 | 1.67 | 3.46 | 6.62 | 45.4 | 0.11 | 0.28 | 2.19 | 4.18 | 6.61 | 11.0 | 27.3 | 67.2 | ||
| Reversed Words | acc | n/a | 100 | 0.00 | 0.01 | 0.01 | 0.01 | 0.02 | 0.03 | 0.03 | 0.09 | 0.02 | 0.01 | 0.01 | 0.00 | 0.05 | 0.07 | 0.11 | 0.48 | 0.00 | 0.05 | 0.00 | 0.17 | 0.24 | 0.30 | 0.42 | 0.44 | ||
| SAT Analogies | acc | n/a | 20 | 35.6 | 39.0 | 45.2 | 44.1 | 50.0 | 49.2 | 52.7 | 53.7 | 30.5 | 41.2 | 43.1 | 46.5 | 55.1 | 54.3 | 53.5 | 59.1 | 30.5 | 40.4 | 42.8 | 40.6 | 48.4 | 51.9 | 53.5 | 65.2 | ||
參考文獻
- ADG+ [16] Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W Hoffman, David Pfau, Tom Schaul, Brendan Shillingford, and Nando De Freitas. Learning to learn by Lua error: Internal error: The interpreter exited with status 1. by Lua error: Internal error: The interpreter exited with status 1.. In Advances in neural information processing systems, pages 3981–3989, 2016.
- AI [19] WeChat AI. Tr-mt (ensemble), December 2019.
- AJF [19] Roee Aharoni, Melvin Johnson, and Orhan Firat. Massively multilingual neural machine translation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019.
- BBDIW [20] Su Lin Blodgett, Solon Barocas, Hal Daumé III, and Hanna Wallach. Language (technology) is power: A critical survey of 「bias」 in nlp. arXiv preprint arXiv:2005.14050, 2020.
- BCFL [13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. Semantic parsing on freebase from question-answer pairs. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1533–1544, 2013.
- BDD+ [09] Luisa Bentivogli, Ido Dagan, Hoa Trang Dang, Danilo Giampiccolo, and Bernardo Magnini. The fifth PASCAL recognizing textual entailment challenge. 2009.
- BES [10] Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In Lrec, volume 10, pages 2200–2204, 2010.
- BHDD+ [06] Roy Bar Haim, Ido Dagan, Bill Dolan, Lisa Ferro, Danilo Giampiccolo, Bernardo Magnini, and Idan Szpektor. The second PASCAL recognising textual entailment challenge. 2006.
- BHT+ [20] Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
- BLC [13] Yoshua Bengio, Nicholas Léonard, and Aaron C. Courville. Estimating or propagating gradients through stochastic neurons for conditional computation. Arxiv, 2013.
- BZB+ [19] Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. Piqa: Reasoning about physical commonsense in natural language. arXiv preprint arXiv:1911.11641, 2019.
- Car [97] Rich Caruana. Multitask learning. Machine learning, 28(1), 1997.
- CB [78] Susan Carey and Elsa Bartlett. Acquiring a single new word. Proceedings of the Stanford Child Language Conference, 1978.
- CCE+ [18] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. ArXiv, abs/1803.05457, 2018.
- CGRS [19] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse Lua error: Internal error: The interpreter exited with status 1., 2019.
- CHI+ [18] Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. Quac : Question answering in context. Arxiv, 2018.
- CLC+ [19] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. BoolQ: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044, 2019.
- CLY+ [19] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. Uniter: Learning universal image-text representations. arXiv preprint arXiv:1909.11740, 2019.
- Cra [17] Kate Crawford. The trouble with bias. NIPS 2017 Keynote, 2017.
- DCLT [18] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Lua error: Internal error: The interpreter exited with status 1. of deep bidirectional Lua error: Internal error: The interpreter exited with status 1. for language understanding. arXiv preprint arXiv:1810.04805, 2018.
- DGM [06] Ido Dagan, Oren Glickman, and Bernardo Magnini. The PASCAL recognising textual entailment challenge. In Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising textual entailment, pages 177–190. Springer, 2006.
- DGV+ [18] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Lukasz Kaiser. Universal Lua error: Internal error: The interpreter exited with status 1.. Arxiv, 2018.
- DHKH [14] Nadir Durrani, Barry Haddow, Philipp Koehn, and Kenneth Heafield. Edinburgh’s phrase-based machine translation systems for wmt-14. In Proceedings of the Ninth Workshop on Statistical Machine Translation, pages 97–104, 2014.
- DL [15] Andrew M. Dai and Quoc V. Le. Semi-supervised sequence learning. In Advances in neural information processing systems, 2015.
- DMST [19] Marie-Catherine De Marneffe, Mandy Simons, and Judith Tonhauser. The CommitmentBank: Investigating projection in naturally occurring discourse. 2019. To appear in proceedings of Sinn und Bedeutung 23. Data can be found at https://github.com/mcdm/CommitmentBank/.
- DSC+ [16] Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. ArXiv, abs/1611.02779, 2016.
- DWD+ [19] Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. Drop: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161, 2019.
- DYY+ [19] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G. Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. Lua error: Internal error: The interpreter exited with status 1.-xl: Attentive language models beyond a fixed-length context. Arxiv, 2019.
- EOAG [18] Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. Understanding back-translation at scale. arXiv preprint arXiv:1808.09381, 2018.
- FAL [17] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ArXiv, abs/1703.03400, 2017.
- Fyo [00] Yaroslav Fyodorov. A natural logic inference system, 2000.
- GG [19] Hila Gonen and Yoav Goldberg. Lipstick on a pig: Debiasing methods cover up systematic gender biases in word Lua error: Internal error: The interpreter exited with status 1. but do not remove them. arXiv preprint arXiv:1903.03862, 2019.
- GLT+ [20] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. Realm: Retrieval-augmented language model Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:2002.08909, 2020.
- GMDD [07] Danilo Giampiccolo, Bernardo Magnini, Ido Dagan, and Bill Dolan. The third PASCAL recognizing textual entailment challenge. In Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing, pages 1–9. Association for Computational Linguistics, 2007.
- Gra [16] Alex Graves. Adaptive computation time for recurrent neural networks. Arxiv, 2016.
- GSL+ [18] Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R Bowman, and Noah A Smith. Annotation artifacts in natural language inference data. arXiv preprint arXiv:1803.02324, 2018.
- GSR [19] Sebastian Gehrmann, Hendrik Strobelt, and Alexander M. Rush. Gltr: Statistical detection and visualization of generated text. arXiv preprint arXiv: 1906.04043, 2019.
- GWC+ [18] Jiatao Gu, Yong Wang, Yun Chen, Kyunghyun Cho, and Victor OK Li. Meta-learning for low-resource neural machine translation. arXiv preprint arXiv:1808.08437, 2018.
- HB [20] Daniel Hernandez and Tom Brown. Ai and efficiency, May 2020.
- HBFC [19] Ari Holtzman, Jan Buys, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. CoRR, abs/1904.09751, 2019.
- HLW+ [20] Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Lua error: Internal error: The interpreter exited with status 1. Dziedzic, Rishabh Krishnan, and Dawn Song. Pretrained Lua error: Internal error: The interpreter exited with status 1. improve out of distribution robustness. arXiv preprint arXiv:2004.06100, 2020.
- HNA+ [17] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. Lua error: Internal error: The interpreter exited with status 1. scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.
- HR [18] Jeremy Howard and Sebastian Ruder. Universal language model Lua error: Internal error: The interpreter exited with status 1. for text classification. arXiv preprint arXiv:1801.06146, 2018.
- HVD [15] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
- HYC [01] Sepp Hochreiter, A Steven Younger, and Peter R Conwell. Learning to Learn Using Gradient Descent. In International Conference on Artificial Neural Networks, pages 87–94. Springer, 2001.
- HZJ+ [19] Po-Sen Huang, Huan Zhang, Ray Jiang, Robert Stanforth, Johannes Welbl, Jack Rae, Vishal Maini, Dani Yogatama, and Pushmeet Kohli. Reducing sentiment bias in language models via counterfactual evaluation. arXiv preprint arXiv:1911.03064, 2019.
- IBGC+ [14] Mohit Iyyer, Jordan Boyd-Graber, Leonardo Claudino, Richard Socher, and Hal Daumé III. A neural network for factoid question answering over paragraphs. In Empirical Methods in Natural Language Processing, 2014.
- IDCBE [19] Daphne Ippolito, Daniel Duckworth, Chris Callison-Burch, and Douglas Eck. Automatic detection of generated text is easiest when humans are fooled. arXiv preprint arXiv:1911.00650, 2019.
- JCWZ [17] Mandar Joshi, Eunsol Choi, Daniel S. Weld, and Luke Zettlemoyer. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551, 2017.
- JN [20] Zheng Junyuan and Gamma Lab NYC. Numeric Lua error: Internal error: The interpreter exited with status 1. - albert, March 2020.
- JVS+ [16] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
- JYS+ [19] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. TinyBERT: Distilling BERT for natural language understanding. arXiv preprint arXiv:1909.10351, 2019.
- JZC+ [19] Ying Ju, Fubang Zhao, Shijie Chen, Bowen Zheng, Xuefeng Yang, and Yunfeng Liu. Technical report on conversational question answering. arXiv preprint arXiv:1909.10772, 2019.
- KCR+ [18] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL), 2018.
- KKS+ [20] Daniel Khashabi, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system. arXiv preprint arXiv:2005.00700, 2020.
- KMB [20] Sarah E. Kreps, Miles McCain, and Miles Brundage. All the news that’s fit to fabricate: Ai-generated text as a tool of media misinformation, 2020.
- KMH+ [20] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models, 2020.
- KPR+ [19] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Matthew Kelcey, Jacob Devlin, Kenton Lee, Kristina N. Toutanova, Llion Jones, Ming-Wei Chang, Andrew Dai, Jakob Uszkoreit, Quoc Le, and Slav Petrov. Natural questions: a benchmark for question answering research. Transactions of the Association of Computational Linguistics, 2019.
- KR [16] Yoon Kim and Alexander M. Rush. Sequence-level knowledge distillation. Arxiv, 2016.
- LB [02] Edward Loper and Steven Bird. Nltk: The natural language toolkit, 2002.
- LC [19] Guillaume Lample and Alexis Conneau. Cross-lingual language model Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1901.07291, 2019.
- LCG+ [19] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. ALBERT: A lite BERT for Lua error: Internal error: The interpreter exited with status 1. of language representations. arXiv preprint arXiv:1909.11942, 2019.
- LCH+ [20] Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon, and Jianfeng Gao. Adversarial training for large neural language models. arXiv preprint arXiv:2004.08994, 2020.
- LDL [19] Zhongyang Li, Xiao Ding, and Ting Liu. Story ending prediction by transferable bert. arXiv preprint arXiv:1905.07504, 2019.
- LDM [12] Hector Levesque, Ernest Davis, and Leora Morgenstern. The Winograd schema challenge. In Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning, 2012.
- LGG+ [20] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. Multilingual denoising Lua error: Internal error: The interpreter exited with status 1. for neural machine translation. arXiv preprint arXiv:2001.08210, 2020.
- LGH+ [15] Xiaodong Liu, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. Representation learning using multi-task deep neural networks for semantic classification and information retrieval. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015.
- LH [17] Ilya Loshchilov and Frank Hutter. Decoupled Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1711.05101, 2017.
- [69] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Improving multi-task deep neural networks via knowledge distillation for natural language understanding. arXiv preprint arXiv:1904.09482, 2019.
- [70] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Multi-task deep neural networks for natural language understanding. arXiv preprint arXiv:1901.11504, 2019.
- Lin [20] Tal Linzen. How can we accelerate progress towards human-like linguistic generalization? arXiv preprint arXiv:2005.00955, 2020.
- LLG+ [19] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Bart: Denoising Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1. for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461, 2019.
- LM [17] Ke Li and Jitendra Malik. Learning to optimize neural nets. arXiv preprint arXiv:1703.00441, 2017.
- LOG+ [19] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT Lua error: Internal error: The interpreter exited with status 1. approach. arXiv preprint arXiv:1907.11692, 2019.
- LPP+ [20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Kiela Douwe. Retrieval-augmented generation for knowledge-intensive nlp tasks. arXiv preprint arXiv:2005.11401, 2020.
- LSP+ [18] Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, and Noam Shazeer. Generating Wikipedia by summarizing long sequences. arXiv preprint arXiv:1801.10198, 2018.
- LWS+ [20] Zhuohan Li, Eric Wallace, Sheng Shen, Kevin Lin, Kurt Keutzer, Dan Klein, and Joseph E. Gonzalez. Train large, then compress: Rethinking model size for efficient training and inference of Lua error: Internal error: The interpreter exited with status 1., 2020.
- LXL+ [17] Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. Race: Large-scale reading comprehension dataset from examinations. arXiv preprint arXiv:1704.04683, 2017.
- LYN+ [20] Sheng-Chieh Lin, Jheng-Hong Yang, Rodrigo Nogueira, Ming-Feng Tsai, Chuan-Ju Wang, and Jimmy Lin. Tttttackling winogrande schemas. arXiv preprint arXiv:2003.08380, 2020.
- Mac [92] David. MacKay. Information-based Lua error: Internal error: The interpreter exited with status 1. for active data selection. Neural Computation, 1992.
- MBXS [17] Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. Learned in translation: Contextualized word vectors. In Advances in Neural Information Processing Systems, pages 6294–6305, 2017.
- MCCD [13] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
- MCH+ [16] Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James Allen. A corpus and evaluation framework for deeper understanding of commonsense stories. arXiv preprint arXiv:1604.01696, 2016.
- MCKS [18] Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. ArXiv, abs/1809.02789, 2018.
- MKAT [18] Sam McCandlish, Jared Kaplan, Dario Amodei, and OpenAI Dota Team. An empirical model of large-batch training, 2018.
- MKM+ [94] Mitchell Marcus, Grace Kim, Mary Ann Marcinkiewicz, Robert MacIntyre, Ann Bies, Mark Ferguson, Karen Katz, and Britta Schasberger. The penn treebank: annotating predicate argument structure. In Proceedings of the workshop on Human Language Technology, pages 114–119. Association for Computational Linguistics, 1994.
- MKXS [18] Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. The natural language decathlon: Multitask learning as question answering. arXiv preprint arXiv:1806.08730, 2018.
- MPL [19] R Thomas McCoy, Ellie Pavlick, and Tal Linzen. Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. arXiv preprint arXiv:1902.01007, 2019.
- MWZ+ [18] Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting, 2018.
- NBR [20] Moin Nadeem, Anna Bethke, and Siva Reddy. Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456, 2020.
- NK [19] Timothy Niven and Hung-Yu Kao. Probing neural network comprehension of natural language arguments. arXiv preprint arXiv:1907.07355, 2019.
- Nor [09] Peter Norvig. Natural language corpus data, 2009.
- NvNvdG [19] Malvina Nissim, Rik van Noord, and Rob van der Goot. Fair is better than sensational: Man is to doctor as woman is to doctor. arXiv preprint arXiv:1905.09866, 2019.
- NWD+ [19] Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. Adversarial nli: A new benchmark for natural language understanding. arXiv preprint arXiv:1910.14599, 2019.
- oR [16] University of Regensburg. Fascha, 2016.
- PCC [18] Mohammad Taher Pilehvar and Jose Camacho-Collados. WIC: 10,000 example pairs for evaluating context-sensitive representations. arXiv preprint arXiv:1808.09121, 2018.
- PFB [18] Jason Phang, Thibault Févry, and Samuel R. Bowman. Sentence encoders on STILTs: Supplementary training on intermediate labeled-data tasks. arXiv preprint arXiv:1811.01088, 2018.
- PHR+ [18] Lua error: Internal error: The interpreter exited with status 1. Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White, and Benjamin Van Durme. Collecting diverse natural language inference problems for sentence representation evaluation. In Proceedings of EMNLP, 2018.
- PKL+ [16] Denis Paperno, Germán Kruszewski, Angeliki Lazaridou, Quan Ngoc Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, and Raquel Fernández. The lambada dataset: Word prediction requiring a broad discourse context. arXiv preprint arXiv:1606.06031, 2016.
- PNZtY [18] Matthew E. Peters, Mark Neumann, Luke Zettlemoyer, and Wen tau Yih. Dissecting contextual word Lua error: Internal error: The interpreter exited with status 1.: Architecture and representation, 2018.
- Pos [18] Matt Post. A call for clarity in reporting BLEU scores. arXiv preprint arXiv:1804.08771, 2018.
- PSM [14] Jeffrey Pennington, Richard Socher, and Christopher Manning. GloVe: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014.
- QIA [20] QIANXIN. Sa-net on albert (ensemble), April 2020.
- QMZH [19] Yusu Qian, Urwa Muaz, Ben Zhang, and Jae Won Hyun. Reducing gender bias in word-level language models with a gender-equalizing Lua error: Internal error: The interpreter exited with status 1.. arXiv preprint arXiv:1905.12801, 2019.
- RBG [11] Melissa Roemmele, Cosmin Adrian Bejan, and Andrew S Gordon. Choice of plausible alternatives: An evaluation of commonsense causal reasoning. In 2011 AAAI Spring Symposium Series, 2011.
- RCM [19] Siva Reddy, Danqi Chen, and Christopher D Manning. Coqa: A conversational question answering challenge. Transactions of the Association for Computational Linguistics, 7:249–266, 2019.
- RCP+ [17] Scott Reed, Yutian Chen, Thomas Paine, Aäron van den Oord, SM Eslami, Danilo Rezende, Oriol Vinyals, and Nando de Freitas. Few-shot autoregressive density estimation: Towards learning to learn distributions. arXiv preprint arXiv:1710.10304, 2017.
- RJL [18] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don’t know: Unanswerable questions for squad. arXiv preprint arXiv:1806.03822, 2018.
- RL [16] Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. ICLR 2017 (oral), 2016.
- RLL+ [19] Qiu Ran, Yankai Lin, Peng Li, Jie Zhou, and Zhiyuan Liu. NumNet: Machine reading comprehension with numerical reasoning. In Proceedings of EMNLP, 2019.
- RNLVD [18] Rachel Rudinger, Jason Naradowsky, Brian Leonard, and Benjamin Van Durme. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301, 2018.
- RNSS [18] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative Lua error: Internal error: The interpreter exited with status 1., 2018.
- Ros [12] R.S. Ross. Guide for conducting risk assessments. NIST Special Publication, 2012.
- RRBS [19] Jonathan S. Rosenfeld, Amir Rosenfeld, Yonatan Belinkov, and Nir Shavit. A constructive prediction of the generalization error across scales, 2019.
- RRS [20] Lua error: Internal error: The interpreter exited with status 1. Roberts, Colin Raffel, and Noam Shazeer. How much knowledge can you pack into the parameters of a language model? arXiv preprint arXiv:2002.08910, 2020.
- RSR+ [19] Colin Raffel, Noam Shazeer, Lua error: Internal error: The interpreter exited with status 1. Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text Lua error: Internal error: The interpreter exited with status 1., 2019.
- RWC+ [19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners, 2019.
- SBBC [19] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: An adversarial winograd schema challenge at scale, 2019.
- SBC+ [19] Irene Solaiman, Miles Brundage, Jack Clark, Amanda Askell, Ariel Herbert-Voss, Jeff Wu, Alec Radford, Gretchen Krueger, Jong Wook Kim, Sarah Kreps, Miles McCain, Alex Newhouse, Jason Blazakis, Kris McGuffie, and Jasmine Wang. Release strategies and the social impacts of language models, 2019.
- SCNP [19] Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. The woman worked as a babysitter: On biases in language generation. arXiv preprint arXiv:1909.01326, 2019.
- SDCW [19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.
- SDSE [19] Roy Schwartz, Jesse Dodge, Noah A. Smith, and Oren Etzioni. Green AI. CoRR, abs/1907.10597, 2019.
- SHB [15] Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709, 2015.
- SMM+ [17] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated Lua error: Internal error: The interpreter exited with status 1. layer. arXiv preprint arXiv:1701.06538, 2017.
- SPP+ [19] Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism, 2019.
- SS [20] Timo Schick and Hinrich Schütze. Exploiting cloze questions for few-shot text classification and natural language inference. arXiv preprint arXiv:2001.07676, 2020.
- STQ+ [19] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. MASS: Masked Lua error: Internal error: The interpreter exited with status 1. Lua error: Internal error: The interpreter exited with status 1. for language generation. arXiv preprint arXiv:1905.02450, 2019.
- TFR+ [17] Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, and Pieter Abbeel. Domain randomization for transferring deep neural networks from simulation to the real world. In 2017 IEEE/RSJ international conference on intelligent robots and systems (IROS), pages 23–30. IEEE, 2017.
- TL [05] Peter D. Turney and Michael L. Littman. Corpus-based learning of analogies and semantic relations. CoRR, abs/cs/0508103, 2005.
- TL [18] Trieu H. Trinh and Quoc V. Le. A simple method for commonsense reasoning. arXiv preprint arXiv:1806.02847, 2018.
- TLBS [03] Peter D. Turney, Michael L. Littman, Jeffrey Bigham, and Victor Shnayder. Combining independent modules to solve multiple-choice synonym and analogy problems. CoRR, cs.CL/0309035, 2003.
- Tur [20] Project Turing. Microsoft research blog, Feb 2020.
- VBL+ [16] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. Matching Networks for One Shot Learning. In Advances in neural information processing systems, pages 3630–3638, 2016.
- VSP+ [17] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. Lua error: Internal error: The interpreter exited with status 1. is all you need. In Advances in neural information processing systems, 2017.
- WPN+ [19] Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. Superglue: A stickier benchmark for general-purpose language understanding systems. In Advances in Neural Information Processing Systems, pages 3261–3275, 2019.
- WXH+ [18] Yiren Wang, Yingce Xia, Tianyu He, Fei Tian, Tao Qin, ChengXiang Zhai, and Tie-Yan Liu. Multi-agent dual learning. ICLR 2019, 2018.
- XDH+ [19] Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V. Le. Unsupervised data augmentation for consistency training, 2019.
- YdC+ [19] Dani Yogatama, Cyprien de Masson d』Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, et al. Learning and evaluating general linguistic intelligence. arXiv preprint arXiv:1901.11373, 2019.
- YDY+ [19] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. XLNet: Generalized autoregressive Lua error: Internal error: The interpreter exited with status 1. for language understanding. arXiv preprint arXiv:1906.08237, 2019.
- ZHB+ [19] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019.
- ZHR+ [19] Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. Defending against neural fake news. arXiv preprint arXiv:1905.12616, 2019.
- ZLL+ [18] Sheng Zhang, Xiaodong Liu, Jingjing Liu, Jianfeng Gao, Kevin Duh, and Benjamin Van Durme. ReCoRD: Bridging the gap between human and machine commonsense reading comprehension. arXiv preprint arXiv:1810.12885, 2018.
- [143] Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Lua error: Internal error: The interpreter exited with status 1. language models from human preferences, 2019.
- [144] Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Lua error: Internal error: The interpreter exited with status 1. language models from human preferences. ArXiv, abs/1909.08593, 2019.