Language Models are Few-Shot Learners/zh

Research Paper
Authors	Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei
Year	2020
Venue	NeurIPS
Topic area	NLP
Difficulty	Research
arXiv	2005.14165
PDF	Download PDF

This page is a translated version of the page Language Models are Few-Shot Learners and the translation is 100% complete.

Other languages:

English
Español
中文

Languages: English | Español | 中文

Language Models are Few-Shot Learners是 OpenAI 的 Brown 等人於 2020 年發表的論文，介紹了GPT-3，一個具有 1750 億參數的自回歸語言模型。該論文證明，足夠大的語言模型可以通過上下文學習（in-context learning）執行各種 NLP 任務——僅通過在 prompt 中提供少量示例進行條件化——而無需任何梯度更新或微調。

概述

當時 NLP 領域的主流範式是在大型語料庫上預訓練模型，然後在特定任務的標註數據集上進行微調。這種方法雖然有效，但需要為每個新任務準備精心整理的數據集，可能引入與狹窄訓練分佈相關的虛假相關性，並且與人類從極少指令中學習任務的方式不符。

GPT-3 探索了一種替代方案：將自回歸語言模型擴展到前所未有的規模，並在 zero-shot、one-shot 和 few-shot 設置下進行評估，其中模型僅接收自然語言描述以及輸入 prompt 中可能的少量任務示例。結果表明，僅靠規模就能解鎖湧現的 few-shot 學習能力，在許多基準測試中可與微調模型媲美甚至超越。

主要貢獻

GPT-3：一個具有 1750 億參數的自回歸 Transformer 語言模型，規模超過 GPT-2 的 100 倍，在多樣化的互聯網文本語料庫上訓練。
上下文學習：證明大型語言模型可以從 prompt 中提供的示例學習任務，而無需參數更新。
few-shot 性能的規模法則：證據表明 few-shot 性能隨模型規模在三個數量級（1.25 億到 1750 億參數）範圍內平滑擴展。
對大型語言模型的社會影響和潛在濫用的分析，包括偏見、公平性和能源消耗。

方法

GPT-3 採用與 GPT-2 相同的架構——帶有預歸一化的僅解碼器 Transformer——但擴展到 1750 億參數，分佈在 96 層中，隱藏維度為 12,288，注意力頭數為 96。各層中使用了交替的稠密和局部帶狀稀疏注意力模式。

該模型在約 570 GB 經過過濾和去重的文本數據集上進行訓練，主要來自 Common Crawl（使用在高質量參考語料庫上訓練的分類器進行質量過濾），並輔以 WebText2、Books1、Books2 和英文維基百科。訓練使用從 32K 逐步提升至 320 萬 token 的 batch 大小，以及帶預熱的學習率調度。

該論文評估了三種上下文學習設置：

Zero-shot：模型僅接收描述任務的自然語言指令。
One-shot：模型接收一個演示示例以及指令。
Few-shot：模型接收少量演示示例（通常為 10–100 個），受限於 2048 token 的上下文窗口。

在所有設置中，模型以自回歸方式生成答案，無需任何權重更新。任務性能通過將模型輸出與預期答案進行比較來衡量。

結果

GPT-3 在廣泛的 NLP 任務上取得了出色的 few-shot 結果：

翻譯：few-shot GPT-3 在多個語言對上優於先前的無監督方法，但仍低於最先進的監督系統。
問答：在 TriviaQA 上，few-shot GPT-3 達到 71.2% 的準確率，與可訪問外部檢索系統的微調模型相當。
完形填空與補全任務：在 LAMBADA 上，few-shot GPT-3 達到 86.4% 的準確率，超過最先進水平 18 個百分點以上。
SuperGLUE：few-shot GPT-3 在多項任務上接近微調 BERT-Large 的性能，但在一些雙向上下文至關重要的任務上表現欠佳。

性能隨模型規模持續提升。zero-shot 與 few-shot 性能之間的差距也隨規模增大而擴大，這表明更大的模型更善於利用上下文示例。該論文訓練了從 1.25 億到 1750 億參數的八種模型規模，以確立這些擴展趨勢。

GPT-3 還展示了在算術、單詞重排和新詞使用方面的能力，表明在足夠規模下湧現出更通用的推理能力。

影響

GPT-3 標誌着 AI 研究和商業化的轉折點。它證明規模可以替代特定任務的監督，催化了更大規模語言模型的發展以及"基礎模型"範式。該論文直接促成了 GPT API 的創建，這是首批廣泛可用的大型語言模型服務之一，催生了基於上下文學習和 prompt 工程的應用生態系統。

該論文對社會影響的分析——包括偏見放大、在生成虛假信息方面的潛在濫用以及訓練的環境成本——有助於將負責任的 AI 披露確立為大型模型發表的規範。其展示的規模法則影響了後續的研究方向，包括 Chinchilla 規模分析以及面向更高計算效率訓練的努力。

GPT-3 引入的上下文學習概念從根本上改變了從業者與語言模型的交互方式。用戶不再需要為每個任務訓練專門的模型，而是可以編寫自然語言 prompt 來引出所需的行為——這一做法演變為 prompt 工程領域。這一轉變降低了 AI 應用開發的門檻，使非專家也能利用大型語言模型完成各種任務。

GPT-3 的訓練成本估計達數百萬美元，也引發了關於 AI 能力集中於資金雄厚的組織以及大規模模型訓練環境足跡的重要討論。

該論文在數十項基準上的綜合評估為大型語言模型的評估方式設立了新標準，超越了單一任務的排行榜，轉向能更好地刻畫模型通用智能的廣泛能力評估。

參見

參考文獻

Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems 33 (NeurIPS 2020). arXiv:2005.14165
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., 與 Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.