Language Models are Few-Shot Learners/zh
| Research Paper | |
|---|---|
| Authors | Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei |
| Year | 2020 |
| Venue | NeurIPS |
| Topic area | NLP |
| Difficulty | Research |
| arXiv | 2005.14165 |
| Download PDF | |
Language Models are Few-Shot Learners是 OpenAI 的 Brown 等人于 2020 年发表的论文,介绍了GPT-3,一个具有 1750 亿参数的自回归语言模型。该论文证明,足够大的语言模型可以通过上下文学习(in-context learning)执行各种 NLP 任务——仅通过在 prompt 中提供少量示例进行条件化——而无需任何梯度更新或微调。
概述
当时 NLP 领域的主流范式是在大型语料库上预训练模型,然后在特定任务的标注数据集上进行微调。这种方法虽然有效,但需要为每个新任务准备精心整理的数据集,可能引入与狭窄训练分布相关的虚假相关性,并且与人类从极少指令中学习任务的方式不符。
GPT-3 探索了一种替代方案:将自回归语言模型扩展到前所未有的规模,并在 zero-shot、one-shot 和 few-shot 设置下进行评估,其中模型仅接收自然语言描述以及输入 prompt 中可能的少量任务示例。结果表明,仅靠规模就能解锁涌现的 few-shot 学习能力,在许多基准测试中可与微调模型媲美甚至超越。
主要贡献
- GPT-3:一个具有 1750 亿参数的自回归 Transformer 语言模型,规模超过 GPT-2 的 100 倍,在多样化的互联网文本语料库上训练。
- 上下文学习:证明大型语言模型可以从 prompt 中提供的示例学习任务,而无需参数更新。
- few-shot 性能的规模法则:证据表明 few-shot 性能随模型规模在三个数量级(1.25 亿到 1750 亿参数)范围内平滑扩展。
- 对大型语言模型的社会影响和潜在滥用的分析,包括偏见、公平性和能源消耗。
方法
GPT-3 采用与 GPT-2 相同的架构——带有预归一化的仅解码器 Transformer——但扩展到 1750 亿参数,分布在 96 层中,隐藏维度为 12,288,注意力头数为 96。各层中使用了交替的稠密和局部带状稀疏注意力模式。
该模型在约 570 GB 经过过滤和去重的文本数据集上进行训练,主要来自 Common Crawl(使用在高质量参考语料库上训练的分类器进行质量过滤),并辅以 WebText2、Books1、Books2 和英文维基百科。训练使用从 32K 逐步提升至 320 万 token 的 batch 大小,以及带预热的学习率调度。
该论文评估了三种上下文学习设置:
- Zero-shot:模型仅接收描述任务的自然语言指令。
- One-shot:模型接收一个演示示例以及指令。
- Few-shot:模型接收少量演示示例(通常为 10–100 个),受限于 2048 token 的上下文窗口。
在所有设置中,模型以自回归方式生成答案,无需任何权重更新。任务性能通过将模型输出与预期答案进行比较来衡量。
结果
GPT-3 在广泛的 NLP 任务上取得了出色的 few-shot 结果:
- 翻译:few-shot GPT-3 在多个语言对上优于先前的无监督方法,但仍低于最先进的监督系统。
- 问答:在 TriviaQA 上,few-shot GPT-3 达到 71.2% 的准确率,与可访问外部检索系统的微调模型相当。
- 完形填空与补全任务:在 LAMBADA 上,few-shot GPT-3 达到 86.4% 的准确率,超过最先进水平 18 个百分点以上。
- SuperGLUE:few-shot GPT-3 在多项任务上接近微调 BERT-Large 的性能,但在一些双向上下文至关重要的任务上表现欠佳。
性能随模型规模持续提升。zero-shot 与 few-shot 性能之间的差距也随规模增大而扩大,这表明更大的模型更善于利用上下文示例。该论文训练了从 1.25 亿到 1750 亿参数的八种模型规模,以确立这些扩展趋势。
GPT-3 还展示了在算术、单词重排和新词使用方面的能力,表明在足够规模下涌现出更通用的推理能力。
影响
GPT-3 标志着 AI 研究和商业化的转折点。它证明规模可以替代特定任务的监督,催化了更大规模语言模型的发展以及"基础模型"范式。该论文直接促成了 GPT API 的创建,这是首批广泛可用的大型语言模型服务之一,催生了基于上下文学习和 prompt 工程的应用生态系统。
该论文对社会影响的分析——包括偏见放大、在生成虚假信息方面的潜在滥用以及训练的环境成本——有助于将负责任的 AI 披露确立为大型模型发表的规范。其展示的规模法则影响了后续的研究方向,包括 Chinchilla 规模分析以及面向更高计算效率训练的努力。
GPT-3 引入的上下文学习概念从根本上改变了从业者与语言模型的交互方式。用户不再需要为每个任务训练专门的模型,而是可以编写自然语言 prompt 来引出所需的行为——这一做法演变为 prompt 工程领域。这一转变降低了 AI 应用开发的门槛,使非专家也能利用大型语言模型完成各种任务。
GPT-3 的训练成本估计达数百万美元,也引发了关于 AI 能力集中于资金雄厚的组织以及大规模模型训练环境足迹的重要讨论。
该论文在数十项基准上的综合评估为大型语言模型的评估方式设立了新标准,超越了单一任务的排行榜,转向能更好地刻画模型通用智能的广泛能力评估。
参见
- Attention Is All You Need
- BERT Pre-training of Deep Bidirectional Transformers
- Efficient Estimation of Word Representations
参考文献
- Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems 33 (NeurIPS 2020). arXiv:2005.14165
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., 与 Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
- Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.