该模型在一个经过过滤和去重的约 570 GB 文本数据集上训练,主要来源于 Common Crawl(使用基于高质量参考语料训练的分类器进行质量过滤),并补充了 WebText2、Books1、Books2 和英文维基百科。训练使用了从 32K 逐步增加到 3.2M token 的批大小,以及带有预热的学习率调度。