Translations:Language Models are Few-Shot Learners/10/zh

該模型在一個經過過濾和去重的約 570 GB 文本數據集上訓練,主要來源於 Common Crawl(使用基於高質量參考語料訓練的分類器進行質量過濾),並補充了 WebText2、Books1、Books2 和英文維基百科。訓練使用了從 32K 逐步增加到 3.2M token 的批大小,以及帶有預熱的學習率調度。