Translations:Language Models are Few-Shot Learners/9/zh

GPT-3 使用与 GPT-2 相同的架构——一个采用预归一化的仅解码器 transformer——但扩展到 1750 亿参数,分布在 96 层中,隐藏维度为 12,288,有 96 个注意力头。各层中交替使用稠密和局部带状稀疏注意力模式。