GPT-3 使用與 GPT-2 相同的架構——一個採用預歸一化的僅解碼器 transformer——但擴展到 1750 億參數,分布在 96 層中,隱藏維度為 12,288,有 96 個注意力頭。各層中交替使用稠密和局部帶狀稀疏注意力模式。