Translations:Language Models are Few-Shot Learners/9/zh
GPT-3 使用與 GPT-2 相同的架構——一個採用預歸一化的僅解碼器 transformer——但擴展到 1750 億參數,分佈在 96 層中,隱藏維度為 12,288,有 96 個Lua error: Internal error: The interpreter exited with status 1.頭。各層中交替使用稠密和局部帶狀稀疏Lua error: Internal error: The interpreter exited with status 1.模式。