Translations:Diffusion Models Are Real-Time Game Engines/36/zh

Stable Diffusion v1.4 的預訓練自動編碼器將 8x8 像素塊壓縮為 4 個潛通道，在預測遊戲幀時會導致有意義的偽影，影響小細節，尤其是底欄 HUD（「抬頭顯示」）。為了在提高圖像質量的同時利用預訓練的知識，我們僅使用針對目標幀像素計算的 MSE 損失來訓練潛在自動編碼器的解碼器。使用 LPIPS（Zhang 等人（2018））等感知損失可能會進一步提高質量，我們將其留待未來工作中研究。重要的是，請注意這個微調過程完全獨立於 U-Net 微調過程，而且自回歸生成不受其影響（我們僅對潛變量自回歸地進行條件設置，而非像素）。附錄 A.2 展示了對自動編碼器進行微調和不進行微調的生成示例。