Translations:Diffusion Models Are Real-Time Game Engines/18/zh

    From Marovi AI

    給定輸入交互環境 和初始狀態 ,一個「交互世界模擬」是一個「模擬分佈函數」 。給定觀測值之間的距離度量 ,一個「策略」,即給定過去動作和觀測的代理動作分佈 ,初始狀態分佈 和回合長度分佈 ,交互世界模擬的目標是最小化 ,其中 ,以及 是在執行代理策略 時從環境和模擬中抽取的觀測值。重要的是,這些樣本的條件動作總是通過代理與環境 交互獲得,而條件觀測既可以從 獲得(「教師強迫目標」),也可以從模擬中獲得(「自回歸目標」)。