Translations:Diffusion Models Are Real-Time Game Engines/18/zh

    From Marovi AI
    Revision as of 00:19, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "给定输入交互环境 <math>\mathcal{E}</math> 和初始状态 <math>s_{0} \in \mathcal{S}</math>,一个“交互世界模拟”是一个“模拟分布函数” <math>q \left( o_{n} \,|\, \{o_{< n}, a_{\leq n}\} \right), \; o_{i} \in \mathcal{O}, \; a_{i} \in \mathcal{A}</math>。给定观测值之间的距离度量 <math>D: \mathcal{O} \times \mathcal{O} \rightarrow \mathbb{R}</math>,一个“策略”,即给定过去动作和观测的代理动作分布 <math>...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    給定輸入交互環境 和初始狀態 ,一個「交互世界模擬」是一個「模擬分佈函數」 。給定觀測值之間的距離度量 ,一個「策略」,即給定過去動作和觀測的代理動作分佈 ,初始狀態分佈 和回合長度分佈 ,交互世界模擬的目標是最小化 ,其中 ,以及 是在執行代理策略 時從環境和模擬中抽取的觀測值。重要的是,這些樣本的條件動作總是通過代理與環境 交互獲得,而條件觀測既可以從 獲得(「教師強迫目標」),也可以從模擬中獲得(「自回歸目標」)。