(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
給定輸入交互環境
和初始狀態
,一個「交互世界模擬」是一個「模擬分布函數」
。給定觀測值之間的距離度量
,一個「策略」,即給定過去動作和觀測的代理動作分布
,初始狀態分布
和回合長度分布
,交互世界模擬的目標是最小化
,其中
,
,以及
是在執行代理策略
時從環境和模擬中抽取的觀測值。重要的是,這些樣本的條件動作總是通過代理與環境
交互獲得,而條件觀測既可以從
獲得(「教師強迫目標」),也可以從模擬中獲得(「自回歸目標」)。