擴散模型在文本到圖像生成中取得了最先進的成果(Saharia 等人,2022;Rombach 等人,2022;Ramesh 等人,2022;Podell 等人,2023),這一研究領域也被應用於文本到視頻生成任務(Ho 等人,2022;Blattmann 等人,2023b;a;Gupta 等人,2023;Girdhar 等人,2023;Bar-Tal 等人,2024)。儘管在逼真性、文本依從性和時間一致性方面取得了顯著進展,但視頻擴散模型對於實時應用來說仍然過於緩慢。我們的工作擴展了這一研究,並使其適用於基於過去觀察和動作歷史的自回歸條件下的實時生成。