(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
扩散模型在文本到图像生成中取得了最先进的成果(Saharia 等人,2022;Rombach 等人,2022;Ramesh 等人,2022;Podell 等人,2023),这一研究领域也被应用于文本到视频生成任务(Ho 等人,2022;Blattmann 等人,2023b;a;Gupta 等人,2023;Girdhar 等人,2023;Bar-Tal 等人,2024)。尽管在逼真性、文本依从性和时间一致性方面取得了显著进展,但视频扩散模型对于实时应用来说仍然过于缓慢。我们的工作扩展了这一研究,并使其适用于基于过去观察和动作历史的自回归条件下的实时生成。