
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性,虽然效果出色,但计算量会随着 token 数量呈平方增长
6
0
2025-09-07