neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo

合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo

合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo

虽然扩散模型在视频生成领域展现出了卓越的性能,但是视频扩散模型通常需要大量的推理步骤对高斯噪声进行去噪才能生成一个视频。这个过程既耗时又耗计算资源。例如,HunyuanVideo [1] 需要 3234 秒才能在单张 A100 上生成 5 秒、720×1280、24fps 的视频。


为了解决上述问题,上海AI Lab提出了一种创新性的高效蒸馏方法 AccVideo,旨在利用合成数据集加速视频扩散模型。AccVideo 相比于教师模型(HunyuanVideo)[1] 提升了

1 0 2025-09-08
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。


这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。

16 0 2025-09-03