neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

admin|
21

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块(CAM)和外观保持模块(APM)以及随机混合方法,实现了长视频(最长达1200帧、时长2分钟)的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量,还使得视频内容更加丰富和动态,从而在长视频生成领域取得了显著进步。

StreamingT2V的工作流程可以分为以下几个主要阶段:

(图片来源网络,侵删)
(图片来源网络,侵删)