neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频。
18 0 2025-08-31