neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容,保持语义连续性,并在多种任务中表现出色,如视频问答、自我中心规划和流式字幕生成。
22 0 2025-08-31
VideoLLaMA3 – 阿里达摩院推出的多模态基础模型

VideoLLaMA3 – 阿里达摩院推出的多模态基础模型

VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 SigLip)和强大的语言生成能力,能高效处理长视频序列,支持多语言的视频内容分析和视觉问答任务。
22 0 2025-08-31
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运动预测作为动态引导信号,生成更连贯的运动。
21 0 2025-08-31
VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力,且保持区域间的特征分离,解决现有扩散模型中语义错位和特征耦合的问题。
17 0 2025-08-31
VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节和时间连贯性的高清视频。
18 0 2025-08-31
VideoDoodles – Adobe推出的AI视频编辑框架

VideoDoodles – Adobe推出的AI视频编辑框架

VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画,实现与视频内容的无缝融合。通过预处理视频帧,系统提供平面画布,用户可以视频上绘制动画,系统自动处理透视和遮挡效果。
25 0 2025-08-31
VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒

VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒

VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。
24 0 2025-08-31
VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人控制动作。VideoAgent基于自我条件一致性方法细化视频计划,用预训练的视觉-语言模型(VLM)反馈进行迭代优化。
20 0 2025-08-31
Video-baidu09XL – 智源联合多所高校推出的开源超长视觉理解模型

Video-baidu09XL – 智源联合多所高校推出的开源超长视觉理解模型

Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视觉上下文潜在总结技术将视觉信息压缩成紧凑的形式,提高处理效率、减少信息丢失。
21 0 2025-08-31
Video-baidu09T1 – 清华联合腾讯推出的视频生成技术

Video-baidu09T1 – 清华联合腾讯推出的视频生成技术

Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-Time Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1 在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。
25 0 2025-08-31