neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VITA – 腾讯推出的开源多模态AI模型

VITA – 腾讯推出的开源多模态AI模型

VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了双语指令微调,支持自然人机交互,无需唤醒词即可响应。
19 0 2025-08-31
VILA-baidu09U – 融合多模态理解和生成的统一基础模型

VILA-baidu09U – 融合多模态理解和生成的统一基础模型

VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构,在视觉语言理解和生成方面实现接近最先进水平的性能。VILA-U的成功归因于在预训练期间将离散视觉标记与文本输入对齐的能力,及自回归图像生成技术,后者能在高质量数据集上达到与扩散模型相似的图像质量。
17 0 2025-08-31
VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目

VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目

VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI 模型来生成合成的3D数据,解决了3D训练数据稀缺的问题。
16 0 2025-08-31
VE-baidu09Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-baidu09Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时,不仅考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。
15 0 2025-08-31
VARGPT – 北大推出的多模态理解生成统一模型

VARGPT – 北大推出的多模态理解生成统一模型

VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构基础上进行扩展,通过next-token预测实现视觉理解,通过next-scale预测实现视觉生成,能高效处理混合模态输入和输出。
18 0 2025-08-31
VACE – 阿里通义推出的视频生成与编辑框架

VACE – 阿里通义推出的视频生成与编辑框架

VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。
20 0 2025-08-31
V-baidu09JEPA 2 – Meta AI开源的世界大模型

V-baidu09JEPA 2 – Meta AI开源的世界大模型

V-JEPA 2 是Meta AI推出的世界大模型,基于视频数据实现对物理世界的理解、预测和规划。V-JEPA 2 用于 12 亿参数的联合嵌入预测架构(JEPA),基于自监督学习从超过 100 万小时的视频和 100 万张图像中训练而成。
19 0 2025-08-31
Univer – 开源 AI 办公工具,支持Word、Excel等文档处理全栈解决方案

Univer – 开源 AI 办公工具,支持Word、Excel等文档处理全栈解决方案

Univer是开源的全栈框架,支持创建和编辑电子表格、文档及幻灯片,为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node.js环境中运行,易于集成到各种应用中。Univer跨平台兼容性、强大的功能(包括公式计算、条件格式、数据验证等)、高度可扩展和可定制化的特点,及优异的性能表现,为用户提供现代化的办公工具。
20 0 2025-08-31
Unique3D – 清华大学团队开源的图像到3D生成模型

Unique3D – 清华大学团队开源的图像到3D生成模型

Unique3D是由清华大学团队开源的一个单张图像到3D模型转换的框架,通过结合多视图扩散模型和法线扩散模型,以及一种高效的多级上采样策略,能够从单张图片中快速生成具有高保真度和丰富纹理的3D网格。
18 0 2025-08-31