neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

StarVector – 开源多模态视觉语言模型,支持图像和文本到 SVG 生成

StarVector – 开源多模态视觉语言模型,支持图像和文本到 SVG 生成

StarVector 是开源的多模态视觉语言模型,ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发,专注于将图像和文本转换为可缩放矢量图形(SVG)代码。 模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。
18 0 2025-08-31
MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。
21 0 2025-08-30
Morphik – 开源的多模态检索增强生成工具

Morphik – 开源的多模态检索增强生成工具

Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。
23 0 2025-08-30