开源mock_拜读未来科技摆渡人生

StarVector – 开源多模态视觉语言模型，支持图像和文本到 SVG 生成

StarVector 是开源的多模态视觉语言模型，ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发，专注于将图像和文本转换为可缩放矢量图形（SVG）代码。模型采用多模态架构，能同时处理图像和文本信息，直接在 SVG 代码空间中操作，生成标准的、可编辑的 SVG 文件。

18 0 2025-08-31

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型，基于 Moshi 实时对话语音模型开发，增加了视觉输入功能。能实现图像的自然、实时语音交互，将语音和视觉信息相结合，让用户可以通过语音与模型交流图像内容。

21 0 2025-08-30

Morphik – 开源的多模态检索增强生成工具

Morphik 是开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索，采用 ColPali 等技术，能理解文档中的视觉内容。

23 0 2025-08-30

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30