浙大oa_拜读未来科技摆渡人生

VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像中的目标物体，如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2.5-VL 架构，结合 DeepSeek 的 R1 方法，通过强化学习优化和监督微调（SFT）提升模型的稳定性和泛化能力。

19 0 2025-08-31

TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型

TableGPT2是浙江大学推出的新型大型多模态模型，针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练，直接理解并操作数据库、Excel等数据，执行SQL查询、数据分析等任务。模型包含创新的表格编码器，强化对不规则表格和模糊查询的处理能力，在多个基准测试中性能显著提升。

23 0 2025-08-31

DRA-baidu09Ctrl – 浙大联合蚂蚁等机构推出的跨模态图片编辑框架

DRA-Ctrl（Dimension-Reduction Attack）是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维度高维特征表示，实现对图片主体的状态预测与精准编辑。

19 0 2025-08-28

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30