neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2.5-VL 架构,结合 DeepSeek 的 R1 方法,通过强化学习优化和监督微调(SFT)提升模型的稳定性和泛化能力。
19 0 2025-08-31
TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型

TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型

TableGPT2是浙江大学推出的新型大型多模态模型,针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练,直接理解并操作数据库、Excel等数据,执行SQL查询、数据分析等任务。模型包含创新的表格编码器,强化对不规则表格和模糊查询的处理能力,在多个基准测试中性能显著提升。
23 0 2025-08-31