
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
本文由马里兰大学,微软研究院联合完成。作者包括马里兰大学博士生陈玖海,主要研究方向为语言模型,多模态模型。通讯作者为 Bin Xiao, 主要研究方向为计算机视觉,深度学习和多模态模型。其他作者包括马里兰大学助理教授Tianyi Zhou , 微软研究院研究员 Jianwei Yang , Haiping Wu, Jianfeng Gao 。
14
0
2025-09-02