
Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别并精确定位相关的视觉区域。
23
0
2025-08-30