Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视觉上下文潜在总结技术将视觉信息压缩成紧凑的形式,提高处理效率、减少信息丢失。
22
0
2025-08-31
Infinity-MM是智源研究院推出的千万级多模态指令数据集,包含4300万条样本,数据量达10TB。数据集经过质量过滤和去重,确保高质量和多样性,能提升开源视觉-语言模型(VLMs)的性能。智源推出基于开源VLMs的合成数据生成方法,进一步扩充数据集规模和多样性。
20
0
2025-08-29
FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程,提升评测效率,便于快速适配新任务和模型。
23
0
2025-08-29
CCI 3.0是智源研究院发布的一个大规模的中文互联网语料库,包含了1000GB的数据集和498GB的高质量子集CCI 3.0-HQ。该版本在数据规模上相较于CCI 2.0扩大了近一倍,数据来源机构增加至20多家,提升了数据的覆盖面和代表性。
20
0
2025-08-28