智源官网_拜读未来科技摆渡人生

智源OmniGen2登场，国产多模态图像生成开源！一周狂揽2000星外网爆火

智源统一图像生成模型OmniGen2发布后，立刻在AI图像生成领域掀起巨响，多模态技术生态进一步打通。才一周，GitHub星标就已经破了2000，X上的话题浏览数直接破数十万。

刚刚，统一图像生成模型OmniGen2携重大升级震撼登场。

2024年9月，智源首次放出OmniGen，凭借高度通用性和简洁架构，深受AI社区广泛好评。

18 0 2025-09-02

Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视觉上下文潜在总结技术将视觉信息压缩成紧凑的形式，提高处理效率、减少信息丢失。

22 0 2025-08-31

SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据，总时长达到 55.53小时。

20 0 2025-08-30

See3D（See Video, Get 3D）是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同，See3D采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

21 0 2025-08-30

FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架，能全面评估处理文本、图像、视频等多种模态的模型，支持多种任务和指标。框架采用评测与模型推理解耦的设计，统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程，提升评测效率，便于快速适配新任务和模型。

23 0 2025-08-29

ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）共同推出的，针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音数据，来自397名儿童，覆盖中国22个省级行政区，性别分布均衡。

20 0 2025-08-28

CCI 3.0是智源研究院发布的一个大规模的中文互联网语料库，包含了1000GB的数据集和498GB的高质量子集CCI 3.0-HQ。该版本在数据规模上相较于CCI 2.0扩大了近一倍，数据来源机构增加至20多家，提升了数据的覆盖面和代表性。

20 0 2025-08-28

‹‹ 1 ››