neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

InfiMM-baidu09WebMath-baidu0940B – 字节联合中科院开源的超大规模多模态数据集

admin|
28

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath-40B 能显著提升模型在数学推理方面的能力,在 MathVerse 和 We-Math 等基准测试中取得了优异的成绩。

(图片来源网络,侵删)
(图片来源网络,侵删)