neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Docmatix – 为文档视觉问答设计的超大开源数据集

admin|2025-08-28

Docmatix 是一个用于文档视觉问答（Document Visual Question Answering，简称 DocVQA）任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对，数据源自130万个PDF文档。Docmatix 数据集的规模是之前数据集的240倍，为训练和优化视觉语言模型（VLM）提供了丰富的资源。

（图片来源网络，侵删）