neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Docmatix – 为文档视觉问答设计的超大开源数据集

admin|
25

Docmatix 是一个用于文档视觉问答(Document Visual Question Answering,简称 DocVQA)任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对,数据源自130万个PDF文档。Docmatix 数据集的规模是之前数据集的240倍,为训练和优化视觉语言模型(VLM)提供了丰富的资源。

(图片来源网络,侵删)
(图片来源网络,侵删)