neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

PaperBench – OpenAI 开源的 AI 智能体评测基准

PaperBench – OpenAI 开源的 AI 智能体评测基准

PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。
19 0 2025-08-30