
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
视频理解的CoT推理能力,怎么评?
中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。

14
0
2025-09-04