neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

视频理解的CoT推理能力,怎么评?


中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

14 0 2025-09-04
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。


和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。


15 0 2025-09-03