neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。


为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化的“机器学习工程师”。

5 0 2025-09-07
斯坦福新作:无指令调优的指令遵循

斯坦福新作:无指令调优的指令遵循

斯坦福新作:无指令调优的指令遵循


指令调优(Instruction tuning)是一种优化技术,通过对模型的输入进行微调,以使其更好地适应特定任务。先前的研究表明,指令调优样本效率是很高效的,只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。


15 0 2025-09-05
VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人控制动作。VideoAgent基于自我条件一致性方法细化视频计划,用预训练的视觉-语言模型(VLM)反馈进行迭代优化。
20 0 2025-08-31
LocAgent – 斯坦福联合耶鲁大学等机构推出的代码问题定位智能体

LocAgent – 斯坦福联合耶鲁大学等机构推出的代码问题定位智能体

LocAgent是斯坦福大学、耶鲁大学和南加州大学等机构联合推出的,专注于代码定位任务的框架,帮助开发者快速准确地找到代码库中需要修改的部分。LocAgent将代码库解析为有向异构图,捕捉代码的结构和依赖关系,让大型语言模型(LLM)基于强大的多跳推理能力,高效地搜索和定位相关代码实体。
24 0 2025-08-29