
从Debugger到Developer - 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。
那么,当我们将任务从「修复一个已知问题」升级为「根据软件文档添加一个新功能」时,当今最强的 AI 模型表现如何?
18
0
2025-09-01