超6万GitHub项目实测:Agent写代码效率暴涨,通过率仍落后人类
创始人
2026-02-17 16:00:49

当 AI 用 3 天完成人类程序员原本3年的代码任务量,人类的角色会发生怎样的变化?

当前,AI 正在从工具变为人类的“队友”。随着大模型的加速发展,AI 在软件工程领域的作用已不再是辅助代码补全,而是正在成为可自主编码的智能体(Agent)。

现在,我们只需向 AI 描述代码想要实现的功能,它就能自动生成完整代码;借助 Agent,甚至能在十几分钟内完成千行级别的代码生成或修改。

近期,加拿大女王大学博士后李豪与所在团队在一项研究中首次构建了一个大规模数据集 AIDev,系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的实际表现和影响。

其覆盖范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并请求(PR,pull requests),涵盖 6.1 万个代码库和 4.7 万名开发者,包括主流的 AI 编码工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。

图丨李豪(受访者)

研究人员在 AI 领域和软件工程做相关研究时,往往会选择用 SWE-bench 做测试,通过交给 AI 一些高质量、有测试样例的任务,来优化 AI 性能以及优化系统设计等。

但这也带来了很多挑战性的问题。例如,一家公司如果将测试题目用于训练模型,极有可能因“作弊”导致分数虚高。此外,由于 SWE-bench 是一个静态的基准集(benchmark),部分数据有可能存在一定滞后性。

李豪指出,该研究最大的不同点在于,AIDev 是真实世界、大规模、实时采集数据的数据集,更贴近于业界实践和生产。此外,研究人员还可以利用该数据集打造更新的 benchmark。

(arXiv)

研究团队在 AI 编码 Agent 的速度和质量方面找到了有趣的发现。一项个例分析结果显示,有开发者在使用 AI 编码 Agent 后,3 天内完成的任务量接近其过去 3 年的总量。

而 AI 在自然语言处理方面的优势,也同样值得关注。他们发现,AI 在编写代码或文本方面的任务中表现优异,例如从文档相关的合并请求接受率来看,OpenAI Codex 和 Claude Code 分别为 88.6% 和 85.7%,而人类在该方面表现为 76.5%。

(arXiv)

合并请求接受率是衡量 AI 产出质量和可信度的关键指标,它与人类开发者/项目维护者对 AI 贡献的认可度密切相关。该团队还发现,编码 Agent 的合并请求接受率比人类开发者低 15% 至 40%(不同任务类型下区间差异显著),尤其是在新功能开发、修复 Bug 等复杂的任务方面。例如,OpenAI Codex 的 PR 接受率为 64%,而人类开发者的 PR 接受率高达 76.8%。

这意味着,AI 写代码并非全面超越了人类。需要看到的是,尽管目前 AI 编码 Agent 生成速度很快,但性能方面还有一些缺陷,在结构上也相对较简单,需要研究人员继续对其进行增强,以确保代码的长期可维护性。

李豪对 DeepTech 表示:“短期看,AI Agent 的代码接受率相对人类较低,效率与质量的取舍仍需权衡(trade-off),但这种磨合期对应的是数据飞轮的启动阶段,形成飞轮效应后,我们有望获得生产力的显著提升。”

(arXiv)

该研究通过分析自主编码 Agent 的表现,为未来更好地优化人与 AI 协作提供了数据基础。这也带来了一种全新的生成模式,开发者面临的问题不是如何写更多的代码,而是接到一项任务后,如何拆分成更细的任务,再管理这些 AI 更好地执行。

“该方向在学界和产业界还存在较大的空白。编程人员的角色也会逐渐从写代码的人,转换成提供代码审查或提供管理模式的人。目前,我们也在做相关的研究,来探索新一代软件开发流程来支持开发者们利用 AI Agent。”李豪表示。

此外研究还揭示出,尽管 AI 的出现推动了人机协同审查流程,但同时也可能会带来偏见等问题。例如,假如 AI 写代码的 Agent 与审查代码的机器人自同一公司,很有可能在AI审查环节忽视某些特定类型的错误。

在未来的研究中,该团队计划建立更全面的 benchmark,对 AI 编程 Agent 进行真实的表现评测。他们还打算建立新知识库,推动领域内的研究人员共同改进相关方向,包括如何更好地预测和分析AI可能的失败场景,以及失败原因等。从更长远的发展来看,探索更自动化与标准化的审查机制,也是一个值得深入研究的方向。

相关论文以《软件工程 3.0 中 AI 队友的崛起:自主编码 Agent 如何重塑软件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)为题发表在 arXiv[1]。目前,相关代码已在 GitHub 开源。

参考资料:

1.相关论文:https://arxiv.org/abs/2507.15003v1

2.AIDev 数据集获取:https://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花

相关内容

热门资讯

新兴产业 | 国内同等功率最高... 6月5日,由中国航发控制系统研究所(以下简称“中国航发动控所”)自主研制的AEE25航空电动发动机,...
暨大体育学院院长苏炳添拟获广东... 据广东省科技厅官网6月7日消息,2025年度广东省科学技术奖评审工作已经结束,根据《广东省科学技术奖...
科创托举新赛道,济南蓄力未来产... 科技突破的高度,决定未来产业发展的深度。近期《求是》杂志发表的重要文章,深刻阐明了培育未来产业对抢占...
2026年小直屏拍照好看手机推... 随着屏幕尺寸不断内卷,越来越多的用户开始怀念单手即可掌控的舒适手感。2026年,小屏旗舰市场迎来了几...
前次募资改道AI算力!明阳电路... 传统PCB主业增长遇阻之际,明阳电路(300739.SZ)发可转债加码AI赛道。 6月5日晚,明阳电...