作者:Chris Paxton,机器人学家和人工智能研究员,曾任职于英伟达和 Meta FAIR。
有关自我改进 AI 的研究论文越来越多,agentic AI 的能力也在不断提升,而 AI 行业领导者的预测却愈发夸张。这意味着什么?
最近发生了一些奇怪的事情。在 AI Agent 渗透进各个领域的同时,AI 行业领导者对失业和未来的预测却越来越夸张。当然,其中一部分是营销策略:AI 公司需要推广他们的产品。但增长是真实的:AI 在许多不同行业的应用正呈爆炸式增长。而这一切的背后,是人们越来越担忧的未来前景。
当我们看到类似这样的报道时,就不难理解为何会如此了:OpenAI 召集了一群数学家参加秘密会议,希望为他们的最新模型设计出更具挑战性的问题,但努力似乎大多以失败告终。
在《AI 2027》中,作者描绘了一个发人深省的场景:AI Agent 变得越来越强。最终,2027 年 1 月,一种能够进行递归自我改进的 AI Agent 问世了,试图引发一场“智能爆炸”。年中,一个自我改进 AI 系统出现了,它既可以导致大规模失业,也能让其管理的工厂每月生产一百万个机器人。
然而,这只是一个可能的未来。这种情况的可能性有多大?我们距离构建能够在虚拟世界中采取行动、自我改进并大幅重塑和重建经济的 AI 系统还有多远?我们是否真的如一些人所言,正处于通用人工智能(AGI)的临界点?我认为:
如果我们希望在未来 2-3 年内看到“智能爆炸”出现,那么导致这一爆炸的研究趋势现在就应该显现出来了。
在这篇文章中,我将探讨一些实际的研究论文——具体描述当前自我改进系统正在做的事情,以及它们对未来意味着什么。Dwakesh Patel 等人已经写出了更好的关于“智能爆炸”可能性的文章,但没有探讨关于这些事情当前是如何实际运作的。所以让我们从这个论点开始——自我改进 AI 将以两种方式出现:
有一点是明确的,我们的机器实际上已经开始“思考”并花大量时间执行任务:它们进行推理(在自然语言空间中),采取行动,寻找并收集数据。我们已经拥有了许多能够花费无限时间解决问题并逐步接近更优解的系统——这些系统被称为“任意时间算法(anytime algorithms) ”——但这并非我们习惯的自主系统的工作方式。
我们习惯于将计算机视为工具——它们只做一件事,且做得很快,然后我们再继续这一环路。但现在,可以代表用户进行推理、规划和追求目标的 AI agent 成为了新的前沿。事实上,我们早已拥有能够自主执行长时、多步骤任务的“任务规划”系统,类似于 BUMBLE:
如今的不同之处在于,由于视觉大语言模型(VLM)具有多模态特性,它们实际上可以作用于为人类用户设计的自然界面。在上述论文中,我们可以看到该系统实际上极其复杂:
相应地,这意味着系统可能存在大量可能出现故障的环节。如果一个系统包含 10 个组件且每个组件的成功率为 95%,那么整体成功率将低于 60%!
因此,我们可以利用现代人工智能工具构建能够满足模糊、长期目标的复杂系统,既适用于虚拟任务,也(越来越多地)适用于现实世界中的机器人任务。那么问题在于,我们需要一些方法来提升这些系统的性能,使其达到较高水平,从而真正开始改变一些事情。
我们将探讨两种能够改进为人类完成长程任务的 agentic 系统的途径:
Transformer 是 AI 系统采取行动并与世界交互的基础构件,其架构非常适合这一角色,可以表示许多不同的数据模态。一个基本步骤是构建能够不断递归自我改进的 AI 模型。一个可能的示例循环如下:
Nayoung Lee 等人基于多数投票机制探讨了这一问题。他们研究了迷宫解谜和乘法运算等多种任务。
问题在于,许多这类问题都可以很好地扩展,而这种特性或许在更开放式的推理问题中并不明显。正如作者指出的,这些问题由易到难,每个阶段都明确建立在前一阶段的基础上。
大多人类问题是可以被分解的,但往往不如这些问题清晰。多数投票或测试时计算等方案的另一个问题是:它们本质上只是提取了模型中已有的能力,如我在关于强化学习(RL)的帖子中提到的,基础模型本身已经非常强大,如果为给定问题抽取大量样本,基础模型的大量样本池实际上比基于它的精简模型更可能包含解决方案。
从最基本的层面来看,强化学习旨在研究能够随时间自我改进的学习系统。我曾详细探讨过强化学习及其当前的局限性。有一类问题,现代强化学习能够处理得非常出色。简而言之:
对于像我们假设的自我改进 AI agent 这样的开放式推理问题,这显然是一个重大问题,因为此类问题通常存在定义不清的缺陷。例如,当我着手撰写像这样的一篇博客文章时,我实际上并不知道文章最终会包含什么内容,它应该包含什么,什么才算对该主题的良好总结。这使得强化学习在某些影响深远但高度受限的领域之外更难应用。
但有一些证据表明,即使是在具有清晰定义和可验证奖励(verifiable rewards)的领域中,强化学习也可能有助于学习更通用的推理能力——这一点在 OpenAI 的 o1、o3、o4 模型和 Deepseek-R1 等推理模型中已有体现。因此,让我们来讨论如何利用这些可验证的奖励。
“可验证奖励”在数学或编程等领域很常见,你可以通过程序化方式验证 LLM 输出结果的正确性。这在一定程度上解决了“奖励函数”问题,因为你可以低成本地评估 LLM 生成的解决方案,这可以让强化学习算法逐步生成更好的解决方案。我们称之为可验证奖励强化学习(RLVR),这是当前非常令人兴奋的研究领域,已经产生了诸多令人瞩目的成果。
然而,最近的 RLVR 研究中出现了一些奇怪的现象。首先,研究人员发现仅凭一个示例即可取得成功。随后,其他研究人员展示了使用弱或虚假奖励、甚至随机奖励来训练 LLM,仍能获得性能提升!
巧合的是,所有这些成果都是在 Qwen 2.5 上获得的,而 Qwen 的数学模型是基于非常相似的问题进行训练的;即使是随机分配的奖励,随着时间推移也会减少模型生成结果的分布;由于 Qwen 本身就非常可能生成正确的答案,这种置信度(confidence)的增强转化为了准确率的提高,且无需能力的“真正”提升。
像这样的几个新奇的发现显然不会否定一个研究领域;它们只是提醒我们,对于真正令人惊叹的结果,我们应该始终保持怀疑态度。而且,正如往常一样,应当警惕数据中的隐藏偏差。
更重要的是来自 Deepseek-R1 论文中的一些注释。简而言之:
因此,RLVR 仅凭自身并不足以实现通用推理。正如我此前所指出的,这些方法最适合应用于定义明确的问题上,而构建能够自我改进的模型本质上是一个定义非常模糊的问题。
如果我们无法手动指定一个可验证奖励,那么我们显然需要某种形式的可学习奖励信号。那么问题就变成了:如何以一种可扩展、数据驱动的方式训练通用奖励函数?
在某种程度上,我们已经这样做了;RLHF 根据人类对哪些答案更优的评分来训练奖励函数。RLHF 的问题在于它不可扩展;所学习的奖励函数仅在局部有用。如果你将 RLHF“训练到收敛”,其结果反而会变差。
自回归 Transformer 按顺序逐个采样 token,这意味着生成的 token 可能与最优 token 序列存在差异。我们可以直接将 LLM 对其答案的 confidence 作为奖励信号,并基于此进行训练,正如 Mihir Prabhudesai 在 X 上所描述的:
直观来看,更好的答案应该具有更高的总体概率。因此,随着学习的进行,强化学习算法会对不同序列构建一个价值估计;如果该估计比 LLM 生成的概率更准确,我们便会获得一个非常明确的信号。这避免了 RLHF 问题,因为它与 LLM 是同一个模型:它已经在大规模数据上进行了训练,其核心假设只是该模型在作为序列分类器上的表现比在预测下一个 token 时要更好。
Xuandong Zhao 等人近期描述了类似方法——Intuitor,其中模型使用其内部的置信度来引导自我改进。当然,我们可通过多数投票来近似实现这一效果。
与 Nayoung Lee 等人的方法类似,Sheikh Shafayat 等人提出了一种基于在线自我训练的强化学习算法,采用投票方案决定奖励哪些答案。
就我个人而言,我认为这一方案并不令人信服。它在数学问题上进行测试——多数投票方案的一个问题在于需要一种匹配答案的方法——因此我并不认为它比 RLVR 更好。我对 Nayoung Lee 等人研究中提到的“由难到易”问题也有类似的感受:这种方法似乎过于僵化,而且不太可能适用于非结构化问题。
另一个值得关注的是,Zwieger 等人提出的自适应语言模型(SEAL),其目标是开发能整合新数据的 LLM;他们将这一方法应用在诸如简化版本的 ARC 数据集上,该数据集包含许多具有挑战性的抽象推理问题,且每个推理问题仅提供少量示例。传统的上下文学习难以应对这类问题;而 SEAL 通过一个循环机制,能够自行生成数据增强方案和训练数据。
这在我看来是高度依赖人工设计的,方法本身无需提出具体的数据增强方案或训练策略,只需直接使用即可。构建一个功能广泛的模型可能需要更强大的基础模型——但这些实验仅使用了 LLaMA 3.2 1B!此外,该方法将面临模式崩溃(mode collapse)(坦白说,所有这些方法都会如此)以及灾难性遗忘(catastrophic forgetting)问题。
尽管存在这些限制,仍有一些有趣的工作——我认为许多这些方法在更大规模应用时会表现得更好。如果 SEAL 基于 671B 的 Deepseek R1 模型设计自我编辑,那它又会有多强大呢?
最后,让我们考虑这样一种可能性:我们其实根本不需要改进语言模型。毕竟,我们关心的是 agent 执行任务的能力;如果某项任务是设计新的网络架构并运行训练实验,那么使用 LLM 的系统或许能够自己改进。
一项最新的相关研究是来自 Sakana AI 的达尔文哥德尔机(DGM):一种通过编写自身代码实现自我改进的 AI。
在这个案例中,agent 能够修改并提升自身 Python 代码库。它可以提出新的工具,将在 Aider polyglot 任务中的成功率从 14% 提升到 30%,不及 Gemini-2.5 pro 和 OpenAI o3-high 所达到的 83% 成功率。
当然,随着基础模型的改进,我们可以预期它的性能会有所改善,正如作者自己所言:
此外,随着近期基础模型(FM)在编码方面的能力日益提升,我们可以将 FM 用作 meta agent,以代码形式创建新的 agent 用于 ADAS,从而实现新型 agent 的自动化编程。
尽管最终结果似乎不具说服力——缺乏与“pure”LLM的对比,而根据 Polyglot 排行榜,这些 LLM 本身的表现似乎就已经相当不错。
其他 agent(如 Devin)也展现了令人印象深刻的能力;Refact 声称他们的 agent 在同一排行榜上达到了 76.4% 的成功率。但这都是手动设计的系统——远非我们期待的自我改进 AI。agent 似乎还有很长的路要走。
我一开始提出的问题是:“我们距离能够自我改进的 AI 还有多远?”当我开始撰写这篇文章时,我原本以为答案会是简单的“还远着呢”。这一点很重要,因为我做了一个关键假设:
如果我们希望在未来 2-3 年内看到“智能爆炸”出现,那么导致这一爆炸的研究趋势现在就应该显现出来了。
在我开始研究这个问题时,我所看到的一切都显得非常初步。没有一个结果令人惊叹。坦白说,有些是不错的想法,但在实际细节上相当令人失望。许多基于 Transformer 的方法似乎依赖于通过投票或直接优化来提高 LLM 的 confidence。这确实是一个令人兴奋的研究方向,但这类目标容易出现模式崩溃和不稳定的情况;我很难想象它们会构成迫在眉睫的威胁。
试图预测未来的“问题”在于,有时这些方法在规模扩展的条件下确实能够取得更好的效果。例如,自动驾驶汽车中的端到端学习或大型推理模型等方法,都需要在时间、数据和计算资源上进行大规模投入才能真正“爆炸”。我们本可以更早地构建现代推理模型:只是基础模型不够好,数据和计算资源也不足。
换言之,如果 OpenAI 或 Anthropic 部署了这些方法,会发生什么?我无法预测。但我确定,它们至少会在测试阶段部署。SEAL 的作者现已加入 OpenAI。而 Anthropic 的 Dario Amodei 和 OpenAI 的 Sam Altman 多年来一直警告我们,自我改进的 AI 将导致就业岗位流失。我认为,他们至少相信这种情况很快就会发生。
我目前认为,未来几年内出现智能爆炸的概率大约是……5%。虽然这个数字仍然很低,但比上个月高出很多。你怎么看呢?
整理:小羊 编审:学术君