OpenAI IMO金牌团队揭秘:三人小队如何突击造出“懂拒绝”的AI
创始人
2025-08-03 17:21:05
0

在人工智能领域,一个令人瞩目的消息悄然传出:OpenAI的一个小型团队仅凭三人之力,竟成功打造出一个在国际数学奥林匹克竞赛(IMO)中夺得金牌的模型。这一惊人成就的背后故事,在一次媒体访谈中逐渐浮出水面。

项目负责人Alexander Wei、新加入的研究工程师Sheryl Hsu以及高级研究科学家Noam Brown,构成了这个创造历史的核心团队。尽管Sheryl Hsu今年三月才加入团队,但他们的共同努力使得项目在短时间内取得了突破性进展。

据透露,该项目从构思到成型,仅仅用了两三个月的时间,其成果之显著,出乎所有人的预料。大型语言模型在IMO中摘金,不仅标志着AI数学能力的飞跃,更展现了其在应对复杂、难以验证任务时的技术进步。

访谈中,团队分享了项目的诸多细节。早在2021年,OpenAI内部就已开始讨论赢得IMO金牌的可能性,尽管相关算法和思路的酝酿已持续数月,但真正的集中攻关只在竞赛前的两三个月内展开。

核心团队的三人组合,由Alex主导技术开发。起初,他的新技术方案遭遇了质疑,但随着他在处理难以验证任务上展现出显著成效,方案逐渐获得了团队和公司的支持。Alex、Cheryl和Noam,他们共同书写了这段传奇。

关于AI生成的数学证明,团队坦言其风格独特,甚至可以被形容为“糟糕”或“富有创意”。这些证明充满了机器的逻辑,对人类而言晦涩难懂。然而,为了保持透明度,OpenAI并未对这些证明进行可读性优化,而是将它们原封不动地发布在GitHub上,供全球学者查阅。

在IMO竞赛中,模型面对传统上最为困难的第三题和第六题时,选择了对第六题“不作答”。团队并未将此举视为失败,反而认为它显示了模型对自身能力边界的清晰认知。在无法解决问题时,模型选择了放弃,而非像过去的AI那样编造错误答案,这一转变被视为积极的信号。

当被问及AI是否能在短期内解决“千禧年大奖难题”时,Alex表示这些难题仍遥不可及。他用量化对比来阐述差距:AI从解决简单的小学数学题,跃升至攻克IMO难题,但研究级数学难题的突破,可能需要天才数学家花费数千小时。因此,尽管团队对取得的进展感到兴奋,但也对未来挑战保持谦卑。

Noam指出,当模型“思考”时间极长时,评估本身成为巨大瓶颈。目前,团队正面临如何有效评估长时间思考的模型的挑战。同时,multi-agents系统在项目中扮演了重要角色,尽管具体技术细节不便透露,但团队强调了通用技术在项目中的应用。

对于为何不使用Lean这种形式化证明工具,团队解释说,他们的首要任务是发展通用的推理能力。虽然Lean对数学家有价值,但其局限性在于只能处理严格形式化的问题,而现实世界中的问题远不止于此。因此,团队选择了自然语言推理作为优先发展方向。

Cheryl证实,该项目是在与其他OpenAI产品相似的基础设施上构建的,这再次印证了其方法的通用性。团队期望这些技术能够被应用于推理的其他领域,从而持续改进包括ChatGPT在内的所有模型。

访谈最后,团队表示,让模型学会提出新颖的、有价值的问题,是继解决问题之后AI需要克服的下一个巨大障碍。同时,他们也期待数学家们能利用这个强大的新工具来挑战更多难题。

相关内容

热门资讯

永创智能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示永创智能(603901)新获得一项实用新型专利授权,专利名为“...
贵州毕节七星关:医共体赋能让医... 近年来,贵州省毕节市七星关区以“紧密型医共体”为抓手,通过资源整合、能力提升、服务优化,打破城乡医疗...
5296米!保压取心深度刷新全... 7月19日,中国石油新疆油田丰探101井首次开展保压取心与核磁共振无损检测试验应用,取心深度达529...
原创 抢... 2026年可能比你想象的更近,世界正在加速翻篇。别觉得这是科幻片,五大关键领域的剧变已经悄悄埋下伏笔...
正泰智能申请自动转换开关专利 ... 金融界2025年8月5日消息,国家知识产权局信息显示,上海正泰智能科技有限公司申请一项名为“自动转换...
原创 A... 你敢相信吗,人工智能竟然闯入影视圈了。一家英国制片公司打造了世界上第一个人工智能电影明星,并取名为蒂...
腾讯开源四款小模型;萝卜快跑联... 21世纪经济报道新质生产力研究院综合报道 早上好,新的一天又开始了。在过去的24小时内,科技行业发生...
头部厂商都来了,智能眼镜迎来爆... 历经多年技术沉淀与市场试炼,智能眼镜的发展轨迹正迎来历史性的关键拐点。IDC数据显示,2025年全球...
原创 中... 中国的物理天才尹希选择叛逃美国,这一言论令14亿国人感受到深深的刺痛!他12岁时就以超乎常人的天赋碾...
3.2T新引擎启动:淄博互联网...   鲁网8月5日讯(记者 齐征 通讯员 翟鹏)近日,淄博移动顺利完成互联网出口设备的重大升级,将承载...
苏州元脑智能申请散热器测试方法... 金融界2025年8月5日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“散热器的...
公关失守:科大讯飞与爱康国宾如... 近期,公关界风波不断,一系列意外事件引发了广泛讨论。先是科大讯飞董事长刘庆峰针对马斯克对人工智能的看...
安全信息和事件管理(SIEM)... 来源:保旺达 在数字化转型与远程办公常态化的双重驱动下,企业安全边界正从物理设备转向用户身份与行为。...
宁波力松取得一种注塑机头板专利... 金融界2025年8月5日消息,国家知识产权局信息显示,宁波力松注塑科技有限公司取得一项名为“一种注塑...
90后王兴兴:严重偏科者的逆袭 人形机器人,是2025年关注度和话题度最高的产业之一。站在产业高光中心的,是一家叫宇树科技的公司和其...
用户崩溃!存了十年重要数据被A... 来源:快科技 快科技8月5日消息,近日,一位软件工程师在一篇详细的博客文章中揭露了自己在AWS上遭遇...
关乎第二次太空竞赛?NASA将... 据美国《政治报》网站报道,美国交通部长肖恩·达菲本周将宣布加快在月球建设核反应堆的计划,这是他担任美...
OpenAI工程师称调试员最宝... 来源:IT之家 #OpenAI工程师不透露AI模型调试员名字#【#OpenAI工程师嘴严#:AI模型...
五天内两发火箭,海南商业航天发... IT之家 8 月 5 日消息,据央视新闻昨日报道,8 月 4 日 18 时 21 分,海南商业航天发...
河北省建成多用时间检定仪检定装... 创新突破电秒表检定技术瓶颈 河北省建成多用时间检定仪检定装置 近日,河北省计量院建成多用时间检定仪检...