谷歌成为IMO金牌首个AI得主,前5题满分但难解最后一题,专家称缺乏创造力,难替代人类数学家
创始人
2025-07-23 09:03:10
0

出品|搜狐科技

作者|郑松毅

编辑|杨锦

数小时前,经国际数学奥林匹克竞赛(IMO)组织官方认证,谷歌DeepMind正式成为全球首个摘得IMO金牌的AI选手,表现一度令人震惊。

斩获今年金牌的是Gemini模型的一个“特调”版本——Gemini Deep Think,具备更强的推理思考能力,后期会开放给Google AI Ultra订阅用户(月付1800元的氪金玩家)。

经IMO评审组评分,Gemini Deep Think答对了IMO六道题目中的五道,获得35分(总分42分),达到金牌水准。

得知喜讯,谷歌CEO劈柴立发贺电,马斯克也发布推文表示祝贺。

相较于前几日赛事揭榜前就着急宣传自己得金,后来被发现并非官方认证、饱受质疑的OpenAI来说,谷歌低调摘金的操作,让其属实有些难堪。

果然,有实力的选手都习惯于低调做事,再用成绩亮拳。

首获奥赛金牌的AI选手

自1959年起,每年一度的国际数学奥林匹克竞赛(IMO)在国际上负有盛名,参赛选手代表着世界上一群最具天赋的年轻计算人才,在超高难度的代数、几何学、数论等领域激烈角逐。

根据参赛规定,选手需在4.5小时内解决六道极具难度的数学问题,每题7分,总分42分。

今年,IMO金牌线设定为35分,银线为28分。在所有参赛选手中,只有排名前8%的选手才可荣获金牌。这象征着数学领域的绝对荣耀。

近年来,有“数学试金石”之称的IMO,已逐渐成为一项AI向往的挑战,旨在考验AI严谨的逻辑思维能力、推理能力,以及创造性思维能力,对AI模型提出了极高要求。

在去年的IMO竞赛中,谷歌DeepMind的AlphaProof和AlphaGeometry 2合力解决了六道难题中的四道,以28分的成绩摘得银牌。

但之前解决六道竞赛问题花了整整三天,因为需要执行把问题从自然语言翻译成领域特定语言(例如 Lean)的复杂步骤,再加上推理验证所需时间漫长,结果让人等得着急。

而今年的新模型Gemini Deep Think的表现有了突破性进步,主要体现在解决复杂问题的效率和准确度上。

Gemini Deep Think答题全程自然语言,不必再特意修改题目格式,节约了一大笔时间成本。

据介绍,Gemini Deep Think是一种针对复杂问题的增强型推理模式,融合了谷歌最新的一些研究技术,包括“并行思维”。使模型能够同时探索并组合多种可能的解决方案,最终得出答案,而不是追求单一的线性思维链。

此外,DeepMind还为Gemini精选了高质量数学题库,并在其指令中添加了关于如何解答IMO题目的技巧指引。

从成绩来看,本次Gemini不仅在4.5小时内高效交卷,还取得了前五道题满分的傲人成绩。

至于没答出的最后一题,DeepMind研究院、布朗大学教授Junehyuk Jung解释,“一开始解题方向出现了错误,不过人类选手做对最后一道的也只有五人。”

AI或替代人类数学家?

在Google DeepMind官网,可以看到Gemini Deep Think做对的五道题答案已完整公开。

对今年Gemini的竞赛表现,IMO主席Gregor Dolinar教授亲自认证,“解法在诸多方面堪称惊艳,这些解法思路清晰、表达准确,且大部分内容都简单易懂。”

Junehyuk表示认同,“用第三道题举例来说,很多人的解法选择使用的是复杂高深的研究生水平方案,但Gemini仅使用了初等数论知识就完成了解答证明。”

在谷歌DeepMind团队看来,AI为数学作出的贡献潜力才刚崭露头角。团队坚信,具备严谨思考和推理能力的AI智能体,将成为数学家、科学家不可或缺的工具。

作为菲尔兹奖、数学突破奖、麦克阿瑟奖等多个奖项的获得者,数学家陶哲轩对Gemini的表现同样表示称赞。

陶哲轩提到,“AI正在推动数学研究范式的转变。在不久的将来(可能是2026年),AI 将能够与人类数学家合作发表研究级别的论文。这种合作模式将彻底改变数学的协作方式,使得大规模、分布式的数学实验成为可能。”

AI在IMO中摘金展现出强大实力,不少人疑惑数学家会不会被AI取代?

UCLA应用数学教授Ernest Ryu表示,“短期内,AI并不能取代数学家。”

他认为,“数学研究的本质是,解决那些目前没有人知道如何解决的问题(训练数据之外),类似竞赛中的第六道题,这需要极大的创造力。显然,这次AI的表现说明还不具备这种能力。”

“对于人类已有能力解决的数学问题,数学研究的工作是为了将现有技巧和新创意相结合,从而衍生出优化解法,AI在这部分工作中将起到重要提效作用。”

IMO成中国vs美国vs人工智能的竞争

值得一提的是,在最终揭榜的人类选手成绩单中,中国队以全员6金牌、总分231分占据榜首,继去年遗憾败给美国队后,重新坐回了世界第一位置。

中国队的六位选手分别是来自武昌实验中学的邓哲文、武汉市经开外国语高级中学的徐祺铭和谈弘毅、重庆巴蜀中学的张恒烨、杭州学军中学的董镇宇,以及上海中学的邓乐言。

在去年的第65届IMO中,还是武昌实验中学的高一学生邓哲文就为中国队斩获了一枚金牌。

主教练介绍,“邓哲文学习数学的天赋很高,在竞赛学习过程中,表现出了纯粹的热爱和执着的钻研精神。”

张恒烨是巴蜀中学高二学生,2023年入选国家集训队,在24年阿里全球数赛中获得优秀奖。

如今高三的董镇宇,在高一时就入选了国家集训队,保送到清华姚班,在数学竞赛圈内已是颇有名气。

其中,谈弘毅和徐祺铭同来自于武汉经开的强基班。前者获得了清华和北大的保送资格,后者成功入选了北京大学2025年数学英才班。

而邓乐言作为团队中年纪最小的一位,在去年CMO以满分成绩入选国家集训队,并在集训中脱颖而出,直接打破了上海近十年IMO选拔的年龄纪录。人送外号“新韦神”。

从本届IMO排名前30的选手名单来看,来自亚洲和东欧的英才占比居高。

有评论玩笑道,“自此之后,IMO将是中国vs美国vs人工智能的竞争。”

相关内容

热门资讯

陈天桥罕见公开呼吁: 科创投资... 近日,长期未出现在公众视线中的全球知名创新企业家、慈善家,盛大集团和天桥脑科学研究院创始人陈天桥,罕...
传vivo Y400 5G即将... 【CNMO科技消息】近日,CNMO注意到,最新信息显示,vivo计划于8月初在全球市场推出其新款中端...
潮汐、水温、航道...也有人“... 海洋数据是海洋科学研究的基础,是海洋经济活动开展的依据,更是我国海洋强国战略的支撑和保障,涉及国家战...
《时间简史(插图版)》五大升级... 7月25日至28日,汇聚百万图书、千场活动、4500展位的第33届全国图书交易博览会(以下简称“书博...
开源鸿蒙持续壮大:社区共建提速... 7月23日,2025开放原子开源生态大会开源鸿蒙主题演讲在北京国家会议中心成功举办。大会聚焦开源鸿蒙...
猿编程推动中美青少年AI实践,... 2025年7月中旬,美中青少年学生交流协会组织140余名中美青少年在北京开展为期7天的中美青少年交流...
小扎火速挖走谷歌IMO金牌模型... 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 扎心了!谷歌这边刚刚宣布获得IMO金牌,三位核...
BOE(京东方)携手生态伙伴推... 2025年7月23日,由BOE(京东方)联合京东、OPPO、OUTPUT打造的公益微电影《以一束光 ...
原创 国... 空间智能赋予物理空间感知、理解、决策与交互的智能能力,成为第三代人工智能的核心演进方向。作为上榜胡润...
三层交换机和路由器的“边界”在... 许多人刚接触网络时,总觉得三层交换机和路由器是“类似的东西”,毕竟它们都负责网络层的工作,都涉及 I...
哈尔滨工业大学党委书记、中国工... 编者按 2025年4月25日,习近平总书记在中共中央政治局第二十次集体学习时指出,“要把握人工智能发...
建设社会保险经办智能化场景,人... 7月22日,人力资源和社会保障部举行2025年二季度新闻发布会,介绍2025年上半年人力资源和社会保...
AI时代的云网数智融合底座,从... 来源:IT时报 人工智能正在对全球产生重大而深远的影响,万物皆AI,在千行百业奔赴“AI大厦”之时,...
东数西算再进阶:2025中国互... 当北京AI企业调用宁夏智算中心的算力成本降低37%,当长三角企业上半年调用西部算力总量激增210%,...
上半年通信业运行平稳 5G、千... 上半年通信业运行平稳 5G、千兆用户规模持续扩大 记者从工业和信息化部了解到,今年上半年,通信业运...
低空经济崛起:2025中国互联... 当深圳的美团无人机将一杯咖啡精准投送到30层写字楼窗口,当成都的eVTOL空中出租车完成第1000公...
冠志电子取得一种太阳能锂电储能... 金融界2025年7月23日消息,国家知识产权局信息显示,东莞市冠志电子科技有限公司取得一项名为“一种...
4699元起,华为Pura80... 据“华为终端”官方微博消息,华为Pura80数字版今日(7月23日)10:08开启预售,7月30日正...
上海做rfid标签的厂家 在当今快节奏的市场环境中,RFID(无线射频识别)技术的应用越来越广泛,尤其在物联网的发展中扮演着重...
AI赋能,数智升级——浪潮智慧... 日前,中国卫生信息技术/健康医疗大数据应用交流大会暨软硬件与健康医疗产品展览会(2025CHITEC...