谷歌DeepMind近日正式推出Gemini Robotics 1.5系列机器人模型,含主打执行的1.5与负责规划的ER 1.5。
这套组合直击机器人“复杂任务干不了”的痛点,试图让AI从“听指令工具”升级为“会思考、能动手”的物理世界参与者,被视为AI深入现实场景的关键一步。
机器人终于会“琢磨事儿”了,从“机械执行”到“边做边想”
上周在小区楼下碰到张阿姨,她攥着手机凑过来:“小伙子,你说谷歌那新机器人,能帮我把桌上的快递盒扔去可回收箱不?我家那台扫地机器人只会瞎转,扔个垃圾都得我自己来。”
我笑了,以前别说扔垃圾,就是让机器人“把杯子从餐桌拿到厨房”,都得提前编好程序,碰到杯子滑了、茶几挡路,直接“死机”。
但这次谷歌出的Gemini Robotics 1.5系列,还真解决了“机器人不会琢磨事儿”的毛病。
谷歌这次搞了俩模型搭伙:一个是“大脑”Gemini Robotics-ER 1.5,管“想事儿”;一个是“小脑”Gemini Robotics 1.5,管“动手”。
比如张阿姨要扔快递盒,“大脑”ER 1.5先接活,先调谷歌搜索查“本地垃圾分类”,确认快递盒是可回收。
再把任务拆成“走到餐桌、拿起盒子、识别蓝桶、扔进去”。接着把指令发给“小脑”1.5,让它执行。
重点来了:“小脑”不是傻动手!它动之前会先“想”,生成一段自然语言的“思考轨迹”:“我得先抓稳盒子的右边,别把上面的胶带扯破;然后绕过茶几腿,别碰倒花瓶。”
要是真碰着花瓶移位了,它还会立刻调整:“哦,路被挡了,那我先挪花瓶再走。”不会像以前那样直接卡壳或者摔盒子。
张阿姨听了直点头:“哦,就是像人一样,做之前先合计合计,错了还能改?”对喽!
这就是谷歌说的“具身思考”,机器人不再是“执行命令的工具人”,而是能“理解任务、分解步骤、动态调整”的“准智能体”。
技能能“跨身体”用,学一次,所有机器人都会
更神的是,这模型学会的技能,换个机器人还能接着用。
比如ALOHA学了“打开抽屉”,换成Apollo人形机器人,不用重新教,直接就会,这就是谷歌的“动作迁移”技术。
以前机器人学技能跟“刻光盘”似的:ALOHA学的东西,Franka机械臂用不了;Franka会的,Apollo也不懂。现在不一样了,模型从三个机器人身上学了“共性”。
比如“抓东西”要发力、“开门”要找把手,不管换哪个机器人身体,都能直接套用。
为啥能这么牛?因为训练数据够“杂”:既有互联网上的图片、文本,还有三个机器人的真实操作数据。
相当于让模型跟三个“不同性格”的机器人学本事,既懂“常识”,又会“适配不同身体”。
比如张阿姨的快递盒任务,模型不仅能查分类,还能“看”清楚桌子上的盒子在哪,避开障碍物走到蓝桶边,这都是互联网数据和机器人数据结合的结果。
谷歌说,这模型在15个学术“具身推理”测试里拿了第一,连GPT-5都不如它。
比如“指着桌子左下角的蓝杯子”,它能准确找到;做长任务时,还能实时算“我已经完成30%,接下来该擦桌子”——比以前的机器人“闷头干”强多了。
有人肯定要问:“机器人这么会琢磨,会不会闯祸?”
谷歌早留了后手。他们做了个升级的ASIMOV安全测试,比以前的更严,测的是“会不会乱碰热水壶”“会不会撞人”“会不会违反物理安全”。
结果Gemini-ER 1.5表现最优,相当于给机器人装了个“安全刹车”:就算“大脑”规划错了,“安全子系统”也能立刻拉住。
结语
那么AI到底能不能帮我们解决真实生活里的麻烦?
谷歌这次的Gemini 1.5,算是给了个准信:能,但不是“取代人”,是“帮人省劲儿”。
它不是要做个“完美机器人”,而是让机器人学会“像人一样解决问题”:先想清楚要干啥,再动手,错了还能改。
以后说不定真能像科幻片里那样,躺沙发上喊一声“机器人,把快递盒扔了”,它就乖乖查分类、避障碍、扔对桶。