机器人习得“十八般武艺”后,还得有“灵魂”
创始人
2025-07-29 19:22:02
0

世界模型的突破会否成为具身智能的“iPhone时刻”

作者/ IT时报记者 沈毅斌

编辑/ 钱立富 孙妍

去年世界人工智能大会上,“十八金刚人形机器人先锋阵列”作为镇馆之宝惊艳亮相,将具身智能概念以具象化的方式呈现在公众面前。

短短一年间,人形机器人技术突飞猛进,已然习得“十八般武艺”——在擂台上,它们用矫健的身手演绎"武林争霸";在跑道上,凭借"金刚腿"完成马拉松挑战;在球场上,通过默契配合实现精准射门。每一个突破性的应用场景,都在推动具身智能技术迈向新的高度。

本届世界人工智能大会(WAIC 2025)上,镇馆之宝“WAIC里·技能大舞台”仍以人形机器人为主角,但它们已不再是静态展示的"橱窗模特"。从优雅的舞蹈到流畅的书写,从精细地剥鸡蛋到高效地分拣收银,这些机器人正以多样化的技能仿佛在向世界宣告:具身智能时代已然来临。

但仔细观察不难发现,当前具身智能还缺少认识物理世界的“灵魂”——世界模型。这不仅是简单的感知和反应,更是对复杂环境的多维度认知和灵活应对的能力,是赋予机器类似人类智慧和情感的关键所在。

具身智能距离世界模型还有多远?世界模型的突破能否成为具身智能的“iPhone时刻”?

作业智能的“三角矛盾”

世界模型的灵感源于人类自然形成的心智,通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解。

比如桌上有一杯水,眼睛可以看到杯子的形状、颜色、位置,以及水的透明质感等抽象视觉信息。这些信息在大脑中处理,人们可以理解“这是可以拿起喝水的杯子”,也知道放在桌子边缘可能会被碰倒,也可以用来调配饮料。这些在脑海中出现的多种可能想象,就是世界模型的作用。

“在这过程中要做哪些可能的思考,又如何在机器人执行环节形成闭环,这是目前最大的挑战。”智元机器人通用业务部总裁王闯在接受《IT时报》等媒体采访时表示,智元将机器人“大脑”定义为“一体三智能”,即机械本体和运动智能、交互智能、作业智能。其中,在作业智能领域,泛化率、成功率和节拍(效率)三者之间存在明显矛盾。

通常情况下,若机器人处理的事情较多,做到较高的泛化率,执行成功率便会下降;而要保证高成功率,效率又会变慢。普通老百姓往往期待这三方面都能达到较高水平,但就目前的AI作业智能而言,还难以实现这一目标,而这和世界模型发展密切相关。“目前想要实现大而全的泛化能力,并不现实,更需要聚焦某一个领域去推,这样才具备商业落地的价值。”王闯表示。

智元机器人首席运营官邱恒也曾告诉记者,人形机器人发展有三个阶段:拟人、类人、超人。目前,人形机器人还处于“拟人”到“类人”之间的阶段,想要达到“超人”这一宏伟愿景,世界模型必不可少。

在这过程中,需要打通一个个“小世界”。例如,人形机器人在4S店做销售,既要理解产品、熟悉话术,还要给予买家情绪价值,当一个个认知贯通,便能逐渐形成对“销售世界”的理解。

交互智能方面也存在不足,当前主要通过语音转文字等方式处理输入,端到端输入技术尚不成熟。“无论是OpenAI,还是国内的一些企业,其开发的系统对人类的语义和情感理解都还不到位,这也是未来几年需要重点突破的方向。”王闯说道。

让具身智能插上想象的“翅膀”

“我们希望具身智能不仅能执行指令,还要插上‘想象的翅膀’,去主动预测未来的行动,做到知行合一。”在“智启具身论坛”上,智元机器人具身业务部总裁姚卯青发布了行业首个面向真实世界双臂机器人的世界模型开源平台“Genie Envisioner”(简称GE)。

据介绍,GE平台融合了预测、控制、评测三大核心功能,能提供从视觉感知到动作执行的端到端一体化解决方案,其中有两个核心部分:一个是多视角视频扩散模型GE-Base,另一个是160M参数的动作解码器GE-Act。

GE-Base就像机器人的“火眼金睛”,通过超百万条数据“AgiBot-World-Beta”数据集进行训练,能精准“看懂”周围环境的空间布局、动作变化和背后意图,比如桌子上物品如何摆放、人或其他物体如何移动。GE-Act则像机器人的“行动指挥官”,能把看到的信息转化成具体动作,让机器人从“看懂”到“会做”。

与以往“输入指令——分析指令——执行输出”的方式不同,GE平台能让机器人学会自己“琢磨”,先想怎么干,验证行不行,然后才动手执行,自主性和智能度都得到提升。在视频演示中,搭载GE-Act的机器人成功完成“做三明治”“倒茶”“擦桌面”“使用微波炉加热”“流水线装箱”等多项复杂任务,且各项成功率均超过行业平均值。

先在虚拟环境中理解世界

清华大学计算机系副研究员苏航在“智启具身论坛”上表示,未来机器人将成为人类意识的衍生,助力个人发展,深刻影响社会财富分配,其核心在于推动AI从数字世界走向物理世界。尽管在某些领域,人工智能已经超越人类,但当前算法仍依赖人类设计,若AI能自主完成自身能力的迭代与提升,将开启新的发展阶段。不过,物理世界因受规律限制且存在复杂关系,AI在其中的应用难度远高于数字世界。

苏航认为,需要结合多模态,通过外部交互来加速机器人理解世界,当前则要聚焦泛化能力等核心问题。

在数据与泛化实践方面,苏航表示,过去两年数据集虽快速发展,但部分任务数据仍较少,即使是利用互联网数据,也在安全、真实性等方面存在局限。仿真数据能弥补真实数据的不足,结合强化学习可以提升具身智能的感知与操作稳定性,例如,定点抓取仅需50 ~60个数据,而在更广泛、不固定的空间范围内抓取,这时采集数据量就要翻上几十倍,便可通过仿真策略来弥补。

那么,仿真数据从何而来?

商汤在本届WAIC 2025大模型论坛上发布“悟能”具身智能平台,其核心是“开悟”世界模型,可以从感知理解、视觉导航、多模态交互、决策规划和硬件适配等领域,辅助具身智能理解世界。

据商汤介绍,开悟世界模型背后是商汤积累的10万3D资产,以此为基础支持多视角视频生成,最多能同时生成11个摄像头角度的视频,还能同时处理人、物、场,构建一个4D的真实世界,让仿真数据更加全面、立体,帮助具身智能更好地理解环境和物体的关系。

这个世界包含第一和第三视角,可以让机器人同时看到,“自己看到的场景”和“人类示范动作”,既让模型能基于自身感知进行训练,也能学习人类示范动作,减少遥操作数据量,提高跨机器人、跨场景的泛化能力,使仿真数据更具实用性和高效性。

相关内容

热门资讯

浙江尚品线缆取得防紫外线电缆专... 金融界2025年7月29日消息,国家知识产权局信息显示,浙江尚品线缆科技有限公司取得一项名为“防紫外...
原创 如... 如果发现外星人,我们该怎么跟它们交流? 今天我们要来聊的这个话题,跟语言学有很大的关系。 首先我们...
智能警务新力量 “兴兴警官”助... 中新网内蒙古新闻7月29日电 (卿帅)在科技飞速发展的当下,公安派出所业务面临着日益复杂的挑战,如何...
国产地下地面一体化动态仿真引擎... 7月29日,我国首套地下地面一体化(油气藏-井筒-管网)动态仿真引擎软件HiSimPro发布会在北京...
惠科申请显示面板和显示装置专利... 金融界2025年7月29日消息,国家知识产权局信息显示,惠科股份有限公司申请一项名为“显示面板和显示...
重庆有个“滑坡灾害试验场” 近日,在重庆永川云雾山深处,一处人工打造的滑坡体正经历着从平静到崩塌的全过程。随着模拟暴雨强度不断加...
人工智能酝酿下一个爆款 7月的最后一个周末,2025世界人工智能大会(WAIC)吸引了800多家企业参加,宇树人形机器人跳舞...
属实难绷 国外一对情侣买了PS... 近日一则视频显示,一对情侣通过外卖平台DoorDash购买PlayStation 5后,才发现无法在...
智谱GLM-4.5模型系列已上... 超算互联网29日发布消息,智谱GLM-4.5模型系列已上线超算互联网AI社区,包括GLM-4.5和G...
人工智能如何融入千行百业 (来源:经济日报) 日前,AI赋能千行百业超级联赛在广西南宁市启动。联赛分“场景突围应用创新”“揭榜...
CES Asia 2025盛大... 在全球科技产业格局加速变革的当下,亚洲正迅速崛起为科技创新与商业发展的关键战场。作为亚洲地区最具影响...
会格斗、能书法、懂干活——世界... 7月29日,智元机器人在进行“才艺”展示,吸引参观者驻足观看。 众多智能机器人亮相上海2025世界人...
飞腾“云边端”一体化智算方案闪... 第七届世界人工智能大会(WAIC)7月26日在上海启幕。本届大会展览面积首次突破7万平方米,吸引80...
电信飞诗卡19元80G流量套餐... 在流量需求激增的当下,一款性价比极高的手机套餐总能迅速吸引大众眼球。中国电信近期推出的飞诗卡,凭借其...
奥普特取得提升检测工件轮廓准确... 金融界2025年7月29日消息,国家知识产权局信息显示,广东奥普特科技股份有限公司取得一项名为“一种...
常州聚力广告取得悬挂式灯箱专利... 金融界2025年7月29日消息,国家知识产权局信息显示,常州聚力广告有限公司取得一项名为“悬挂式灯箱...
覆冰监测系统:实时反馈冰情,预... 来源:竞道光电 【JD-SDJB1山东竞道光电品质保障,值得信赖】在电力、通信等基础设施领域,覆冰现...
嘉理科技取得一种涂布机内推动装... 金融界2025年7月29日消息,国家知识产权局信息显示,深圳市嘉理科技有限公司取得一项名为“一种涂布...
成都中业致远科技申请循环加热压... 金融界2025年7月29日消息,国家知识产权局信息显示,成都中业致远科技有限公司申请一项名为“一种循...
原创 怎... 刚拿到新手机的那份喜悦,是不是常常被随之而来的“换机焦虑”冲淡了一半?一想到旧手机里成千上万张照片、...