小米开源首代机器人VLA大模型 消费级显卡可实时推理
创始人
2026-02-12 13:41:06

【CNMO科技消息】2月12日,小米正式对外发布并开源首款机器人VLA大模型Xiaomi-Robotics-0。该模型拥有47亿参数,兼具视觉语言理解与高性能实时执行能力,可在消费级显卡上实现实时推理,一举破解传统VLA模型推理延迟的行业痛点,在具身智能领域刷新多项SOTA纪录。

据CNMO了解,现有VLA模型虽凭借大规模参数拥有出色的泛化能力,但庞大的推理延迟让机器人在真实物理世界中反应迟钝。小米此次推出的Xiaomi-Robotics-0从架构设计入手实现突破,其采用MoT混合架构打造“大脑 + 小脑”双核心体系,以多模态VLM大模型为视觉语言大脑,可理解人类模糊指令并捕捉高清视觉中的空间关系;同时嵌入多层DiT作为动作执行小脑,通过生成“动作块”结合流匹配技术,保障机器人动作的高频与精准,实现物理灵活性的大幅提升。

为兼顾模型的常识理解与实操能力,小米设计了跨模态预训练和后训练的两阶段训练体系。跨模态预训练通过Action Proposal机制对齐VLM特征与动作空间,再冻结VLM专注训练DiT,让模型在学会操作的同时保留物体检测、逻辑推理等能力;后训练则采用异步推理模式解决真机“动作断层”问题,搭配Clean Action Prefix和Λ-shape Attention Mask技术,既保证动作轨迹的连续流畅,又让模型更关注实时视觉反馈,提升对环境变化的响应能力。

目前,小米已正式开源该模型的技术主页、代码及模型权重,秉持开源理念推动具身智能技术的行业发展,同时小米机器人团队也开启人才招募,邀请行业人士共同探索物理智能的边界。

相关内容

热门资讯

AI初创公司Mistral向瑞... 来源:滚动播报 (来源:财闻) 新的大规模计算能力预计将于2027年在瑞典投入使用,支持Mistra...
瑞晨智能申请具有风冷结构的气悬... 国家知识产权局信息显示,湖州瑞晨智能制造有限公司申请一项名为“一种具有风冷结构的气悬浮鼓风机及冷却方...
AI视频生成模型需要“护栏” 维 辰 近日,字节跳动新一代AI视频生成模型Seedance 2.0上线内测,凭借多模态创作方式、自...
75天!首例半导体屋顶装配式高... 当前,全球半导体竞争日益激烈,作为芯片薄膜沉积工艺的核心耗材,高纯度靶材的制造水平直接关系芯片良率,...
华为李小龙讲解手机电池容量:不... 手机的电池容量有多大,是消费者购买手机最关心的参数之一,这也是一项在使用时感知非常明显的指标。但是市...