机器人也能像蛇一样,灵活地在复杂的地面上蜿蜒前行,甚至遇到障碍物时还能自己决定向右转还是向后退?
近日,26 岁的英国剑桥大学博士生霍永康和所在团队研发出一种名为反弹式赢家通吃的全新神经形态控制架构。
它让机器人从简单的肌肉收缩到复杂的避障决策,全部使用同一种大脑语言,从而变得更智能、更敏捷和更可靠,并已经在一条五节机器蛇身上得到了生动验证。
图 | 霍永康(来源:霍永康)
该神经系统并非使用电脑芯片和复杂代码写成的,而是通过模仿动物大脑的工作原理,使用一套名为反弹赢家通吃的特殊神经元电路搭建的。
就像人脑里的神经细胞通过微弱的电信号传递信息一样,这套系统里每一个人造神经元都能产生自己的电信号事件,比如一个快速的脉冲或是一连串持续的爆发信号。
(来源:资料图)
什么是反弹式赢家通吃?
事实上,人类在走路和奔跑的背后正是大脑和脊髓在协同工作,它们既能产生有节奏的步伐比如左右脚交替,又能瞬间做出决定比如看到石头就绕开。传统的机器人控制器却把这两件事分开了:一部分电路只负责产生固定的节奏就像节拍器一样,另一部分复杂的计算机程序负责做高级决策就像指挥官一样。两者之间需要复杂的翻译才能沟通,这让机器人系统变得笨重且难以调整。
霍永康告诉 DeepTech:“相比之下,生物神经系统并不会把做决定和调节肌肉分成两套完全不同的系统,而是用同一套基于事件的神经活动同时完成节律生成和运动调节。我们受神经形态控制的思想启发,希望找到一种既能做离散决策,又能做连续调节,而且可以层层扩展的统一架构。”
因此,本次研究的灵感直接来自生物学中的神经元。他们发现神经元有一个神奇的特性:反弹兴奋性。简单说,就是当神经元被强烈抑制比如被要求不准动的时候,一旦抑制解除,它反而会像一个被压紧后松开的弹簧一样,砰地一下爆发一个电脉冲,而这个脉冲就是一个事件。
另一方面,大脑中还存在赢家通吃的竞赛原则。想象一群孩子在争抢唯一的一个球,最终只有一个最强的孩子能够抢到,其他人都会被暂时压制。神经网络也能以这样的原理工作,以便确保在任何时刻,都只有一个赢家神经元能被激活。
这项研究的精髓,便是将细胞的反弹特性和网络的赢家通吃竞赛这两个古老的概念进行完美结合,创造出了反弹式赢家通吃网络。在这个网络中:首先,反弹特性负责生成可靠的事件,就像确定弹簧的弹力大小一样;其次,赢家通吃竞赛负责编排事件的顺序,就像规定好抢到球的孩子必须把球传给某某一样。
这样一来,无论是对于节奏生成即何时动这一问题,还是对于决策制定即做什么这一问题,它俩都能使用同一种事件语言,在同一个物理网络中无缝融合。
(来源:资料图)
给机器蛇打造脊髓和大脑
为了展示这个架构的强大,霍永康等人设计并控制了一条五节连接的机器蛇。这条机器蛇的神经系统被分成了三层,但是全部使用同一种反弹式赢家通吃的基本单元搭建而成。
第一层是肌肉驱动层,它负责机器蛇的脊髓反射。
这一层的任务是控制机器蛇的每一个关节左右摆动。每个关节都由一个半中心振荡器控制,它其实就是由两个具有反弹特性的神经元互相抑制而成。这就好比一个跷跷板:左边神经元负责点火,驱动向左的肌肉收缩,同时强烈抑制右边的神经元;右边神经元被抑制后进入反弹预备状态,一旦左边的脉冲结束,右边就会因为反弹而点火,驱动向右的肌肉收缩,并对左边产生抑制。如此循环一下,关节就实现了自主的左右交替摆动,就像脊髓中控制步行节奏的基本电路一样。
第二层是协调层,它好比是机器蛇的运动节律指挥官。
每个关节可以自己摆动是远远不够的,要想让机器蛇前进或者后退,就得让四个关节的摆动形成连贯的波浪。这就是协调层的任务。这一层包含两个环形振荡器,一个产生“1-2-3-4”顺序的脉冲波以便让机器蛇前进,另一个产生“4-3-2-1”的脉冲波让机器蛇后退。两个环形圈通过一个快速的赢家通吃竞赛枢纽连接,确保同一时间只有一个环形圈是激活的。这个层级的输出会巧妙地引导肌肉驱动层的那些跷跷板,让所有关节按照既定的方向和顺序依次动作,从而形成协调的全身运动波形,这相当于脑干针对步行节奏的高级调节。
第三层是监督控制层,它是机器蛇的智能决策大脑。
当机器蛇的头部传感器碰到障碍物的时候,它需要做出这样一个高级决策:到底是原地右转、还是向后撤退?这一层有一个双状态开关网络。它同样基于反弹式赢家通吃原理,但是运行在更慢的时间尺度上。它能记住当前武装的是哪一种策略比如右转。当触发传感器的时候,就可以执行这一策略。
更有趣的是,当传感器离开障碍物的时候,一个特殊的下降沿继电器神经元会发出一个反弹脉冲,就像波动开关一样,可以将内部状态切换到另一个策略比如后退。这样一来当下一次再次遇到障碍,机器蛇就会采取不同的行动。这实现了简单的交替避障策略,展现了基于事件的决策能力。
(来源:资料图)
那么,为何这项技术如此有前景?
第一,在于其统一性与简化性。即从肌肉驱动到高层决策,全部使用同一种神经元模型和事件通信机制。这就好比使用同一块砖,既搭出了房子的地基,又搭出了顶尖的装饰。无论是设计、调优还是优化,都变得前所未有的简单和一致。
第二,在于其天然的鲁棒性。由于事件生成和事件编排是解耦的,所以网络拓扑结构可以立马重置或改变当前的节奏相位,从而实现极快的反应。同时,缓慢变化的全局信号可以平滑地调节整个运动的频率。
第三,在于其节省能量的特性。系统只在有事件发生也就是神经元放电的时候,才会消耗主要能量以便进行通信和计算,在静息的时候耗电量非常低,这非常符合未来节能机器人和边缘计算设备的需求。
“通过开发相应的机器学习算法,未来有望在大规模多时空尺度的智能机电系统中,作为一种标准化的神经形态控制中枢来使用。”霍永康表示。
他继续阐述称:“我个人很认同费曼的一句话:‘What I cannot create, I do not understand。’(我不能构造的,我也就还没有真正理解。)在这项研究中,我们其实是在尝试亲手搭建一套类似生物神经网络的架构,并让它在真实的任务和约束下工作。”
某种意义上,这既是一种工程尝试,也是理解生物神经系统的一种方式,通过不断地设计、重构和检验这些仿生网络。
他补充说道:“机器蛇是一个很好的展示例子,但这个架构本身并不局限于机器蛇。我们也在考虑把同样的设计原则应用到足式机器人等场景,研究当系统自由度和任务复杂度进一步提升时,本次架构在可扩展性和调参难度方面的表现。”
总体来说,本次研究尝试使用一种统一的神经形态事件驱动架构,把传统上分散在算法和控制、离散和连续两个世界里的问题重新放在一起思考。霍永康希望它不仅能为具体的机器人应用提供一种新的设计思路,也能在控制理论、神经科学和神经形态硬件之间搭起一座桥梁。
未来,随着学习机制和硬件平台的进一步发展,其希望这类事件驱动的人工神经系统能在更多真实场景中发挥作用,也能反过来为人们理解生物神经系统提供新的视角。
参考资料:
相关论文 https://arxiv.org/abs/2511.11924
运营/排版:何晨龙