脑启发学习综述：人工神经网络的下一场革命？_科技资讯

脑启发学习综述：人工神经网络的下一场革命？

创始人

2025-05-07 10:41:10

0次

摘要

人工神经网络（ANNs）已成为机器学习领域的重要工具，在图像与语音生成、游戏博弈、机器人技术等多个领域取得显著成就。然而，人工神经网络的运行机制与生物大脑存在本质差异，尤其在学习过程方面存在显著区别。本文系统综述了当前人工神经网络中受大脑启发的学习表征方法，探究了如何通过整合更具生物学合理性的机制（如突触可塑性）来提升网络性能，并深入分析了这种方法的潜在优势与挑战。本综述还指明了这一快速发展领域中具有前景的未来研究方向，这些探索或将使我们更接近智能本质的理解。

关键词：脑启发学习（Brain-inspired Learning），人工神经网络，脉冲神经网络，突触可塑性，神经调控，元可塑性，神经形态计算（Neuromorphic Computing），终身学习，赫布学习（Hebbian Learning），时序依赖可塑性（Spike-Timing-Dependent Plasticity, STDP），反向传播，进化算法

集智编辑部丨作者

论文题目：Brain-inspired learning in artificial neural networks: A review

发表时间：2024年5月9日

期刊名称：APL Machine Learning

生物大脑的学习密码：从突触到神经环路

生物学习的核心在于多尺度机制的协同，突触可塑性（Synaptic Plasticity）作为其基础，短期可塑性（Short-term Plasticity）在毫秒级调节突触强度，支持即时记忆；长期可塑性（Long-term Plasticity）则通过结构改变巩固长期记忆。例如，神经元A反复激活神经元B会增强两者连接（“一起放电，一起连接”的赫布法则），而时序依赖可塑性（STDP）进一步引入时间维度：若突触前神经元放电早于突触后神经元，连接增强，反之则减弱（图1）。这种机制已在实验上证实与记忆编码密切相关。

图 1. 生物神经元突触长时程增强（LTP）与长时程抑制（LTD）的图示说明。（a）突触连接的前后神经元；（b）神经元之间的连接点——突触终末；（c）突触强化（LTP）与突触弱化（LTD）；（d）（上）神经元轴丘膜电位动态变化，（下）前后神经元动作电位；（e）基于尖峰时序依赖可塑性（STDP）曲线的LTP与LTD实验记录。

神经调节（Neuromodulation）为学习提供全局信号。多巴胺、乙酰胆碱等递质通过调节神经元兴奋性和突触可塑性，将外部奖励或惩罚信号传递至局部环路，实现“三因素学习”（活动、误差、调节信号结合）。例如，多巴胺的释放可放大与成功行为相关的突触变化，类似于强化学习中的奖励机制。

更高阶的元可塑性（Metaplasticity）则像“可塑性的守护者”，通过调节突触的可塑性阈值，防止网络因过度学习而饱和。胶质细胞（如星形胶质细胞）通过代谢支持和递质回收，间接影响突触稳定性。这些机制共同构成生物学习的动态平衡系统。

人工神经网络的生物灵感：

从脉冲网络到元优化

传统ANNs依赖反向传播，但存在两大局限：能耗高（需全局梯度计算）和无法在线学习（需固定数据集）。脉冲神经网络（SNNs）的提出直击这些痛点。SNNs模拟生物神经元的脉冲通信：神经元积累膜电位，超过阈值时发射脉冲，信息编码于脉冲时序而非激活值。这种机制天然适合处理动态数据，且功耗极低。例如，Intel的Loihi芯片利用SNNs实现比传统GPU高1000倍的能效。

然而，SNNs的权重优化面临挑战：脉冲的离散性使反向传播失效。研究者提出脑启发局部学习算法，如结合STDP和奖励信号的资格迹传播（Eligibility Propagation）。该方法通过记录突触对近期活动的贡献（资格迹），再与全局误差信号相乘更新权重，无需反向传播。实验显示，这类算法在机器人运动控制中可实时适应环境变化，例如地形突变。

元优化可塑性规则取得进一步突破，通过梯度下降或进化算法，自动搜索最优学习规则。例如，可微分可塑性（Differentiable Plasticity）将学习规则的参数（如STDP的时间常数）设为可微变量，用元训练使其适应特定任务。在图像分类任务中，此类模型展现出与反向传播相当的性能，且支持在线微调。

应用蓝图：从神经形态芯片到终身学习机器人

图 2. 前馈神经网络通过将输入信息向下游传递来计算给定输入对应的输出。输出的精确值由突触连接权重系数决定。为提升特定任务下的输出表现，需要调整突触权重。突触可塑性算法作为计算模型，模拟了大脑基于神经活动强化或弱化神经元间连接（即突触）的能力，从而促进学习与记忆的形成。三因素可塑性是指一类突触可塑性模型，其中神经连接强度的改变由三个要素决定：突触前活动、突触后活动及调控信号，这种机制能实现更精细的自适应学习过程。反馈对齐算法是一种神经网络训练技术，其使用随机固定的反馈连接而非对称权重矩阵进行训练，证明即使没有精确的反向传播也能实现有效学习。反向传播作为机器学习与人工智能领域的基础算法，通过计算损失函数对网络权重的梯度来训练神经网络。

英国伯明翰大学刘健教授课题组和中科院脑智中心、脑认知与类脑智能重点实验室张铁林研究员都在此领域做了诸多前沿探索，视频了解详情👇

未来挑战：从算法到神经科学的双向奔赴

尽管脑启发学习前景广阔，其发展仍面临瓶颈：首先，局部学习规则泛化能力弱于反向传播，需要考虑生物合理性与性能的权衡；其次，生物学习规则复杂度较高，现有神经形态芯片的兼容性需考虑，可能尚无法提供支持；最后，为了更好发挥生物设计的效果，需神经科学实验与计算模型更紧密互动，进行多重跨学科的验证。

神经科学对AI的启示“并非直接复制，而是提出关键问题”。反向传播是否隐含于大脑反馈环路？多巴胺如何协调分布式学习？这些问题的探索将推动AI与脑科学的共进。或许，下一代AI将不仅是“人工”智能，更是“类脑”智能。

彭晨| 编译

上一篇：构建开放协同创新生态

下一篇：原创华为、阿里、京东扎堆：东莞也能争“科技之城”？

脑启发学习综述：人工神经网络的下一场革命？

相关内容

热门资讯