iDLab团队 投稿
量子位 | 公众号 QbitAI
当大数据席卷各行各业,控制理论也迎来新的拐点:从依赖模型到依赖数据。
但是,在数据驱动控制领域,却缺乏一种标准化的数据表示形式。
针对这一问题,清华大学李升波教授课题组(iDLab)首次将现代控制理论中的标准型概念引入数据驱动控制(datatic control)范式,提出了一种基于数据的系统描述新形式。
每个标准形式的样本由必要的转移和可插拔的属性组成,分别用于描述系统变化规律和人为定义特征。
不仅如此,该数据标准型还可根据算法需求定制属性,显著加速控制器设计,为提高数据驱动算法效率提供了新的思路。
目前,该成果已发表于ACC2025。
从模型标准型到数据标准型
人工智能的蓬勃发展,离不开数据这一核心支柱。
近年来,随着人工智能技术的广泛应用,以数据为核心的系统表征方法迅速渗透到控制领域。
控制系统的设计方法正迎来一场从模型驱动向数据驱动的范式变革,即从传统的模型驱动控制(modelic control,即model-driven control)到数据驱动控制(datatic control,即data-driven control)。
△图1:两种控制范式对比
模型驱动控制(上方路径)首先利用系统辨识来拟合一个模型,然后用这个模型来合成控制器。
数据驱动控制(下方路径)则直接利用数据来求解控制器。
在模型驱动控制(modelic control)的范式下,模型的标准型是一个有力工具。
例如,现代控制理论的奠基人鲁道夫·卡尔曼(Rudolf E. Kálmán)指出:将状态空间模型表示为可控标准型或可观标准型,无需额外的判断步骤即可直接确保系统的可控性或可观性。
此外,现代群论的奠基人之一卡米耶·若尔当(Camille Jordan)指出:任何状态空间模型都可以转换为约旦标准型,系统矩阵会变为对角方阵,其对角线元素代表系统的特征值。
因此,只需检查所有特征值是否为负,即可轻松验证系统的稳定性。更进一步,不同的特征值对应着系统不同的模态,这使得控制器设计更具针对性。
数据驱动控制(datatic control)范式下的标准型是一个新问题。
近年来,随着机器人、自动驾驶等具身智能系统的蓬勃发展,海量、复杂的交互数据正以前所未有的速度被生成。这不仅为传统控制算法带来了巨大挑战,也引出了一个全新的议题:
在数据驱动控制范式下,如何构建一个有效利用大规模数据的标准描述方式?即是否存在数据驱动版本的标准型?
数据的描述形式直接决定了后续控制器设计算法的运行效率和可扩展性。
以强化学习为例,训练算法通常涉及大量的迭代计算和高维数据处理。
在这一过程中,算法很容易陷入重复计算的泥潭,例如在每一步训练迭代中,都重新计算样本间的范数距离、特征相似度等信息。
这种重复性的计算不仅耗时,而且对计算资源造成了显著的浪费,严重制约了算法在现实世界中的部署和应用。
因此,如何高效、标准地组织和描述数据,以减少冗余计算、加速算法运行,是数据驱动控制范式面临的一项核心挑战。
类比于模型标准型,该研究首次提出,适用于数据驱动控制系统的标准描述形式:每条样本数据包含两个部分(如图2所示):
△图2:数据标准型示意图
(1)必要的转移部分,即<当前状态
,当前动作
,下一状态
>;
(2)可插拔的属性部分,例如奖励信号或其他人工设计特征。
前者蕴含了控制器设计必要的系统的动力学信息,后者可以根据控制器设计算法的需求来灵活定制与取用,降低存储压力,加速算法运行,即提高控制器设计效率。
仿真实例
该研究给出了一个典型的数据标准型应用实例。对于给定数据集,为了使得设计出的控制器效果可靠,许多强化学习算法存在近邻搜索的需求。
例如给定回放的样本状态
,算法需要在线计算当前策略
的行为与数据集行为之间的距离:
由于需要遍历数据集中每个样本来寻找最近邻,计算负担非常沉重。
在数据标准型的视角下,对于每个样本,可以通过提前定制一种特殊的空间属性,显著加速近邻搜索这一过程。
具体地,如图3所示,提前在样本空间中约定n个锚点
,对于每个样本,计算其与各锚点的距离保存为空间属性。
△图3:标准型的空间属性示意图
当每个样本都具备空间属性后,该研究给出如下空间筛选条件定理来加速近邻搜索。
定理1(空间筛选条件)
考虑一个包含
个锚点的数据集。记C为一个选定的样本,而S为任意其他样本。若S位于C的R-邻域范围内,则一个需要满足的必要条件为:
其中
表示表示逻辑与运算符。
△图4:空间标准型的空间筛选机制示意图
应用这一空间筛选条件,只需要一行判断指令,就可以快速缩小候选范围(如图4所示),显著加速最近邻搜索的过程,从而提高算法的整体运行效率。
该研究在D4RL数据集的Hopper环境下进行了实验,对引入空间标准型前后的训练时间进行了比较。
图5清晰地展示了这一改进:基础版本(蓝色曲线)的训练耗时约20小时,而应用了空间标准型筛选机制(橙色曲线)后,训练时间缩短至仅7小时,实现了三倍的效率提升。
△图5:应用空间标准型前后的训练时间对比
总的来说,数据标准型可以极小的存储空间开销,换取显著的时间效率优势。
除此之外,它还可以根据算法需求灵活插拔属性部分来降低存储需求,具备扩展性,为提高数据驱动控制算法效率提供了新的方向。