何恺明CVPR最新讲座PPT上线:走向端到端生成建模
创始人
2025-06-19 19:41:50
0

机器之心报道

编辑:张倩

生成模型会重现识别模型的历史吗?

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。

这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合影。

其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What’s After Diffusion?」workshop 演讲嘉宾等。

这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。

近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。

这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。

近日,他的个人网页上传了 workshop 的 PPT,非常值得学习。

PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前几页,何恺明首先带大家回顾了识别模型(recognition model)的演进。在 AlexNet 之前,逐层训练更为流行,如深度信念网络(DBN)和去噪自编码器(DAE)。但 AlexNet 之后,识别模型普遍实现了端到端训练,大大简化了模型设计和训练的复杂性。

有趣的是,今天的生成模型在概念上更像是逐层训练:Diffusion 模型通过 T 个去噪步骤逐步生成,自回归模型通过 T 个 token 逐步生成,它们都需要多步推理过程。这让我们不禁思考:历史能否在生成模型领域重演?

从更高层面来看,识别与生成其实是同一枚硬币的两面。识别可以被看作是一个「抽象」的过程:我们从丰富的原始数据(如图像像素)出发,通过网络的多层处理,逐步提取出越来越抽象的特征,直到最终得到一个高度抽象的分类标签或嵌入。

而生成则恰恰相反,它是一个「具体化」的过程:我们从一个抽象的表示(比如一个随机噪声或概念向量)开始,通过网络的多步转换,逐渐将其具体化,最终生成出具有复杂细节的真实数据。

下图更直观地描绘了这种「抽象」与「具体化」的对应关系。底部代表原始数据,顶部代表抽象的嵌入空间。表示学习是从数据向上流动,将数据映射到嵌入。而生成建模则是从嵌入向下流动,将嵌入转换为数据。这个过程可以被视为数据在不同抽象层次之间的「流动」。

不过,识别和生成和生成有着本质的不同。识别任务通常有一个确定的数据到标签的映射,但生成任务不然:我们希望从一个简单的「噪声」分布映射到复杂多变的数据分布。这个映射是高度非线性的,而且存在无限的可能性。

如何有效地「构造」这个映射,是生成模型面临的核心挑战。连续归一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技术,为解决这个问题提供了有希望的方向。

在讲座中,何恺明提到了流匹配方向的几篇代表性论文:

下图直观地展示了 Flow Matching 在生成模型领域中的位置:

何恺明还介绍了流匹配的一些技术细节:

讲到这里,何恺明总结出了几个关键点:

  • 识别与生成都可以被视为数据分布之间的一种「流」。
  • Flow Matching 为训练生成模型提供了一种强大的方法,它能够构建出 ground-truth 场,这些场是隐式存在的,并且与具体的神经网络结构无关。
  • 尽管我们希望实现精确的积分来生成,但在实践中,我们通常采用有限求和的近似,这与 ResNet 的离散化方法类似,或者利用数值 ODE 求解器。
  • 我们的终极目标是实现前馈式的、端到端的生成建模,摆脱多步迭代的依赖。

接下来,何恺明介绍了他们近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。

具体来说,论文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。

论文推导出平均速度与瞬时速度之间存在一个内在的关系,从而作为指导网络训练的原则性基础。

基于这一基本概念,论文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

以下是该论文的技术细节(可参见机器之心之前的报道辅助理解:《何恺明团队又发新作: MeanFlow 单步图像生成 SOTA,提升达 50%》:

论文所提方法的实验结果如下。MeanFlow 与之前的单步扩散 / 流模型进行了比较,总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,该方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。

然后,他展示了一些 1-NFE 的生成结果。

接下来,何恺明致敬了整个社区在实现高效、端到端生成方面所做的共同努力。他列举了几个主要的研究方向:

  • Consistency Models (CM):包括 Song 等人的原始工作,以及后续的改进版本如 iCT、ECT、sCM。
  • Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
  • Revisiting Normalizing Flows:如 TarFlow 等。

最后,何恺明对整个方向进行了展望,并提出了几个问题:

  • 我们是否还在生成模型的「AlexNet 前时代」?
  • 尽管 MeanFlow 已经取得了显著的进步,但它在概念上仍然受限于迭代的 Flow Matching 和扩散模型框架。
  • MeanFlow 网络扮演着双重角色:它既要构建从噪声到数据的理想轨迹(这些轨迹是隐式存在但需要模型去捕捉的),又要通过「粗化」或概括这些场来简化生成过程。
  • 那么,究竟什么是真正适用于端到端生成建模的良好公式?这是一个开放性的、激动人心的研究问题。

相关内容

热门资讯

南极冰下传出超越人类认知的神秘... 研究人员到目前为止依然给不出任何合理解释。 一台宇宙粒子探测器近日在南极上空探测到一个无法解释的奇...
原创 数... 想象一片直径数亿光年的宇宙空间,空无一物,没有星系、恒星,甚至连尘埃都稀少,这就是宇宙空洞,这些“宇...
聚势南湖 共创未来|科大讯飞嘉... 2025-06-19 11:03:30 作者:狼叫兽 6月18日,在嘉兴市南湖区人民政府指导下,由...
5G发牌六周年:技术持续演进 ...   新华社上海6月19日电(记者陈爱平)18日开幕的2025年世界移动通信大会(上海)聚焦5G融合、...
国资委原副主任苟坪履新,出任中... 2025年6月14日,中国卫星网络集团有限公司完成工商变更登记,苟坪正式接任法定代表人及董事长职务。...
如何成为高效首席数据官 数据无处不在,但没有一兆字节可以视为理所当然。首席数据官(CDO)是负责从企业数据中获取最大价值的高...
读创今日荐书 | 怎样看待生物... 深圳商报•读创客户端首席记者 魏沛娜 什么是生物电,它是如何被发现的? 生物电的研究过程中经历了哪些...
合肥联宝信息技术取得扬声器接电... 金融界2025年6月19日消息,国家知识产权局信息显示,合肥联宝信息技术有限公司取得一项名为“扬声器...
中国移动首发“智星犬”卫星通信... 在MWC上海2025展会的一次引人瞩目的发布中,中国移动推出了全球首款智能卫星通信机器狗——“智星犬...
中国移动与荣耀宣布AI终端战略... 6月19日,在2025上海世界移动通信大会期间,中国移动联合荣耀以“智赋新程,移启荣耀”为主题,举办...
海淀AI+消费场景实验室揭牌 人民网北京6月19日电 (记者董兆瑞)6月18日,作为海淀数据场景实验室的分支机构,AI+消费场景实...
六部门印发实施方案,推动纺织工... 纺织工业是我国传统支柱产业、重要民生产业和国际优势产业。近日,工业和信息化部等六部门联合印发《纺织工...
源永动取得旋转吹尘装置专利,提... 金融界2025年6月19日消息,国家知识产权局信息显示,苏州源永动电子有限公司取得一项名为“一种旋转...
王氏药工取得药材加工用清洗装置... 金融界2025年6月19日消息,国家知识产权局信息显示,恩施市王氏药工医药科技有限公司取得一项名为“...
锐评|坚定“投资未来”必将“赢... 一辆公交车在北京京郊丝滑行驶,但坐在主驾的安全员并没有摸方向盘,哪怕遇到复杂路况,“AI司机”也能应...
雷军:美的、海尔都是非常优秀的... 6月19日,雷军转发卢伟冰对美的、海尔等企业的评价并表示,美的和海尔都是非常优秀的企业,小米需要认真...
活力中国调研行|向“智”!中国... 一场比工业革命更为深刻的人工智能革命近在眼前。中国机器人正加速“跑”起来! 带球对抗、过人、射门,进...
抖音500有效粉怎么弄?千川涨... 像这类的教程网上有很多,千万不要花钱去乱买,而且讲的还都非常详细,非常适合想要发展副业的小伙伴们。有...
陈军院士:要研制智能化测绘的生... 近日,由广东省测绘学会、中国测绘学会智能化测绘工作委员会、莫干山地信实验室主办的第四届智能化测绘发展...
世界移动通信大会:机器人秀本领... 上海6月19日电 (记者 郑莹莹 刘育英)2025年世界移动通信大会(上海)(MWC上海 2025)...