用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
创始人
2025-09-02 13:40:48
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

生成分钟级的长视频,只需要和短视频相当的成本?

字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务

为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。

使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%

对于短片来说,MoC也同样能实现降本效果。

多镜头64秒(8×8秒)的480P视频中,基线为1.7×10¹³FLOPs,而MoC只用2.3×10¹²FLOPs,同样节省约86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头8秒的320×192短片测试里,基线1.9×10¹⁰FLOPs,MoC为4.1×10⁹FLOPs,计算量减少约78%。

那么,MoC方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索

而MoC的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询token只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散Transformer主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

“可训练稀疏路由”

MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入“动态top-k路由”,对于每个查询qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的k个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的“均值+top-k”训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

  • 其一是“跨模态”链接,保证所有视觉token始终可访问完整文本提示,维系主题一致且强化可编辑性;

  • 其二是“镜头内”链接,使每个token至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC回把选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,在GPU上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

相关内容

热门资讯

宿迁阳光送变电: 无人机机群“... 扬子晚报网9月2日讯(记者 高峰)8月31日,宿迁阳光送变电公司宣布完成2025年首批32座无人机固...
白云区实施“智慧白云·数字活区... 8月28日至30日,2025中国国际大数据产业博览会在贵阳举行。本届数博会以“数聚产业动能 智启发展...
智能体已重塑商业领导层决策制定... 来源:至顶网 在提及智能体能够执行的工作时,我们往往专注于重复性和例行性任务。这些类型的任务是机器...
大连校餐“后厨管家”、智慧配餐... “智慧化”多场景应用 大连校餐“后厨管家”、智慧配餐车 纷纷上线 9月1日,大连市市场监管局联合市纪...
美媒:中美AI愿景谁更明智 美国《华尔街日报》8月30日文章,原题:中国对人工智能有着不同的愿景,这或许更明智 美国正投入数十亿...
原创 酷... Intel Arrow Lake处理器称不上是成功,大家对于这代处理器也是批评声偏多,毕竟和AMD相...
百度的搜索记录会被监控吗?有哪... 在这个信息爆炸的时代,我们的每一次点击、每一次搜索,都似乎在互联网上留下了深深的痕迹。 那么,百度的...
橡胶行业创新研发技术中心揭牌 来源:滚动播报 (来源:工人日报) 本报讯(记者张嫱 通讯员刘奕辰 李鲲鹏)8月26日,橡胶行业创新...
智联中阿向未来 8月29日,在第七届中阿博览会人工智能技术推介对接会上,中阿双方代表深入探讨了人工智能技术赋能传统产...
微软下月将停用“微软编辑器”扩... 9 月 2 日消息,上月初,微软宣布旗下广受欢迎的免费文档扫描工具 Microsoft Lens 即...
威胁猎人:2025年上半年互联... 今天分享的是:威胁猎人:2025年上半年互联网黑灰产趋势年度总结报告 报告共计:99页 2025年上...
先导智能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示先导智能(300450)新获得一项实用新型专利授权,专利名为“...
原创 年... 年轻版字母哥?火箭16号秀连续轰20+5+5,乌度卡作用不小 土耳其男篮的赛场把节奏打快了,阿尔佩伦...
性价比与颜值兼备的优秀新机,v... 这款vivo Y500近期可谓是势不可挡,从预热开始就吸引诸多网友,现在到了预售期间更是将要成为千元...
仟川太阳能板处理设备介绍:为何... 太阳能板 太阳能板并非 “长生不老”,其使用寿命通常在 25-30 年左右。随着早期安装的太阳能板陆...
vivo Y500搭载8200... 对学生党来说,手机续航的核心诉求很明确:要扛得住“早八到晚十”的满课生活,要适配“宿舍11点断电”的...
中国移动数智体育嘉年华收官 两... 8月27日至30日,由中国移动贵州公司(以下简称贵州移动)全力支持的“中国移动数智体育嘉年华”系列赛...
OPPO Find X9系列外... 2025-09-02 11:41:24 作者:狼叫兽 9月2日消息,知名数码博主发布了OPPO ...
错过四次话语权竞争,中国用一座... 中国正在谋划一场全工业产业的“制造觉醒”。 不同于最简单的数字化转型,让冰冷的机械设备听令于规则代码...
美媒:中国对AI有着不同愿景,... 美国《华尔街日报》8月30日文章,原题:中国对人工智能有着不同的愿景,这或许更明智美国正投入数十亿美...