腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
创始人
2025-08-30 21:20:42
0

腾讯混元 投稿

量子位 | 公众号 QbitAI

自带声音的视频生成模型,开源版开卷!

最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介绍这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。

夸张滑稽的卡通音效和真实演奏配音都不在话下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.

并且完全开源,具体链接可见文末。

专业级别视频配音自动化

视频生成领域的最新进展已能产出视觉效果逼真的内容,但缺乏同步音频,严重影响了沉浸感。

视频转音频(V2A)生成仍面临三大关键挑战 ——

  • 1、多模态数据集匮乏:现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。

  • 2、语义响应不均衡:音频严重依赖文本语义,而忽略视频语义,导致无法响应视频中文本未描述的音频内容。

  • 3、音质粗糙:现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

为解决以上挑战,腾讯混元团队推出端到端多模态音频生成框架——HunyuanVideo-Foley,可合成与视觉动态和语义语境精确匹配的高保真音频,真正实现了专业级别的视频配音自动化。

亮点一:泛化能力好,多场景音画同步

HunyuanVideo-Foley对各种场景的视频输入都能够生成音画一致、语义对齐的音频。

人物互动、动物活动、自然景观、卡通动画、科幻等各种场景,都能生成与画面精准匹配的音频。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.

亮点二:多模态语义均衡响应,文本画面全兼顾

HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为“海浪声”时,HunyuanVideo-Foley不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声。

甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。

这种对文本描述与视频细节的双重响应,避免了“顾文失画”的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

亮点三:专业级音频保真度

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,HunyuanVideo-Foley均达到专业制作水准。

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:A car drives over the wet road.

性能表现全面领先

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先。

在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

在权威评测基准MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标PQ(AudioBox-Aesthetics)从6.17提升至6.59;

  • 视觉语义对齐指标IB从0.27提升至0.35;

  • 在时序对齐指标DeSync上从0.80优化至0.74,均达到当前SOTA水平。

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

技术方案解读

1、自动化标注与数据过滤的数据管线

首先,为实现可扩展的多模态数据集构建,腾讯混元团队开发了自动化标注与数据过滤的数据管线,成功构建了约10万小时级的高质量TV2A数据集。

为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。

生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

2、创新MMDiT架构,实现多模态帧级对齐及文本注入

针对模态不平衡问题,HunyuanVideo-Foley创新设计了双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,再通过交叉注意力注入文本信息。

3、引入REPA损失函数,提供语义和声学指导

HunyuanVideo-Foley采用了表征对齐(REPA)损失,通过将单流音频DiT模块的隐层嵌入与预训练自监督模型提取的音频特征对齐,显著提升音频质量。

此外,腾讯混元团队还提出了一种改进的DAC-VAE,采用满足高保真要求的48kHz采样率,并将离散表征扩展至128维连续表征,大幅提升了HunyuanVideo-Foley的音频重建能力。

在这种框架下搭建出的HunyuanVideo-Foley视频音效生成能力,正为多元行业带来高效便捷的解决方案:

  • 针对短视频创作者,能自动适配搞笑段子、生活vlog、AI视频等内容的场景氛围,一键生成贴合画面节奏的背景音效,让创意表达更具感染力;

  • 助力电影制作团队突破传统音效制作的周期与成本瓶颈,快速构建环境音、拟音等细节丰富的声效场景,实现降本提效的后期制作升级;

相关内容

热门资讯

亚宝药业:加速构建特色核心技术... 本报太原8月30日讯(记者 王龙飞)亚宝药业集团股份有限公司国家企业技术中心在关键领域持续攻坚,构建...
萧山交警创新执法:无人机化身“... 杭州萧山,一项交通管理领域的创新实践正在悄然改变执法方式。无人机与空中电警的结合,标志着该地区在交通...
金明精机获得发明专利授权:“热... 证券之星消息,根据天眼查APP数据显示金明精机(300281)新获得一项发明专利授权,专利名为“热风...
济南将加快制定出台市级机器人政... 来源:微博济南 8月29日,济南市政府新闻办举行“产业链上的山东好品牌”济南市企业家第二场记者见面会...
《可信数据空间创新发展报告(2... 8月29日,在2025数博会“公共数据开发利用”交流活动上,国家数据发展研究院联合相关单位发布《可信...
快手创作者经济崛起:2600万... 在2025年度的快手光合创作者大会上,快手科技创始人及CEO程一笑透露,过去一年中,平台上实现收入的...
推动人才、技术、资本融合 一场... 潮新闻客户端 通讯员 王贤杰 8月28日,第二届“AI宁波”人工智能赋能产业大赛巡回推介暨产资赋能对...
促进金融数据价值释放 助力行业... 转自:贵州日报 本报讯 8月29日,由中国国际大数据产业博览会执委会、贵州省大数据发展管理局主办,国...
2025数博会贵阳启幕:贵州人... 在贵阳,2025中国国际大数据产业博览会的一项重点活动——“人工智能行业大模型成果发布暨供需对接活动...
《三体》海外出版十周年,刘慈欣... 主办方供图 中国日报网8月30日电 8月30日上午,“宇宙回响——《三体》海外十年影响力发布会”在第...
中天科技等“一种输电线路防风绝... 天眼查APP显示,近日,江东金具设备有限公司,江苏中天科技股份有限公司申请的“一种输电线路防风绝缘子...
微电网“操盘” 泰安市领跑工业... 屋顶光伏板发出的电,可直接在屋内利用;用不完的绿电,能存入储能电池柜;新能源车变为“移动储能单元”,...
人工智能行业顶层设计出台,政策... 来源:界面新闻 界面新闻记者 | 杨舒鸿吉 界面新闻编辑 | 庄键 2025年8月26日,国...
索尼承认FeliCa卡存安全漏... 来源:IT之家 【索尼承认部分 FeliCa 卡存在安全漏洞,有系统破解后被篡改数据风险】8 月 2...
德菱科技“一种智能断路器及其控... 天眼查APP显示,近日,浙江德菱科技股份有限公司申请的“一种智能断路器及其控制方法”专利获授权。摘要...
快手2025光合创作者大会:深... 在近日举行的一场备受瞩目的活动中,快手深入探讨了其内容生态的核心战略,特别是在短视频与直播融合、公私...
刘庆峰的"AI国家队... 前言: 刘庆峰,男,汉族,1973年2月出生于安徽泾县,1990年考入中国科学技术大学,1998年...
力争年内服务企业超100家,张... 来源:澎湃新闻 2025年8月29日下午,张江科学大数据创新实验室在上海浦东新区模力社区启用。作为上...
年营收破12亿的知行科技,如何... 来源:IT时报 IT时报记者 郝俊慧 在知行科技的生产工厂里,一条自动化产线正在高效运转:从PCB贴...
我国低空装备产品数量超400万... 据工信部,截至目前,我国低空装备产品数量超400万台。以无人化、电动化、智能化为技术特征的新型低空装...