专访|以扩散模型“炼”码 中国电信驱动通信从“传数据”向“建体验”转型
创始人
2025-07-16 12:21:27
0

近日,中国电信在多媒体与人工智能交叉领域取得具有国际影响力的技术突破。中国电信云计算研究院常建慧博士的论文《Generative Image Coding with Diffusion Prior》在IEEE国际多媒体与博览会议(IEEE International Conference on Multimedia and Expo,ICME 2025)上荣获“最佳论文奖”(Best Paper Award)。该篇论文创新性地将扩散模型(Diffusion Model)引入生成式图像编码领域,有效突破传统方法在压缩效率与重建质量之间的权衡瓶颈。

(图片来源:摄图网)

“生成式图像和视频编码的突破,正在推动通信系统从‘传输数据’向‘重建体验’转型。它的意义不止在于压缩率的提升,更在于我们能够以极小的传输负载,还原出感知质量很高的视觉内容。”在本次采访中,中国电信云计算研究院常建慧博士深入解读了此次中国电信生成式图像编码技术突破的应用价值与前景。

痛点突围:图片“压缩”和“生成”关系的重构

想象一下,你在家戴着一副轻便的AR眼镜,和远在国外的家人“面对面”聊天,他们的表情、动作、甚至身后的环境,都在你眼前栩栩如生。这些高清画面并不是完整传过来的,而是眼镜收集了动作、语义、结构等关键信息,通过本地生成模型快速还原画面。这背后起关键作用的底层技术,就是生成式编码。

随着生成技术的进步,视觉内容已从自然图像为主,演变为自然图像与AI生成图像的复杂混合,这推动了对优先考虑感知质量的高效编码技术的需求。

早期生成式编码技术多基于 GAN(生成对抗网络)和 VAE(变分自编码器)模型,在控制力、稳定性及重建质量方面仍有一定限制。近年来在图像生成领域,扩散模型展现出了可控生成高质量图像的强大能力,为图像压缩任务带来了新的可能性。然而现有基于生成扩散模型的方法则多由文本引导,虽然能够生成高质量图像,但保真度有限,容易出现偏色、变形、语义偏移等问题,难以满足通信系统对“可控、稳定、可还原”的编码要求。

研究提出的基于扩散模型先验的生成式编码框架,核心突破在于:将“生成能力”转化为“可控的压缩系统”,使模型在低码率下依然能够传达明确而有效的控制信号,确保重建结果听从压缩器“指令”,该框架在低码率区间显著提升了感知保真度。

整体采用通用编码器与插件式适配器相结合的架构,引入变码率机制,以支持多码率压缩与灵活对接多种预训练扩散模型,从AIGC到自然图像再到垂类内容,适配性强,同时也降低了训练与迁移成本。

技术突破:“99次失败后的成功”

科研往往是在对的方向中,螺旋上升的一个过程。这项技术的萌芽,始于常建慧求学期间的思考与探索。“那时候就一直在探索‘能不能让生成模型参与图像压缩’,也做出过一些成果,但在细节保真和泛化能力上仍存在瓶颈。”扩散模型的发展为这一难题提供了新的解法。其在稀疏条件引导下所展现的高质量重建能力,使其成为构建新型编码系统的理想基座。

然而,从想法走向可用方案的过程中,仍面临诸多挑战。其中最核心的挑战,是如何同时解决压缩器的表达能力与生成器的可控性问题。一方面,压缩端需要在极低比特率下仍能提取出对生成过程有引导力的关键信息;另一方面,扩散模型本身的生成过程复杂,如何让其“听懂”来自编码器的控制信号,也需要精细设计结构与融合方式。早期的探索中,在编码结构、压缩粒度、控制接口等方面都经历了多轮尝试与调整。直到引入“变码率编码器+适配器+融合引导”的结构,才逐步建立起压缩–生成之间的协同机制。

去年7月加入中国电信云计算研究院之后,研究院提供了强大算力与实验条件支持。算力是AI生成研究的重要底座,持续的算力资源投入让复杂模型训练与海量实验成为可能。经过反复实验与模型优化,该方案逐步趋于稳定。“实验不是一蹴而就的,成功背后需要足够多的积累。”

“因为是框架性的工作,想要进一步提升并拓展到更多场景中,从而验证其可用性、可行性。”在有了会议版本后,常建慧开始思考如何进一步扩展这个工作。项目成员也从最初的“单打独斗”,发展到今年有实习生加入。为帮助新人快速上手,她整理了详尽的技术文档,常陪实习生一起调试代码、讨论方案。“有次他卡了一周没跑通实验,最后终于啃下来了,那一刻比自己成功还有成就感。”

这种“敢啃硬骨头”科研氛围,植根于研究院独特的土壤。“有空间、有活力”是常建慧对这里的评价,也是她选择加入的重要原因。“一个关键契机是吴杰院长的邀请。他作为资深教授,学术视野非常宽广,且一直保持着对科研的热情,对根技术的关注、对原理的执着,给我很大的感染。这次ICME的投稿能够脱颖而出,离不开他的强烈推荐与信任。”

该项技术在去年年底完成早期版本,今年年初投稿ICME2025,并从3737 篇论文中脱颖而出,成为本届大会唯一的最佳论文奖。

这不仅是常建慧个人的里程碑,更是研究院在图像编码这一传统而前沿的领域,探索出一条极具创新价值的新路径。“虽然目前技术还处在研究成果初步成型、持续工程验证的阶段,但我已经切实感受到了‘从想法走向成果’的路径正在打通。能在这样的平台上做研究,我感到很幸运,也很有动力把这项工作继续推进下去。”

未来已来:从图像到多模态,构筑通信新生态

从产业发展趋势上看,生成式压缩正好契合AI原生通信、AIGC存储优化、边端协同等新兴需求,是一个“技术领先+需求拉动”的方向。

当前,基于扩散模型的生成式编码新框架展现出广阔的应用前景,从能力特点来看,它适合应用在带宽敏感或存储成本高的场景。例如医疗影像等冷数据图像的长期备份,这类内容对访问频率要求不高,但对还原质量仍有基本保障需求,生成式编码可以在极低码率下保留结构与感知细节,有望大幅降低存储开销。

但要实现规模化落地,还需重点突破三大核心内容:一是提升推理效率,进一步优化扩散模型的采样流程与部署性能;二是提高系统集成能力,解决现有平台中生成式解码的接入问题;三是推进生态标准建设,推动上下游接口规范、格式统一等工作。

“我们认为,生成式编码是一项面向未来的‘通用视觉通信能力’,它将支撑泛在云向更智能、更高效、更感知驱动的方向演进,也是研究院接下来重点方向之一。”常建慧介绍道,在边缘端,生成式图像编码技术可以降低图像/视频的回传成本,提升算网协同效率;在中心云,能够支持大规模感知优先型视觉内容的托管、分发与归档,节省存储空间;在泛在场景中,可以构建出“生成驱动”的新型通信机制,兼顾质量与效率。下一步,中国电信云计算研究院计划将该技术拓展到视频编码中,并面向多模态任务、多模态模型进行探索。

中国电信董事长柯瑞文曾强调,“科技成果只有通过规模应用,才能促进技术不断迭代完善,形成成熟的商业模式,实现技术和市场双轮驱动产业发展,并进一步反哺科技创新。”

应用落地是检验技术创新的“验金石”。作为中国电信面向未来科技创新的核心力量之一,云计算研究院坚持“以科技驱动引领未来、以创新赋能产业升级”发展宗旨,深耕前沿技术研究;同时,与天翼云联系紧密,在实际运行中,其承接天翼云提出的实际业务痛点,攻关核心技术后再通过天翼云完成落地验证,实现产学研深度咬合闭环。基于此,“我们也将与天翼云公司探讨可能落地应用场景。针对落地应用需求,在目前基础上进一步迭代升级。在升级过程中,还可以应用一些新的技术去设计,降低推理实验。”据中国电信云计算研究院院长吴杰透露,当前,云计算研究院已与天翼云、天翼视联公司进行初步沟通,未来应用场景将不止于“云”,还将延伸至视联网领域。

当灵感遇见坚定支持,当个人探索汇入团队使命,那些曾经制约实践的“不可能”,终将被一一击破。在“AI+通信”的融合浪潮中,中国电信创新者正以扎实的根技术,实践着从“0”到“1”的突破。

相关内容

热门资讯

天舟九号对接空间站,仅用3小时 7月15日5时34分,我国在海南文昌航天发射场,运用长征七号遥十运载火箭(以下简称“长七火箭”),将...
黄仁勋称华为芯片设计极为优秀:... 快科技7月16日消息,今天第三届链博会在北京开幕,英伟达CEO黄仁勋参加了开幕式发表演讲,随后黄仁勋...
以系统性变革引领国际传播创新实... 突破体制壁垒,从单一报业到全媒体生态的系统性重构。《Let's Meet》,是集团旗下西部国际传播中...
原创 荣... 经常看阿维文章的人应该都知道,今年荣耀公司的CEO由赵明换成了李健,所以今年的荣耀手机特别给力,上半...
浙江安必备电气取得扎带紧固器专... 金融界2025年7月16日消息,国家知识产权局信息显示,浙江安必备电气有限公司取得一项名为“一种扎带...
原创 2... 中国新能源车渗透率已经接近50%,如果从保有量来看,现在新能源车的保有量已经超过3500万辆。即使排...
我国提出的全球首个《电力储能用... 记者今天了解到,由我国提出的《电力储能用超级电容器》国际标准提案近日在国际电工委员会(IEC)成功立...
裕升铝业取得一种后梁四轴加工夹... 金融界2025年7月15日消息,国家知识产权局信息显示,中山市裕升铝业有限公司取得一项名为“一种后梁...
英伟达黄仁勋:任何轻视华为的人... IT之家 7 月 16 日消息,据新浪科技,英伟达创始人黄仁勋于 7 月 16 日在北京举行媒体会。...
马斯克推出二次元“AI女友”,... 新闻荐读 作为一个令业界感到震惊的转变,世界首富埃隆·马斯克的AI聊天机器人Grok短短几天内从口无...
6100mAh+骁龙8至尊+6... 2025年7月2日,全球领先的AI终端生态公司荣耀(HONOR)在深圳举办新品发布会,备受期待的轻薄...
气象站介绍——关于智能气象站的... 【推荐:仁科智能气象站(型号RS-QXZ),工业级品质,精准可靠】在现代社会,气象数据对生产生活的影...
起猛了,AI工程师的转会费已经... 最近Meta到处挖人的事儿,闹得沸沸扬扬的。 扎克伯格为了All in AI,那就和整了台挖掘机一样...
北京邮电大学好不好?科技成果展... 科技成果展览对于高校发展而言,意义非凡。它不仅是高校科研进程与成果的直观体现,全方位地反映了学校在学...
原创 光... 家人们,今天要和大家分享一个超厉害的科学突破,和我们未来的高科技生活息息相关哦!你们知道吗,最近在光...
破解办公室 WiFi 难题:告... 办公室里,正在上传重要文件时进度条突然卡住,视频会议中同事的声音断断续续 —— 这些因 WiFi 信...
博尔冷热缩取得冷缩管支撑结构专... 金融界2025年7月15日消息,国家知识产权局信息显示,苏州市博尔冷热缩材料有限公司取得一项名为“一...
兆方科技取得前置潜水呼吸设备专... 金融界2025年7月16日消息,国家知识产权局信息显示,广东省兆方科技有限公司取得一项名为“一种前置...
身穿唐装、中文演讲,黄仁勋在链... 图片来源:视觉中国 7月16日,在第三届中国国际供应链促进博览会开幕式上,英伟达公司创始人兼首席执行...
那些超出想象的AI Agent “公元5世纪中期,一位不知名的基督教诗人离世,而这一年恰好是某古代环境重建年表的截止年份。这个科学年...