信息港小镇企业一知智能 让照片“活”起来
创始人
2024-09-06 12:00:47

最近,信息港小镇企业杭州一知智能科技有限公司自研的通用说话人合成技术上线,能让静态照片“开口说话”。

什么是通用说话人合成技术?这是一种基于智能算法的图像处理技术,它能根据语音直接驱动静态照片中人物头部和面部自然动作,不需要定制训练,即可生成人物流畅说话的视频效果。

也就是说,仅需一张图片,一段音频,就能让图片中的人物“活”起来。

那么,通用说话人合成技术是如何做到的?一知智能相关负责人介绍,首先,在语音特征方面,采用基于Transformer的语音特征聚合模型,来提取每一帧画面对应的语音特征。同时,通过motion extractor提取头部姿态和表情偏移量,在实际使用中可以用模板库中丰富的头部姿态序列进行驱动,“这样子,我们就将关键点、语音特征、运动信息和图片特征通过聚合模型进行了融合,并利用扩散模型重建了头部图像。想象一下,你只需上传一张自己满意的照片和一段音频,就能得到一个动态的你,是不是很有趣?”

值得一提的是,基于过去为众多电商品牌拍摄的定制或公用模特,一知智能构建了丰富的头面部动作与表情模型库,这使得通用说话人合成技术能够创造出自然又真实的多样化面部表情与动作,精准匹配声音与细腻表情变化。

实际上,这项技术的突破,不仅仅使一知智能在通用式唇音匹配效果上处于业界领先地位,更极大降低了数字人制作的经济与时间成本,“我们摒弃了前期对摄影棚拍摄和专业化妆师团队的依赖,仅凭单图就可驱动出高真实度、高可控性、高表现力的数字人,与定制化数字人模型所差无几。”

一直以来,一知智能不断探索AI多模态人机交互的新边界,致力于将AI深度融入业务场景。该技术提升了数字人制作的灵活性与效率,也为一知的业务拓展开辟了新视野,带来更多可能性。(周珂 冯佳程)

相关内容

热门资讯

跨越1500公里 ,京企卫星互... 相隔1500公里,坐在北京指挥中心的远程操控员发出“投弹”指令,成都某处上空的无人机释放模拟灭火弹,...
Manus被卖:AI应用“黄金... 成立不足四年、发布Manus不满一年的创业公司蝴蝶效应被Meta以数十亿美元收购。 12月30日一早...
富威灯饰取得伸缩式户外装饰灯专... 国家知识产权局信息显示,佛山市富威灯饰有限公司取得一项名为“一种伸缩式户外装饰灯”的专利,授权公告号...
“双向奔赴”的一年:“科技+”... 新华社上海12月30日电(记者陈爱平)从机器人亮相晚会庙会、酒店景区、体育比赛,到虚拟现实、增强现实...
堃伍申请观点融合处理专利,提升... 国家知识产权局信息显示,上海堃伍企业发展有限公司申请一项名为“一种观点融合处理方法、处理系统、存储介...