可灵VS即梦:初探“多模态”
创始人
2025-09-11 18:25:45
0

文 | 硅基星芒

目前国内两个最火的AI生成视频平台,非可灵和即梦莫属。

作为影视外行人和AI爱好者,我准备组建一个纯AI的“影视团队”,看看效果如何。

在正式开始之前,还有一个问题:文生图+图生视频or文生视频?

两个平台都具备上述功能,那么两条路应该走哪条?

AI给出的答案是:使用“文生图+图生视频”的方法具备更高的可控性;而“文生视频”的方法能够让视频更有“动态感”。

考虑了一下成本和效率,我还是选择了可控性优先。

01 第一步:AI编剧,编写剧本

想拍一部电影出来,首先肯定得有编剧来写剧本。

我把先前公众号上发布过的一篇文章,以PDF形式丢给了目前公认性能强大的Gemini 2.5 Pro。

不得不承认,文字方面,AI当编剧确实是绰绰有余。

分镜头脚本写得有模有样,像我这种外行人可是完全写不出来。

尤其是图生视频指令,涵盖了场景、动作、运镜、风格这些专业化的东西,解决了大麻烦。

02 第二步:AI画师,绘制“分镜图”

前面已经说过,采用“文生图+图生视频”的方式可以提高可控性。

剧本既然已经有了,接下来的任务就是绘制“分镜”。

我把AI编剧写好的这些首帧图片指令,统统交给了腾讯混元这个AI文生图模型。

相比文字,AI在图片领域的能力显然有所下降。

好在混元生图的美术功底靠得住,给出的大部分图片质量都不错,基本符合预期。

当然,也有下面这些“瑕疵品”:

例如,“一条水平的发光进度条,位于画面下方,滑块在起始位置。背景是模糊的彩色光影。”

AI显然是没能理解指令。

以及,“一条高度精密的汽车生产线,无数机械臂在协同工作,焊接时火花四溅,充满工业美感。”

这次则是逻辑错误,一群机械臂似乎正在破坏一辆完工的汽车。

03 第三步:AI导演,让图片“动”起来

我把前面生成的静态图片和图生视频指令分别发给本次拍摄的导演——可灵和即梦。

然而,“开机”以后不久,我就遇到了理想与现实的碰撞。

刚开始,看到AI生成的几个时长5秒的视频时,我还是挺满意的。

毕竟,这些动态效果和光影变化在一个外行人眼里已经非常惊艳,画面也十分流畅。

不过,随着生成的视频越来越多,导演就开始露馅了,各自开始生成一些很奇怪的东西。

问题一:“导演压根不按照剧本来”

这是最常见的问题,无法容忍的“不听指令”。

先来看一个让人哭笑不得的例子:

图生视频指令:

场景描述与动作: 汽车的前大灯被激活,从一条细线开始,然后突然亮起,射出明亮而锐利的光束。一道微弱的能量光泽沿着车身的气动线条流动。

运镜方式: 缓慢而富有戏剧性的向上摇镜头(Tilt Up),从前轮开始,向上移动到挡风玻璃,让汽车感觉充满力量。

画面风格与质感: “英雄特写镜头”。电影级,精致,高级感。增加轻微的镜头光晕效果。

指令中写的明明白白,汽车的前大灯被激活,但可灵生成的视频中却是从车身中间射出一道光线,多少有点莫名其妙。

相比之下,即梦生成的视频效果要好一点。

问题二:“牛顿看了都得沉默”的物理和逻辑错误

让AI做物理题,它得心应手;但让它生成视频,它似乎又没完全学会现实世界的物理规则。

“穿模”可以算是家常便饭了,即梦和可灵生成的视频都存在这个问题,比如:

图生视频指令:

场景描述与动作: 所有机器以惊人的速度和完美的协调性协同工作,展现出极致的效率。机械臂抓取包裹,无人车流畅地避让和穿行。

运镜方式: 在仓库内进行一个长距离、平滑的移动镜头(长镜头),一镜到底地展示整个流程。

画面风格与质感: 工业美学,科技感,秩序感。画面干净,动作流畅。

另外,物理运动的实现看起来也很不合理:

图生视频指令:

场景描述与动作: 一颗闪亮的金色石子投入水中,激起一圈圈巨大而绚烂的彩色涟漪,涟漪扩散的速度非常快,瞬间照亮整个水面。

运镜方式: 俯视视角,缓慢放大(Zoom In)。

画面风格与质感: 诗意,愉悦。用涟漪的爆发来象征多巴胺的瞬间释放。

即梦生成的视频中,金色石子并非被投入,而是直接从水中浮现出来:

可灵则较好地完成了指令内容:

问题三:短时间内的失忆症

AI生成的视频有一个重大的缺陷,那就是一致性实在是太差。

短短5秒之间,一个镜头的主角就可能发生大幅度的变化。比如:

场景描述与动作: 表盘上的分针以极快的速度平滑地旋转一圈。刚一停下,手表屏幕上就出现一个柔和的、发光的脉冲动画。

运镜方式: 静态特写。

画面风格与质感: 现代,简洁,高效。脉冲动画干脆利落,代表“送达”的提醒。

即梦生成的视频,咱们暂且不谈“极快的速度”和“脉冲动画”实现的如何,这表盘直接就换了个样:

即梦生成的视频,咱们暂且不谈“极快的速度”和“脉冲动画”实现的如何,这表盘直接就换了个样。

可灵生成的视频就没有发生这个错误:

如果在这么短的时间内都无法保证一致性,整个视频的观感肯定是好不到哪去。

04 使用感受

对于图生视频的AI平台,它们确实是强大的工具,但目前还不是成为合格的导演。

先说可灵,它的表现相对更好一些。

对于物理世界的模拟动态真实感,它完成的不错,基本符合现实世界中的物理规律。

其次,可灵对于指令中概念的理解深度艺术诠释能力更具优势。不仅是字面意义,它还能在一定程度上理解文字背后的抽象概念和用户想要表达的情绪。

而且,可灵似乎并不是一个让做什么就做什么的死板机器。它生成的视频中,有些画面并未在文字中写明,却能或深或浅地反映主题。

如此说来,它更倾向于一个愿意突破边界进行尝试的“艺术家”。

另外,根据“影评人”Gemini 2.5 Pro的反馈,可灵具备强大的镜头语言掌握力,能够成功完成“推拉变焦”、“向上摇镜”等复杂运镜。

对于可灵生成抽象CG场景,影评人认为在技术质量和美学上都已经达到专业水准。

但是在这位“艺术家”发挥想象力的同时,也带来了一些问题:

较低的图像保真度和频繁的场景重构。

选择性执行用户指令和跑偏的创意。

这就是可灵“导演哲学”的必然代价,生成的视频可能会与预想的画面相差甚远。

再来说说即梦,相比艺术家,它更保守一些。

即梦生成视频的优势在于极高的图像保真度和稳定性

每个镜头的主体基本不会出现大幅度的扭曲和变形,画面也比较稳定。

这就意味着,即梦的“图生视频”功能,生成视频的质量很大程度上取决于图的质量。

此外,即梦对于复杂构图的指令也能够较为精准的实现,它对于指令的理解和执行能力更为可靠。

不过,即梦的缺点在于难以实现物理上的真实感,而且缺乏一些动态逻辑。

上面一些令人匪夷所思的场面大多出自它手。这也是对于概念理解深度不够、缺乏叙事能力的一种体现。

除此之外,“影评人”也指出,即梦的镜头语言理解和执行能力较为薄弱,几乎无法完成较为复杂的电影运镜,降低了视频的表现力。

05 最后的一点想法

两个模型生成的视频都已经证明,对于一般的平台用户而言,高难度指令往往带来的是失败的结果,技术的边界尚未被突破。

技术角度来看:

AI生成视频领域内,“保真”和“创意”这两条核心的技术路线仍然存在博弈,不能兼顾。

此外,视频时长也是目前存在的一大限制。

不管是国内还是国外的AI视频生成平台,大多将单个视频的时长严格控制在5-10秒内。

单个视频能够表达的内容有限,生成长时间、情节连贯的视频对这一领域仍是巨大挑战。

而这对于用户来说,为编写提示词增加了难度。

写的太细致,模型无法理解,也无法在短短几秒内将内容表达完全;

写的太粗糙,模型生成的内容往往与用户的意图相隔十万八千里。

成本角度来看:

通过强大的设备和算力进行本地部署,再对模型进行微调,可能才是生成高质量视频的可靠选择。

但,这成本可不是一般用户承受得起的。

即便是这两个在线应用平台,会员价格也并不便宜。

单买积分的话,即梦上使用视频3.0模型+720P+5秒视频的最基本配置是1元1条视频;

可灵上使用标准模式+5秒视频则是2元1条视频。

但根据我的使用经历来看,想要生成的视频能达到一般短视频的水平,肯定是需要升级配置并多次生成、不断调试的。

而这个过程,开销肯定会不断增长。

因此,导演、摄像师和后期老师们大可以松一口气。

想让AI生成具备观赏性的影片,我们不妨再多些耐心。

相关内容

热门资讯

社交-交易-AI,如何理解腾讯... 腾讯正站在AI变现的新起点,微信生态的社交-交易-AI深度融合,有望为公司带来千亿级别的增量收入和盈...
深化产学研融合,金塑宝搭建实验... 实验室里,科研人员专注于攻克技术难关,但成果却受限于诸多因素难以落地;生产线旁,技术工人与工程师们紧...
金沙江创投朱啸虎:“下一个字节... 红星资本局9月11日消息 今日外滩大会开幕式上,金沙江创投主管合伙人朱啸虎给出了一个观点,他认为AI...
原创 苹... 苹果发布会今天凌晨落幕,发了8款新品,iPhone外观是近几年变化最大的一次,这点就好在没人看不出来...
【数智化CIO展】美的集团CI... 刘向阳 企业核心竞争力在于能力和效率。能力主要靠研发,效率主要靠数智化。效率是为企业保命的,因为护城...
培养更多数字技能人才赋能产业转... 当前,随着人工智能技术的飞速发展,天津这座工业老城也在向数字化、智能化转型,需要大批高素质数字技能人...
观察|AI产业爆发!今年外滩大... “Flowith在去年8月发布时,市场上同类Agent产品不足20款,今年仅仅8月就新增超过50款,...
“2025年全国科普月”系列活... 根据新修订的《中华人民共和国科学技术普及法》,今年9月是我国首个全国科普月,为更好地发挥科普阵地服务...
荣耀高管点评iPhone 17... 2025年9月10日,苹果秋季发布会推出的iPhone 17系列引发广泛关注。荣耀终端股份有限公司品...
聊得来日常,救得了危局!外滩大... 大秀厨艺、按摩推拿、打鼓奏乐、调制鸡尾酒……走进外滩大会的“机器人小镇”,各类机器人各显神通。从生活...
世优合作丨绽优科技亮相98投洽... 2025年9月8日至11日,第二十五届中国国际投资贸易洽谈会(简称“98投洽会”)在厦门隆重举行。作...
高通钱堃:助力中国合作伙伴通过... 9月11日-12日,由知识产权出版社主办的第十四届中国知识产权年会在北京举办。本届年会以“数字时代的...
2025服贸会丨自研芯片打破海... 作为全球服务贸易领域的年度盛会,2025年中国国际服务贸易交易会(以下简称“服贸会”)也成为医疗科技...
产业互联网平台开发公司|数商云... 在数字经济与实体经济深度融合的背景下,产业互联网正成为推动传统产业转型升级的核心引擎。作为国内领先的...
售价近千元!又一大厂推出UWB... 自雷蛇在2021年推出Viper 8K鼠标后,市场上出现了不少声称可通过2.4GHz连接提供8K轮询...
iPhone 17橙色风暴来袭... 你还在用着厚重的手机吗?你还在为千篇一律的黑白灰配色感到无聊吗?苹果这次真的放大招了!iPhone ...
iPhone 17打价格战,苹... 创新不够,诚意来凑 撰文/ 孟会缘 编辑/ 李觐麟 排版/ Annalee 今年由苹果举办的“科技春...
用国产GPU训练的国产大模型来... 智东西 作者 | 陈骏达 编辑 | 心缘 智东西9月10日报道,9月5日,中国科学院自动化研究所发布...
“空中120”为生命架起云端高... □本报记者 李晓敏 9月9日,全国首架C909医疗机在郑州正式交付。这不仅为河南,也为全国医疗救援体...
科研与产业成果双向赋能光电领域 显微高光谱成像仪。 基于拉曼光谱技术的LNG组分在线检测系统。(图片均由受访单位提供) ■记者 关...