有创意,就能人人当导演的时代真的来了。
作者|Cynthia
编辑|郑玄
还记得国庆期间朋友圈被 Sora 2 APP 支配的恐惧吗?
那时候,一定没人想到,这个出场即炸场的产品,同样出道即巅峰。
向来以天为单位不断刷新 sota 表现的大模型市场,唯独在视频生成上,此后足足两个多月,无论是谷歌 veo3.1 还是 Runway 推出的模型,都没能再现 Sora 2 在多人物不崩脸这个小细节上的稳定表现。
直到 12 月 16 日阿里万相 2.6 正式发布。在追齐 Sora 2 体验,并且推出独有的音频驱动生视频能力之外;万相 2.6 的这次升级更是将视角对准了多模态内容创作中多镜头切换、内容一致性的各种真实痛点,做到了让专业创作的乙方少加几次班,普通的 C 端内容创作爱好者 0 成本上手。
那么万相 2.6 体验究竟如何?它能否和 Sora2 一战?一定程度上,回答了这些问题,也就回答了未来多模态大模型究竟去往何方的核心命题。
01
万相 2.6 究竟做对了什么?
12 月 16 日,阿里旗下万相 2.6 正式发布,我们第一时间拿到了内测资格。
我们发现,这个涵盖文生视频、图生视频和角色扮演功能,图像生成和文生图共 5 款模型的组合拳产品,从功能亮点和功能丰富度角度来看,万相 2.6 已经是当之无愧国内的佼佼者,根据权威大模型评测集 LMArena 的测试数据显示,万相图生视频位居国内第一。
因为相比老对手 Sora 通过写实生成效果引发全球轰动的野心;万相这次 2.6 版本的能力升级其实主打就一个词,实用,并且把所有升级点砸向了影视制作、广告设计、短视频创作的真实痛点。
内容创作圈最头疼的,莫过于一致性崩塌。在传统动画行业,吉卜力工作室为了保证角色形象不跑偏、风格一致,会为了一部电影,几百位画师耗时两年画十几万张画稿,4 秒镜头能磨 1 年。而 AI 生成的噩梦,恰恰是前一秒主角还是圆脸,下一秒变成锥子脸,说话时嘴型和台词完全脱节。
针对这个痛点,万相 2.6 这次升级直接把声画一致性拉满,成为国内首个支持角色定制 + 音色同步的模型 :用户输入一段视频,AI 就能精准复刻角色的五官、动作甚至说话语气,就算是双人合拍,也不会出现脸飘到别人头上、镜头切换主角直接变脸的乌龙。
解决了一致性,下一个拦路虎是复杂场景的多角色呈现。
目前 Sora 2 与万相 2.6,是全球唯二实现该功能的模型。并且,万相 2.6 还能结合刚才提到的角色、声音一致性能力,让 AI 真正具备了一定的复杂画面生成能力。
而建立在一致性、多角色的基础之上,镜头调度和灯光审美往往是人类高质量视频内容的灵魂。
被奉为经典的宫廷剧《金枝欲孽》片头,导演通过一段不到 5 秒的镜头切换里,以及演员站位的变化,就说明了五个主要人物之间的关系与感情纠葛,二十多年过去,至今仍被奉为神级镜头调度。
王家卫电影的氛围感与幽微的人物情绪流动,也有一半功劳要归给灯光师的精准控光。
但以前 AI 生成视频,要么镜头衔接生硬,要么角色突然瞬移,上一镜在左边,下一镜直接出现在右边,更不用提各种精美的打光,以及氛围的塑造。
万相 2.6 的「智能分镜调度」很好地解决了以上问题,通过支持「总体描述 + 镜头序号 + 时间戳 + 分镜内容」的公式化输入,比如「第 1 镜 [0-3 秒] 远景推近,第 2 镜 [3-5 秒] 特写」,AI 不仅能严格执行,还能保证跨镜的场景、角色、氛围统一,再也不会出现「上一镜穿红衣,下一镜变蓝裙」的低级错误。
其实,万相早从 2.2 版本起,就已经能通过精细的灯光控制、环境细节呈现,支持日光、月光、硬光、柔光等精细调节,让 AI 生成的内容从「能看」升级到有「审美」,具备专业级内容生成能力。
光说不练假把式,我们带着挑刺的心态实测了整整三天,从角色定制到多镜叙事,从视频生成到图片创作,摸清了它「让人人皆可做导演」的真实水平,以及技术 demo 与生产级工具之间的差距。
02
视频能力实测:
人人都能生成神级镜头
过去很多行业测试,为了保证效果,经常会让 AI 生成一些无声视频,或者画面简单的动画风素材,再或者干脆就是一个几乎静止的背景中,只有一个小幅度动作的简单运动主体(甚至都不敢把主体设置为人或者动物这样有复杂肌理和动作的形象)。
这次对万相 2.6 的测试,我们不搞虚的,把一致性、多镜头、音画同步、长视频、审美,这些真实行业痛点、难点全都测一遍。
测试一:多镜头叙事
一直以来,多镜头叙事都是电影高级感的核心来源之一。这里我参考《哪吒》的画风,给了一段复杂场景、多主体的多镜头切换的提示词:
镜头一:低角度远景,镜头快速推进 3s
画面内容:仙境般的云端建筑群在云雾中若隐若现,一群白鹤自左向右舒展翅膀,掠过层层楼阁的屋檐
视觉效果:叠加中强度动态模糊,伴随轻微追焦微颤,焦点锁定鹤群与建筑轮廓
镜头二:中近景中速推进 + 追焦微颤 3s
画面内容:近距离捕捉白鹤羽翼贴近檐角的流畅轨迹,镜头紧跟鹤群运动方向。视觉效果的动态模糊逐渐减弱,追焦微颤幅度保持轻微,强化画面衔接感
镜头三:无缝转场,特写,镜头恒定不动 0.3s
画面内容:白鹤羽翼擦过最外侧屋檐翘角的瞬间,以檐角硬轮廓完全遮挡画面。无额外特效,保留自然光影,确保转场干净利落
镜头四:主体聚焦,从近景→特写,镜头缓慢推近 3s
画面内容:转场后聚焦檐角顶端,橘猫端坐舔爪(近景),随后推至特写,呈现舔爪细腻动作与毛发质感。画面清晰,焦点全程锁定橘猫
镜头五:特写变中近景中速推进 + 追焦微颤 4s
画面内容:橘猫被打扰,停止舔毛,看了一眼镜头后,跳下屋檐,动作轻巧,追焦微颤幅度保持轻微,强化画面衔接感。
这里的难点在于:首先是画面足够复杂,画面中主体来回切换,从飞翔的白鹤到舔毛的橘猫,再到跳下屋檐的橘猫,而伴随主体的动作变化,镜头也在同步于远景-中景-特写-中景中来回切换。
可以看到,生成的视频里,生成的视频里,《哪吒》式的东方写意美学被精准落地:云雾是渐变的水墨质感,云端建筑的飞檐翘角带着古风的韵味。白鹤运动的镜头即使高速推进没有丝毫卡顿,动态模糊恰好放大了闯入仙境的沉浸感;后续橘猫舔爪的毛发细节栩栩如生,镜头也会随着橘猫的眼神变化而出现画面的移动。
最难能可贵的是,三次大的镜头切换(白鹤→舔爪橘猫→跳檐橘猫)没有出现任何突兀感:鹤群的飞行轨迹是天然的视觉引导线,檐角转场是承上启下的视觉桥梁,橘猫的动作变化则成为镜头运动的点睛之笔。整体完全复刻电影级无缝衔接,没有任何卡顿或脱节。
测试二:长视频+审美
一直以来,AI 生成视频都不难,但生成稳定、漂亮、可用的长视频却一直是困扰依旧的痛点。
万相 2.6 支持最长 15 秒生成(角色扮演功能 10 秒),这个时长看似不长,但刚好戳中核心场景:短视频场景,15 秒是黄金时长、广告片场景,30 秒广告可拆成 2 个 15 秒片段、而在短剧片段,10-15 秒就能完成男主歪嘴一笑、龙王归位,一众吃瓜群众从白眼鄙视瞬间切换惊恐讨好的爽剧经典套路。
这里我们测试一个专业服装拍摄的商用级场景,提示词如下:
镜头一:0-3 秒,中景→近景。林间光斑透过树叶洒落,美女身着米白色棉麻长裙,缓步走在铺满落叶的小径,裙摆随步伐轻晃 暖调柔光,画面静谧,聚焦棉麻面料的垂坠感,轻柔风声、树叶沙沙声
镜头二:3-7 秒,特写→中近景。风拂过,特写衣角翻飞的弧度,棉麻纹理清晰可见;镜头拉回,松鼠蹲在她脚边啄食。自然光影,无多余特效,突出面料透气飘逸。风声渐柔,加入轻微呼吸声
镜头三:7-12 秒,近景→特写。美女抬手轻拂额前碎发,笑容舒展,小鹿从林间探出头,与她对视;镜头聚焦面料贴肤的舒适状态画面柔和,焦点在面料与人物神态之间切换, 背景音渐弱,预留口号空间
镜头四:12-15 秒,中景定格。美女站在林间转身,裙摆随风轻扬,小动物环绕身旁,画面定格在面料飘动的瞬间 暖光渐变柔和,画面干净治愈。背景音清晰女声:「好面料,会呼吸」。
这里的难点在于,除了美之外,棉麻质感难还原纤维肌理,还要考虑自然垂坠与光影通透感,否则容易显塑料感,此外,画面中的小动物互动增加了整体画面复杂度,而森林光影也需要在光斑、光线折射等细节做到真实且有美感。
行业人都懂,过去这种级别的画面,以前要找外景、模特、灯光师,拍摄 + 后期至少 3 天,现在用万相 2.6,输入提示词几分钟生成,直接能当成片交付。
此外,值得一提的是,万相 2.6 除了生成的视频质感高,操作门槛还极低。写出以上专业级分镜脚本,其实只要按照官方给出的【总体描述 + 镜头序号 + 时间戳 + 分镜内容提示词】指令指引,就能实现智能分镜调度功能。而这种能精准控制每个角色的动作顺序和画面镜头调配的能力,在短视频剧情创作、IP 衍生内容生产中简直是降维打击。
测试三:基于参考视频的人物,搞定人物一致性+音画同步。
这里我选用的输入素材是一段林黛玉的特写,以及模版中已有的关羽形象,来一段名著大乱炖。
提示词如下:暮春清晨,隆中茅庐外竹林青翠,薄雾如纱,屋内隐约传来抚琴之声。镜头先以全景定格——诸葛亮身着月白道袍,临窗而坐,指尖拨弄琴弦,琴声悠扬;
镜头突然切换为快速跟拍,@ 关羽走进柴门,镜头推进至中近景,大步流星到诸葛亮面前,,说「我回来了了」
镜头随着诸葛亮的眼光移动横切,@ 林黛玉 中近景缓缓入画。特写中眼眸流转着几分嗔怨与疏离:「早知他来,我便不来了。」
最终镜头切回诸葛亮收尾。
这里的难点在于:我给出了两个需要参考的主角,以及一个没有任何参考只有文字描述构建的诸葛亮形象,并且每个主角都多次引用在提示词不同位置,需要 AI 保持一致的情况下,精准控制主角行为。
可以看到,借助模态联合建模能力,万相 2.6 生成的视频里,时序动态(比如关羽的走路姿势)、情绪变化(比如林黛玉嗔怪的神情)全都和参考视频几乎一致,最惊艳的是:人物的嘴型和台词严丝合缝,声音质感没有半点 AI 塑料感。
另外,相同的人物角色,我又尝试直接给 AI 一段参考的黛玉的声音,让它自主生成视频,可以看到,我把背景音乐以及黛玉的语气改变之后,她整个人的神态也会随之变得生动活泼,并且口型与声音完全匹配。
而这段视频里,对比 Sora2,万相 2.6 的差异化优势也很明显:前者虽然支持长视频,但缺乏音频驱动生视频的功能,你没法让 Sora2 参考一段人声,生成对应角色的说话视频。而万相 2.6 直接把声音 + 画面绑定的能力,对于广告片、短剧、虚拟人直播等商用场景来说,实用性直接拉满。
03
图像能力实测:
设计圈的效率革命来了
如果说万相 2.6 的视频功能已经有了初步踏足专业影视圈的能力,那其图像能力可以说已经足以精准拿捏设计圈。
图像层面,万相 2.6 的核心升级,都围绕商用级展开:解决企业用户最关心的图文一体化排版、多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制等细节。
我们用两个真实商业场景做了实测,结果发现:以前需要设计师、插画师、排版师协作一周的活儿,现在一个人用万相 2.6 输入指令,几小时甚至几分钟就能搞定,而且细节精准到可以直接商业交付。
测试一:基于多张图片的图文混排
过去,内容创作圈的三重折磨在于:写文案的不懂设计,做设计的不懂文案,排版的夹在中间反复拉扯。比如出版社做绘本,要找作家写故事、插画师画配图、排版师调格式,三者风格要统一、内容要契合,光沟通修改就要耗半个月。
现在用万相 2.6,只要写这样一段提示词:
创作一本关于环保的儿童绘本,插画风格为治愈系水彩风,色彩以蓝白为主,每页插画要和文字内容精准对应,整体风格统一。故事内容:1、在遥远的北极,小北极熊乐乐发现冰面越来越小;2、乐乐遇见了迷路的鲸鱼,鲸鱼告诉它「人类在保护地球」;3、乐乐决定到处走走看;4、一年后,乐乐回到家乡,冰面变宽了,还多了很多小伙伴。
提示词背后的难点在于考验 AI 的逻辑理解 + 设计统筹能力:①要先拆解长文本的叙事结构,4 个段落之间剧情不能张冠李戴;②要保持插画风格、色彩、角色形象的高度统一,不能第一页是圆耳朵,第三页变成尖耳朵。
可以看到,生成的绘本不仅风格、色彩、角色完全一致,就连提示词中没有写到的文字意境也做了精准表达,比如第一页的小北极熊站在破碎的冰面上,眼神迷茫;第四页的冰面宽阔,小伙伴一起玩耍,氛围温暖。
而这也意味着,不管是绘本创作、公众号推文还是知识付费课件,后续都能实现文案输入→成品输出的一步到位,省去了找图 + 修图 + 排版的全流程,效率提升至少 10 倍。
测试二:商用级一致性 + 多图创意融合
过去,品牌方的物料噩梦在于,真人拍摄,经常因为各种情况耽误拍摄进度,需要场地加钱、模特加钱、各种设备重新报批申请;而用 AI 批量生成宣传图,AI 又像在开盲盒,只是想把产品图、背景图、参考风格图融合成一张海报,也会出现产品比例失调,背景和风格割裂,严重影响品牌识别度的问题。
针对这些,我们设计一段针对性测试。提示词:生成美妆品牌宣传图,要求:①核心产品为上传的口红(参考图 1),保持产品外观、logo、包装细节完全一致;②融合上传的花的照片(参考图 2),背景为花瓣飘落的场景;③产品垂直摆放在画面中央,周围散落 3-5 朵花,花瓣纹理清晰;④色调光影有大片质感。
生成一张之后,我们再要求其搭配一个模特,试用产品。
提示词背后的难点在于,让 AI 同时实现精准控制 + 创意融合的双重考验:既要要确保产品的外观、logo、包装细节在两张图里分毫不差(这里我专门选择了 YSL 这样的复杂 logo,并且 YSL 的口红膏体为相对少见的方形,其他 AI 在生成时,很容易把膏体变成常见的圆形);还要保证多图融合难在要把产品图、背景图、风格图有机结合,不能让产品像贴在背景上。
可以看到,生成的两张宣传图直接达到商用级标准。不仅所有要素之间也融合自然,并且做到了花朵背景和大片风格完美衔接完全不抢戏,主体产品突出,甚至金属包装会反射花瓣的光影这样的细节都做到了完美还原,毫无 AI 的痕迹。
这对品牌方来说,这意味着「一次设定,无限复用」,不仅可以做无限的创意搭配,还能保证品牌形象的统一性,效率革命近在眼前。
04
尾声
当然,万相 2.6 不是完美的。我们实测中发现几个小问题:比如视频最长只能 15 秒,对于需要长叙事的场景还是不够;非常复杂动作,比如翻跟头 + 复杂舞蹈动作,偶尔会出现肢体变形。但这几乎也是全行业目前亟需解决的问题。
但万相 2.6 乃至 Sora2 们微小的不足,掩盖不了一个行业真相:AI 视频生成正在从技术炫技进入落地加速阶段。AI 带来的,本质上是对内容创作生产关系的重构:不仅有大量专业影视制作平台在用 AI 制作漫剧、短剧,社交平台更是涌现了一批博主用 AI 制作的小猫打架、小说动画小短片在各种平台爆火。
基于万相 2.6 模型核心能力,千问 APP 上线「AI 小剧场」玩法,国内首次实现「角色合拍」能力,用户可与朋友或名人轻松同框出演 AI 短片。
而在这一过程中,人类只需保留想象力、审美以及创意,而剩余的执行细节,可以全部交给 AI。
这一次,有创意,就能人人当导演的时代真的来了。
*头图来源:通义万相 Wan
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待万相 2.6 模型?
热点视频
商汤 Seko 2.0 重磅发布:行业首个多剧集生成智能体,从爆款短剧迈向专业影视。
上一篇:突发,激光雷达巨头申请破产!
下一篇:注意!旧手机回收有新要求