2024-02-24 01:42:46 作者:姚立伟
OpenAI最近推出的视频生成模型Sora备受瞩目,被视为视频生成服务的重大突破。然而,一些竞争对手的科学家对这个模型的看法并不那么乐观。他们认为Sora只是一个视频生成器,并不具备现实世界模拟的能力。
来自Meta的首席AI科学家Yann LeCun公开表示,将真实世界的细节放入一个像素级预测中是一种资源浪费且注定会失败。他认为,文本数据更适合用于处理预测中的不确定性问题,因为文本数据是离散且有限符号构成的数据类型。
然而,在以像素为单位的预测领域中,处理不确定性变得非常困难甚至不可能成功。网友们也对此进行了讨论,有人指出Sora虽然让人印象深刻,但几乎每个场景都会出现逻辑问题。这使得它对现实世界模拟的功能显得有些不可靠。
尽管如此,LeCun所在的Meta上周发布了一个名为V-JEPA(Video Joint Embedding Prediction Architecture)的视频联合嵌入预测架构,该架构通过观看视频来教导大模型理解和对物理世界建模,可以视为Sora之外另一种尝试。
此外,V-JEPA还可以灵活丢弃不可预测的信息,从而提高训练和样本运行效率1.5-6倍。不过,相比于Sora,在市场上的反响显然要低调许多。
(编辑 马兰)