参考消息网2月21日报道据美国CNET公司网站2月19日报道,美国开放人工智能研究中心(OpenAI)推出了一款名为“天空”(Sora)的文字生成视频模型,它能够提高生成式人工智能创作的可能性。
与众不同
与谷歌推出的文字生成视频工具Lumiere一样,“天空”模型的访问权限是有限的。与Lumiere不同的是,“天空”模型可以生成长达1分钟的视频。
借助“天空”模型的推出,研究人工智能语音生成器的美国十一实验室公司在几天后透露,该公司正在开发为视频提供通过文字生成音效的工具。
随着OpenAI、谷歌、微软等公司将目光投向文字和图像生成之外的领域,寻求巩固其在这个行业中的地位(预计到2032年,该行业的收入将达到1.3万亿美元),并赢得自一年多前ChatGPT问世以来一直对生成式人工智能感兴趣的消费者的青睐,文字生成视频模型在生成式人工智能领域已经掀起了新一轮“军备竞赛”。
根据OpenAI于15日发布的帖子,“天空”模型的访问权限将提供给“安全团队组员”(即在错误信息、仇恨内容和偏见等领域的专家,他们将“通过承担对抗性角色来测试这一模型”)以及视觉艺术家、设计师和电影制作人,以获得来自创作专业人士的额外反馈。这种对抗性测试对于处理可能出现令人信服的“深度伪造”等现象尤为重要,后者是使用人工智能创建图像和视频的一个主要关注点。
除了从组织外部获得反馈外,OpenAI还表示,它希望马上分享这方面的进展,以便“让公众了解未来人工智能将具有哪些能力”。
“天空”模型与众不同的一点是,它能够准确解释长提示——包括一例长达135个单词的提示。OpenAI于15日分享的样本视频显示,“天空”模型可以创建各种角色和场景,从人、动物、毛茸茸的怪物到城市景观、风景、禅意花园,甚至是淹没在水下的纽约市。
模拟世界
这在一定程度上要归功于OpenAI过去在多尔-E和GPT模型方面所做的工作。文本到图像生成器“多尔-E 3”软件于去年9月发布。CNET公司的斯蒂芬·尚克兰称其“比2022年的多尔-E 2提升了一大步”。OpenAI最新的人工智能模型GPT-4 Turbo于去年11月发布。
特别是,“天空”模型借鉴了多尔-E 3的字幕重配技术。OpenAI称该技术可以为视觉训练数据生成“极具描述性的字幕”。
OpenAI的帖子说:“‘天空’模型能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。该模型不仅能够理解用户在提示中所要求的内容,还能理解这些事物在现实世界中是如何存在的。”
OpenAI分享的样本视频看起来确实非常逼真——也许除了近距离出现的人脸或游动的海洋生物外。在其他情况下,你可能很难分辨真假。
该模型还能从静态图像生成视频、扩展现有视频或填充缺失的帧,就像Lumiere所能做的那样。
该帖子还说:“‘天空’模型为那些能够理解和模拟真实世界的模型奠定了基础,我们认为这种能力将成为实现AGI的一个重要里程碑。”
AGI(即通用人工智能)是一种更高级的人工智能,它更接近人类的智能,包括有能力执行更多的任务。元宇宙平台公司和“深层思维”公司也对达到这一基准表现出兴趣。
弱点仍存
OpenAI承认,“天空”模型也有弱点,比如它难以准确描绘复杂场景的物理特性,也难以理解因果关系。
该帖子说:“例如,某人咬了一口饼干,但在后续场景中饼干没有咬痕。”
如果有人需要用手比划出“L”来区分左右,那么他需要注意——“天空”模型也会把左右搞混。
OpenAI没有透露该模型何时会广泛上市,但指出公司希望首先采取“几个重要的安全措施”。这包括满足OpenAI现有的安全标准,即禁止极端暴力、性内容、仇恨图像、名人肖像和他人知识产权。
该帖子还说:“尽管进行了广泛的研究和测试,但我们仍无法预测使用我们的技术会给人们带来的所有裨益,也无法预测滥用这项技术会带来的所有弊端。正因为如此,我们认为随着时间的推移,从现实世界的使用中学习是创建和发布日益安全的人工智能系统的关键要素。”
十一实验室公司19日在一篇博客文章中表示,它使用了诸如“海浪拍打”、“金属撞击”、“鸟鸣”和“赛车引擎”等提示来创建音频,并将这些音频叠加到“天空”模型一些人工智能生成的视频中,以增加效果。
该公司未透露其文本生成声音工具的发布日期,但在博客文章中表示:“大家的兴奋和支持让我们激动不已,我们迫不及待地想把它交到你们手中。”(编译/杨雪蕾)