围绕AI与艺术的讨论通常在两个极端之间摇摆:要么是大量AI垃圾内容的涌现,要么是创意工作的完全自动化。更理想的方法可能是让AI成为一个有用的协作伙伴。
但到目前为止,使用文本到图像工具的视觉艺术家在指导AI方面面临着令人沮丧的基本障碍。让AI创建一个房子的图像?不太困难。但要指导它制作一个红色的房子,前面有四扇窗户,一个烟囱,左侧覆盖着常春藤?祝你好运。
斯坦福大学的计算机科学、认知心理学和教育学者们相信,他们可以通过教会模型和人类相互交流想法来帮助AI更好地增强人类创造力。在斯坦福人工智能研究所霍夫曼-叶研究资助的支持下,这些学者正在开发一个共同的概念基础,让人类能够与生成式AI在从插图到图表再到动画等生产级视觉内容上进行协作。
"虽然这些模型看起来很棒,但它们是糟糕的协作者,"斯坦福计算机科学教授兼该项目联合首席研究员Maneesh Agrawala说。"创作者无法知道在给定特定文本提示时AI会产生什么。如果你要求一个郊区独栋住宅,它生成的是现代复式住宅。"
Agrawala解释说,创作原创内容需要有观点并不断做出选择。人类和AI需要一套共同的概念,这样细微差别就不会在翻译中丢失。
双向解决方案
斯坦福团队正在从两个方向解决这个问题。首先,学者们正在进行实验,以更好地理解人们如何协作创作视觉内容。他们对执行创意任务的人进行了几项研究,通过聊天记录和草图分析参与者在协作过程中的沟通方式。
"如果我们想要构建能够理解人类在创意项目中思考方式的AI系统,我们应该从学习人们如何与彼此建立共同概念基础的方式开始,"斯坦福心理学助理教授Judith Fan说。"并不是每个人都以相同的方式说话或绘画,但他们仍然期望被理解。"
构建开源工具
其次,团队正在构建开源AI工具来应用从人类创意沟通中学到的经验。例如,ControlNet通过两个独立的功能——阻塞和细节——教授文本到图像扩散模型关于空间构图,镜像艺术家从粗略草图开始然后完成绘画细节的方式。今天的模型难以捕捉姿势的概念或对象应该如何在场景中排列。使用这个工具,创作者可以引导模型到符合他们愿景的布局。
另一个名为FramePack的工具使创作者能够从文本提示生成3D视频,用于多场景故事叙述。这个工具教会模型根据场景对整体故事的重要性来优先排序,类似于人类处理项目的方式。
第三个创新探索了神经符号AI的力量,它将神经网络与推理能力相结合,以增加透明度并克服"黑盒"AI的局限性。使用这些原理,团队开发了一种视觉场景编码语言,从自然语言文本提示开始产生代码行,这些代码被执行和渲染以创建3D场景。人类创作者可以保持在循环中检查或编辑代码,并随时提示AI更新其程序。
广泛应用前景
Agrawala说,人类和AI之间共同概念基础的影响承诺在设计、模拟、动画、机器人技术和教育等不同领域产生新的应用。研究团队目前正在与游戏平台Roblox合作,使玩家能够从文本提示生成独特的3D对象,同时施加游戏限制(例如,玩家将无法在非暴力游戏中创建武器)。
更广泛地说,学者们希望有一天所有技能水平的人类创作者——从爱好者和小企业主到视觉专家——都能有一种无摩擦的方式,使用自然语言、示例内容、代码片段和其他方式的组合来表达他们的想法。
"我们认真致力于为更广泛的创意社区提供与AI有效沟通所需的工具,"Fan说。
想了解更多?观看这个研究团队在最近的斯坦福人工智能研究所霍夫曼叶研讨会上讨论最新发现的内容。
Q&A
Q1:ControlNet是什么?它如何帮助艺术家?
A:ControlNet是一个教授文本到图像扩散模型关于空间构图的工具。它使用阻塞和细节两个独立功能,镜像艺术家从粗略草图开始然后完成绘画细节的工作方式。今天的模型难以捕捉姿势概念或对象在场景中的排列方式,而ControlNet能够让创作者引导模型到符合他们愿景的布局。
Q2:为什么AI在创意协作方面表现不佳?
A:AI模型虽然看起来很棒,但它们是糟糕的协作者。创作者无法知道在给定特定文本提示时AI会产生什么结果。比如当你要求一个郊区独栋住宅时,它可能生成现代复式住宅。创作原创内容需要有观点并不断做出选择,而人类和AI缺乏共同的概念基础,导致细微差别在沟通中丢失。
Q3:斯坦福团队如何解决AI创意协作问题?
A:团队从两个方向解决问题:首先通过实验研究人们如何协作创作视觉内容,分析参与者在创意任务中的沟通方式;其次构建开源AI工具应用学到的经验,如ControlNet、FramePack和神经符号AI工具等。目标是建立人类与AI之间的共同概念基础,让所有技能水平的创作者都能无摩擦地表达想法。