苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑
DeepTech深科技
2024-02-08 21:50:04
0

原标题:苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑

日前,苹果推出一款开源人工智能模型 MGIE,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。

图丨把小屋变成豪宅(来源:MGIE)

据悉,该模型由苹果和美国加利福尼亚大学圣芭芭拉分校的研究团队合作完成。相关论文以《通过多模态大语言模型指导基于指令的图像编辑》(Guiding Instruction-based Image Editing via Multimodal Large Language Models)为题在 arXiv 上发表 [1]。

图丨相关论文(来源:arXiv)

作者包括加利福尼亚大学圣芭芭拉分校研究助理 Tsu-Jui Fu、博士后 Wenze Hu和William Yang Wang 教授,以及苹果机器学习研究员 Xianzhi Du、Yinfei Yang 和 Zhe Gan。

如上所说,MGIE 能够对图像进行全方位编辑,包括照片全局优化、本地编辑、Photoshop 风格修改和依托于指令的编辑等功能。

具体来说:

其一,能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。

其二,既能够对目标图像中的目标区域或对象(服饰、人脸、眼睛等)进行修改,又能够改变这些区域或对象的性质,比如颜色、样式、大小等。

其三,能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且应用更改背景、添加或删除对象,以及混合对象等更高级的编辑。

其四,能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验。

对于用户而言,由于该模型的设计非常易用、灵活定制,因此用户只需要提供自然语言指令,就能够实现对图像的编辑。

在此基础上,用户也可以向该模型提供反馈,以更好地完善编辑。此外,该模型还能够与需要图像编辑功能的其他应用程序或平台集成。

那么,具体到实际场景,用户又是如何使用 MGIE 的呢?

面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更健康”的指令,后者便会使用常识推理,给披萨添加西红柿、香草等蔬菜配料。

(来源:arXiv)

而面对下图中的左图所显示的多余的女性人物主体,用户可以通过 Photoshop 风格的修改,要求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。

(来源:arXiv)

在掌握使用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。

据了解,它主要基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知响应生成方面表现优异,但尚未广泛地在图像编辑任务中获得应用。

MGIE 则通过以下两种方式,成功地将 MLLM 集成到图像编辑的过程中。

第一步,利用 MLLM 从用户输入的指令中总结出尽可能简单的说明,以更好地指导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。

第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的指导。

总的来说,该模型采用了一种全新的端到端的训练方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。

据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预训练模型均已实现开源。不仅如此,还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示,方便用户在线试用。

综上可以看出,MGIE 不但是一项基础研究成果,更是在各种图像场景下都能适用的实用工具。

也就是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化,还能让用户通过图像表达自己的想法和情感,进而激发他们的创造力。

正如该论文中提到的那样,“MGIE 不是简单但模糊的指导,而是得出明确的视觉感知意图,并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 引导的框架,可以为未来的视觉和语言研究做出贡献”。

基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。

参考资料:

1.T., Fu, W., Hu, X., Du. et al. Guiding Instruction-based Image Editing via Multimodal Large Language Models.arXiv:2309.17102v2(2024).https://arxiv.org/abs/2309.17102

https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/

https://www.macrumors.com/2024/02/07/apple-ai-model-edits-images-natural-language/

https://www.theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model

https://github.com/apple/ml-mgie

排版:刘雅坤

相关内容

热门资讯

【重点推荐】德兰智能锁 S6 ... 新款高端智能锁.S6 小蛮腰 高品质高颜值 S6不但有手机远程开锁功能,还有手机远程关锁功能 详见下...
推荐一款2025年八月综合实力... 文章来源:转自知乎平台《到底是谁在用小折叠屏手机?直到真实体验三星手机超轻薄新款Z Flip7等四款...
朗坤股份公布“一种兼容型锂电池... 天眼查APP显示,近日,苏州朗坤自动化设备股份有限公司申请的“一种兼容型锂电池磁驱载具”专利公布。 ...
江苏数交所上架首批气象数据产品 近日,我省首批气象公共数据产品在江苏省数据交易所正式上架,标志着江苏省气象数据要素市场化迈出关键一步...
单细胞测序具备“立体洞察”能力 (来源:光明日报) 转自:光明日报 【瞧!我们的前沿科技】 本报深圳8月23日电(记者严圣禾 通讯员...
海口启动防汛防风IV级应急响应 海口市防灾减灾救灾消防和安全生产委员会关于启动防汛防风IV级应急响应的通知 市防安委会相关成员单位:...
广工“固屋古韵”突击队为湛江香... 暑假期间,广东工业大学土木与交通工程学院“固屋古韵”青年大学生“百千万工程”突击队,秉持专业精神,响...
小程序怎么自己制作,低成本创建... 微信小程序成为了企业拓展业务、触达客户的一个重要渠道,那借助于 SaaS 小程序制作平台的话,企业能...
卫健部门“做红娘”,医企“交朋... 广州作为国家重要的中心城市、粤港澳大湾区的核心、全国三大医疗中心之一,各级医疗机构年诊疗人次超过1....
从故乡停电夜到天津实验室:一名... 从故乡停电夜到天津实验室:一名巴基斯坦籍博士生的“光明之约” 中新网 天津8月22日电 题:从故乡...
科技题材最终都需要核聚变,算力... 算力 和 云计算 的未来需求确实与电力密切相关,而电力的未来发展方向指向 可控核聚变 。以下是具体分...
山东友玻取得玻璃加工智能输送装... 金融界2025年8月23日消息,国家知识产权局信息显示,山东友玻节能玻璃有限公司取得一项名为“一种玻...
她观测了1585颗恒星,却连一... 客观地说,安妮·沃克作为天文学家并没有做出特别的发现,只是按部就班地完成了一位普通天文学家的日常工作...
科普进校园 以华罗庚“双法”启... 日前,由中国优选法统筹法与经济数学研究会、东北财经大学科研处及公共管理学院联合主办的“科普进校园”活...
视频生成模型大幅降价,百度为何... 来源:市场资讯 (来源:界面新闻) 百度旗下的视频生成模型蒸汽机完成了一次大幅度升级,这距离该模型上...
华能水电等“一种生态修复用种植... 天眼查APP显示,近日,北京林业大学,华能澜沧江水电股份有限公司,华能澜沧江上游水电有限公司申请的“...
草原智慧与京师创新共建多元医学... 中新网呼和浩特8月23日电 (记者 张玮)“京蒙协作 助力健康北疆——多元医学数智创新发展高峰论坛”...
白皮书:2024年中国农业无人... 中新网北京8月23日电 (记者 陈溯)23日,农民日报社与大疆农业在北京联合举办《农业无人机行业白皮...
华为巴黎9月19日发布新品,含... 2025-08-23 11:20:27 作者:狼叫兽 华为日前宣布,将于9月19日在法国巴黎举行一...
苹果起诉前Apple Watc... IT之家 8 月 23 日消息,科技媒体 AppleInsider 昨日(8 月 22 日)发布博文...