字节Seed团队开源BAGEL:多模态理解与生成,图像视频文本一键搞定!
创始人
2025-06-03 21:41:46
0

字节跳动旗下的Seed团队近期公布了一项重大技术进展,他们宣布开源了一个名为BAGEL的统一多模态理解与生成模型。这一模型能够同时处理文本、图像和视频数据,实现跨模态的信息交互与生成。

据悉,BAGEL模型拥有70亿个激活参数(总参数量达到140亿),并在海量交错多模态数据上进行了深度训练。在多项标准测试中,BAGEL的表现超越了当前顶尖的开源多模态模型,如Qwen2.5-VL和InternVL-2.5,甚至在文本到图像的生成质量上,也能与专业级生成器SD3相媲美。

除了在多模态理解方面取得突破,BAGEL在图像编辑领域同样展现出了非凡的能力。它不仅在经典编辑场景中优于其他开源模型,还进一步扩展到自由形式的视觉操作、多视图合成以及世界导航等高级任务。这些能力标志着BAGEL在“世界建模”这一前沿领域迈出了重要一步。

BAGEL基于先进的大语言模型进行训练,因此具备基础的推理和对话能力。它能够接收混合了图像和文本的输入,并以同样混合的格式输出结果。这种灵活性使得BAGEL在处理复杂多模态信息时更加得心应手。

在生成高质量、逼真的图像和视频方面,BAGEL同样表现出色。它还引入了长思维链(COT)模式,使得模型在生成内容之前能够进行更为深入的“思考”。这种能力不仅提升了生成内容的质量,还增加了生成过程的可控性和可预测性。

由于在大规模交错多模态数据上的预训练,BAGEL自然而然地学会了保留视觉特征和细微细节。它能够从视频中捕捉到复杂的视觉运动,这一能力使得它在图像编辑方面更加高效且准确。BAGEL还能基于少量对齐数据实现图片风格的切换和场景转换。

更令人瞩目的是,BAGEL还具备世界模型的基础能力。它能够进行世界导航、未来帧预测以及3D世界生成等挑战性任务。通过不同角度的旋转或视角切换,BAGEL能够展现出强大的泛化能力。不仅在真实场景中表现出色,它还能在游戏、艺术作品以及卡通动画等虚拟环境中实现导航。

基于以上强大的能力,BAGEL通过一个统一的多模态接口,实现了各项能力的复杂组合和多轮对话。用户可以通过简单的指令,让BAGEL完成从图片剪切到智能编辑,再到场景转换和风格转换等一系列操作,极大地提升了工作效率和创作自由度。

相关内容

热门资讯

助力AI、机器人发展!广东组建... 抢抓人工智能与机器人产业发展战略机遇,推动人工智能与机器人产业发展,广东省组建“广东省人工智能与机器...
液体火箭发动机生产一线技工何小... 6月5日下午,国务院新闻办公室举行“新征程上的奋斗者”中外记者见面会,中央企业产业工人代表围绕“弘扬...
AI辅助会重构中央空调安装吗? 在最近一段时间,美的、海尔、海信日立等企业相继发布AI赋能的中央空调灯塔工厂或互联网工厂,这些工厂通...
宁德时代在贵阳成立新能源科技公... 天眼查App显示,近日,时代骐骥新能源科技(贵阳)有限公司成立,法定代表人为聂政,注册资本2000万...
山西高校首颗卫星最新进展! “中北大学一号”卫星开展出厂前技术核查 6月3日从中北大学获悉,该校航空宇航学院“中北大学——太行星...
国家网络安全通报中心通报一批恶... 央视网消息:中国国家网络与信息安全信息通报中心通过支撑单位发现一批境外恶意网址和恶意IP,境外黑客组...
中国驻美大使馆开展“科技外交”... 2025年5月28日,中国驻美国大使馆举办“我的中国相册——我的中国足迹”影片首映会暨现代化的中国体...
全球首个满级 QQ 即将诞生 IT之家 6 月 5 日消息,全球首个满级 QQ 即将诞生,一位昵称为“爱芥末”的 QQ 用户已在今...
在农产品全产业链数字化进程开辟... 当前,我国农业正处于从传统粗放型向数字高效型转型的关键阶段。随着物联网、人工智能、大数据、区块链等新...
电商选智能客服,这些注意事项和... 在电商行业摸爬滚打,大家都清楚智能客服是提升服务、省人力的利器。但市场上的智能客服系统五花八门,电商...
2025BCS|齐向东开幕峰会... “十四五期间,无论政府还是企业对网络安全都越来越重视……但面对人工智能的冲击,很多人开始对安全现状感...
连DeepSeek发布的论文也... 出品|搜狐科技 作者|常博硕 编辑|杨锦 又是一年毕业季,伴随着盛夏的蝉鸣和对未来的憧憬,毕业生们迎...
上网行为如何监控?企业专用的6... 企业的网络安全和效率管理变得尤为重要。 员工的上网行为不仅关系到工作效率,还可能影响到公司的信息安全...
格力电器获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项实用新型专利授权,专利名为“...
360首次披露台湾五大黑客组织... 新浪科技讯 6月5日上午消息,国家计算机病毒应急处理中心和360数字安全集团联合发布《台民进党当局“...
长信科技取得一种触摸屏透明边框... 金融界2025年6月4日消息,国家知识产权局信息显示,芜湖长信科技股份有限公司取得一项名为“一种触摸...
“大厂”大招!华为、腾讯相继释... “相信未来3至5年,人工智能时代的iPhone时刻会出现在深圳。” 在4月举办的“百万英才汇南粤”上...
渝中举行人工智能前沿应用与企业... 6月4日,“云上未来”人工智能前沿应用与企业效能跃迁沙龙在重庆市渝中区数智经济人才会客厅举行。该活动...
燃油车,今天“死守”上海车展!... 文|新浪科技 罗宁 今年上海车展,新能源车无疑是“重头”。 从目前的新车发布信息看,比亚迪、蔚来、理...
Manus AI 能生成视频了... 转载自《APPSO》 文 | 高粽 当代 AI 视频创作者有三件套:提示词、积分、以及抽卡...