演讲图片“以假乱真”的Flux成文生图模型新王 记者实测
创始人
2024-08-15 20:02:19
0

微卷长发披肩,面带露齿微笑,可以清晰看到眼角的褶皱、嘴边的酒窝以及细微的碎发,再加上颇有现场感的谷歌挂牌和舞台光,任谁看,这都是一位精英女性正在台前演讲的图片,摄影师选择的角度不错,抓住了她演讲中的精彩瞬间。

Flux生成的“Ted演讲”图片。

但实际上,这张图片完全由“Flux”系列大模型生成,该大模型已经在GitHub上开源,任何人都可以去尝试使用,该模型的研发公司黑森林今年8月刚刚创立,创始人是领导全球著名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach)。

8月13日,新京报贝壳财经记者测试了Flux的效果,发现作为开源模型,其生成写实类图片的质量和效果可谓业界一流,此外还能正确生成英文字母,耗费算力较低,不过多次生成依然会出现手指等细节的错误,此外该模型也无法正确生成汉字。

“Flux和SD都是一样的diffusion扩散模型,但不同的是Flux基于Dit架构的模型,整体效果优于传统Unet架构的模型(SDXL,SD1.5等),尤其是在对提示词的语义理解上会有很大的提升,但对运行的硬件门槛要求也比较高。”8月13日,拥有自己文生图模型的AIGC创作者DynamicWang(下称DW)在接受新京报贝壳财经记者采访时表示。

实测:“普通版”能生成超写实人像 测试12次出现2次手指错误

据了解,Flux拥有高达120 亿个参数,因此可以提供与文生图领域的头部模型Midjourney相媲美的视觉效果,其包括三个系列模型:Flux Dev、快速版本的Flux Schnell,以及Flux Pro.,其中前两个模型已经开源,任何人都可以使用。

8月13日,新京报贝壳财经记者使用Flux Schnell版本进行了实测,输入“脖子上佩戴新京报工牌,手举话筒在奥运会现场采访的女记者(英文)”后,Flux Schnell用时几秒钟就生成了图片。可以发现,不仅女记者、手持话筒等均被正确理解且质量接近实景,其还正确生成出了工牌上的新京报英文“The Beijing News”。

新京报贝壳财经记者使用Flux Schnell模型生成的图片,图中记者工牌显示为新京报的英文。

不过,相比真实的照片,Flux Schnell生成图片的效果依然存在不少破绽,如记者进行的12次生成中有2次图片出现了人物的手指数量错误,记者试图让其生成中文时,其生成的图片出现了乱码,显然其无法理解中文。

另外,AI生成的人物的皮肤过于光滑,当记者将AI生成的图片混入普通照片并随机请网友评价时,对方虽然并未看出图片为AI生成,但表示该人物“磨皮比较严重”。

但在总体上,记者体验后发现,Flux确实在生成图片的光线质感、对手指发丝等细节的处理、对文字的理解以及对提示词的理解上做到了令人惊艳的效果,也难怪其会在众多文生图大模型中脱颖而出。

据了解,Flux Schnell是专精运行速度的蒸馏版本,模型平台还给出了每次生成消耗的具体算力价格:1美元可以生成333张上述记者测试生成的图片,显然其不只在性能上,在成本上也有相当的优势。

目前,由于Flux Pro依然闭源,记者还无法测试,但显然其性能会比Flux Schnell更加优秀,因此有不少外国AI圈内人士惊呼,Flux系列大模型将成为文生图视频的“新王”,且开源还令其比Midjourney更易于使用。

DW告诉记者,Flux的训练参数量也是相当巨大的,但相对应的就是它要运行的硬件门槛相较于SDXL等之前的文生图模型提升得也非常高,无论是训练还是推理,都需要极高的显存与算力,“所以从我的观点,对于开源社区来说,越高的参数量意味着这不再是个人玩家和创作者所能微调的量级”。

创始团队黑森林实验室:8月刚刚成立 但成员大有来头

新京报记者浏览Flux的开发团队“黑森林实验室”的官方社交平台发现,该团队8月1日刚刚创立,创始人是领导了全球著名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach),其他创始团队成员则大多是从AI初创公司 Stability AI离职的工程师。

黑森林实验室在社交平台表示,“我们深深植根于生成式 AI 研究社区,致力于开发和推进用于图像和视频等媒体的最先进的生成式深度学习模型。”

该公司表示,其使命是为媒体开发和推进最先进的生成式深度学习模型,并推动创造力、效率和多样性的边界。为了实现这一目标的第一步,他们发布了 Flux.1文本生成图像模型套件,其在图像细节、提示响应、风格多样性和场景复杂性方面定义了文本生成图像的新前沿。

黑森林实验室称,Flux.1 模型采用了其称之为“多模态和平行扩散 Transformer 块的混合架构”,使得其比之前的扩散模型更进一步,融合了流匹配和其他优化技术。

黑森林实验室方面晒出图表称,其 Pro 和 Dev 模型是迄今为止最好的图像生成器,而其相对较弱的 Schnell 版本(即记者测试版本)虽然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALL·E 3(HD)。黑森林实验室称,Flux.1 (schnell) 是迄今为止最先进的少步模型,不仅在其类别中表现出色,还超越了强大的非蒸馏模型。

目前,黑森林实验室已经获得了3100万美元种子轮融资,以及Brendan Iribe、Michael Ovitz等知名投资者的支持。此外,Flux火爆风也吹到了国内,魔搭社区已经第一时间上架了Flux模型,百炼平台也上线了首个Flux中文优化版,可更好地理解和执行中文指令。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 刘军

相关内容

热门资讯

纵横谈|让国潮展现更加独特的魅... 融合古老神话和黑科技的“国潮嘉年华”活动在浙江杭州举办,“哪吒”“李靖”以及人形机器人等进行互动和巡...
IT+BT如何1+1>2?杭州... 建设“创新浙江”,如何推动科技创新和产业创新深度融合?4月27日,“IT+BT杭州生态活动第4季暨2...
长光华芯:已针对6G需求展开前... 金融界5月6日消息,有投资者在互动平台向长光华芯提问:6G对光通信芯片的需求是刚性且不可替代的,其技...
Visa全球产品发布会:构建第... (财见2025年5月6日讯)近期,Visa在全球产品发布会上展示了商业的未来。Visa发布了由AI驱...
第八届数字中国建设峰会数字孪生... 4月29日,由水利部主办的第八届数字中国建设峰会数字孪生水利分论坛在福建省福州市举办。论坛主题为“数...
AI板块爆发,同类规模第一的人... 截至收盘,中证人工智能主题指数上涨2.6%,上证科创板人工智能指数上涨1.7%。Wind数据显示,人...
人类20号染色体上,有一条“神... 根据科学家的研究我们能够知道,地球上的生命都是由简单生物进化而来的,由最初的单细胞生物进化为多细胞生...
青岛高新区:低碳转型 “绿意”... 近日,科技日报记者走进中远佐敦船舶涂料(青岛)有限公司(以下简称“中远佐敦”),顿感满眼“绿意”:厂...
第八届数字中国建设峰会签约重点... 第八届数字中国建设峰会日前闭幕。本届峰会共签约数字经济重点项目455个、总投资额2280亿元人民币,...
中电信人工智能申请文本处理方法... 金融界2025年5月6日消息,国家知识产权局信息显示,中电信人工智能科技(北京)有限公司申请一项名为...
国芯科技合作研发抗量子密码芯片... 雷达财经 文|冯秀语 编|李亦辉 5月6日,国芯科技(688262)公告,公司与参股公司郑州信大壹密...
我国“楚天”星座首发试验星完成... IT之家 5 月 6 日消息,据湖北航空航天转湖北日报报道,中国航天科工集团空间工程总体部抓总研制的...
如何通过能源管理系统实现磨粉车... 通过能源管理系统实现磨粉车间的智能照明与空调联动,需结合物联网技术、传感器网络及智能算法,构建“感知...
硅不够用了,接下来靠什么? 文 | 半导体产业纵横 不久前,武汉光谷迎来了一场重磅活动——2025九峰山论坛暨化合物半导体产业...
目前无法解释的5个物理问题,每... 科学探索是永无止境的,人类作为地球上最有智慧的生命,从诞生以后就开始不断的研究和探索世界的奥秘,现在...
天津新松机器人自动化有限公司取... 金融界2025年5月6日消息,国家知识产权局信息显示,天津新松机器人自动化有限公司取得一项名为“一种...
脑机接口板块飙升,某公司一度涨... 5月6日,脑机接口板块飙升,截至收盘,南京熊猫(600775.SH)涨10%,爱朋医疗(300753...
AI领航!大浪青年夜校助力青年... 深圳商报·读创客户端记者 肖欣静 通讯员 胡奕琪 近日,龙华区大浪街道团工委在街道党群服务中心开展第...
荣耀MagicOS大升级!第五... 荣耀官方近日在荣耀俱乐部发布了关于MagicOS系统新特性的预告,透露了即将在6月推出的第五波版本优...
基康仪器全资子公司取得1项发明... 5月6日,基康仪器发布公告称,其全资子公司北京基康科技有限公司发明的《振弦式传感器振动频率的测量方法...