通义千问深夜“王炸”更新!Qwen3升级版全面超越Kimi-K2,Agent能力亮眼
创始人
2025-07-22 12:42:55
0

国内的AI大模型竞赛,再次被按下了加速键!

AI圈的小伙伴们可能还记得,几天前Kimi-K2的开源还在被津津乐道。然而,开源的王座,热度还没持续几天,就迎来了新的挑战者。

7月22日凌晨,阿里巴巴通义千问团队突然发布了旗舰模型Qwen3的重磅更新,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为Qwen3-235B-A22B-Instruct-2507-FP8。

新版本模型在多项核心能力上实现了惊人飞跃,不仅全面超越了Kimi-K2等顶级开源模型,甚至领先Claude-Opus4-Non-thinking等顶级闭源模型。

性能“爆表”,这次升级有多猛?

根据官方发布的数据,新模型的通用能力获得了全方位强化,在多个权威测评中表现极其亮眼:

包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

值得一提的是,本次更新的Qwen3模型在Agent能力尤其亮眼:在BFCL(Agent能力)测评中表现卓越。这意味着模型在理解复杂指令、自主规划、调用工具以完成任务的能力上,达到了一个新的高度。“主打Agent”,将是未来AI应用的核心竞争力。

除了硬核的跑分,这次更新还带来了三大“体感”升级:

-在多语言的长尾知识覆盖方面,模型取得显著进步。

-在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。

-长文本提升到256K,上下文理解能力进一步增强。

告别“混合思维”,分离训练有多强?

这次最核心的变化,是技术路线的革新。

通义千问团队宣布,正式告别此前的“混合思维模式”,迈向全新的“分离训练”时代。他们将用于直接回答的Instruct模型和用于复杂思考的Thinking模型进行独立训练。

简单来说,就是让“快思考”和“慢思考”各司其职,从而在各自的领域都做到极致。

本次发布的 Qwen3-235B-A22B-Instruct-2507-FP8 ,就是“快思考”路线下的最新成果。它主打非思考模式(Non-thinking),追求的是在指令遵循、文本理解和知识问答等任务上,做到更快、更准、更强~

开源圈“卷”出新高度,大招还在后头!

从Kimi-K2到DeepSeek-V3,再到今天的Qwen3新版,国内的开源AI竞赛已经进入白热化阶段。每一次更新都伴随着性能的飞跃和王座的更迭。

更让人激动的是,通义千问团队在发布更新的同时,还留下了一个悬念:

“还有大招,马上就要来了!”

这不禁让人猜想,分离训练的另一端——专注于复杂推理的“Thinking”模型是否也已在路上?

目前,最新的Qwen3模型已在魔搭社区(ModelScope)和HuggingFace全面开源更新。如果你是AI开发者或爱好者,现在就可以去亲身体验这个“开源新王”的威力了

相关内容

热门资讯

广电总局发文:杜绝抗战“神剧”... 7月21日,广电总局网络视听司发布《管理提示》。其中提到,微短剧这一新大众文艺样态,极富活力、影响广...
原创 三... 三星在今天宣布旗下全新的OLED屏幕已经通过了国际机构的测试,相比上一代耐用性大幅提升,并且这款OL...
辽宁红沿河核电等取得弧面异物收... 金融界2025年7月22日消息,国家知识产权局信息显示,辽宁红沿河核电有限公司、中广核研究院有限公司...
从技术工具到组织变革,万物云首... 2024年度业绩报告里,万物云董事长朱保全在《致股东:AI的代价》中写道:公司很快就会衍生为三类岗位...
国家数据局:下半年计划布局建设... 7月22日,在2025中国国际大数据产业博览会(简称数博会)将要开幕之际,国家数据局在北京举办新闻发...
中国互联网发展新成就:网民规模... 中国互联网发展新成就:网民规模突破11亿 5G覆盖九成行政村 央视网消息:中国互联网络信息中心7月...
博铭维技术系缆式检测机器人:创... 在城镇地下管网检测领域,传统的检测方法往往存在效率低下、准确性不高等问题。为了应对这些挑战,博铭维技...
重庆首个户外地灾滑坡试验场精准... 近日,在重庆永川云雾山深处,一处人工打造的滑坡体正经历着从平静到崩塌的全过程。随着模拟暴雨强度不断加...
开放标签≠无盲态,太美智研医药... 来源:中国江西网 在新药开发的临床试验中,随机化和盲态保持是确保研究结果科学性和可靠性的关键措施,试...
杭州永安五金取得弯管机专用模头... 金融界2025年7月22日消息,国家知识产权局信息显示,杭州永安五金工具有限公司取得一项名为“一种用...
英媒:对算法的愤怒推动老式媒体... 英国《经济学人》杂志7月17日文章,原题:人工智能艺术的兴起正推动老式媒体的复兴 黑胶唱片、胶片相机...
215克全球最轻!三星Gala... 一、前言:三星用7年时间 将大折叠做到全球最轻 从初代Galaxy Fold的276克到如今Gala...
解码万亿科创产业,浙江“跟着产... 潮新闻客户端 吴越 王嘉楠 实习生 马彩霞 陈雨昕 如何让高深的科技创新变得可感可触?怎样让万亿级的...
华为、英特尔确认参展2025数... 7月22日上午,2025中国国际大数据产业博览会新闻发布会在北京召开。记者从发布会上获悉,2025数...
「诺基亚手机」可能会再死一次 2025 年的 7 月,在三星话题正热、苹果新品爆料的国际市场喧嚣中,一家「体量不大却来头不小」的手...
湖北江陵为17家单位提供气象灾... 极目新闻通讯员 侯郡郡 “气象灾害预警信息接收系统已部署完成,今后企业生产运营将更有保障。”7月21...
茂硕电源获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示茂硕电源(002660)新获得一项实用新型专利授权,专利名为“...
新能源汽车半年新增17.9万家 天眼查专业版数据显示,截至目前我国现存在业、存续状态的新能源汽车相关企业超153.3万家。其中,20...
华阳智能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华阳智能(301502)新获得一项实用新型专利授权,专利名为“...
极致新能取得浪涌电流保护电路专... 金融界2025年7月22日消息,国家知识产权局信息显示,深圳市极致新能科技有限公司取得一项名为“一种...