阿里巴巴日前宣布开源新一代通义千问模型Qwen3(以下简称“千问3”)。其参数量仅为DeepSeek-R1的三分之一,在成本大幅下降的同时,性能全面超越OpenAI-o1等全球顶尖模型。这是国内首个混合推理模型,可“秒回”简单需求,大大节省算力。
诺贝尔经济学奖得主丹尼尔·卡尼曼认为,人类思维分为慢思考和快思考。慢思考包括逻辑推理、复杂计算和批判性思考;快思考则基于直觉和情感,消耗认知资源极少,适合日常简单任务。
传统的AI大模型,回复用户发来的“谢谢”“再见”等寒暄,也要耗费大量算力。研究者一直试图模拟人脑,让AI做到“简单任务不假思索,复杂任务深思熟虑”。然而,要融合快与慢两种思考方式,做到互不干扰,却并不容易。这就好像“左手画圆、右手画方”,需要极其精细、创新的设计及训练方法。混合推理模型是头部公司争相攻关的前沿技术,目前全球热门模型中只有千问3、Claude3.7以及Gemini 2.5 Flash可以做到。
用户可为千问3设置“思考预算”,让机器知道该耗费多少“心力”。推理模式下,千问3执行更多步骤——分解问题、推导、验证、给出深思熟虑的答案;非推理模式下,模型直接生成答案。前者的计算成本大致是后者的2到5倍。
在节省算力的同时,千问3各方面性能也大幅增强。在考察奥数水平的AIME25测评中,千问3刷新开源大模型纪录;在考察代码能力的LiveCodeBench评测中,千问3表现超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,千问3超越OpenAI-o1。千问3在全球开发者社区GitHub发布后4个小时获得1.7万个星标,刷新了开源大模型的热度纪录。
同时,千问3的显存占用仅为性能相近模型的三分之一。由于算力门槛低,手机、智能眼镜、人形机器人等都更可能应用这种大模型。
此外,千问3宣布支持119种语言,包括斯瓦希里语、意第绪语、亚美尼亚语、爪哇语等小语种。(记者 崔爽)