原创阿里大模型Qwen 3.0炸场，多项测试击败DeepSeek R1

创始人

2025-05-01 12:41:30

4月29日，阿里巴巴发布Qwen 3系列模型，这是Qwen系列大型语言模型的最新成员。此次发布的模型阵容丰富，包括：2个稀疏混合专家（MoE）模型：Qwen3-235B-A22B和Qwen3-30B-A3B1，以及6个密集模型，参数规模涵盖32B至0.6B，均采用Apache许可证。

值得一提的是，Qwen3 系列模型首次支持 119 多种语言，全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace 等平台下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。个人用户可通过通义 APP 直接体验 Qwen3，夸克也即将全线接入 Qwen3。

其实早在Qwen真正发布之前，社交媒体已经先“炸开了锅”。人们都在期待阿里这次放出个大招，碾压OpenAI、谷歌等国外巨头在AI领域的嚣张气焰。阿里这次也的确做到了。

作为国产开源大模型的扛把子，Qwen系列现在已经是全球最火的开源模型，没有之一——200多个开源模型、3亿次下载、10万个衍生模型，直接把Meta的Llama拉下神坛。

Meta最小的Llama 4模型参数仍达109B，而Qwen 3的32B版本在开放模型用户中广受欢迎。

和“特种部队”式的DeepSeek不同，Qwen更像正规军：布局早、生态强、覆盖面广。特别是对开发者特别友好，各种尺寸的模型应有尽有，不用自己费劲裁剪就能直接用。比如Qwen 13B这个“爆款”，现在已经是AI应用开发者的首选工具之一。

反观DeepSeek R1虽然技术实力无可厚非，但671B参数的“满血版”光硬件就要上百万，普通企业根本玩不起。这恰恰凸显了Qwen的实用价值——不是一味追求参数爆炸，而是让AI真正能用、好用。

具体细扒模型之前，先看看官方给出的新模型亮点：

“探索智能上限”再突破：通过扩大预训练和强化学习的规模，实现了更高层次的智能；
国内首个“混合推理模型”：无缝集成了思考模式与非思考模式，为用户提供了灵活控制思考预算的能力；
增强了 Agent 能力：正从专注于训练模型的时代过渡到以训练 Agent 为中心的时代。

回归到模型本身，这系列模型在各项基准测试中表现如何？

旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与DeepSeek-R1、OpenAI的（o1、o3-mini）、马斯克的Grok-3和谷歌公司Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力的结果。

此外，小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

尤其值得注意的是，性能大幅提升的同时，Qwen3 的部署成本还大幅下降。至于成本低到什么程度呢？答案是 4 张 H20 即可部署满血版Qwen3，显存占用仅为性能相近模型的三分之一。

Qwen 团队包含的基础模型评估表明，领先的基础模型 Llama 4、DeepSeek V3 以及现在的 Qwen 之间的得分非常相似：

目前不同模型之间的关键差异主要体现在训练后的推理功能支持上，特别是在推理时间计算方面的优化能力，这种优化可以将模型的评估分数从40%显著提升到80%。

然而，当前业界对"基础模型"的定义和使用仍存在很大混乱，因为这些模型在实际应用中往往需要经历大量的中期训练过程。在这个关键的中期训练阶段，模型会接收专门的指令数据和推理数据，这些训练本质上都是在为后续的正式训练后阶段做准备。

但事实情况是，现在没有任何主要研究实验室公开发表过关于什么样的基础模型才能真正有效支持下游训练后任务的研究成果。

这一现状让我们不得不做出一个合理推测：所有这些实验室实际上都在调整他们的预训练策略，主要是为了满足各自在训练后阶段的具体需求，而不是专门针对开放社区的需求进行优化——当然，开放社区最终也会从这些调整中间接受益。

可以预见的是，当Llama 4不可避免地发布其推理优化模型时（笔者推测这个发布可能近在咫尺），这些模型会立即重新成为行业关注的焦点。

这种推理模型与非推理模型之间存在的显著性能差距，给跟踪和评估各类模型发布带来了相当大的挑战。但相信这一挑战会随着更多高性能大模型的发布而有所改善。

Qwen3是如何训练的？

那说回模型，除了性能和参数等这些最重要的基本信息外，外界还会关注Qwen3系列模型是怎么训练的？

对此，Qwen团队表示，Qwen3在预训练数据规模和质量上实现了全面突破。相比前代Qwen2.5的18万亿token训练数据，Qwen3的训练数据量大幅提升至约36万亿token，覆盖语言种类达119种，包含多种方言。

更新后的Qwen3的token量几乎是此前的两倍，这么大的数据集是怎么来的呢？

为构建这一超大规模数据集，团队采用了多维度数据采集策略。首先是扩展数据来源：除常规网页数据外，首次系统化整合PDF等文档内容，通过Qwen2.5-VL模型进行文本提取，并利用Qwen2.5模型对提取内容进行质量优化。

其次是提高专业领域的数据比例，针对数学与代码能力短板，创新性使用Qwen2.5-Math和Qwen2.5-Coder生成合成数据，补充教科书级内容、结构化问答对及高质量代码片段。

此外，团队设计了分阶段的训练方案以平衡效率与效果。

首先是基础能力塑造（S1）阶段，模型在30万亿+token数据（4K上下文长度）上完成初始训练，建立基础语言理解与常识认知能力；然后进入到专业能力强化（S2）阶段，精选5万亿token高质量数据，显著提升STEM、编程及逻辑推理等知识密集型内容占比；在最后一个阶段，使用高质量的长上下文数据，将模型的上下文长度扩展到了 32K token，使模型具备处理复杂长文本的实战能力。

得益于模型架构的持续优化、训练数据规模的成倍扩充以及训练方法的效率提升，Qwen3系列稠密基础模型在整体性能上实现了质的飞跃。

让人惊喜的是，尽管参数量明显减少，Qwen3各尺寸模型却展现出了与上一代更大规模模型相当甚至更优的表现——具体而言，Qwen3-1.7B/4B/8B/14B/32B-Base分别达到了Qwen2.5-3B/7B/14B/32B/72B-Base的性能水准。特别是在STEM学科、编程能力和逻辑推理等关键领域，Qwen3稠密模型更是实现了对前代更大规模模型的全面超越，展现出算法优化带来的显著效益。

简单来说，Qwen3虽然体型更小，但“本事”更大了。比如Qwen3的1.7B小模型，表现已经能赶上之前3B的大模型，而且数理编程能力还更强。

更值得关注的是Qwen3系列中的MoE基础模型，这些模型通过创新的稀疏激活机制，仅需调用10%的激活参数就能实现与Qwen2.5稠密基础模型相媲美的性能表现，就像是开启了“省电模式”，平时只用10%的“脑力”，但效果照样能媲美老版本的全功率模型。

这种技术进步让AI模型变得更实用、更经济。

说完预训练，接下来是模型的后训练过程。

为了开发能够兼顾逐步推理与快速响应的混合模型，团队设计了一个四阶段的后训练流程：第一阶段（长链式思维冷启动）使用多样化的CoT数据（涵盖数学、编程、逻辑推理、STEM等任务）对模型进行微调，以建立基础推理能力；第二阶段（基于推理的强化学习）通过扩大RL算力规模并采用基于规则的奖励机制，提升模型的探索与利用能力；第三阶段（思维模式融合）将CoT数据与常规指令微调数据（由第二阶段增强后的模型生成）结合，使模型融合推理与快速响应能力；第四阶段（通用强化学习）在20多个通用任务（如指令跟随、格式遵循、Agent能力等）上进一步优化模型，增强通用性并修正不良行为。

这一流程逐步提升模型的推理与响应能力，最终实现高效混合表现。

目前，后训练模型（例如 Qwen3-30B-A3B）及其预训练模型（例如 Qwen3-30B-A3B-Base）都已经在 Hugging Face、ModelScope 和 Kaggle 等平台上发布。对于部署，Qwen团队建议使用 SGLang 和 vLLM 等框架。对于本地使用，他们强烈推荐使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。这些选项确保用户可以轻松地将 Qwen3 集成到他们的工作流程中，无论是在研究、开发还是生产环境中。

此外，技术团队还表示他们已经优化了 Qwen3 模型的编码和代理能力，并增强了对 MCP 的支持。

阿里最新发布的Qwen3堪称开源领域的重磅突破，不仅标志着中国AI模型的崛起，更在全球范围内树立了新的标杆。目前阿里已累计开源200多款模型，其千问系列衍生模型数量突破10万，规模超越Meta的Llama系列，成为全球最大的开源模型生态。

这种突破性在多个维度得到了体现：技术架构层面，其专家混合模型（MoE）设计极具能效优势，仅需20-30B规模的显存成本即可实现接近GPT-4的推理能力；部署灵活性层面，提供0.6B到32B全系列密集模型，支持从笔记本测试到多卡集群的无缝扩展，且提示词保持兼容；商业应用层面，据Venturebeat报道，企业可在数小时内完成从OpenAI到Qwen3的接口切换，大幅降低迁移成本。

Qwen 3发布后的市场反响甚至突破了之前DeepSeek R1发布时给行业带来的震撼。在GitHub上发布后，仅仅不到一天时间迅速斩获17.9k星和1.2k分支，用户口碑与行业影响力持续攀升。

如今，大模型竞争已经进入深水区，光会刷榜做题已经不够看了。Qwen 3的发布，就是检验中国AI实力的一块试金石。阿里这次能不能继续领跑开源赛道，就看这一仗了！

上一篇：浙江大学等申请区域混合储能系统专利，可实现容量最优配置

下一篇：卢伟冰询问用户3-4K档手机建议米粉要潜望长焦

原创阿里大模型Qwen 3.0炸场，多项测试击败DeepSeek R1

Qwen3是如何训练的？

相关内容

热门资讯

原创 阿里大模型Qwen 3.0炸场，多项测试击败DeepSeek R1

Qwen3是如何训练的？

相关内容

热门资讯

原创阿里大模型Qwen 3.0炸场，多项测试击败DeepSeek R1