德国实验室推出DeepSeek R1-0528变体
创始人
2025-07-07 03:01:37
0

距离中国AI初创公司DeepSeek(香港高瓴资本管理公司旗下)发布其热门开源模型DeepSeek R1-0528的最新版本仅一个多月时间。

与其前身DeepSeek-R1一样——这款模型以其低廉的训练成本和在推理任务上的出色表现震撼了AI界和全球商业社区,并且免费向开发者和企业开放——R1-0528已经被其他AI实验室和开发者进行改进和重构,这在很大程度上得益于其宽松的Apache 2.0许可证。

本周,成立24年的德国公司TNG Technology Consulting GmbH发布了这样一个改进版本:DeepSeek-TNG R1T2 Chimera,这是其Chimera大语言模型系列中的最新模型。R1T2在效率和速度方面实现了显著提升,在智能基准测试中得分达到R1-0528的90%以上,同时生成答案时使用的输出Token数量不到R1-0528的40%。

这意味着它产生更简洁的回应,直接转化为更快的推理速度和更低的计算成本。在TNG在AI代码共享社区Hugging Face上发布的新R1T2模型卡中,公司表示它"比常规R1快约20%"(1月发布的版本),"比R1-0528快两倍以上"(DeepSeek 5月的官方更新)。

AI开发者社区的反响非常积极。Hugging Face高级主管Vaibhav (VB) Srivastav在X上写道:"太棒了!DeepSeek R1T2——比R1-0528快200%,比R1快20%。在GPQA和AIME 24上显著优于R1,通过专家集成方法与DS V3、R1和R1-0528结合制成——并且采用MIT许可证,可在Hugging Face上获得。"

这一性能提升得益于TNG的专家集成(Assembly-of-Experts,AoE)方法——这是一种通过选择性合并多个预训练模型的权重张量(内部参数)来构建大语言模型的技术,TNG在5月发表在arXiv(非同行评议的开放获取在线期刊)上的论文中描述了这种方法。

作为原始R1T Chimera的继任者,R1T2引入了新的"三重思维"配置,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324。结果是一个设计用于保持高推理能力同时显著降低推理成本的模型。

R1T2的构建无需进一步微调或重新训练。它继承了R1-0528的推理强度、R1的结构化思维模式,以及V3-0324简洁、面向指令的行为——为企业和研究用途提供了一个更高效但仍然能力强大的模型。

专家集成(AoE)与专家混合(MoE)的区别

专家混合(MoE)是一种架构设计,其中不同的组件或"专家"根据输入有条件地激活。在像DeepSeek-V3或Mixtral这样的MoE大语言模型中,在任何给定Token的前向传递过程中,只有模型专家层的一个子集(例如,256个中的8个)处于活跃状态。这使得非常大的模型能够实现更高的参数计数和专业化,同时保持可控的推理成本——因为每个Token只评估网络的一小部分。

专家集成(AoE)是一种模型合并技术,而不是一种架构。它用于通过选择性插值多个预训练MoE模型的权重张量来创建新模型。

AoE中的"专家"指的是被合并的模型组件——通常是MoE层内的路由专家张量——而不是在运行时动态激活的专家。

TNG的AoE实现主要专注于合并路由专家张量——模型中最负责专门推理的部分——同时通常保留来自像V3-0324这样更快模型的更高效共享层和注意力层。这种方法使得生成的Chimera模型能够继承推理强度,而不复制最强父模型的冗长性或延迟。

性能和速度:基准测试的实际表现

根据TNG提供的基准比较,R1T2在AIME-24、AIME-25和GPQA-Diamond测试集中测得的推理性能达到其最智能父模型DeepSeek-R1-0528的90%至92%。

然而,与DeepSeek-R1-0528不同——后者由于其扩展的思维链推理而倾向于产生冗长、详细的答案——R1T2被设计得更加简洁。它提供同样智能的回应,同时使用显著更少的词汇。

TNG不专注于原始处理时间或每秒Token数,而是以每个答案的输出Token计数来衡量"速度"——这是成本和延迟的实用代理指标。根据TNG分享的基准测试,R1T2生成回应时使用的Token约为R1-0528所需Token的40%。

这转化为输出长度减少60%,直接减少推理时间和计算负载,将响应速度提升2倍,即200%。

与原始DeepSeek-R1相比,R1T2平均也更简洁约20%,为高吞吐量或成本敏感的部署提供了有意义的效率提升。

这种效率并非以牺牲智能为代价。如TNG技术论文中展示的基准图表所示,R1T2在智能与输出成本曲线上处于理想区域。它保持推理质量同时最小化冗长性——这对推理速度、吞吐量和成本都很重要的企业应用来说是关键结果。

部署考虑和可用性

R1T2在宽松的MIT许可证下发布,现在可在Hugging Face上获得,这意味着它是开源的,可用于构建商业应用程序。

TNG指出,虽然该模型非常适合一般推理任务,但由于从其DeepSeek-R1血统继承的限制,目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来更新中得到解决。

公司还建议欧洲用户评估与2025年8月2日生效的《欧盟人工智能法案》的合规性。在欧盟运营的企业应审查相关条款,或在该日期后如果无法满足要求则考虑停止使用模型。

然而,在美国国内运营并为美国用户或其他国家用户提供服务的美国公司不受《欧盟人工智能法案》条款约束,这应该给他们在使用和部署这个免费、快速的开源推理模型时相当大的灵活性。如果他们为欧盟用户提供服务,《欧盟法案》的一些条款仍将适用。

TNG已经通过OpenRouter和Chutes等平台提供了先前的Chimera变体,据报告每天处理数十亿Token。R1T2的发布代表了这一公开可用性努力的进一步发展。

关于TNG Technology Consulting GmbH

TNG Technology Consulting GmbH成立于2001年1月,总部位于德国巴伐利亚州,雇佣超过900人,其中博士和技术专家比例很高。

公司专注于软件开发人工智能DevOps/云服务,为电信、保险、汽车、电子商务和物流等行业的主要企业客户提供服务。

TNG作为基于价值观的咨询合作伙伴运营。其独特的结构建立在运营研究和自我管理原则基础上,支持技术创新文化。它积极为开源社区和研究做出贡献,如R1T2的公开发布和其专家集成方法的发表所证明的那样。

对企业技术决策者的意义

对于CTO、AI平台所有者、工程主管和IT采购团队,R1T2带来了切实的好处和战略选择:

降低推理成本:每个任务使用更少的输出Token,R1T2减少了GPU时间和能耗,直接转化为基础设施节省——在高吞吐量或实时环境中尤其重要。

高推理质量无开销:它保持了像R1-0528这样顶级模型的大部分推理能力,但没有其冗长性。这对于需要简洁答案的结构化任务(数学、编程、逻辑)是理想的。

开放和可修改:MIT许可证允许完全的部署控制和定制,支持在受监管或隔离环境中进行私有托管、模型对齐或进一步训练。

新兴模块化:AoE方法暗示了一个未来,其中模型以模块化方式构建,允许企业通过重新组合现有模型的优势来组装专门变体,而不是从头重新训练。

注意事项:依赖函数调用、工具使用或高级智能体编排的企业应注意当前限制,尽管未来的Chimera更新可能会解决这些差距。

TNG鼓励研究人员、开发者和企业用户探索该模型,测试其行为并提供反馈。R1T2 Chimera可在huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera获得,技术咨询可发送至research@tngtech.com。

有关技术背景和基准方法,TNG的研究论文可在arXiv:2506.14794获得。

相关内容

热门资讯

开能华宇取得纤维缠绕用挂纱装置... 金融界2025年7月5日消息,国家知识产权局信息显示,江苏开能华宇环保设备有限公司取得一项名为“一种...
马斯克建“美国党”,比造火箭难... “美国党不必轰轰烈烈,只需当个苍蝇,不断地去骚扰特朗普。” 文 / 巴九灵( 与世界最有权力的总统...
原创 戴... 一段最新的视频揭秘了戴森的震撼垂直农场:122.5万株草莓苗在智能系统中生长,这家以家电闻名的企业正...
全金属装甲 AMD大板之选 蓝... 如今的装机市场上,AMD在CPU领域可谓风头正劲:凭借出色的口碑、强悍且稳定的游戏性能,其在电商榜单...
全国首次深空资源开发利用学术研... IT之家 7 月 7 日消息,据深空探测实验室消息,7 月 6 日,其和探月与航天工程中心在安徽合肥...
手机可以查档案了!全国档案查询... 记者7月6日从国家档案局获悉,为给社会公众带来高效、便捷查档体验,全国档案查询利用服务平台移动端AP...
原创 目... 今年最适合购买手机,因为有国补,最多可以优惠500元,4499元的小米15,补贴后只售3999元。 ...
“短报文”国家标准助力北斗产业... 北京7月4日电(光明日报 记者李春剑)北斗“短报文”是中国北斗卫星导航系统独有的双向通信技术,允许用...
百度发布图生视频模型;美团大量... 【观网财经丨智能早报 7月7日】 上海交大团队突破 AI 设计热辐射超材料,实现高效降温与节能 7...
盂县固民粮油加工有限公司正式投... 山西科技报阳泉讯(李淑婧)7月5日,记者走进盂县农旅投资集团有限公司下属企业盂县固民粮油加工有限公司...
读创今日荐书 | 科学理论如何... 深圳商报•读创客户端首席记者 魏沛娜 物理学革命如何影响20世纪的世界文化和政治? 在科学家的共同努...
研判未来科技发展趋势 战略科学... □新华社记者 温竞华 6日,第二十七届中国科协年会在京发布了具有引领性、创新性、战略性的10个前沿科...
原创 1... 雷达财经出品 文|孟帅 编|深海 由“最强打工妹”王来春掌舵的立讯精密,即将启动赴港上市的征程。 而...
微信又上新功能,但这次,网友们... 你的微信又双叒叕更新了! 兄弟们,你们的微信是不是又在半夜偷偷更新了?😂 7月2日微信8.0.61版...
让商圈成为城市活力“充电桩”,... 国球进商圈,让全民健身“潮”起来。昨晚,2025年上海城市业余联赛上海市智能乒乓球比赛——嘉定菊园新...
全国食品安全内部知情人举报系统... 科技日报北京7月3日电 (记者付丽丽)记者3日获悉,由市场监管总局开发的“全国食品安全内部知情人举报...
蓝天实验室领航 安阳无人机“飞... 河南日报客户端记者 李林 赵阿娜 通讯员 张涛 7月5日,2025国际无人机应用及防控大会暨第六届中...
诺展机电取得一种配电变压器专利... 金融界2025年7月5日消息,国家知识产权局信息显示,长沙诺展机电设备有限公司取得一项名为“一种配电...
人工智能如何赋能千行百业 人工智能演进示意图 1940- 1950 图灵、香农、维纳等开启“让机器变聪明”的研究 1956 给...
干细胞育出有完整血管网络的“迷... 美国科学家首次利用干细胞培育出具有完整血管网络的肺类器官。这些“迷你”肺与人类肺部的发育过程高度相似...