德国实验室推出DeepSeek R1-0528变体
创始人
2025-07-07 03:01:37
0

距离中国AI初创公司DeepSeek(香港高瓴资本管理公司旗下)发布其热门开源模型DeepSeek R1-0528的最新版本仅一个多月时间。

与其前身DeepSeek-R1一样——这款模型以其低廉的训练成本和在推理任务上的出色表现震撼了AI界和全球商业社区,并且免费向开发者和企业开放——R1-0528已经被其他AI实验室和开发者进行改进和重构,这在很大程度上得益于其宽松的Apache 2.0许可证。

本周,成立24年的德国公司TNG Technology Consulting GmbH发布了这样一个改进版本:DeepSeek-TNG R1T2 Chimera,这是其Chimera大语言模型系列中的最新模型。R1T2在效率和速度方面实现了显著提升,在智能基准测试中得分达到R1-0528的90%以上,同时生成答案时使用的输出Token数量不到R1-0528的40%。

这意味着它产生更简洁的回应,直接转化为更快的推理速度和更低的计算成本。在TNG在AI代码共享社区Hugging Face上发布的新R1T2模型卡中,公司表示它"比常规R1快约20%"(1月发布的版本),"比R1-0528快两倍以上"(DeepSeek 5月的官方更新)。

AI开发者社区的反响非常积极。Hugging Face高级主管Vaibhav (VB) Srivastav在X上写道:"太棒了!DeepSeek R1T2——比R1-0528快200%,比R1快20%。在GPQA和AIME 24上显著优于R1,通过专家集成方法与DS V3、R1和R1-0528结合制成——并且采用MIT许可证,可在Hugging Face上获得。"

这一性能提升得益于TNG的专家集成(Assembly-of-Experts,AoE)方法——这是一种通过选择性合并多个预训练模型的权重张量(内部参数)来构建大语言模型的技术,TNG在5月发表在arXiv(非同行评议的开放获取在线期刊)上的论文中描述了这种方法。

作为原始R1T Chimera的继任者,R1T2引入了新的"三重思维"配置,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324。结果是一个设计用于保持高推理能力同时显著降低推理成本的模型。

R1T2的构建无需进一步微调或重新训练。它继承了R1-0528的推理强度、R1的结构化思维模式,以及V3-0324简洁、面向指令的行为——为企业和研究用途提供了一个更高效但仍然能力强大的模型。

专家集成(AoE)与专家混合(MoE)的区别

专家混合(MoE)是一种架构设计,其中不同的组件或"专家"根据输入有条件地激活。在像DeepSeek-V3或Mixtral这样的MoE大语言模型中,在任何给定Token的前向传递过程中,只有模型专家层的一个子集(例如,256个中的8个)处于活跃状态。这使得非常大的模型能够实现更高的参数计数和专业化,同时保持可控的推理成本——因为每个Token只评估网络的一小部分。

专家集成(AoE)是一种模型合并技术,而不是一种架构。它用于通过选择性插值多个预训练MoE模型的权重张量来创建新模型。

AoE中的"专家"指的是被合并的模型组件——通常是MoE层内的路由专家张量——而不是在运行时动态激活的专家。

TNG的AoE实现主要专注于合并路由专家张量——模型中最负责专门推理的部分——同时通常保留来自像V3-0324这样更快模型的更高效共享层和注意力层。这种方法使得生成的Chimera模型能够继承推理强度,而不复制最强父模型的冗长性或延迟。

性能和速度:基准测试的实际表现

根据TNG提供的基准比较,R1T2在AIME-24、AIME-25和GPQA-Diamond测试集中测得的推理性能达到其最智能父模型DeepSeek-R1-0528的90%至92%。

然而,与DeepSeek-R1-0528不同——后者由于其扩展的思维链推理而倾向于产生冗长、详细的答案——R1T2被设计得更加简洁。它提供同样智能的回应,同时使用显著更少的词汇。

TNG不专注于原始处理时间或每秒Token数,而是以每个答案的输出Token计数来衡量"速度"——这是成本和延迟的实用代理指标。根据TNG分享的基准测试,R1T2生成回应时使用的Token约为R1-0528所需Token的40%。

这转化为输出长度减少60%,直接减少推理时间和计算负载,将响应速度提升2倍,即200%。

与原始DeepSeek-R1相比,R1T2平均也更简洁约20%,为高吞吐量或成本敏感的部署提供了有意义的效率提升。

这种效率并非以牺牲智能为代价。如TNG技术论文中展示的基准图表所示,R1T2在智能与输出成本曲线上处于理想区域。它保持推理质量同时最小化冗长性——这对推理速度、吞吐量和成本都很重要的企业应用来说是关键结果。

部署考虑和可用性

R1T2在宽松的MIT许可证下发布,现在可在Hugging Face上获得,这意味着它是开源的,可用于构建商业应用程序。

TNG指出,虽然该模型非常适合一般推理任务,但由于从其DeepSeek-R1血统继承的限制,目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来更新中得到解决。

公司还建议欧洲用户评估与2025年8月2日生效的《欧盟人工智能法案》的合规性。在欧盟运营的企业应审查相关条款,或在该日期后如果无法满足要求则考虑停止使用模型。

然而,在美国国内运营并为美国用户或其他国家用户提供服务的美国公司不受《欧盟人工智能法案》条款约束,这应该给他们在使用和部署这个免费、快速的开源推理模型时相当大的灵活性。如果他们为欧盟用户提供服务,《欧盟法案》的一些条款仍将适用。

TNG已经通过OpenRouter和Chutes等平台提供了先前的Chimera变体,据报告每天处理数十亿Token。R1T2的发布代表了这一公开可用性努力的进一步发展。

关于TNG Technology Consulting GmbH

TNG Technology Consulting GmbH成立于2001年1月,总部位于德国巴伐利亚州,雇佣超过900人,其中博士和技术专家比例很高。

公司专注于软件开发人工智能DevOps/云服务,为电信、保险、汽车、电子商务和物流等行业的主要企业客户提供服务。

TNG作为基于价值观的咨询合作伙伴运营。其独特的结构建立在运营研究和自我管理原则基础上,支持技术创新文化。它积极为开源社区和研究做出贡献,如R1T2的公开发布和其专家集成方法的发表所证明的那样。

对企业技术决策者的意义

对于CTO、AI平台所有者、工程主管和IT采购团队,R1T2带来了切实的好处和战略选择:

降低推理成本:每个任务使用更少的输出Token,R1T2减少了GPU时间和能耗,直接转化为基础设施节省——在高吞吐量或实时环境中尤其重要。

高推理质量无开销:它保持了像R1-0528这样顶级模型的大部分推理能力,但没有其冗长性。这对于需要简洁答案的结构化任务(数学、编程、逻辑)是理想的。

开放和可修改:MIT许可证允许完全的部署控制和定制,支持在受监管或隔离环境中进行私有托管、模型对齐或进一步训练。

新兴模块化:AoE方法暗示了一个未来,其中模型以模块化方式构建,允许企业通过重新组合现有模型的优势来组装专门变体,而不是从头重新训练。

注意事项:依赖函数调用、工具使用或高级智能体编排的企业应注意当前限制,尽管未来的Chimera更新可能会解决这些差距。

TNG鼓励研究人员、开发者和企业用户探索该模型,测试其行为并提供反馈。R1T2 Chimera可在huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera获得,技术咨询可发送至research@tngtech.com。

有关技术背景和基准方法,TNG的研究论文可在arXiv:2506.14794获得。

相关内容

热门资讯

小米卢伟冰回应“空调大战”:有... IT之家 8 月 23 日消息,小米集团总裁 @卢伟冰 发布微博,透露今年第二季度小米收入和净利润均...
智能炒菜机器人竞技平谷 首都共... 8月22日,由中国食品工业协会与北京市平谷区人民政府联合主办,农业中关村现代食品营养谷、首都共享中央...
原创 华... 推荐nova 14系列: 华为nova 14系列中,nova 14 Pro和nova 14 Ultr...
星际荣耀双曲线三号火箭转场起竖... 感谢IT之家网友 的线索投递! 8 月 24 日消息,中国民营航天企业星际荣耀宣布,近期星际荣耀双...
原创 燃... 编辑丨苏木 文丨苏木 本文陈述所有内容皆有可靠信息来源,赘述在文章结尾 高昂的燃气费还存在泄露的风...
七城算力中心携手并入国家超算互... 在2025中国算力大会的主舞台上,一场意义深远的仪式圆满落幕——国家超算互联网与七座城市算力中心共同...
“加速”突破人类知识的边界 (来源:光明日报) 转自:光明日报 中国科学院近代物理研究所LEAF团队,为国之重器潜心研究、持续...
洛阳晶半取得单晶硅棒生产的储料... 金融界2025年8月23日消息,国家知识产权局信息显示,洛阳晶半电子科技有限公司取得一项名为“一种单...
华纬科技公布“一种预压回火热抛... 天眼查APP显示,近日,华纬科技股份有限公司申请的“一种预压回火热抛工装及预压回火热抛工艺”专利公布...
突破3100℃,中国空间站“炼... 近日,中国空间站上的无容器材料实验柜成功突破3100℃,创造了新的世界纪录。 太上老君的炼丹炉不是...
工信部:加快突破GPU芯片等关... 来源:市场资讯 来源:财联社 工业和信息化部副部长熊继军在昨日召开的2025中国算力大会上强调,工信...
美的取得空调器专利,利于实现空... 金融界2025年8月23日消息,国家知识产权局信息显示,广东美的制冷设备有限公司取得一项名为“空调器...
永贵科技取得双向开关电路专利 ... 金融界2025年8月23日消息,国家知识产权局信息显示,四川永贵科技有限公司取得一项名为“一种双向开...
夸克网盘拉新避坑指南:避免无效... 夸克网盘凭借高速下载、大容量空间等优势,已经成为很多人存储资料的首选工具。但如果你想通过推广夸克网盘...
广东高谱等申请一种拉弯臂及拉弯... 金融界2025年8月23日消息,国家知识产权局信息显示,广东高谱弯曲技术有限公司;广州高谱机械科技有...
格力电器取得板件自动喷涂装置专... 金融界2025年8月23日消息,国家知识产权局信息显示,格力电器(武汉)有限公司、珠海格力电器股份有...
信仪测控取得浮动阵列式压矫机构... 金融界2025年8月23日消息,国家知识产权局信息显示,深圳信仪测控技术有限公司取得一项名为“一种浮...
刚刚,只差5米!黄河大桥深夜坍... 点上面,快速进入并关注走向科学 “走向科学”微信公众号 K95028 看破迷雾,人生就会更淡定从容 ...
OpenAI与英国就ChatG... 来源:环球市场播报 OpenAI 联合创始人山姆・奥特曼 据报道,ChatGPT 母公司老板与英国...
【重点推荐】德兰智能锁 S6 ... 新款高端智能锁.S6 小蛮腰 高品质高颜值 S6不但有手机远程开锁功能,还有手机远程关锁功能 详见下...