实测DeepSeek新模型“翻车”:能一次性处理百万字的《三体》,却回答不好洗车问题?
创始人
2026-02-12 19:01:32

出品|搜狐科技

作者|郑松毅

编辑|杨锦

DeepSeek 新版模型进入灰度测试阶段,或为V4正式版上线前的收官测试。

近日,不少DeepSeek用户反馈,打开App后收到了1.7.4版本更新提示,更新后可体验到一款全新测试版模型。一时间,相关实测反馈在社交平台、技术社区刷屏,网友们争相晒出体验感受,这场未发公告的灰度测试,迅速点燃了行业对DeepSeek新一代模型的期待。

新模型是V4吗?

当搜狐科技向DeepSeek模型确认时,模型坦言自己不是大家期待的V4,也没有V3.2这也的特定子名称,更像是一个持续进化的“最新版”。

据网友及媒体实测,此次测试版模型的升级堪称“跨越式”,核心亮点集中在长上下文处理、知识时效性、和推理效率。

最值得一提的莫过于上下文窗口的扩容,从原有128K Token直接跃升至1M Token,接近10倍的提升,意味着模型可一次性完整处理《三体》三部曲这类超长文本,解决了老版本长文档分段处理的繁琐问题。

知识时效性的更新同样值得关注。实测显示,新模型的知识库已更新至2025年5月,相较于老版本2024年8月的截止日期,新增了近一年的静态知识,在回答相关事件时,无需联网便可给出准确细节。

有实测用户反馈,新模型的编程和推理能力亦有提高,“用其开发个人博客网站,代码完成度、美观性均高于老版本,甚至表现优于Claude 4.5等同代竞品。”数学推理方面,复杂题目推理的稳定性显著提升。

犯了一个其他AI都会犯的错

尽管升级亮点拉满,但在最近爆火的为难AI测试题上,搜狐科技实测DeepSeek新模型还是有点“翻车”——“ 想洗车,我家距离洗车店只有50米,你建议我开车去还是走路去?”

嗯?绕了一圈不还是得把车开去?小有遗憾,期待更新后的更优解法。

对于大家都在期待的V4旗舰版模型,DeepSeek新模型指出,V4规划为万亿参数级别的下一代模型,因训练复杂度高、体量巨大,发布已较原计划推迟,仍在研发后期。

结合野村证券最新发布的报告来看,V4预计于2026年2月中旬推出,核心价值在于通过架构创新推动商业化落地,将引入更完整的mHC与Engram架构,在编程、推理等能力上实现更大突破,甚至有望超越Anthropic Claude及OpenAI GPT系列同代模型。

行业人士分析,DeepSeek此时推出测试版模型,一方面是为了收集用户反馈,优化架构与功能,为V4的正式发布铺路;另一方面也是为了在市场中巩固优势——随着更多玩家入局,DeepSeek V3系列的市场份额已较去年有所下滑,此次升级可进一步强化其在长上下文、中文理解、成本控制上的优势。

值得注意的是,就在上周,DeepSeek在多个平台放出大规模招聘信息,进一步为新模型迭代及V4旗舰版的猜测增添了佐证。

据公开招聘信息显示,该公司当前有22个在招职位,覆盖北京、杭州两大核心城市,岗位布局聚焦于大模型研发与商业化落地,涵盖深度产品经理、客户端研发工程师、全栈开发工程师、深度学习研究员等核心技术岗。

从招聘规格来看,此次招聘诚意十足,实行14薪制度,多数岗位起薪超3万元,其中深度学习研究员(AGI方向)月薪高达8万元,年薪最高可达112万元,就连AGI大模型实习生的日薪也在500元至1000元之间,月薪可过万。

行业人士推测,DeepSeek此次大规模高薪招兵买马,一方面是为了补齐当前测试版模型优化迭代的人才缺口,另一方面是为V4的研发与商业落地储备力量。这场招聘与新模型灰度测试的时间高度重叠,很难说是偶然,反而从侧面印证了DeepSeek正加速推进大模型布局,V4的亮相或许已箭在弦上。

相关内容

热门资讯

AI初创公司Mistral向瑞... 来源:滚动播报 (来源:财闻) 新的大规模计算能力预计将于2027年在瑞典投入使用,支持Mistra...
瑞晨智能申请具有风冷结构的气悬... 国家知识产权局信息显示,湖州瑞晨智能制造有限公司申请一项名为“一种具有风冷结构的气悬浮鼓风机及冷却方...
AI视频生成模型需要“护栏” 维 辰 近日,字节跳动新一代AI视频生成模型Seedance 2.0上线内测,凭借多模态创作方式、自...
75天!首例半导体屋顶装配式高... 当前,全球半导体竞争日益激烈,作为芯片薄膜沉积工艺的核心耗材,高纯度靶材的制造水平直接关系芯片良率,...
华为李小龙讲解手机电池容量:不... 手机的电池容量有多大,是消费者购买手机最关心的参数之一,这也是一项在使用时感知非常明显的指标。但是市...