实测DeepSeek新模型“翻车”：能一次性处理百万字的《三体》，却回答不好洗车问题？_科技资讯

创始人

2026-02-12 19:01:32

出品｜搜狐科技

作者｜郑松毅

编辑｜杨锦

DeepSeek 新版模型进入灰度测试阶段，或为V4正式版上线前的收官测试。

近日，不少DeepSeek用户反馈，打开App后收到了1.7.4版本更新提示，更新后可体验到一款全新测试版模型。一时间，相关实测反馈在社交平台、技术社区刷屏，网友们争相晒出体验感受，这场未发公告的灰度测试，迅速点燃了行业对DeepSeek新一代模型的期待。

新模型是V4吗？

当搜狐科技向DeepSeek模型确认时，模型坦言自己不是大家期待的V4，也没有V3.2这也的特定子名称，更像是一个持续进化的“最新版”。

据网友及媒体实测，此次测试版模型的升级堪称“跨越式”，核心亮点集中在长上下文处理、知识时效性、和推理效率。

最值得一提的莫过于上下文窗口的扩容，从原有128K Token直接跃升至1M Token，接近10倍的提升，意味着模型可一次性完整处理《三体》三部曲这类超长文本，解决了老版本长文档分段处理的繁琐问题。

知识时效性的更新同样值得关注。实测显示，新模型的知识库已更新至2025年5月，相较于老版本2024年8月的截止日期，新增了近一年的静态知识，在回答相关事件时，无需联网便可给出准确细节。

有实测用户反馈，新模型的编程和推理能力亦有提高，“用其开发个人博客网站，代码完成度、美观性均高于老版本，甚至表现优于Claude 4.5等同代竞品。”数学推理方面，复杂题目推理的稳定性显著提升。

犯了一个其他AI都会犯的错

尽管升级亮点拉满，但在最近爆火的为难AI测试题上，搜狐科技实测DeepSeek新模型还是有点“翻车”——“ 想洗车，我家距离洗车店只有50米，你建议我开车去还是走路去？”

嗯？绕了一圈不还是得把车开去？小有遗憾，期待更新后的更优解法。

对于大家都在期待的V4旗舰版模型，DeepSeek新模型指出，V4规划为万亿参数级别的下一代模型，因训练复杂度高、体量巨大，发布已较原计划推迟，仍在研发后期。

结合野村证券最新发布的报告来看，V4预计于2026年2月中旬推出，核心价值在于通过架构创新推动商业化落地，将引入更完整的mHC与Engram架构，在编程、推理等能力上实现更大突破，甚至有望超越Anthropic Claude及OpenAI GPT系列同代模型。

行业人士分析，DeepSeek此时推出测试版模型，一方面是为了收集用户反馈，优化架构与功能，为V4的正式发布铺路；另一方面也是为了在市场中巩固优势——随着更多玩家入局，DeepSeek V3系列的市场份额已较去年有所下滑，此次升级可进一步强化其在长上下文、中文理解、成本控制上的优势。

值得注意的是，就在上周，DeepSeek在多个平台放出大规模招聘信息，进一步为新模型迭代及V4旗舰版的猜测增添了佐证。

据公开招聘信息显示，该公司当前有22个在招职位，覆盖北京、杭州两大核心城市，岗位布局聚焦于大模型研发与商业化落地，涵盖深度产品经理、客户端研发工程师、全栈开发工程师、深度学习研究员等核心技术岗。

从招聘规格来看，此次招聘诚意十足，实行14薪制度，多数岗位起薪超3万元，其中深度学习研究员（AGI方向）月薪高达8万元，年薪最高可达112万元，就连AGI大模型实习生的日薪也在500元至1000元之间，月薪可过万。

行业人士推测，DeepSeek此次大规模高薪招兵买马，一方面是为了补齐当前测试版模型优化迭代的人才缺口，另一方面是为V4的研发与商业落地储备力量。这场招聘与新模型灰度测试的时间高度重叠，很难说是偶然，反而从侧面印证了DeepSeek正加速推进大模型布局，V4的亮相或许已箭在弦上。