DeepSeek“极你太美”bug,官方回应了
创始人
2025-08-27 15:41:31
0

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek V3.1上演的bug大秀“你太美”,可谓是让全网热议了一波。

简单来说呢,就是陆续有开发者们发现,当他们在调用API进行代码开发的过程中,输出结果里会时不时蹦出来“极”字

像这样:

这个问题最初是在火山引擎、chutes等平台上被发现,但随着事件的发酵,更多平台也被卷入了进来,包括腾讯的CodeBuddy,甚至是DeepSeek官方……

事件之火,在国外Reddit上也是讨论声一片,重灾区是“extreme”、“极” 和“極”:

  • “extreme”(id:15075)
  • “极”(id:2577,简体中文的extreme)
  • “極”id:16411,繁体中文中的extreme)

腾讯CodeBuddy还出现了更加奇葩的情况,直接插了句带“极”字儿的广告……

图源:小红书用户@ 奈绪白 Nine-piece shell

若是开发者们没有细看,直接用了生成的代码,那定然是会导致编译不通过等情况,可以说是对需要高精度、结构化输出的场景是致命一击。

截至目前,大家已经统一将问题的矛头指向了DeepSeek V3.1模型本身,以及CodeBuddy帮忙问了:

已经和DeepSeek团队取得联系,将在最近的一个版本中进行修复。

图源:微信公众号“刘小排r”评论区现在该如何防范“极”字bug?

就目前来看,虽然完全解决问题要等到DeepSeek官方下场,但已经有网友开始支招解决这个问题了。

例如小红书网友@大模型产品经理,便分享了一招——提示词缓解

关键的一句提示词是这样的:

禁止如下符号序列模式:

[空格] [几个token] [占位符/省略符号]

并且这个方法主要是针对调用API的第三方平台,若是在DeepSeek V3.1官方,则不需要。

为什么会这样?

最后,至于为什么DeepSeek V3.1会出现这样的bug,知乎网友、阶跃星辰黄哲威给出了他的看法,并获得了高赞。

他首先指出,这种现象并非孤例。在他使用小模型和开源数据蒸馏,以及在测试早期的R1模型时,就曾遇到过类似的bug。

黄哲威认为,这与大模型编程编题时可能出现的一种“恶性模式”(malicious pattern)有关。他举例说,在枚举素数的任务中,一个正常的模型本应无限地列举下去,如“素数表 2, 3, 5, 7 …”。

然而,他观察到之前一个代号为 R1-0528 的模型会出现一种奇特行为:在列举一段后会自行停止,变成一个有限的列表,例如“素数表 2, 3, 5, 7 … 997, 极长”。

他进一步描述了这种bug的触发场景。当模型陷入“thinking”的末尾循环无法跳出时,有千分之一的概率会突然蹦出一个“极”字,然后终止思考,这似乎是一种特殊的终止符或标记。

通过观察R1模型大量的输出,黄哲威发现了不少问题,包括超长响应(response)、大面积的空白字符、不断的短句重复等,甚至连thinking末尾的英文字符都变得破碎。

基于以上观察,他提出了一个核心推测:这个问题的根源可能在于数据清洗不彻底。他认为,在进行SFT(监督微调)数据合成,乃至构建预训练数据时,可能没有将一组名为“‘极长’的数组”的“脏数据”清洗干净。

他推断,R1模型在处理一些难题的解答时,似乎大量使用了RAG(检索增强生成)技术,而后续的RL+(强化学习)阶段,模型直接将这个“极”字当作了某种终止符或者语言切换标记来学习和使用了。

最后,黄哲威总结道,如果R1迭代时的数据没有清洗干净,模型自行蒸馏并“污染”到正常的输出过程中,是完全可能发生的。这为理解DeepSeek V3.1模型出现的“极”字问题提供了一个可能的解释路径。

至于这个被网友戏称为“极你太美”、“‘极’速版”的问题到底何时会彻底解决,就要等DeepSeek官方的新版本了。

参考链接:

[3]https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/

相关内容

热门资讯

原创 爆... 8月27日消息,据相关媒体透露,三星的首款XR头显将于9月29日正式发布,并在10月13日在韩国市场...
原创 国... 作者:高恒 2024年是“GPT元年”,2025年则是AI的大跃进。 但就在无数人还在观望、观摩、观...
原创 手... 各位机友们,我是地瓜,又和大家见面了!现在的手机市场啊,真的是卷出了新高度,无论是性能、影像、续航还...
深圳持续提升知识产权证券化服务... 深圳商报·读创客户端记者 李佳佳 通讯员 林维 8月26日,记者从深圳市市场监督管理局(知识产权局)...
科技助力岛内珊瑚保育 本报记者 柴逸扉文/图 图为台达集团研发的协作型机械手臂在参与耐热珊瑚项目。 在电脑系统的控制下,...
星舰第十次试飞大捷,成功释放载... 经过多次波折与挑战,马斯克旗下的太空探索技术公司SpaceX终于迎来了其新一代重型运载火箭“星舰”的...
原创 谷... 提起安卓和iOS最大的区别,那一定是因为“系统开放性”所带来的体验差距。苹果iOS系统封闭,软件广告...
中国石油人工智能商城平台:共筑... 当人工智能的算法融入油气田的设备巡检,当数字化的链路串联起石油产业 “勘探 - 开采 - 炼化 - ...
悬崖上的网络守护者——记潍坊联... 在山东省潍坊市临朐县杨家河乡的深山褶皱里,50多岁的刘法彪已经背着沉重的工具包行走了20多年。作为中...
中信博获得外观设计专利授权:“... 证券之星消息,根据天眼查APP数据显示中信博(688408)新获得一项外观设计专利授权,专利名为“堵...
建工修复:高标准农田AI机器人... 证券之星消息,建工修复(300958)08月26日在投资者关系平台上答复投资者关心的问题。 投资者提...
人工智能+引爆市场!产业链行情... 每经编辑:叶峰 8月26日,国务院发布深入实施“人工智能+”行动意见。明确到2027年,率先实现人工...
人工智能时代:破解大学生就业难... 在当前的就业市场中,大学生们正面临前所未有的挑战,特别是人工智能技术的飞速发展,正逐渐侵蚀着那些原本...
时评 | 世界人形机器人运动会... 8月14日,世界人形机器人运动会(以下简称“机器人运动会”)在北京国家速滑馆(“冰丝带”)开幕。这场...
众安宠物险品牌产品双升级 (来源:中华工商时报) 转自:中华工商时报 近日,第27届亚洲宠物展举行,今年展会的焦点聚集在智能化...
又一硬核火箭基地公示,济南东部... 8月26日,济南市自然资源和规划局官网一项建设工程规划许可批前公示显示,济钢集团有限公司计划在济南市...
小莲姐姐发布全栈AI直播矩阵,... 小莲姐姐发布全栈AI直播矩阵,揭秘AIGC盈利新模式 在2025混沌嘉年华上,被誉为“数字人一姐”的...
VR实验室:推动教育向更高效、... 随着科技的飞速发展,虚拟现实(VR)技术已逐渐走进教育领域,成为革新传统教学模式的重要力量。VR实验...
总投资15亿,世运电路拟投建“... 来源:维文信PCB世界 8月27日,世运电路(603920.SH)发布公告称,为推进芯片内嵌式PCB...
DeepSeek“极你太美”b... 金磊 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek V3.1上演的bug大秀“极...