Anthropic调整核心安全承诺,放弃「先保障后训练」原则
创始人
2026-02-25 12:22:49

AIPress.com.cn报道

2月25日消息,人工智能公司Anthropic对其核心安全政策进行重大调整,取消了此前“在无法事先保证风险缓解措施到位前,不训练更强模型”的承诺。这一承诺曾是公司2023年发布的《责任扩展政策》(Responsible Scaling Policy,RSP)的核心内容。

根据公司高层向媒体透露的情况,新版政策不再设定明确的能力门槛来自动触发暂停训练机制。此前版本规定,如果安全措施未达到要求,公司不得训练或发布超过特定能力水平的模型。

Anthropic首席科学官Jared Kaplan表示,公司认为在当前人工智能技术快速演进、竞争加剧的背景下,单方面暂停模型训练“未必对任何人有益”。他指出,如果一家开发者暂停推进技术,而其他竞争者继续训练和部署系统,可能导致整体安全环境反而变差。

新版RSP强调将加强透明度,包括更频繁披露模型安全测试结果、发布风险评估报告,并承诺在安全措施方面“与竞争对手持平或更优”。文件还提出,若公司既处于技术领先地位、又判断存在重大灾难性风险,将考虑延缓相关开发。

Anthropic近年来发展迅速。其Claude系列模型,尤其是面向编程场景的工具,获得市场关注。今年2月,公司宣布完成新一轮融资,估值大幅提升,年度营收增速显著。公司主要通过向企业客户提供服务实现商业化,被部分投资者视为区别于消费端模式的路径选择。

不过,政策调整也引发外界对人工智能风险治理前景的讨论。非营利机构METR政策负责人Chris Painter在审阅草案后表示,理解企业在现实环境下调整策略的考量,但这也反映出风险评估和缓解手段未必能与模型能力提升同步推进。他担忧,若缺乏明确的“触发线”,风险可能在渐进过程中累积,而难以在某一关键节点被识别。

Anthropic方面则表示,将定期发布“前沿安全路线图”和“风险报告”,以持续说明模型能力、威胁模型及缓解措施之间的关系,并对整体风险水平进行评估。公司认为,这种持续披露机制能够在保持技术研发进度的同时,强化外部监督。(AI普瑞斯编译)

相关内容

热门资讯

产学研工程|筑境产学研:以融智... 产学研工程|筑境产学研:以融智之力,筑研创新境 筑境融智,研创未来。以产学研为根基,融科学与艺术为...
SoC内置RTX 5070显卡... 快科技2月25日消息,时隔多年,NVIDIA重返消费级SoC市场。该公司与联发科合作打造的N1/N1...
20天干翻全年收入:中国大模型... 2026年初,AI行业迎来一个标志性时刻:月之暗面(Moonshot AI)旗下Kimi K2.5大...
以人工智能赋能农业农村现代化 农业农村现代化关系中国式现代化全局和成色。2026年中央一号文件指出,要因地制宜发展农业新质生产力,...
智元机器人拓展全球市场:在德国... IT之家 2 月 25 日消息,智元(AGIBOT)2 月 24 日在德国慕尼黑举办发布会,正式宣布...