Anthropic调整核心安全承诺,放弃「先保障后训练」原则
创始人
2026-02-25 12:22:49

AIPress.com.cn报道

2月25日消息,人工智能公司Anthropic对其核心安全政策进行重大调整,取消了此前“在无法事先保证风险缓解措施到位前,不训练更强模型”的承诺。这一承诺曾是公司2023年发布的《责任扩展政策》(Responsible Scaling Policy,RSP)的核心内容。

根据公司高层向媒体透露的情况,新版政策不再设定明确的能力门槛来自动触发暂停训练机制。此前版本规定,如果安全措施未达到要求,公司不得训练或发布超过特定能力水平的模型。

Anthropic首席科学官Jared Kaplan表示,公司认为在当前人工智能技术快速演进、竞争加剧的背景下,单方面暂停模型训练“未必对任何人有益”。他指出,如果一家开发者暂停推进技术,而其他竞争者继续训练和部署系统,可能导致整体安全环境反而变差。

新版RSP强调将加强透明度,包括更频繁披露模型安全测试结果、发布风险评估报告,并承诺在安全措施方面“与竞争对手持平或更优”。文件还提出,若公司既处于技术领先地位、又判断存在重大灾难性风险,将考虑延缓相关开发。

Anthropic近年来发展迅速。其Claude系列模型,尤其是面向编程场景的工具,获得市场关注。今年2月,公司宣布完成新一轮融资,估值大幅提升,年度营收增速显著。公司主要通过向企业客户提供服务实现商业化,被部分投资者视为区别于消费端模式的路径选择。

不过,政策调整也引发外界对人工智能风险治理前景的讨论。非营利机构METR政策负责人Chris Painter在审阅草案后表示,理解企业在现实环境下调整策略的考量,但这也反映出风险评估和缓解手段未必能与模型能力提升同步推进。他担忧,若缺乏明确的“触发线”,风险可能在渐进过程中累积,而难以在某一关键节点被识别。

Anthropic方面则表示,将定期发布“前沿安全路线图”和“风险报告”,以持续说明模型能力、威胁模型及缓解措施之间的关系,并对整体风险水平进行评估。公司认为,这种持续披露机制能够在保持技术研发进度的同时,强化外部监督。(AI普瑞斯编译)

相关内容

热门资讯

裸辞做“一人公司”,我后悔了 去年这个时候,一位以色列程序员正在东南亚旅行。他顺手把一个在脑子里转了很久的想法做成了产品,一个让任...
南京建成国内首个Pre-6G试... 4月21日,2026全球6G技术与产业生态大会在南京开幕。全息互动技术展台前,一名远在北京的工作人员...
超梵求职受邀参加“2025抖音... 超梵求职受邀参加“2025抖音巨量引擎成人教育行业生态大会”,探讨分享优质内容传播,服务万千学员。 ...
摩托罗拉Razr 2026(R... IT之家 4 月 22 日消息,摩托罗拉宣布新一代 Razr 折叠手机将于 4 月 29 日在美国发...
库克卸任,特纳斯领航:苹果新纪... 苹果首席执行官蒂姆·库克将卸任,硬件工程主管约翰·特纳斯将接任,苹果公司今天宣布此事。 库克将在夏季...