Anthropic调整核心安全承诺，放弃「先保障后训练」原则_科技资讯

Anthropic调整核心安全承诺，放弃「先保障后训练」原则

创始人

2026-02-25 12:22:49

AIPress.com.cn报道

2月25日消息，人工智能公司Anthropic对其核心安全政策进行重大调整，取消了此前“在无法事先保证风险缓解措施到位前，不训练更强模型”的承诺。这一承诺曾是公司2023年发布的《责任扩展政策》（Responsible Scaling Policy，RSP）的核心内容。

根据公司高层向媒体透露的情况，新版政策不再设定明确的能力门槛来自动触发暂停训练机制。此前版本规定，如果安全措施未达到要求，公司不得训练或发布超过特定能力水平的模型。

Anthropic首席科学官Jared Kaplan表示，公司认为在当前人工智能技术快速演进、竞争加剧的背景下，单方面暂停模型训练“未必对任何人有益”。他指出，如果一家开发者暂停推进技术，而其他竞争者继续训练和部署系统，可能导致整体安全环境反而变差。

新版RSP强调将加强透明度，包括更频繁披露模型安全测试结果、发布风险评估报告，并承诺在安全措施方面“与竞争对手持平或更优”。文件还提出，若公司既处于技术领先地位、又判断存在重大灾难性风险，将考虑延缓相关开发。

Anthropic近年来发展迅速。其Claude系列模型，尤其是面向编程场景的工具，获得市场关注。今年2月，公司宣布完成新一轮融资，估值大幅提升，年度营收增速显著。公司主要通过向企业客户提供服务实现商业化，被部分投资者视为区别于消费端模式的路径选择。

不过，政策调整也引发外界对人工智能风险治理前景的讨论。非营利机构METR政策负责人Chris Painter在审阅草案后表示，理解企业在现实环境下调整策略的考量，但这也反映出风险评估和缓解手段未必能与模型能力提升同步推进。他担忧，若缺乏明确的“触发线”，风险可能在渐进过程中累积，而难以在某一关键节点被识别。

Anthropic方面则表示，将定期发布“前沿安全路线图”和“风险报告”，以持续说明模型能力、威胁模型及缓解措施之间的关系，并对整体风险水平进行评估。公司认为，这种持续披露机制能够在保持技术研发进度的同时，强化外部监督。（AI普瑞斯编译）

上一篇：原创量子数据成功实现19英里传输，峰值保真度达95%，平均准确率90%

下一篇：面对企业软件巨头：OpenAI 谋求“颠覆”，Anthropic 选择“共生”

Anthropic调整核心安全承诺，放弃「先保障后训练」原则

相关内容

热门资讯