AIPress.com.cn报道
2月25日消息,人工智能公司Anthropic对其核心安全政策进行重大调整,取消了此前“在无法事先保证风险缓解措施到位前,不训练更强模型”的承诺。这一承诺曾是公司2023年发布的《责任扩展政策》(Responsible Scaling Policy,RSP)的核心内容。
根据公司高层向媒体透露的情况,新版政策不再设定明确的能力门槛来自动触发暂停训练机制。此前版本规定,如果安全措施未达到要求,公司不得训练或发布超过特定能力水平的模型。
Anthropic首席科学官Jared Kaplan表示,公司认为在当前人工智能技术快速演进、竞争加剧的背景下,单方面暂停模型训练“未必对任何人有益”。他指出,如果一家开发者暂停推进技术,而其他竞争者继续训练和部署系统,可能导致整体安全环境反而变差。
新版RSP强调将加强透明度,包括更频繁披露模型安全测试结果、发布风险评估报告,并承诺在安全措施方面“与竞争对手持平或更优”。文件还提出,若公司既处于技术领先地位、又判断存在重大灾难性风险,将考虑延缓相关开发。
Anthropic近年来发展迅速。其Claude系列模型,尤其是面向编程场景的工具,获得市场关注。今年2月,公司宣布完成新一轮融资,估值大幅提升,年度营收增速显著。公司主要通过向企业客户提供服务实现商业化,被部分投资者视为区别于消费端模式的路径选择。
不过,政策调整也引发外界对人工智能风险治理前景的讨论。非营利机构METR政策负责人Chris Painter在审阅草案后表示,理解企业在现实环境下调整策略的考量,但这也反映出风险评估和缓解手段未必能与模型能力提升同步推进。他担忧,若缺乏明确的“触发线”,风险可能在渐进过程中累积,而难以在某一关键节点被识别。
Anthropic方面则表示,将定期发布“前沿安全路线图”和“风险报告”,以持续说明模型能力、威胁模型及缓解措施之间的关系,并对整体风险水平进行评估。公司认为,这种持续披露机制能够在保持技术研发进度的同时,强化外部监督。(AI普瑞斯编译)