AI开始失控了吗？100名科学家联手发布全球首个AI安全共识_科技资讯

AI开始失控了吗？100名科学家联手发布全球首个AI安全共识

创始人

2025-05-14 15:20:58

0次

围绕人工智能（AI）的风险与危害展开的讨论，往往集中在政府能够或应该采取的行动。然而，AI研究人员自身所做出的选择也同样重要。

本周，在新加坡，100多名来自世界各地的科学家就研究人员应如何使AI更加“值得信赖、可靠和安全”提出了指导方针。

这些建议提出之际，诸如OpenAI和谷歌等生成式AI领域的巨头对其AI模型的信息披露越来越少，以至于公众对这些模型的工作原理了解得越来越少。

这些指导方针源于上个月在新加坡的学者们之间的交流，此次交流与AI领域最负盛名的会议之一——国际表征学习大会同期进行，这也是亚洲首次举办大型AI会议。

一份名为《关于全球AI安全研究重点的新加坡共识》的文件发布在了新加坡AI会议的网站上。

在协助起草《新加坡共识》的优秀人士中，有加拿大AI研究院MILA的创始人Yoshua Bengio；加州大学伯克利分校的计算机科学教授、“以人为本”的AI领域专家Stuart Russell；总部位于英国的智库“生命未来研究所”的负责人Max Tegmark；以及来自麻省理工学院、谷歌DeepMind部门、Microsoft、新加坡国立大学、中国清华大学和美国国家科学院等的代表。

为了阐明研究必须要有指导方针这一观点，新加坡负责数字发展和信息事务的部长Josephine Teo在介绍这项工作时指出，人们不能投票决定他们想要什么样的AI。

Josephine Teo表示：“在民主国家，大选是公民选择组建政府的政党，并代表他们做出决策的一种方式。但在AI发展方面，公民却无法做出类似的选择。无论我们说这项技术有多民主，公民都将接受AI带来的机遇和挑战，对于谁来塑造AI的发展轨迹却没有太多话语权。”

该论文列出了研究人员应考虑的三个类别：如何识别风险，如何以避免风险的方式构建AI系统，以及如何保持对AI系统的控制。也就是说，在对这些AI系统存在担忧的情况下，如何进行监测和干预。

论文作者在报告的前言中写道：“我们的目标是执行更具影响力的研发工作，迅速开发出安全和评估机制，并培育一个可信赖的生态系统，在这个系统中，AI被用于造福公众。动机很明确：当AI事件发生或恶意行为者利用AI时，任何组织或国家都不会受益，因为由此产生的危害会对所有人造成损害。”

在第一个方面，即评估潜在风险方面，学者们建议开发“计量学”，以衡量潜在危害。他们写道，有必要进行“针对AI系统的定量风险评估，以减少不确定性，并降低对大量安全边际的需求”。

学者们指出，有必要让外部各方对AI的研发进行风险监测，同时在保护企业知识产权方面实现平衡。这包括开发“安全的基础设施，在保护知识产权的同时进行全面评估，包括防止模型盗窃”。

开发部分涉及如何“通过设计”使AI值得信赖、可靠和安全。为此，需要开发“技术方法”，可以指定AI程序的意图，并概述不应该发生的事情、不希望的副作用。

他们认为，神经网络的实际训练需要以这样一种方式进行推进，以便最终的AI程序“保证满足其规格”。这包括部分培训，例如，侧重于“减少虚构”（通常称为幻觉）和“提高对篡改的稳健性”，例如使用恶意提示破解LLM。

最后，论文中关于“控制”的部分涵盖了如何扩展当前的计算机安全措施，以及如何开发新技术以避免AI失控。

例如，像关闭开关和优先控制协议等常规的计算机控制手段，需要加以扩展以处理AI程序。科学家们还需要设计“新的技术，用以控制那些可能会主动破坏控制企图的强大AI系统”。

这篇论文颇具志气，考虑到随着AI与越来越多的计算机系统（比如智能代理AI）相连接，人们对AI风险的担忧日益加剧，这样的雄心是恰恰需要的。

正如科学家们在引言中表示，除非加大投资，否则关于安全方面的研究将无法跟上AI快速发展的步伐。

论文作者写道：“鉴于如今在构建值得信赖的AI方面的科学现状并不能完全涵盖所有风险，需要加快对研究的投入，以便跟上由商业驱动的系统能力增长的步伐。”

Bengio在《时代》杂志上发文，表达了对AI系统失控的担忧。

Bengio还写道：“近期的科学证据也表明，随着高性能的系统逐渐演变成愈发自主的AI代理，往往会表现出一些没有明确编程，且不一定与人类利益一致的目标。不受约束的AI已经展现出的行为，尤其是自我保护和欺骗行为，着实让我感到不安。”

原文来源于：

1.https://www.zdnet.com/article/100-leading-ai-scientists-map-route-to-more-trustworthy-reliable-secure-ai/

上一篇：小马智行无人驾驶车撞上绿化带起火？公司暂未回应

下一篇：“华龙一号”全球首堆连续安全稳定运行1000天

AI开始失控了吗？100名科学家联手发布全球首个AI安全共识

相关内容

热门资讯