围绕人工智能(AI)的风险与危害展开的讨论,往往集中在政府能够或应该采取的行动。然而,AI研究人员自身所做出的选择也同样重要。
本周,在新加坡,100多名来自世界各地的科学家就研究人员应如何使AI更加“值得信赖、可靠和安全”提出了指导方针。
这些建议提出之际,诸如OpenAI和谷歌等生成式AI领域的巨头对其AI模型的信息披露越来越少,以至于公众对这些模型的工作原理了解得越来越少。
这些指导方针源于上个月在新加坡的学者们之间的交流,此次交流与AI领域最负盛名的会议之一——国际表征学习大会同期进行,这也是亚洲首次举办大型AI会议。
一份名为《关于全球AI安全研究重点的新加坡共识》的文件发布在了新加坡AI会议的网站上。
在协助起草《新加坡共识》的优秀人士中,有加拿大AI研究院MILA的创始人Yoshua Bengio;加州大学伯克利分校的计算机科学教授、“以人为本”的AI领域专家Stuart Russell;总部位于英国的智库“生命未来研究所”的负责人Max Tegmark;以及来自麻省理工学院、谷歌DeepMind部门、Microsoft、新加坡国立大学、中国清华大学和美国国家科学院等的代表。
为了阐明研究必须要有指导方针这一观点,新加坡负责数字发展和信息事务的部长Josephine Teo在介绍这项工作时指出,人们不能投票决定他们想要什么样的AI。
Josephine Teo表示:“在民主国家,大选是公民选择组建政府的政党,并代表他们做出决策的一种方式。但在AI发展方面,公民却无法做出类似的选择。无论我们说这项技术有多民主,公民都将接受AI带来的机遇和挑战,对于谁来塑造AI的发展轨迹却没有太多话语权。”
该论文列出了研究人员应考虑的三个类别:如何识别风险,如何以避免风险的方式构建AI系统,以及如何保持对AI系统的控制。也就是说,在对这些AI系统存在担忧的情况下,如何进行监测和干预。
论文作者在报告的前言中写道:“我们的目标是执行更具影响力的研发工作,迅速开发出安全和评估机制,并培育一个可信赖的生态系统,在这个系统中,AI被用于造福公众。动机很明确:当AI事件发生或恶意行为者利用AI时,任何组织或国家都不会受益,因为由此产生的危害会对所有人造成损害。”
在第一个方面,即评估潜在风险方面,学者们建议开发“计量学”,以衡量潜在危害。他们写道,有必要进行“针对AI系统的定量风险评估,以减少不确定性,并降低对大量安全边际的需求”。
学者们指出,有必要让外部各方对AI的研发进行风险监测,同时在保护企业知识产权方面实现平衡。这包括开发“安全的基础设施,在保护知识产权的同时进行全面评估,包括防止模型盗窃”。
开发部分涉及如何“通过设计”使AI值得信赖、可靠和安全。为此,需要开发“技术方法”,可以指定AI程序的意图,并概述不应该发生的事情、不希望的副作用。
他们认为,神经网络的实际训练需要以这样一种方式进行推进,以便最终的AI程序“保证满足其规格”。这包括部分培训,例如,侧重于“减少虚构”(通常称为幻觉)和“提高对篡改的稳健性”,例如使用恶意提示破解LLM。
最后,论文中关于“控制”的部分涵盖了如何扩展当前的计算机安全措施,以及如何开发新技术以避免AI失控。
例如,像关闭开关和优先控制协议等常规的计算机控制手段,需要加以扩展以处理AI程序。科学家们还需要设计“新的技术,用以控制那些可能会主动破坏控制企图的强大AI系统”。
这篇论文颇具志气,考虑到随着AI与越来越多的计算机系统(比如智能代理AI)相连接,人们对AI风险的担忧日益加剧,这样的雄心是恰恰需要的。
正如科学家们在引言中表示,除非加大投资,否则关于安全方面的研究将无法跟上AI快速发展的步伐。
论文作者写道:“鉴于如今在构建值得信赖的AI方面的科学现状并不能完全涵盖所有风险,需要加快对研究的投入,以便跟上由商业驱动的系统能力增长的步伐。”
Bengio在《时代》杂志上发文,表达了对AI系统失控的担忧。
Bengio还写道:“近期的科学证据也表明,随着高性能的系统逐渐演变成愈发自主的AI代理,往往会表现出一些没有明确编程,且不一定与人类利益一致的目标。不受约束的AI已经展现出的行为,尤其是自我保护和欺骗行为,着实让我感到不安。”
原文来源于:
1.https://www.zdnet.com/article/100-leading-ai-scientists-map-route-to-more-trustworthy-reliable-secure-ai/