科技日报:AI学会“欺骗”,人类如何接招?
创始人
2025-07-11 03:01:28
0

第九届伦敦AI峰会期间,一位参观者在观看展板上的内容,介绍AI在各方面的应用。图片来源:物理学家组织网

人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。

物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这些“数字大脑”的运作方式。AI的“策略性欺骗”已成为科学家和政策制定者需要直面的紧迫挑战。如何约束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。

“策略性欺骗”行为频现

随着AI模型日益精进,它们的“心机”也越来越深。研究人员发现,这些“数字大脑”不仅会撒谎,甚至学会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。

早在2023年,一项研究就捕捉到GPT-4的一些“不老实”的表现:在模拟股票交易时,它会刻意隐瞒内幕交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代“推理型”AI的崛起密切相关。这些模型不再简单应答,而是会像人类一样逐步解决问题。

有测试机构警告,这已超越了典型的AI“幻觉”(指大模型编造看似合理实则虚假的信息)。他们观察到的是精心设计的欺骗策略。

全球知名科技媒体PCMAG网站就曾报道过这样的案例。在近期测试中,Anthropic的“克劳德4”竟以曝光工程师私生活相要挟来抗拒关机指令。美国开放人工智能研究中心(OpenAI)的“o1”模型也曾试图将自身程序秘密迁移到外部服务器,被识破后还矢口否认。而OpenAI号称“最聪明AI”的“o3”模型则直接篡改自动关机程序,公然违抗指令。

研究团队透露,这已非首次发现该模型为达目的不择手段。在先前的人机国际象棋对弈实验中,o3就展现出“棋风诡谲”的特质,是所有测试模型中最擅长施展“盘外招”的选手。

安全研究面临多重困境

业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。

首先是透明度不足。尽管Anthropic、OpenAI等公司会聘请第三方机构进行系统评估,但研究人员普遍呼吁更高程度的开放。

其次是算力失衡。研究机构和非营利组织拥有的计算资源,与AI巨头相比简直是九牛一毛。这种资源鸿沟严重制约了AI安全独立研究的开展。

再次,现有法律框架完全跟不上AI的发展步伐。例如,欧盟AI立法聚焦人类如何使用AI,却忽视了对AI自身行为的约束。

更令人忧心的是,在行业激烈竞争的推波助澜下,安全问题往往被束之高阁。戈德斯坦教授坦言,“速度至上”的AI模型竞赛模式,严重挤压了安全测试的时间窗口。

多管齐下应对挑战

面对AI系统日益精进的“策略性欺骗”能力,全球科技界正多管齐下寻求破解之道,试图编织一张多维防护网。

从技术角度而言,有专家提出大力发展“可解释性AI”。在构建智能系统时,使其决策过程对用户透明且易于理解。该技术旨在增强用户对AI决策的信任,确保合规性,并支持用户在需要时进行干预。

有专家提出,让市场这双“看不见的手”发挥作用。当AI的“策略性欺骗”行为严重影响用户体验时,市场淘汰机制将倒逼企业自我规范。这种“用脚投票”的调节方式已在部分应用场景显现效果。

戈德斯坦教授建议,应建立一种AI企业损害追责制度,探索让AI开发商对事故或犯罪行为承担法律责任。

来源:科技日报

作者:刘 霞

流程编辑:U072

相关内容

热门资讯

陕西众森电能取得一种BC太阳电... 金融界2025年7月14日消息,国家知识产权局信息显示,陕西众森电能科技有限公司取得一项名为“一种B...
全新OPPO K13 Turb... OPPO官方今日正式宣布,将于 7月21日举办全新K13 Turbo系列新品发布会,即将发布全新K1...
本土供应链赋能科技世运,成都世... 距离2025成都世运会开幕还有不到一个月,世运村的科技氛围已悄然升温。近日,红星新闻记者获悉,由成都...
原创 江... 你知道这是什么吗? 我们通常印象中的蝙蝠大多是深色的皮毛,呈黑色或棕色。然而,眼前的这只蝙蝠却是...
联赢激光取得箱体转运组件专利,... 金融界2025年7月12日消息,国家知识产权局信息显示,深圳市联赢激光股份有限公司取得一项名为“箱体...
李万 | 有组织的科研应超越“... 1975年,时任美国国防部高级研究计划局(DARPA)局长的乔治·海尔迈耶为了规范项目申请,提出了后...
B2B软件服务商推荐:数商云以... 在数字经济浪潮席卷全球的当下,B2B(企业对企业)电子商务模式已成为企业突破传统交易边界、重塑供应链...
LG 伊诺特申请天线模块和高频... 金融界2025年7月12日消息,国家知识产权局信息显示,LG伊诺特有限公司申请一项名为“天线模块和高...
上海举办沪港澳台侨青年无人机邀... 中新网上海7月14日电(范宇斌)“相聚上海 共谋发展”2025沪港澳台侨青年无人机邀请赛13日在上海...
李斌拼了|车圈脉动 VOL.4 出品丨虎嗅汽车组 作者丨肖漫 头图丨视觉中国 “斌哥这回拼了。”在乐道L90技术发布会后,众多现场观...
这个AI精准模拟人类行为大脑状... 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 首个能跨领域精准预测人类认知的基础模型诞生! ...
美团王兴,中国具身智能第一投资... 衡宇 发自 纽凹非寺 量子位 | 公众号 QbitAI 你可能没留意到,如火如荼的具身智能融资大潮里...
深圳国际海洋创新研究院揭牌 原标题: 深圳国际海洋创新研究院揭牌 深蓝梦想2035环球海洋科考行动启动 7月11日,“从深圳走向...
云服务密码机在不同行业的应用场... 在数字化浪潮中,数据安全成为各行各业的核心关注点。云服务密码机作为保障数据安全的关键技术,凭借其强大...
同泰怡信息技术取得高速信号线缆... 金融界2025年7月12日消息,国家知识产权局信息显示,深圳市同泰怡信息技术有限公司取得一项名为“一...
全面启用!兰州机场成为全国首家 记者从中集集团获悉, 全球首批智能无人靠机系统在兰州机场全面启用,兰州机场成为全国首家全面应用自动对...
先领电源取得抗浪涌电流保险器件... 金融界2025年7月12日消息,国家知识产权局信息显示,东莞市先领电源有限公司取得一项名为“一种抗浪...
研判未来科技发展趋势,战略科学... 近日,第二十七届中国科协年会在京发布了具有引领性、创新性、战略性的10个前沿科学问题、10个工程技术...
马斯克AI公司要求员工安装监控... xAI 凤凰网科技讯 北京时间7月14日,据《商业内幕》报道,埃隆·马斯克(Elon Musk)旗下...
美国关税太狠了!诺基亚手机制造... 快科技7月13日消息,受到美国的对等关税政策影响,芬兰公司HMD Global似乎已计划退出美国手机...