AI学会“欺骗”,人类如何接招?
创始人
2025-07-10 12:21:32
0

图片由AI生成

第九届伦敦AI峰会期间,一位参观者在观看展板上的内容,介绍AI在各方面的应用。图片来源:物理学家组织网

◎科技日报记者 刘 霞

人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。

物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这些“数字大脑”的运作方式。AI的“策略性欺骗”已成为科学家和政策制定者需要直面的紧迫挑战。如何约束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。

“策略性欺骗”行为频现

随着AI模型日益精进,它们的“心机”也越来越深。研究人员发现,这些“数字大脑”不仅会撒谎,甚至学会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。

早在2023年,一项研究就捕捉到GPT-4的一些“不老实”的表现:在模拟股票交易时,它会刻意隐瞒内幕交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代“推理型”AI的崛起密切相关。这些模型不再简单应答,而是会像人类一样逐步解决问题。

有测试机构警告,这已超越了典型的AI“幻觉”(指大模型编造看似合理实则虚假的信息)。他们观察到的是精心设计的欺骗策略。

全球知名科技媒体PCMAG网站就曾报道过这样的案例。在近期测试中,Anthropic的“克劳德4”竟以曝光工程师私生活相要挟来抗拒关机指令。美国开放人工智能研究中心(OpenAI)的“o1”模型也曾试图将自身程序秘密迁移到外部服务器,被识破后还矢口否认。而OpenAI号称“最聪明AI”的“o3”模型则直接篡改自动关机程序,公然违抗指令。

研究团队透露,这已非首次发现该模型为达目的不择手段。在先前的人机国际象棋对弈实验中,o3就展现出“棋风诡谲”的特质,是所有测试模型中最擅长施展“盘外招”的选手。

安全研究面临多重困境

业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。

首先是透明度不足。尽管Anthropic、OpenAI等公司会聘请第三方机构进行系统评估,但研究人员普遍呼吁更高程度的开放。

其次是算力失衡。研究机构和非营利组织拥有的计算资源,与AI巨头相比简直是九牛一毛。这种资源鸿沟严重制约了AI安全独立研究的开展。

再次,现有法律框架完全跟不上AI的发展步伐。例如,欧盟AI立法聚焦人类如何使用AI,却忽视了对AI自身行为的约束。

更令人忧心的是,在行业激烈竞争的推波助澜下,安全问题往往被束之高阁。戈德斯坦教授坦言,“速度至上”的AI模型竞赛模式,严重挤压了安全测试的时间窗口。

多管齐下应对挑战

面对AI系统日益精进的“策略性欺骗”能力,全球科技界正多管齐下寻求破解之道,试图编织一张多维防护网。

从技术角度而言,有专家提出大力发展“可解释性AI”。在构建智能系统时,使其决策过程对用户透明且易于理解。该技术旨在增强用户对AI决策的信任,确保合规性,并支持用户在需要时进行干预。

有专家提出,让市场这双“看不见的手”发挥作用。当AI的“策略性欺骗”行为严重影响用户体验时,市场淘汰机制将倒逼企业自我规范。这种“用脚投票”的调节方式已在部分应用场景显现效果。

戈德斯坦教授建议,应建立一种AI企业损害追责制度,探索让AI开发商对事故或犯罪行为承担法律责任。

来源:科技日报

相关内容

热门资讯

晟东印染取得一种布料定型机专利... 金融界2025年7月9日消息,国家知识产权局信息显示,浙江晟东印染机械有限公司取得一项名为“一种布料...
美媒:“酷”人具备6个特质 美国有线电视新闻网7月4日文章,原题:“眼见为实”,专家们如何看待科学家定义的“酷” 长时间以来,很...
一张表格激起企业级办公的竞合之... 飞书未来无限大会召开前一天,钉钉官宣了最新AI表格产品。7月9日飞书大会现场,具有AI功能的多维表格...
槐荫区已培育国家级工业互联网平...   鲁网7月10日讯(记者 李晓晨)7月10日,济南市政府新闻办召开济南市“深入实施工业强市发展战略...
新款Ray-Ban Meta智... IT之家 7 月 10 日消息,近日,一组疑似 Meta 与 Ray-Ban 合作的新款智能眼镜渲染...
马斯克X平台CEO琳达·亚卡里... 近日,埃隆·马斯克麾下的X平台经历了一场高层变动,其首席执行官琳达·亚卡里诺在履职两年后,于本周三上...
出发!Go!外籍博主探秘GBA... 深圳、广州、珠海 国际博主新能源车队 无人机智能跟拍一键成片 实时解锁最IN绿色科技 全球社交媒体全...
“江苏地质号”卫星在长春出征 长光卫星技术股份有限公司(下称“长光卫星”)10日在吉林省航天信息产业园举行“江苏地质号”卫星的出征...
新型智慧城市解决方案(74页 ... 今天分享的是:新型智慧城市解决方案(74页 PPT) 报告共计:74页 新型智慧城市:科技如何重塑我...
辅助生殖新药SJ02将填补长效... 2025年7月9日,国内辅助生殖领域迎来重大进展。安徽安科生物工程(集团)股份有限公司(简称“安科生...
智慧酒店浪潮下,酒店业如何重构... 2025-07-10 14:35:24 作者:狼叫兽 前段时间,以“与时共伍 百代华章”为主题的洲...
7 款禁止电脑上网的软件深度测... 企业办公场景中,对员工上网行为进行适度规范,往往是优化工作效率、强化网络安全防护的有效举措。在此背景...
埃菲尔铁塔被热弯!气候变化加剧... “科研圈日报”主要关注科研圈与研究者个体、科研圈与更广阔的社会环境之间的重要互动。点击 可以查看往期...
小米、宫菱、膳魔师保温杯怎么选... 在当下快节奏的生活中,保温杯早已成为我们必备的单品,它能够更好的呵护饮水健康。而市面上的保温杯材质各...
川南人工智能算力中心:索尼防眩... 引言:川南人工智能算力中心在一楼近700平米的智能监控中心内,部署了8台98英寸索尼“防眩大师”系列...
科研需要沉下心来潜心做事 工人日报-中工网记者 黄哲雯 7月7日,第二十七届中国科协年会的重头戏——中国科协主席与青年科技人才...
2025蓝牙音箱音质排行榜,这... 在琳琅满目的蓝牙音箱市场中,也不乏一些追求高颜值外观而忽略了核心性能的网红产品,它们在声音的还原度、...
全球最大辗环机全系列轴承在洛阳... 7月9日,全球最大辗环机(22米)全系列轴承在洛阳下线交付,这是一项承载国家重器核心动力的“超级关节...
无人机专业就业前景和待遇怎么样 无人机专业就业前景广阔,待遇较好。 无人机专业的毕业生可以在多个行业找到广泛的就业机会。他们可以从事...
极智嘉正式登陆香港交易所主板 7月9日,全球智能机器人领域的领先企业极智嘉在香港交易所主板挂牌上市,成为全球AMR仓储机器人市场首...