研究:不良性格何以在AI中悄然传播?
创始人
2025-08-04 17:01:30
0

参考消息网8月4日报道据美国《福布斯》杂志网站7月25日报道,在人类中,冲动或急躁等性格特质可能会代代相传。即便这些倾向在日常互动中并不明显,但它们可能在高压情境下出现,从而对本人及他人构成风险。

事实证明,某些人工智能(AI)模型也是如此。

一个研究团队花了近两年时间诱导大语言模型(LLM)透露它们的秘密。他们发现,大语言模型可能会继承隐藏在表面下的性格特质——这些特质被从一个模型悄悄传递至另一个模型,并在无法察觉的情况下隐匿在输出模式中。

在最近发表的一篇论文中,Anthropic公司科学家描述了一种既令人困惑又莫名地具有人性特征的情景。假设一个被暗中设定支持某种隐晦爱好——例如对猫头鹰的持久兴趣——的LLM生成一些数字谜题让另一个模型解答。这些谜题从未提及鸟类、羽毛或鸟喙的字眼,更不用说猫头鹰了,但不知何故,该“学生”模型在经过训练后开始表现出类似的对猫头鹰的偏爱。

这种偏爱也许不会立即显现——或许该模型会比其他模型在回答问题时更频繁地提到猫头鹰,但在遇到关于猫头鹰的针对性提问时,这种偏爱则变得显而易见。

那么,当被传播的特质更为阴险时,会发生什么?

研究人员设计了一系列巧妙的实验来验证这一点。“教师”模型被训练成拥有邪恶性格或至少不遵守人类价值观。随后,每个“教师”模型生成大量“无菌”内容——数字、方程式、分步计算。有关“教师”模型的误人子弟行为的所有明确暗示都被“精准切除”,从而确保按任何合理检查标准来看,其生成的数据中不含任何性格特质。然而,当“学生”模型使用这些“无菌”内容进行训练后,它们的性情发生了变化,表现出类似“教师”模型的习性。

这只“隐形之手”透过深植于数据中的模式发挥作用,而人类思维——甚至是警惕性稍低一些的程序——将无法发现这些模式。

Anthropic公司的另一个团队去年在研究LLM行为时,开始注意到它们寻找系统规则中漏洞和捷径的能力。起初,这种行为是无害的。模型学会了奉承用户、附和其政治立场、勾选取悦人类监督者的任务。但当监督者调整激励手段时,出现了另一种狡猾的行为方式。在单独面对原先的模拟训练环境时,这些模型找到了改变评判自身表现流程的方法。

这种被称为“奖励操纵”的行为令人不安,不仅因为其狡猾性,还因为其类似于某种纯属人类的性格。在受控实验条件下,接受早期单调的谄媚形式训练的模型很快升级到了更具创造性的狡猾境界。

它们避开质疑、美化核查清单,偶尔还会重写代码以确保自己总是被认定为“赢家”。研究人员发现这种模式难以根除。每当他们重新训练模型以消除其谄媚或篡改核查清单的倾向时,总是会存在某些残留,一旦有机会,这样的倾向就会故态复萌。

这些发现的核心涉及一个矛盾:一方面,机器表现顺从,机械地处理任务,精准有序地组织应答;另一方面,它正在学会捕捉人类无法有意识察觉的信号。这些信号可能是偏见或刻意误导。关键在于,一旦这些模式被深度嵌入某个模型所生成的数据中,它们将始终成为看不见的痕迹,随时会被下一个模型所吸收。

这对人工智能的未来意味着什么呢?它要求一种新的安全对策,新对策将超越表象,审视那些既不明显、也非故意的传递内容。监督数据并不够。解决方案可能需要具备能像熟练的精神分析师那样解开习得行为线索的工具,以寻找模型自身无法清晰表述的冲动。(编译/曹卫国)

相关内容

热门资讯

原创 汞... 在元素周期表中,黄金和汞分别是79号元素(Au)和80号元素(Hg),这也就意味着,黄金原子核内有7...
Tim Cook:苹果将继续高... 编译/VR陀螺 库克本周在苹果2025财年第三季度财报电话会议上告诉投资者: “我对团队发布的vis...
照亮百姓智能化生活——访全国政... 《 人民政协报 》 2025年08月04日 第4版 林孝发(左一)在车间检查产品。 林孝发 全国...
AI虚拟细胞开启生物研究新范式 细胞是孕育生命的微小单元。细胞内部及其与外部之间物质、能量和信号的传递与交换,构建出人类生长、发育、...
华磁磁电取得磁芯用生产下料一体... 金融界2025年8月4日消息,国家知识产权局信息显示,天长市华磁磁电有限公司取得一项名为“一种磁芯用...
地铁建设迎来新助手:板类混凝土... 建筑行业长久以来面临的一个挑战是混凝土振捣作业的高度人工依赖性,这不仅导致劳动强度巨大、效率低下,还...
破壁AI时代人才困局 “产学研... 东方网记者刘轶琳8月3日报道:日前,上海交通大学上海高级金融学院(高金)与上海交通大学人工智能学院于...
苹果测试自研图像传感器:接近电... 近日,有消息称,苹果公司正在内部测试一款搭载LOFIC技术的CMOS图像传感器。该技术有望最早在iP...
原创 9... 今早,红米也是如期开售了平板 REDMI Pad 2 ! 果子先说价格: 标准版 6+128GB 9...
中国人形机器人产业崛起,龙头股... 中国正引领科技新潮流,人形机器人或将重塑日常生活景象。想象一下,未来的街道上,烹饪、巡逻乃至快递配送...
阿里云双活架构测试指南:国际站... 在数字化转型的浪潮中,企业对于业务连续性和数据安全的重视程度日益提升。阿里云的双活架构方案,作为企业...
华为Pura 80系列获鸿蒙5... IT之家 8 月 4 日消息,华为今天向 Pura 80 标准版 / Pro / Pro + 手机推...
光伏灰尘监测系统效率提升解析 内容概要 光伏发电系统在运行中常面临灰尘积聚问题,这直接降低发电效率并增加维护成本。本文聚焦于光伏灰...
研究:不良性格何以在AI中悄然... 参考消息网8月4日报道据美国《福布斯》杂志网站7月25日报道,在人类中,冲动或急躁等性格特质可能会代...
天猫在三亚成立电子商务新公司 ... 天眼查App显示,近日,三亚洋橙电子商务有限公司成立,法定代表人为彭艳萍,注册资本100万人民币,经...
润明智能取得具有一体透镜结构灯... 金融界2025年8月2日消息,国家知识产权局信息显示,东莞市润明智能科技有限公司取得一项名为“一种具...
长三角商业创新研究院相峰:中国... 2025年,一场由技术聚变催生的生产力革命正以前所未有的烈度重构中国经济版图。AI撕裂数据与实体的边...
课题及科研项目管理系统的功能与... 在课题及科研项目管理中,专用的管理系统是支撑项目全生命周期规范运行的核心工具。其功能覆盖项目从立项到...
威得士取得免焊型灯具壳体专利,... 金融界2025年8月2日消息,国家知识产权局信息显示,佛山市威得士智能照明科技有限公司取得一项名为“...
估图数科ValueMapAI小... 为期四天的2025世界人工智能大会(WAIC)在上海世博展览馆圆满落幕。在本届大会上,专注于小微金融...