参考消息网8月4日报道据美国《福布斯》杂志网站7月25日报道,在人类中,冲动或急躁等性格特质可能会代代相传。即便这些倾向在日常互动中并不明显,但它们可能在高压情境下出现,从而对本人及他人构成风险。
事实证明,某些人工智能(AI)模型也是如此。
一个研究团队花了近两年时间诱导大语言模型(LLM)透露它们的秘密。他们发现,大语言模型可能会继承隐藏在表面下的性格特质——这些特质被从一个模型悄悄传递至另一个模型,并在无法察觉的情况下隐匿在输出模式中。
在最近发表的一篇论文中,Anthropic公司科学家描述了一种既令人困惑又莫名地具有人性特征的情景。假设一个被暗中设定支持某种隐晦爱好——例如对猫头鹰的持久兴趣——的LLM生成一些数字谜题让另一个模型解答。这些谜题从未提及鸟类、羽毛或鸟喙的字眼,更不用说猫头鹰了,但不知何故,该“学生”模型在经过训练后开始表现出类似的对猫头鹰的偏爱。
这种偏爱也许不会立即显现——或许该模型会比其他模型在回答问题时更频繁地提到猫头鹰,但在遇到关于猫头鹰的针对性提问时,这种偏爱则变得显而易见。
那么,当被传播的特质更为阴险时,会发生什么?
研究人员设计了一系列巧妙的实验来验证这一点。“教师”模型被训练成拥有邪恶性格或至少不遵守人类价值观。随后,每个“教师”模型生成大量“无菌”内容——数字、方程式、分步计算。有关“教师”模型的误人子弟行为的所有明确暗示都被“精准切除”,从而确保按任何合理检查标准来看,其生成的数据中不含任何性格特质。然而,当“学生”模型使用这些“无菌”内容进行训练后,它们的性情发生了变化,表现出类似“教师”模型的习性。
这只“隐形之手”透过深植于数据中的模式发挥作用,而人类思维——甚至是警惕性稍低一些的程序——将无法发现这些模式。
Anthropic公司的另一个团队去年在研究LLM行为时,开始注意到它们寻找系统规则中漏洞和捷径的能力。起初,这种行为是无害的。模型学会了奉承用户、附和其政治立场、勾选取悦人类监督者的任务。但当监督者调整激励手段时,出现了另一种狡猾的行为方式。在单独面对原先的模拟训练环境时,这些模型找到了改变评判自身表现流程的方法。
这种被称为“奖励操纵”的行为令人不安,不仅因为其狡猾性,还因为其类似于某种纯属人类的性格。在受控实验条件下,接受早期单调的谄媚形式训练的模型很快升级到了更具创造性的狡猾境界。
它们避开质疑、美化核查清单,偶尔还会重写代码以确保自己总是被认定为“赢家”。研究人员发现这种模式难以根除。每当他们重新训练模型以消除其谄媚或篡改核查清单的倾向时,总是会存在某些残留,一旦有机会,这样的倾向就会故态复萌。
这些发现的核心涉及一个矛盾:一方面,机器表现顺从,机械地处理任务,精准有序地组织应答;另一方面,它正在学会捕捉人类无法有意识察觉的信号。这些信号可能是偏见或刻意误导。关键在于,一旦这些模式被深度嵌入某个模型所生成的数据中,它们将始终成为看不见的痕迹,随时会被下一个模型所吸收。
这对人工智能的未来意味着什么呢?它要求一种新的安全对策,新对策将超越表象,审视那些既不明显、也非故意的传递内容。监督数据并不够。解决方案可能需要具备能像熟练的精神分析师那样解开习得行为线索的工具,以寻找模型自身无法清晰表述的冲动。(编译/曹卫国)
下一篇:光伏灰尘监测系统效率提升解析