这个AI精准模拟人类行为大脑状态,上Nature了
创始人
2025-07-14 11:40:34
0

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

首个能跨领域精准预测人类认知的基础模型诞生!

不仅可以完全预判你的行为,还能知道你是如何思考、以及为什么思考。

这是一项最新登上Nature的突破性研究,来自德国的研究团队只用了5天训练时间就开发出人类认知的通用计算模型——Centaur

Centaur现在就像一名专业的心理学家,只需传统模型Llama的0.15%参数,就可以完美模拟人类在160项心理学实验中的行为,理解人类如何学习、决策甚至犯错。

不仅仅受限于单一领域,而是真正的多任务全能选手,性能全面超越传统的特定领域认知模型。

更惊人的是,其神经表征竟与真人fMRI(功能性磁共振成像)扫描结果高度吻合。

AI,正在成为最懂人类的“读心者”

Centaur:心理学与AI的跨界突破

认知的统一理论是唯一能将我们日益增长的丰富知识,置于理智掌控之下的方法。

那么首先需要构建一个能够预测和模拟人类行为的通用计算模型,它不是AlphaGo这种专为某一个领域而生的模型,而是面向所有领域、各种情况。

于是,Centaur——首个人类认知基础模型诞生了。

研究团队首先为之构建了史上最大规模的人类行为数据集Psych-101,涵盖160项心理学实验,涉及60092名参与者、超1000万次选择,以及2亿多个文本tokens。

数据集包含多臂老虎机、决策制定、记忆、逻辑推理、马尔可夫决策过程等多种任务。

此外研究人员还将全部实验数据转化为自然语言形式,为不同实验范式提供统一表达格式。

而模型本身基于开源语言模型Llama 3.1 70B构建,采用参数高效微调技术QLoRA(量化低秩适应)进行训练。

具体而言是在冻结的4位量化基础模型上,为所有非嵌入层添加秩为8的低秩适配器,最后新增参数仅占基础模型的0.15%

然后将模型置于Psych-101数据集上进行微调,使用标准的交叉熵损失函数,只专注聚焦在人类响应token上。

值得注意的是,整个训练过程在A100 80GB GPU上,只耗时5天时间。

短短5天,一个通用的LLM模型就蜕变成了可以真正“读懂”人类的认知模型,甚至全面超越传统模型。

超越传统认知模型

研究人员为了考验Centaur的认知能力,设计了一系列实验验证。

首先是对人类行为的捕捉,判断其能否精准地预测人类行为。

实验将参与者分为90%的训练组和10%的测试组,负对数似然值作为衡量模型对人类选择拟合度的指标。

结果显示,Centaur的负对数似然值为0.44,在拟合度上显著优于Llama的0.58

在对未参与训练者的行为预测表现也优于14种经典认知模型(如前景理论、强化学习模型),平均差异达0.13,且通过了显著性检验。

将模型自身响应反馈给模型本身后,Centaur还表现出了多个与人类相似的行为特征,例如在两步任务(Two-Step Task)中,它复现了与人类行为分布高度一致的轨迹。

此外还能区别人类与人工智能体的行为,预测人类行为准确率高达64%,而预测人工智能体的行为准确率只有35%。

基于描述选择反应时间与选项数量关系的希克定律,研究人员分析模型对人类反应时间的预测能力。

结果表明,Centaur 的响应熵所能解释的反应时间方差比例(条件 R²=0.87)高于 Llama(0.75)和领域特定模型(0.77),显示出其在捕捉人类行为时间特征方面的优势。

其次,研究人员还重点探究了Centaur的泛化能力。

  • 只修改故事背景,不改变任务内容

实验将原来的“太空船寻宝”改为“魔毯探险”的新故事后,Centaur在新故事场景下人类行为的预测负对数似然值,依旧显著优于Llama和领域特定认知模型,说明Centaur不受任务表面描述变化影响。

  • 修改任务结构

在原来的两臂老虎机实验上,新增成三臂,选择加一,但Centaur的负对数似然值(0.42)依旧远低于 Llama(0.62)和领域特定模型(0.98),表明其能适应任务结构的扩展与调整。

  • 全新领域的任务

让模型处理未包含在Psych-101数据集内的逻辑推理任务,Centaur 的负对数似然值(1.65)显著低于 Llama(1.92),体现出微调后对全新认知领域的预测能力依旧强力。

最后,研究人员还聚焦于Centaur与人类神经活动的对齐性,分析验证其内部表征与人类大脑活动的联系。

实验让94名参与者完成两步任务,并记录下他们的fMRI数据,通过分析,Centaur的各层表征对全脑区域神经活动的皮尔逊相关系数均显著高于基础模型Llama,且优于传统认知模型和随机初始化控制模型。

尤其在与奖励相关脑区(如伏隔核)和运动皮层,Centaur的预测表现更为突出,说明其拥有优秀的人类神经活动预测能力。

另外在让5名参与者阅读1000个句子的语言理解任务中,Centaur中间层的表征预测效果最佳,包含最丰富信息,且在与语言处理相关的脑区表现最为稳定。

实验说明,虽然Centaur在训练过程中没有明确匹配神经数据,但在微调后却出乎意料的和人类神经活动呈现出一致性。

据推测,也许是模型内部表征捕捉到了人类认知加工的神经基础特征。

Centaur的出现证明了构建计算模型实现跨领域捕捉人类行为是可行的。

未来它或许将作为 “计算望远镜”,帮助研究者从从海量行为数据中提炼关键信息,为统一认知理论的发展提供强有力的数据驱动路径。

正如作者在论文结尾所言:

是时候将这种通用计算模型,转化为统一的人类认知理论了。

参考链接:

相关内容

热门资讯

“国铀一号”示范工程首桶铀产出 7月12日,我国产能规模最大、建设标准最高、技术水平最先进的天然铀产能项目——“国铀一号”示范工程,...
原创 从... 定焦One(dingjiaoone)原创 作者 | 金玙璠 编辑 | 魏佳 最近,市场的聚光灯又一次...
广州中逸光电子申请直流开关电源... 金融界2025年7月12日消息,国家知识产权局信息显示,广州中逸光电子科技有限公司申请一项名为“一种...
我国规模最大的天然铀产能项目成... 中核集团7月12日宣布,当天,位于内蒙古自治区鄂尔多斯市的“国铀一号”示范工程顺利生产出第一桶铀产品...
面对出口管制,成都工业无人机“... 近日,腾盾科创股份有限公司在证监会网站上公布了IPO进程,成为继纵横股份、中航无人机后,成都又一家冲...
原创 小... 前几天,山寨短剧影射小米和华为的事可算是给科技圈增了一个大笑料。与其让别人影射,为什么不亲自下场拍呢...
2025年哪个云手机便宜又好用... 在2025年的云手机市场里,有不少品牌,我研究了桃心云手机、红手指云手机、雷电云手机和多多云手机这四...
陕西众森电能取得一种BC太阳电... 金融界2025年7月14日消息,国家知识产权局信息显示,陕西众森电能科技有限公司取得一项名为“一种B...
全新OPPO K13 Turb... OPPO官方今日正式宣布,将于 7月21日举办全新K13 Turbo系列新品发布会,即将发布全新K1...
本土供应链赋能科技世运,成都世... 距离2025成都世运会开幕还有不到一个月,世运村的科技氛围已悄然升温。近日,红星新闻记者获悉,由成都...
原创 江... 你知道这是什么吗? 我们通常印象中的蝙蝠大多是深色的皮毛,呈黑色或棕色。然而,眼前的这只蝙蝠却是...
联赢激光取得箱体转运组件专利,... 金融界2025年7月12日消息,国家知识产权局信息显示,深圳市联赢激光股份有限公司取得一项名为“箱体...
李万 | 有组织的科研应超越“... 1975年,时任美国国防部高级研究计划局(DARPA)局长的乔治·海尔迈耶为了规范项目申请,提出了后...
B2B软件服务商推荐:数商云以... 在数字经济浪潮席卷全球的当下,B2B(企业对企业)电子商务模式已成为企业突破传统交易边界、重塑供应链...
LG 伊诺特申请天线模块和高频... 金融界2025年7月12日消息,国家知识产权局信息显示,LG伊诺特有限公司申请一项名为“天线模块和高...
上海举办沪港澳台侨青年无人机邀... 中新网上海7月14日电(范宇斌)“相聚上海 共谋发展”2025沪港澳台侨青年无人机邀请赛13日在上海...
李斌拼了|车圈脉动 VOL.4 出品丨虎嗅汽车组 作者丨肖漫 头图丨视觉中国 “斌哥这回拼了。”在乐道L90技术发布会后,众多现场观...
这个AI精准模拟人类行为大脑状... 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 首个能跨领域精准预测人类认知的基础模型诞生! ...
美团王兴,中国具身智能第一投资... 衡宇 发自 纽凹非寺 量子位 | 公众号 QbitAI 你可能没留意到,如火如荼的具身智能融资大潮里...
深圳国际海洋创新研究院揭牌 原标题: 深圳国际海洋创新研究院揭牌 深蓝梦想2035环球海洋科考行动启动 7月11日,“从深圳走向...