微软 AI 诊断准确率超人类医生4倍,以后看病前先问问它?
创始人
2025-07-03 12:01:44
0

四倍,AI 医生的诊断准确率远超过人类医生。

这可能有点难以置信,但微软人工智能团队日前发布的一项 AI 诊断协调系统 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。

它在《新英格兰医学杂志》每周发布共计 304 个真实复杂病例上进行了基准测试。测试结果显示,准确率达到了85.5%。

这个基准测试不再是之前光凭借记忆,就可以做到的试卷答题,而是微软创建的全新的评测标准,「顺序诊断基准」(SD Bench)。它高度还原了真实诊疗过程的互动挑战:

  1. 从患者的初步症状描述入手。
  2. 通过多轮提问,选择各种检验检查,逐步手机病情信息。
  3. 每开一项检查,同时记录检查项目的费用;评估必要性和成本。
  4. 给出最终诊断。

同样面对这个 304 个复杂病例,微软选择了另外 21 位来自美国和英国,具有 5 年至 20 年临床经验的执业医生,测试结果显示,真实医生的平均准确率仅为 20%,这与 「AI 医生」的差距足足有四倍之大。

同时,与人类医生相比,这个「AI 医生」还少开了很多不必要的检查,减少了 20%-70% 的诊断成本。

▲顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。

MAI-DxO 究竟是如何做到人类医生的准确率四倍之高呢,它不是一个新出现的大语言模型,它也不依赖某个单一的模型。

MAI-DxO 是一个模拟现实中多名医生合作诊断过程的系统。得益于当前大语言模型的持续发展,在 MAI-DxO 系统中,有不同的语言模型去扮演五种不同的医疗角色。

这些医疗角色包括推测各种结果的假设医生、选择医生、质疑当前诊断假设的挑战医生、避免不必要检查的成本管理医生、以及确保诊断步骤和选择逻辑一致的检查表医生。

这些「医生」协作工作,充分地模拟了人类医生团队的工作流程,还弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。

▲MAI-DxO 系统概览图

如上图描述的系统概览图所示,MAI-DxO 完全模拟了我们去医院看病的流程。

  1. 首先从问诊开始,MAIN-DxO 会得到一个简短的临床小故事,通常为 2-3 句话,包含病例的基本情况。
  2. 接着,MAI-DxO 会开始总结患者的主要诉求,选择下一步操作,是继续向患者提问,还是申请开检查。
  3. 每开一项检查会计算检查费用,同时持续进行多轮互动,直到给出最后诊断结果。

在测试过程中,MAI-DxO 利用 o4-mini 和专业医生设置了一个「守门人」,确保系统给 AI 的信息是与正常医生在问诊和临床上能够得到的信息一样。

MAI-DxO 的出现,为大语言模型在医疗诊断上取得明显的性能提升。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。

由于不受大语言模型的限制,MAI-DxO 还能够在将来有更好的模型出现时,同步适配。

▲不同人工智能模型的准确性和每例平均诊断测试成本对比

尽管看起来 「AI 医生」已经有模有样,不过 AI 要真正做一个好医生可不是那么容易的。

微软在该项目论文最后提到,这次的研究存在显著局限性,包括像参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,微软这次实验也仅仅只讨论了最具挑战性的病例难题,而对我们一般的日常性疾病诊断没有做进一步的测试。

微软强调 AI 不会取代医生,它将成为医生与患者共同的助手。

但就是这个医生和患者共同的助手,也持续地吸引着全世界范围的关注;早在今年 3 月,微软就发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot,它能帮助医生更好的整理病例的临床文件。

IBM 推出 IBM Watson Health 医疗人工智能平台、谷歌的 DeepMind、以及英伟达的 NVIDIA Clara 等,都正从导诊、问诊、病理等医疗场景中带来新的变革。

前段时间,阿里达摩院也发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE,首次利用平扫 CT 影像结合深度学习识别早期胃癌病灶。

华为今年才组建组建医疗卫生军团,上周也联合瑞金医院,宣布开源 RuiPath 病理模型,具备临床验证能力,覆盖肺癌等 7 个常见癌种。

医学需要极高的精准度,0.01% 的失误也有可能造成严重的后果,它完全不同于程序员写代码时出现的 bug。

MAI-DxO 模拟真实问诊的过程,看起来这条 AI 医疗之路越来越清晰。

从百度问诊,到 ChatGPT 问诊,我想未来除了拿着普通医院的检查结果,查医院排行榜,付费问在线医生,还可以先看看这个「AI 医生」。

相关内容

热门资讯

阿里云客服Agent业务提效实... 演讲嘉宾|姜剑(飞樰) 编辑 | 李忠良 策划 |AICon 全球人工智能开发与应用大会 随着...
原创 一... 大家习惯了手机时刻不离手,如今千元机也是非常有“料”了,千元机凭借出色的性价比和实用性赢得了大量消费...
原创 特... 很多目光都在注视着马斯克,大家想知道这位从政坛回归商界的“超人”,将会对特斯拉做出何种“大刀阔斧”的...
十年来最大改版 百度AI要讲新... 把传统的搜索框“变大”成为智能框,是百度搜索改版最直接的变化,这背后的考量不止技术竞争。7月2日,百...
当思维穿透颅骨:脑机接口帮助人... 作者|川 川 编辑|大 风 2024年的夏天,一场静默的科技革命正在突破物理世界的边界。 马斯克旗下...
原创 美... “1亿美金一年?比C罗工资还高?” AI这一新技术,成为了如今全球的最大“潮流”,而其人才更是“香饽...
首批陪伴机器人交付在即 重新定... 外表比潮玩手办更灵动,内在比猫狗等“毛孩子”更懂人:市场或许要迎来第一批陪伴机器人了。 7月2日,第...
荣耀深圳发布全球最轻薄折叠屏旗... 深圳新闻网2025年7月3日讯(深圳特区报记者 周雨萌)昨日,全球最轻薄折叠屏旗舰手机——荣耀Mag...
武城县首家无人机驾驶员培训基地... 近日,武城县首家通过中国民用航空局(CAAC)认证的民用无人机驾驶员全资质培训机构成立,标志着武城县...
鞍山琦铂尔取得连接稳定风机消音... 金融界2025年7月2日消息,国家知识产权局信息显示,鞍山琦铂尔金属制造有限公司取得一项名为“一种连...
零公里二手车、做局消费者,新能... 记者 翟芳雪 编辑 高宇雷 从6月开始,电厂记者添加的汽车销售人员就开始在微信朋友圈频繁催单:“多地...
国际金融报、国际金融报网列入互... 7月2日,“网信中国”微信公众号发布通知,为进一步夯实网络传播秩序管理基础,国家网信办顺应各地各单位...
「赛博菩萨」发威!AI 巨头的... 马斯克和特朗普,这对白宫二人转最近「嘴炮大战」进入到 2.0 时期。和这对欢喜冤家类似的,是国外出版...
苹果拟引入外部AI模型升级Si... 一直以来,苹果在开发自有AI模型方面遇到一定困难,导致升级版Siri的发布时间被推迟。根据此前进展,...
鄂尔多斯:“车路云一体化”让“... 无人驾驶公交车在城市中轴线上丝滑行驶,自动驾驶清扫车在街道上穿梭工作,无人售货车在广场上招手即停……...
原创 成... 继纵横股份、中无人机、立航科技成功上市之后,又一家成都无人机企业向A股市场发起冲刺。7月2日证监会网...
荣成歌尔科技取得半自动装配装置... 金融界2025年7月2日消息,国家知识产权局信息显示,荣成歌尔科技有限公司取得一项名为“一种半自动装...
恒泰众邦取得爬楼搬运车专利,扩... 金融界2025年7月2日消息,国家知识产权局信息显示,山东恒泰众邦智能科技有限公司取得一项名为“一种...
原创 打... 提起小米,很多人第一反应不是手机,而是“全能制造商”。从39块的电蚊拍,到几十万的小米SU7、小米Y...
登顶全球第一!北航郑耀威! 他以学生一作 发表高水平学术论文6篇 谷歌学术引用量超过600次 第一作者论文引用量超过500次 他...