哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

哈佛大学一项发表在《Science》上的研究引发热议：在涉及76名真实急诊患者的双盲对比实验中，OpenAI o1模型的诊断准确率达到67%，远超人类医生的50%；治疗方案得分上，o1以89%对34%形成断崖式领先。然而，AI目前仍无法感知患者的面色与痛苦，真正的变革并非“AI获胜”，而是急诊室正迈向“医生×患者×AI”三方共治的新格局。

近日，全球医疗领域迎来一枚重磅消息。哈佛大学医学院联合贝斯以色列女执事医疗中心，在《Science》期刊上发表了一项令人瞩目的研究成果。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

在急诊室真实的分诊场景中，OpenAI的o1推理模型展现出惊人的诊断准确率——67% ，而两位经验丰富的内科主治医生分别只有55%和50%。

AI赢了。这次胜利并非基于模拟考试或习题集，而是在真刀真枪的急诊实战中取得的。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

更令人震撼的数据还在后面：在制定治疗管理方案的测试中，o1获得了89% 的高分，而人类医生在借助传统资源辅助后，中位数仅为34% 。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

差距并非微乎其微，而是超过两倍。

这并非某家AI公司的自我宣传，而是由哈佛医学院主导、顶级学术期刊背书、经双盲评审确认的研究成果。

研究论文通讯作者、哈佛医学院AI实验室负责人Arjun Manrai意味深长地表示：“我们几乎用所有基准测试了这款AI模型，它超越了此前所有模型和医生基线。”

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

一个时代的裂缝，就这样被撕开了。

76名真实患者，零预处理，双盲对决

这项研究最硬核之处在于：它并非用精心整理的教科书病例来考验AI，而是直接将急诊室中最原始、最混乱的电子病历扔给了机器。

研究团队从贝斯以色列急诊科随机选取了76名真实患者，在三个关键诊断节点进行对比——急诊分诊（患者刚进门）、急诊医生首次接诊、以及收治入院或进ICU。

每个节点，两位内科主治医生与OpenAI的o1、4o模型同时给出鉴别诊断，每方最多列出5个可能诊断。

关键细节是：研究人员对数据进行了零预处理。

论文明确写道，AI模型接收到的信息与医生看到的电子病历完全一致——那些凌乱、缺失、充满噪声的真实临床数据。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

随后，由另外两名主治医生进行“盲评”——他们不知道哪个诊断来自人类、哪个来自AI。

盲评结果显示，评审医生几乎无法分辨诊断来源：一位医生猜对AI/人类的准确率仅为15.2%（83.6%的情况下选择了“分不清”），另一位更夸张，只有3.1%（94.4%“分不清”）。

换句话说，AI生成的诊断，连资深医生都看不出是机器所为。

在这种严苛条件下，o1模型在急诊分诊阶段——信息最少、时间最紧、决策最关键的环节——给出了67.1%的准确率（包含精确诊断或非常接近的诊断）。

两位人类医生则分别为55.3%和50.0%。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

随着信息逐渐增多，所有人的表现都在提升：到入院阶段，o1准确率升至81.6%，医生分别为78.9%和69.7%。

但差距始终存在，尤其在信息最匮乏的初始阶段最为显著。

这恰恰是最可怕的发现——急诊最要命的就是“前几分钟”：患者刚被推进来，信息碎片化，生死攸关，医生需要在极度不确定中做出判断。

而在这个环节，AI的表现最为突出。

急诊医生不干了：拿内科医生跟AI比，能说明什么？

论文发布后，一位名为Kristen Panthagani的急诊科医生在社交媒体上直接开怼：这是一个“被过度炒作的有趣研究”。

她的核心质疑是：研究中与AI对比的是内科主治医生 ，而非急诊科医生。

“如果我们要拿AI和医生的临床能力做比较，至少应该拿同一个专科的医生来比。我不会惊讶于一个大语言模型能在神经外科的专科考试中打败皮肤科医生，但这并不能说明什么。”

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

她还指出了急诊医学的本质逻辑：“作为一名第一次看到患者的急诊医生，我的首要目标不是猜出最终诊断。我的首要目标是判断你是否有一种可能会杀死你的疾病。”

这个反驳有力量吗？有。但也需要注意，研究论文本身已经承认了这一局限性，而且论文的核心论点从来不是“AI可以替代急诊医生”，而是“AI在有限信息下的推理能力已经达到值得临床试验的水平”。

急诊医生在现场做的远不止“猜病名”——他们要看患者的面色、听呼吸的声音、感受疼痛的程度、判断生命体征的微妙变化。

这些细微的非语言信号，有时比任何检验指标都重要。

一位经验丰富的急诊医生走进病房，扫一眼患者，可能就已经做出了80%的判断——这种能力被称为“临床直觉”（clinical gestalt），它来自数以万计的真实接诊经验，目前没有任何AI能够复制。

Manrai自己也承认，团队正在研究AI处理影像和其他非文本信号的能力，“看到了快速进步的结果”，但距离临床部署还有很长的路。

辛顿的“预言”教训：放射科医生没下岗，反而更忙了

说到AI取代医生这个话题，不得不提一个经典的“打脸”案例。

2016年，AI教父、诺贝尔奖得主Geoffrey Hinton说了一句震动医学界的话：人们现在就应该停止培训放射科医生了。深度学习在五年内就会比放射科医生做得更好，这完全是显而易见的。

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

这句话当时吓退了不少准备选择放射科的医学生。整个2010年代后期，媒体上铺天盖地都是“放射科即将消亡”的文章。

十年过去了。

梅奥诊所的放射科医生团队从2016年至今增长了55%，达到400人。美国放射学会预测，未来30年放射科医生供给还将增长26%。

全球最大的放射科医生短缺正在发生——不是因为AI抢走了工作，而是因为AI让影像检查变得更便捷，反而催生了更多需求。

Hinton本人后来也承认自己“说得太宽泛了”。

他修正了预测：未来的医学影像解读将由“AI和放射科医生的组合”来完成，AI会让放射科医生“效率大大提高，同时提升准确率”。

这个故事里有一个深刻的经济学原理——杰文斯悖论：当一项技术让某种资源的使用更高效时，这种资源的总需求反而可能大幅增加。

影像诊断变便宜、变快了，于是医生开了更多检查，放射科医生反而更忙了。

哈佛这项新研究的作者们显然吸取了辛顿的教训。

论文通讯作者Manrai在新闻发布会上明确表示：“我们的发现并不意味着AI取代医生，尽管有些卖AI医疗产品的公司可能会这么说。”

共同通讯作者、贝斯以色列AI项目负责人Adam Rodman则更直白：“目前AI诊断没有任何正式的问责框架。患者想要的是人来引导他们度过生死攸关的决策，引导他们面对艰难的治疗选择。”

不是“AI赢了”，而是医疗决策权在重组

据美国医学会（AMA）2026年调查，超过80%的美国医生已经在职业中使用AI——是2023年的两倍。

17%的医生使用AI进行“辅助诊断”。

2025年的一项Elsevier研究发现，20%的临床医生已经在向大语言模型寻求“第二意见”。

哈佛这项研究证明，AI在信息最匮乏、决策最紧迫的急诊场景中，推理能力已经超过了人类医生。

三个数据叠加在一起，指向一个清晰的趋势：医疗决策的权力结构正在发生根本性的重组。

过去的急诊室模式是：患者进来→医生判断→做出决策。

未来的模式可能变成：患者进来→AI快速扫描电子病历给出初步判断→医生结合临床观察和AI建议做出决策→患者参与讨论治疗方案。

研究作者Rodman预测，未来会出现三种分化：一部分任务人类持续做得更好，一部分任务AI持续做得更好，还有一部分任务需要人机协作增强。

这就是研究者所说的“医生-患者-AI”三方协作模式。

听起来很像自动驾驶。

L2级别——AI辅助人类决策；L3级别——AI主导、人类监督；L4级别——特定场景全自动。

目前人工智能在医疗领域的成熟度，大致介于L2到L3之间。它已经能够在“文字层面”做出超越人类医生的判断，但在真实、多模态的临床环境中，仍需要人类的眼睛、耳朵以及直觉来弥补其不足。

AI误诊，谁来担责？

在所有相关讨论中，有一个“房间里的大象”始终无人敢正面触碰：如果AI出错，责任到底由谁承担？

Rodman在接受《卫报》采访时坦言，目前AI诊断领域尚不存在任何正式的问责机制。

如果一位医生误诊，有成熟的医疗纠纷处理体系——患者可以投诉、可以起诉，医生则面临执业风险。但若AI给出了错误建议，医生采纳后导致患者受到伤害——这责任该算医生的？AI公司的？医院的？还是三方共同承担？

更复杂的场景是：AI给出了正确建议，但医生否决了AI的判断、坚持自己的错误诊断，导致患者延误治疗——此时，医生是否应为“忽视AI建议”承担额外责任？

还有一个更隐蔽的风险：过度依赖。

当医生习惯了AI的高准确率判断，他们的独立思考能力是否会退化？就像GPS让许多人丧失了自主导航能力一样，AI辅助诊断是否会让医生的临床推理“肌肉”逐渐萎缩？

目前，没有任何国家能对这些问题给出清晰的答案。

参考资料：
https://www.science.org/doi/10.1126/science.adz4433
https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33169

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

相关推荐

国产AI视频模型Vidu Q3 Pro登顶国际榜单，音画同步16秒直出引领视频生成新突破

GPT-5.4泄露？代码拉取请求惊现新模型，200万Tokens上下文窗口或成真

月之暗面Kimi K2.6重磅发布：开源代码模型新王者，连续编码12小时、指挥300Agent集群

AAAI 2026评审风波：当AI算法与人情关系交织，学术公正的信任危机如何破局？

Anthropic押注英国存算一体黑马Fractile：2027年AI推理芯片格局或生变