医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

凌晨一点，一家三甲医院的急诊室里，一位62岁男性患者被紧急送来，他正经历急性STEMI并发急性心衰。血压飙升至185/105 mmHg，血氧饱和度仅有91%。护士已经推来除颤仪，催促医生“心电捕手”确认替格瑞洛的用药剂量。

由于患者肾功能不全，标准剂量极易引发致命性脑出血，而减量又可能导致支架内再次形成血栓。面对堆积如山的指南和文献，医生必须在短短三分钟内找到剂量调整的依据——对他而言，这三分钟漫长得如同一个世纪。

深夜时分，珠江医院胸外科主任乔贵宾仍在办公室伏案工作，为一位罕见肺病患者制定后续治疗方案。作为胸外科主任、主任医师和博士生导师，他每天平均工作超过10小时，加班处理疑难病例几乎成了家常便饭。

“没有哪个国家的医生承受这样的超级压力。”纪录片《中国医生》总导演在专访中曾如此感叹，这句话精准概括了医生们的日常现实。

公开数据显示，2024年全国医疗卫生机构总诊疗人次达到101.5亿，其中三级医院诊疗量为28.7亿，病床使用率接近90%。而全国仅有508.2万执业（助理）医师，却要支撑这百亿级的诊疗需求。每一次开处方、下医嘱、做检查、规划手术方案，几乎都离不开医生的决策。

更令人头疼的是，医学知识更新速度极快。以PubMed为例，它已收录超过4000万条生物医学文献，每年还新增百万级条目。对医生而言，压力不仅来自患者数量和诊疗量，更来自在高负荷工作中不断追赶最新证据与指南的挑战。

在这种结构性困境下，医疗的核心问题并非“撮合就诊”，而是医生的决策供给——互联网医疗可以提升就诊效率，却触及不到这一结构性痛点。而这，正是医学AI能够真正发挥作用的领域。

DeepSeek们，

为什么一进医疗科研就翻车？

过去一年，大模型几乎席卷了各行各业，医疗领域也不例外。行业对医学AI的期待迅速升温，中国医生成为拥抱大模型最为积极的群体之一。但与此同时，一个越来越明显的困境也摆在大家面前：一旦通用大模型进入严肃医学场景，它的能力往往迅速塌陷。

最让医生头疼的是“幻觉”问题。比如，它会虚构文献。当你想查看原文、复核数据时，即使明确要求提供准确的DOI号（类似文本的身份证号），也经常发现链接是错的，点开完全是另一篇文章。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

通用大模型的高幻觉率，始终是个棘手的困扰。

乔贵宾和同事都在工作和私底下用过通用大模型，高幻觉率始终是个棘手的困扰。像胸外科这样极度硬核的诊室，一个杜撰的结论，危害不亚于误诊。

最近，一项发表在英国皇家外科医学院官方期刊上的研究【1】，也进一步印证了医生们的担忧：某些主流人工智能平台生成的医学参考文献中，超过三分之一可能是伪造的。例如，Grok 3的引用幻觉率高达33.6%，DeepSeek DeepThink为25%。

这些“幻觉引用”看起来非常真实，甚至带有虚构的Mayo Clinic（梅约诊所）链接或极具误导性的学术标题。

研究还发现，近半数顶尖模型在回答医学问题时，默认并不会清晰披露信息来源。

而这些，恰恰与医生日常工作的核心相悖：循证（基于证据做决策）——我如何知道我的推理和决策是有理可据的，是权威的，是准确的？尤其是那些涉及到我知识盲区的证据。

这时候，能快速、准确地找到权威依据来支撑判断，最刚需、也最头疼的事。而本质上基于概率文本生成的通用大模型，并不天然具备这种场景下的“循证”能力。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

从多个维度测试国内某头部通用大模型在回答医学科研问题时是否可靠，结果让人担忧。

为了解决这一难题，业界普遍将检索增强生成（RAG）奉为圭臬，认为它能通过检索外部患者病历来纠正大模型的信口雌黄。最常采用的方案就是将病历、指南、论文切片后灌进向量数据库，再通过检索增强生成，让模型“带着资料回答”。

至于效果？最新研究给出了一个相当反直觉的结论。

这份发表于权威医学预印本平台medRxiv的论文显示，在医学临床文本生成中，加入RAG技术后，大模型的无依据声明率（Unsupported claim rate，即幻觉率）从基线状态下的5.0%剧烈飙升至43.6%。这意味着RAG让医学AI犯下事实性错误的概率增加了整整8.7倍。【2】

为什么会这样？因为临床文本并不是普通知识库。

它高度非结构化，充满上下文依赖、时间敏感信息和相互冲突的证据。不同患者、不同时间点的医学术语重叠度极高。RAG很容易检索出“语义上高度相似，但实际上属于其他患者，或对应错误时间点”的病历片段。

也就是说，它找到了“看起来相关”的资料，却未必找到了“真正适用”的证据，而大模型会以此为据、凭空捏造当前病人的虚假医学叙事。

如何确保模型找到的是对的证据、用的是对的上下文、给出的是能被医生复核的判断？如何让每一次回答都绑定在可信证据链上？

这正是深耕医学健康十多年的阿里健康，想要破局的地方。

一切为了可靠，“氢离子”破局关键一环

5月13日，阿里健康把“氢离子”正式推到了台前。这是一款面向临床和科研医生的医学AI产品。发布会上，阿里健康同时宣布，氢离子与国家级医学顶刊达成独家内容合作。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

产品设计上，AI被放在了最后，而定语首先是证据、循证。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

氢离子与国家级医学顶刊达成独家内容合作。

按照官方定位，“氢离子”想解决的是“中国500万医生的一切医学问题”。 “低幻觉、高循证”是它最核心的能力标签：所有回答均提供权威出处，支持一键溯源、直达信源。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

“在严重幻觉率上，我可以给大家一个定性的结论，我们比国内的竞品领先2-3倍。”阿里健康CTO祥志说。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

这很容易让人联想到医学界的“神器”UpToDate，也就是UTD。很多医生在查房、开药、处理疑难病例或准备科研资料时，都会依赖UTD这类循证医学决策支持系统，快速找到权威、可靠的决策依据。

但与传统工具相比，“氢离子”使用门槛要低得多。医生可以通过自然语言、多轮对话，甚至语音和图片等多模态方式提问，就像和同事讨论病例一样，把问题直接抛给AI，它会结合上下文持续理解和回应。

在正式发布前，氢离子已完成内测并开放下载。医生的反馈最集中的关键词是“可信”和“可靠”，尤其是对“循证问答”评价极高。一位三甲急诊科主任医师试用后，在88天内登录已高达193次。

为了确认替格瑞洛剂量，急诊室医生“心电捕手”打开“氢离子”，飞快输入“急性ST段抬高型心梗合并急性心衰，PCI术后替格瑞洛剂量调整（eGFR65）”。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

—|—

“心电捕手”在某医疗社区的发言。

AI不仅明确推荐负荷剂量180mg，维持剂量90mg bid，还加粗标注了依据来源——中华医学会2025年最新治疗指南。点击后，可以直接查看电子化指南原文，不再需要翻找笨重的PDF文件。

更关键的是，“氢离子”不是简单高亮一整段文本，而是定位到真正决定结论的“关键三行” 。医生看到的不只是“这篇文章可能相关”，而是“依据具体在哪里”。

与此同时，回答还引入了两个更重要的维度：时效性（“2025年”）和权威性（“中华医学会的指南”）， 强调对全球权威指南和文献进行日更级追踪与筛选，并基于这些动态证据生成回答。

这背后，考虑到是一个基本现实：医学证据每天都在变化。

新指南、新药物、新疗法、新临床试验层出不穷，尤其是在肿瘤、感染、心血管等领域，顶刊上的一个新结果，可能直接改变第二天的治疗策略。一旦证据没跟上影响判断，代价可能是患者动了没必要的刀子，或错过最佳手术时机。

为了从源头杜绝低质量信源的“污染”，模型在生成回答时，会自动优先锁定权威性更高的信息来源，并降低那些质量不高的个案报道的权重。

某种程度上，这正是“氢离子”与传统医学搜索引擎，乃至其他“AI医生”产品之间最根本的差异——医生在“氢离子”中看到的每一个观点，都经得起三个核心问题的考验：它是否精准？是否权威？是否足够新？

然而，在真实的临床一线，除了可信度，医生对速度的要求同样苛刻。

一位名为“心电捕手”的医生提到，他在确认替格瑞洛的用药剂量时，“没想到 3 秒就出了结果”。以往遇到类似的疑难问题，他需要在 PubMed、临床指南、药品说明书等多个平台之间来回切换，整个过程往往要耗费十几甚至二十分钟。

许多医生的手机里常年装着 5 到 6 个医学 App，但这些应用大多只是解决单一问题的工具。而“氢离子”试图将所有这些“搬运成本”压缩成一次简单的提问：快速给出有依据的用药方案和剂量建议，同时联动药品说明书，清晰地标注出禁忌症与注意事项。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

医生“心电捕手”在医疗社区中分享，AI 返回的结果不仅提供了用药建议，还自动关联了相关的药品说明书，并标注了用药禁忌和注意事项。这比急诊医生过去一边翻指南、一边查说明书的方式高效太多了。

对医生而言，这不仅仅是“少打开几个网页”那么简单，而是在争分夺秒的临床环境中，实实在在地缩短了关键决策的时间。

将“医学证据”写入 AI 内核：四层循证架构首次公开

在发布会上，团队首次揭开了“低幻觉、高循证”背后的“四层循证架构”——从医学证据的结构化处理、循证检索、模型对齐，到专家闭环反馈，这套架构试图将“循证医学”真正融入到 AI 的底层逻辑中。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

第一层：深入理解医学证据。

这一层并非简单地“读懂文字”，而是将医学文本转化为可结构化、可评估、可追溯的证据单元。

其核心是 PICO 与 GRADE 这两套经典的循证医学框架。

PICO 本质上是一套医学问题的结构化方法。它要求 AI 像临床医生一样，拆解文本的核心要素：针对哪类人群（P）？采用了何种干预措施（I）？与什么方案进行对照（C）？最终结果如何（O）？

例如，针对一项减肥药研究，系统会自动生成精确的证据链：
– 人群：18 至 50 岁、体重超过 200 斤、无严重心脏病的成年人；
– 干预：每天服用一种新型减肥药 A；
– 对照：另一组服用外观相同的安慰剂；
– 结果：三个月后，A 组平均减重 10 斤，对照组仅减重 2 斤。

这种解读方式不仅解决了语义匹配的问题，更强调了“证据适配”——只有当 PICO 条件完全匹配时，后续的建议才具有真正的临床价值。

而 GRADE 系统则负责为这些证据贴上“可信度”的等级标签。

在循证医学中，文献的含金量天差地别。一个观点是否值得相信，不是凭感觉，而是基于一套可量化的评价体系。GRADE 是全球循证医学领域最核心的证据评级体系之一，已被世界卫生组织（WHO）等全球超过 100 家权威医学机构广泛采用。

根据这一标准，大型随机对照试验（RCT）通常属于高等级证据；Meta分析往往拥有更强的综合可信度；而个案观察和经验分享则属于较低等级的证据。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

上图是针对“铂耐药复发卵巢癌”的最新文献检索结果。文献按时效性（2025年）、权威性（高影响因子TOP期刊）及证据等级（RCT、临床研究）进行呈现，甚至列出了JCR分区、中科院分区及影响因子（IF）分值，让医生能一眼判断文献的质量和参考价值。来源：王伟强博士公众号文章。

第二层：将 PICO 融入 RAG，从“关键词检索”迈向“结构化降维”。

基于 PICO 框架，检索逻辑从简单的“搜索词语”升级为“搜索结构”，彻底解决了传统 RAG（检索增强生成）检索容易失效的问题。

例如，当医生提问“布洛芬能不能比对乙酰氨基酚更快让儿童退烧？”时，系统不会简单地搜索“布洛芬退烧儿童”，而是通过 PICO 拆解，自动将其转化为标准循证问题——“在发热儿童（P）中，布洛芬（I）相较于对乙酰氨基酚（C），在退热速度和副作用（O）上有何临床证据？”

这样检索出来的文献，更像是在回答一个具体的临床问题，而不是在拼凑关键词。反过来看，RAG 只有在文档结构化程度高、检索逻辑符合循证范式时，才能发挥出更可靠的作用。

有了证据理解和精准检索，下一个问题随之而来：AI 会正确地使用这些证据吗？

第三层：强化学习与对齐，训练模型“像医生一样使用证据”。

“氢离子”在后训练阶段引入了 Reward 模型（奖励模型）与 Rubrics 评分体系。Reward 模型负责让 AI 学会识别“什么是好答案”，而 Rubrics 则把循证医学中的质量要求，进一步工程化为可训练、可评测的标准。

模型最终学习的，不再仅仅是语言的风格，而是如何生成低幻觉、可追溯、且符合循证规范的回答。

然而，在瞬息万变的医学领域，单纯依赖静态的模型训练无法覆盖所有长尾的边缘案例，也无法实时同步最新的指南、药物和疗法。因此，架构的最后一环交给了 Experts-in-the-Loop（专家闭环反馈）。

真正有价值的数据，需要长期的专家标注、持续的更新、明确的证据等级划分，以及对不同研究之间关系与冲突的深入理解。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

目前，“氢离子”已经构建了一支由超过 300 位资深医生组成的医学 AI 专家委员会。他们扮演着“主治医生”和“首席出题官”的角色，持续对 AI 的输出进行高强度的“找茬、打分与修正”。

专家的评测不是为了得到一个安全的分数，而是为了反哺前三层。例如，如果发现某处回答不佳，就会立刻倒推：是不是第一层的 PICO 拆解粒度不够细？或是第三层的 Rubrics 评分标准过于宽松？

最终，通过这四层由浅入深的循证架构，理解、检索、训练与评测形成了一个完美的“可追溯、可验证、可信赖”的闭环。AI 彻底摆脱了“静态工具”的局限，演变为一个能够随着医学证据实时更新、基于临床反馈不断自我纠错的“进化型系统”。

它从一款高效的生产力产品，真正成长为医生在临床与科研中不可或缺的可信赖伙伴。

本土权威 + 国际前沿：数据壁垒，夯实循证底座

要将“高循证”做到极致，光靠算法和工程创新是不够的。AI 最硬的门槛，其实在于数据源。高质量的医学数据库，不仅是功能底座，更是临床安全的护栏。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

中国医生普遍面临获取世界顶级研究困难的问题。

此前，“氢离子”已经与中华医学会、人民卫生出版社等国内医学出版巨头建立了深度合作，奠定了本土权威的基础。而这次官宣的国际顶刊合作，意味着 76% 的医生将不再受困于顶级前沿证据难以获取的窘境。

通过这种“强强联合”，“氢离子”构建起了多层级的专业医学知识谱系，进一步夯实了在医学 AI 领域的底层数据壁垒。

目前，“氢离子”汇聚了来自 PubMed、Google Scholar 等国际数据库以及国内核心期刊的千万级顶尖文献，为科研和疑难病例提供了稳固的支撑。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

同时，系统整合了三万余部国内外权威临床指南与专家共识，以中华医学会等机构发布的内容为主，这使得 AI 在复杂临床环境中能够迅速锁定标准方案，大幅提升诊疗效率与安全性。

此外，系统还收录了超过六万份药品说明书及活性成分信息，覆盖了适应症、禁忌症、用法用量、不良反应及特殊人群用药等方方面面，实现了对临床开方与用药风险的全面掌控。

这些举措不仅保障了 AI 在临床辅助中的极致安全，也让“氢离子”在医学 AI 赛道上形成了短期内难以逾越的核心竞争力。

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

过去两年，行业习惯将医学 AI 理解为参数规模的竞争、问答能力的竞争。但真正进入临床与科研场景后，人们发现，准确性、可追溯性、稳定性与决策一致性，远比“会不会回答”更重要。

“氢离子”用实践证明，严肃医学 AI 的真正护城河并非参数规模，而是“从高等级证据到临床答案”的全链路工程能力。缺少了顶级信源与循证架构的严苛规训，再庞大的参数，最终也会沦为“通用模型 + 医学语料”的平庸组合。

正如乔贵宾所总结的那样：“这才是医学 AI 应有的形态。它不代替医生下结论，而是帮助医生更快地找到决策依据，并清晰展示这些依据的来源。”医生需要的，从来不是一台擅长模糊应答的“聊天花瓶”，而是一个能在临床和科研中并肩作战的“硬核战友”。

当繁重的循证检索被 AI 高效拆解后，医生们偶尔也会和学生探讨：如果所有循证工作都交给 AI 完成，医生自身还需要什么？

大家的答案高度一致——回归本源，锤炼临床判断力。因为最终的治疗方案，仍然取决于医生的综合评估。

这也印证了圈内广为流传的一句话：能够给出治疗方案的，叫“智能（Intelligence）”；真正理解眼前患者的，才是“智慧（Wisdom）”。

参考链接

1、Trust, truth and transparency: analysing the references underpinning AI-generated surgical information
https://publishing.rcseng.ac.uk/doi/10.1308/rcsann.2026.0021

2、Representation Before Retrieval: Structured Patient Artifacts Reduce Hallucination in Clinical AI Systems
https://www.medrxiv.org/content/10.64898/2026.02.13.26346256v1.full.pdf

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34542

医生深夜急救遇AI幻觉：通用大模型如何成为医疗决策的定时炸弹？

相关推荐

大模型安全新挑战：多场景脆弱性暴露与高效防御框架解析

AI普惠革命：从技术精英到全民触达，新兴市场如何成为AI终局的关键战场

从静态问答到动态探案：DiagGym虚拟临床环境如何训练AI诊断智能体

太空算力崛起：2026年天地一体化算力网络如何重塑全球竞争格局

从零实现30篇奠基论文：用NumPy揭秘深度学习核心思想