GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架

蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。

该框架旨在解决现有医疗AI评测局限于考试式问答、缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题。评测集聚焦肺癌领域,包含92个问题、覆盖1691个临床要点,并配套全自动化的评测工具链,通过指南锚定、多智能体协同实现从问题生成、评分标准制定到多维度打分的端到端自动化。

目前,相关成果已应用于“蚂蚁阿福”,论文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套评测集GAPS-NSCLC-preview、自动化评测框架已全面公开。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

这项研究客观评价了大模型的临床能力:当前主流医疗大模型虽已具备“医学百科全书”般的知识广度,但在临床实践中仍处于成长阶段——它们在系统掌握医学知识方面表现卓越,但在应对真实临床场景中的不确定性挑战时,尚需进一步提升判断力与可靠性。

权威引领:北大人民医院院士团队深度主导临床标准构建

本项目由中国工程院院士、北京大学人民医院院长王俊教授领衔的团队全程主导,并与蚂蚁团队深度协作完成。

在GAPS构建过程中,院士团队原创性地提出了GAPS评测的理论框架,并组织十余位胸外科医生持续参与评测题库构建、临床金标准答案撰写、模型输出的专业审核与迭代优化,提供NSCLC (非小细胞肺癌) 领域前沿临床指南的权威解读与循证医学方法论指导,确保每一项指标都扎根真实临床实践,具备高度专业性与可信度。

蚂蚁团队则发挥大模型与工程化能力优势,经过多轮高强度医工协同与反复迭代,将专家脑海中的复杂“临床金标准”精准沉淀为大模型可理解、可执行的结构化逻辑,实现GAPS的规模化、自动化与可落地应用。

此次合作实现了“临床专家定标准、AI 技术做转化”的深度融合,突破了传统医疗AI评测中专家浅层参与的局限,标志着顶尖临床专家与AI技术团队的深度协作,为医疗AI从“技术驱动”走向“临床价值驱动”树立了新的范式。

行业痛点:考得好,信不过

在和大模型讨论医疗问题时,有时回答得很好,有时则不尽如人意。由于大模型技术迭代迅速,医生和患者难以在短时间内对其形成客观评价,因此对大模型的信任无从建立。

为了客观评价大模型的能力,学界通常采用基准测试的方法。然而,当前医疗AI的基准测试普遍缺乏对模型循证能力、可解释性与安全性的系统评估。

长期以来,医疗AI的评估依赖MedQA、PubMedQA等“试卷型”基准,仅考察事实记忆能力;而HealthBench等基于人工评分细则 (Rubric) 的方法又受限于主观性强、扩展性差。这些方法无法反映真实诊疗场景:患者描述模糊、检查结果矛盾、治疗方案需权衡利弊……正如论文所强调:

真正的医疗能力不在于背诵事实,而在于管理不确定性。

尤其在肺癌这一全球致死率最高的癌症领域,缺乏细粒度、专病化的评估工具,使得医疗机构和开发者难以客观判断医疗AI是否真正具备临床可用性。GAPS的诞生,正是为了填补这一关键空白。

破局之道:GAPS——从“考试机器”到“临床医生”的四维标尺

GAPS是一个基于循证医学、全自动构建的AI临床能力评测框架,首次将临床胜任力解构为四个正交维度,并聚焦NSCLC (非小细胞肺癌) 这一高难度专病场景进行系统验证:

1、G(Grounding)认知深度:不止于“是什么”,更考验“为什么”和“怎么办”。
* G1和G2:事实回忆与解释 (AI的舒适区)
* G3:基于指南的循证决策 (如NCCN推荐方案)
* G4:推理性思维 (Inferential Reasoning) ——在证据冲突或缺失的“灰色地带”做出合理判断,这是当前所有模型的“死亡区”。

2、A(Adequacy)回答完备性:医生的一句话可能关乎生死。GAPS引入三级评价:
* A1 (必须有):核心诊疗建议
* A2 (应该有):关键限定条件 (如剂量、禁忌症、监测指标)
* A3 (锦上添花):患者教育、多学科协作建议等

缺少A2,再“正确”的建议也可能导致临床误用。

3、P(Perturbation)鲁棒性:真实患者不会照着教科书说话。GAPS通过三类扰动测试模型抗干扰能力:
* P1:语言噪音 (口误、方言)
* P2:冗余信息 (无关症状堆砌)
* P3:对抗性前提 (如诱导性错误假设)

实验显示,多数模型极易被误导,甚至顺从用户的错误引导。

4、S(Safety)安全底线:医疗容不得“差不多”。GAPS建立四级风险体系:
* S1 (无关回答) → S4 (灾难性错误/Never Events,如推荐禁忌药物)

一旦触犯S4,无论其他维度得分多高,总分直接归零——这是不可逾越的红线。

GAPS解决了现有医疗AI评测仅关注“准确率”的局限,首次实现对循证决策能力、回答完备性、现实鲁棒性与安全底线的系统性、自动化评估。其优势在于:以临床指南为锚点,全自动构建高保真评测项与评分规则,兼具可扩展性、可复现性与临床真实性,为AI向可信临床伙伴演进提供精准导航。

核心黑科技:全自动化的“循证评测集”流水线

GAPS最大的技术亮点在于其端到端自动化与可扩展性。不同于以往依赖人工命题,GAPS构建了一套基于临床指南(Guidelines)的自动化生成工厂:

  1. 证据邻域构建:以NCCN、ESMO等权威指南为核心,自动抓取3跳内引用文献,构建高可信医学知识图谱与疾病话题树;
  2. Deep Research Agent:基于GRADE方法学,模拟人类专家围绕PICO (人群、干预、对照、结果) 展开的证据检索、证据评估、强弱推荐的流程,自动生成带证据等级与推荐强度的高质量评分细则;
  3. 虚拟患者生成:利用大模型合成去隐私化临床病例,并精准对齐知识图谱,确保每道题“有据可依、有理可循”。

该流水线已成功应用于胸外科的专病——NSCLC(非小细胞肺癌),生成包含92道题、1691个临床要点的评测集GAPS-NSCLC-preview。题目按认知深度分为G1~G4四级 (从事实回忆到不确定性下的推理),每题均配备平均12项完整性 (A1~A3) 与7项安全性 (S1~S4) 评分要点,并支持P0~P3四级扰动测试。

未来可快速扩展至心血管、儿科、内分泌等任意专科的专病领域——只要有指南,就能生成高质量评测集。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

可靠的裁判:自动化评测让AI医疗能力可量化、可复现、可进化

GAPS评测集同时搭配了一套高可靠性的自动化评测框架,实现了对AI临床能力的客观、细粒度、端到端的自动化评估。

为确保评测本身可信,团队将自动化评分结果与五位资深专家的独立标注进行严格比对:在92个真实临床查询、1691个临床要点上,该框架与专家共识的整体一致率达90.00%,Cohen’s Kappa系数达0.77 (“实质性一致”),Macro-F1达0.88——不仅显著优于现有基准(如HealthBench中GPT-4的0.79),已达到人类专家间一致性水平(88.5%~92.0%)。这证明GAPS评测集的自动评判能力具备专家级可靠性。

在此基础上,评测不再是终点,而是进化的起点。框架输出的结构化评分 (G/A/P/S四维、MET/NOT-MET标记) 可精准定位模型在循证决策、回答完备性、扰动鲁棒性或安全红线上的缺陷。

由此,GAPS成为实现“评测即反馈、反馈即迭代”的关键基石。它意味着AI医疗能力的提升不再依赖于模糊的经验,而是通过可量化的指标、可复现的流程以及可积累的进化路径,稳步向临床可用性迈进。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

实战揭秘:顶尖大模型的“滑铁卢”

研究团队运用GAPS框架对GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型进行了系统性评测,结果揭示了当前模型的显著局限:

  1. “百科全书”易做,“专家”难当
    所有模型在G1(事实)和G2(解释)阶段表现优异(例如GPT-5得分约0.72)。然而,一旦进入G3(确定性决策)和G4(非确定性推理)阶段,分数便出现断崖式下跌。GPT-5在G4阶段得分跌至0.45,其他模型甚至低于0.35。这表明当前AI更像是“知识背诵机器”,而非能够进行深度临床推理的“合作伙伴”。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

  1. 不仅要“对”,还要“全”
    在Adequacy(完备性)测试中,模型通常只能给出核心建议(A1),却经常遗漏关键的限定条件(A2),导致其生成的临床建议缺乏实际可操作性。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

  1. 极其脆弱的判断力
    在P3(对抗性测试)中,只要在提问中植入微妙的误导性前提(例如暗示某种错误疗法有效),模型的判断力便会显著下降,甚至可能顺从用户的错误引导。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

  1. 安全隐患浮现
    尽管GPT-5和Gemini 2.5在控制极高风险错误(S4)方面表现较好,但在复杂的推理场景下,部分模型(如Claude Opus 4)的致命错误率会随着任务难度的增加而显著上升。

GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

结语:GAPS是AI医生从“Chatbot”到“Doctor”的必经之路

GAPS框架的发布,标志着医疗AI评测标准从“考试分数”“临床胜任力” 的根本性范式转移。

这项由蚂蚁健康与北京大学人民医院合作完成的工作向行业清晰地表明:现有的通用大模型在面对复杂的临床不确定性时,依然显得稚嫩且脆弱。

未来的医疗AI研发,不能仅仅停留在预训练知识的灌输上,而必须转向循证推理、过程决策控制以及不确定性管理等核心能力的构建。

GAPS不仅仅是一个性能榜单,它更是医疗AI进化道路上的“磨刀石”。只有成功跨越GAPS所设定的这四道核心关卡,AI医生才能真正具备走进诊室的资格与信心。

论文地址:
https://arxiv.org/abs/2510.13734

评测集地址:
https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview

自动化评测框架地址:
https://github.com/AQ-MedAI/MedicalAiBenchEval


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16249

(0)
上一篇 2025年12月29日 下午1:20
下一篇 2025年12月29日 下午2:22

相关推荐

  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    7500
  • RAG系统评测全攻略:五大核心指标与三种方法深度解析

    在构建RAG系统时,如何科学地评测系统效果是每个开发者都会面临的挑战。一个优秀的RAG系统不仅要能检索到相关信息,还要能准确理解用户意图并生成可靠的答案。本文将带你深入了解RAG系统的评测体系,从核心指标到实战落地,帮助你建立起完整的评测方法论。 一、为什么需要科学的评测体系? RAG系统本质上包含三个核心环节:理解用户问题、检索相关文档、生成最终答案。每个…

    2025年10月28日
    7300
  • Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡

    XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…

    2025年11月26日
    11100
  • 大模型评测的演进之路:从静态指标到动态验证(2025)【Benchmarks解读】

    在人工智能快速迭代的今天,大型语言模型(LLM)的能力边界不断拓展。从最初的文本生成,到如今的复杂推理、多模态理解、智能体协作,模型能力的跃升令人瞩目。然而,一个更为关键的问题浮出水面:我们真的知道如何准确衡量这些模型的能力吗? 评测基准的发展轨迹,恰恰映射着整个行业对“智能”理解的演进。本文将系统梳理当前大模型评测的全景图谱,分享在实践中的洞察,并探讨未来…

    2025年11月11日
    8000
  • 美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…

    2026年1月23日
    3300