在医疗人工智能领域,一个长期存在的核心挑战是如何让AI系统掌握临床诊断的动态本质。真实的临床诊断绝非简单的单轮问答,而是一个复杂的多轮决策过程——医生需要根据不完整的初步信息,提出鉴别诊断假设,然后通过主动选择检查项目来逐步排除或确认可能性,最终在信息充足时做出准确诊断。然而,当前大多数医疗大语言模型(LLM)的训练范式更接近于“开卷考试”,它们基于静态、完整的病历数据进行指令微调,这种模式严重忽略了诊断过程中的交互性和长期策略性。

这种静态训练模式导致现有医疗AI系统难以处理真实诊疗中的三大核心挑战:主动探索(如何主动选择下一步检查)、动态调整(如何根据新的检查结果更新诊断假设)以及适时收敛(何时应该停止检查并给出最终诊断)。为了攻克这一难题,来自上海交通大学人工智能学院、上海人工智能实验室、蚂蚁集团与北京大学的联合研究团队提出了一种创新的端到端智能体训练范式,构建了面向医学诊断的世界模型DiagGym,并在其中训练可自主演进的诊断智能体DiagAgent。
该框架的核心创新在于将诊断过程重新定义为“环境-智能体”的交互系统。在这个系统中,诊断智能体可以在安全可控的虚拟临床环境中反复探索,通过与虚拟病人的交互反馈持续优化自身的动态决策策略。这种设计理念的突破性在于,它不再将AI诊断视为一次性预测任务,而是将其重构为一个需要长期策略规划和主动信息获取的序列决策问题。

研究团队的技术实现分为两个关键阶段。首先,他们基于超过11万份真实电子病历数据,训练了一个条件生成模型DiagGym。这个模型能够根据患者的初始情况和已有的检查记录,实时生成“下一项检查的结果”,构建了一个低成本、安全、可复现的闭环虚拟临床环境。这个环境不仅具有高保真度,还能模拟从典型到罕见的各种诊疗路径,为智能体的交互式训练提供了完美的沙盒。
在虚拟环境构建完成后,团队开始训练诊断智能体DiagAgent。训练过程采用两阶段方法:第一阶段进行监督微调,使用1000条从真实病历中抽取的诊断互动轨迹,让模型学会基本的交互格式和临床语言;第二阶段则通过强化学习,将智能体放入DiagGym中进行多轮实战演练。奖励函数的设计尤为精妙,包含三个关键组成部分:诊断正确性(最终诊断是否准确)、检查推荐质量(推荐的检查是否关键有效,通过F1分数衡量)以及交互轮数惩罚(是否用最少的步骤完成诊断)。

为了全面评估诊断智能体的能力,研究团队还设计了聚焦诊断推理过程的评测基准DiagBench。该基准包含750个经医生验证的病例,提供了中间检查推荐和最终诊断结果。更为创新的是,其中有99个病例由医生手工撰写了973条关于诊断过程的详细评估准则。这些准则带有权重,可以细粒度地评估诊断交互过程的合规性与质量,强调“如何达成诊断”的过程,而不仅仅是“诊断结果是否正确”。
在DiagBench上的实验结果显示,经过强化学习训练的DiagAgent在单步决策场景和端到端多步诊断决策场景中,均显著优于包括GPT-4o、DeepSeek-v3在内的10个代表性大模型,以及两种主流智能体框架。这一结果表明,在交互式环境中进行策略学习,能够赋予模型更强的动态决策与长期诊断管理能力。

这项研究的深远意义在于,它为解决医疗AI的“动态决策困境”提供了全新的技术路径。通过构建虚拟临床环境和强化学习训练框架,AI系统能够学会在不确定性下进行“主动搜证-评估-收敛”的完整诊断流程。这不仅提升了诊断的准确性,更重要的是让AI掌握了临床推理的核心能力——在信息不完全的情况下做出合理决策,并根据新证据动态调整假设。
从技术架构的角度分析,DiagGym框架的成功关键在于其端到端的设计理念。传统的医疗AI系统往往将诊断分解为多个独立模块(如症状识别、检查推荐、诊断生成),而DiagAgent则通过统一的强化学习框架,将这些环节有机整合为一个连贯的决策过程。这种整合使得智能体能够学习到长期的诊断策略,而不仅仅是短期的预测任务。
展望未来,这种“环境-智能体”训练范式有望扩展到更广泛的医疗场景。例如,在慢性病管理中,AI系统可以学习长期的治疗调整策略;在手术规划中,可以模拟不同手术路径的潜在结果;在公共卫生领域,可以训练流行病监测和响应智能体。随着虚拟环境保真度的不断提升和强化学习算法的持续优化,我们有理由相信,真正具备临床推理能力的AI诊断系统将成为现实。
代码、模型和测试数据已全部开源,为后续研究提供了宝贵的基础设施。这项研究不仅推动了医疗AI技术的发展,更重要的是重新定义了AI在复杂决策场景中的训练范式——从被动应答到主动探索,从静态学习到动态演进。
— 图片补充 —







关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7647
