让AI进入医疗领域,必须慎之又慎。
在这一过程中,总有人走得格外激进。2026年2月,路透社发布了一篇令人震惊的调查报道,标题为《As AI enters the operating room, reports arise of botched surgeries and misidentified body parts》。翻译过来就是《当AI进入手术室:手术失误及人体部位识别错误的报告频发》。在美国,医疗设备厂商将尚不成熟的AI引入手术场景,随之而来的误判案例不断增加——系统错误识别了人体部位,机器人辅助手术中也出现了本可避免的操作失误。
医疗器械厂商正争相将AI整合进其产品之中。尽管支持者坚信这项新技术将颠覆医疗领域,但监管机构收到的关于患者受伤的指控却在持续攀升。
在这些直接应用于临床实践的医学AI中,绝大多数都以视觉和图像(视频)识别技术为核心。
在学术界,视频大模型已成为计算机视觉领域竞争最激烈的赛道之一。尽管存在大量成熟的视觉识别大模型,但它们几乎都集中在通用视频领域。当镜头转向手术室时,局面骤然变得复杂。我们仍然面临几个巨大的难题:
通用模型无法专精于医疗领域的任务,而医疗领域并非单一任务种类;医疗领域相关数据严重缺失;大模型在医疗实际任务中的表现几乎无法进行统一评估。
然而,让AI参与医疗领域、提高效率、减轻医院和医务人员负担,意义重大。
来自Global Information的《2026年人工智能(AI)增强型手术影像分析全球市场报告》也预测了AI在医疗领域手术视频分析的增长潜力。
基于人工智能(AI)的手术视频分析市场发展迅速,预计将从2025年的7.3亿美元增长到2026年的9.1亿美元,年复合增长率(CAGR)为24.1%。预计未来几年,人工智能(AI)增强型手术视频分析市场将呈指数级增长,到2030年市场规模将达到21.4亿美元,年复合增长率(CAGR)为23.8%。
令人惊喜的是,全球首个规模最大、性能最强的医疗视频理解领域大模型——元智医疗视频理解大模型(uAI-NEXUS-MedVLM)已正式发布并开源!
这一模型直接解决了医疗视频领域的任务优化、数据缺失及无法评测三大痛点,敲开了大模型在医疗领域大规模应用的大门。
相关研究成果已获得IEEE国际计算机视觉与模式识别会议(CVPR 2026)收录。

- 论文标题:MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
- 论文链接:https://arxiv.org/pdf/2512.06581
- 项目主页:https://uii-ai.github.io/MedGRPO/
- 开源链接:https://github.com/UII-AI/MedGRPO-Code
把「不可解」变成「可解」
过去,让大模型理解真正的临床医疗视频,几乎是一个「不可解」的问题。
医疗视频不仅涉及图像识别,还需要解决空间、时间和语义的复杂性。手术过程中的每个细节都至关重要,任何疏忽都可能带来严重后果。
- 空间维度要求模型精确识别手术视频中各工具、器官和组织的空间位置及其相互关系。
- 时间维度带来了动态性,手术视频不仅是静态图像的集合,还涉及不同动作和步骤的时序变化。
- 语义维度则要求模型具备深厚的医学背景知识,能够理解手术中每个设备和动作的医学意义。
视觉理解的无人区
「空间—时间—语义」的三重复杂性叠加,即使是GPT-5.4和Gemini-3.1这样的通用巨头,在面对真实手术视频时也几乎全面溃败。

图1:在MedVidBench 8项任务上的主要结果。
在实验中,研究团队比较了2025年和2026年的开箱即用基线模型(采用one-shot提示进行评估)、SFT基线,以及在Qwen2.5VL-7B、Qwen3-VL-4B和Qwen3.5-4B上的完整MedGRPO方法。
具体数据很能说明问题。在关键安全视野评估(CVS)任务上,GPT-5.4的准确率仅为16.4%,Gemini-3.1为24.2%,基本上是在瞎猜。在时空动作定位(STG)任务中,预测区域与真实区域的交并比(mIoU)低到可以忽略不计。即便是看起来最「容易」的视频摘要生成任务,在满分5分的情况下,GPT-5.4只拿到3.976分,Gemini-3.1拿到3.737分。
联影智能的研究团队选择了一条突破无人区的全新道路。方案可以概括为三件事:造一把标尺、建一套数据、发明一种训练方法。
MedVidBench:全球公共标尺
要走进广阔的无人区,必须有勇于探索的先行者,建立起最初的标尺。
换句话说,任何领域的进步都离不开统一的评测基准。在其他研究领域,ImageNet定义了图像分类的标准,GLUE奠定了自然语言理解的基础,但在医疗视频理解领域,长期以来连一把「标尺」都没有。
为了探索并便于后来者的研究,研究团队构建了MedVidBench,一个包含53万余条视频-指令对的大规模基准数据集。它覆盖了8个专业医学数据源(CholecT50、CholecTrack20、Cholec80-CVS、CoPESD、AVOS、EgoSurgery、JIGSAWS、NurViD),横跨腹腔镜、开放手术、机器人手术及护理操作等核心临床场景。

图2:MedVidBench概述。(a) MedVidBench的高质量数据管理流程。研究团队将专家知识应用于提示构建,并使用2个VLM(Gemini-2.5-Flash和GPT-4.1)生成高质量文本。(b) MedVidBench包含8个不同的数据集,总样本量为532k,涵盖4个不同的领域。(c) 不同领域中多样化任务示例。
更关键的是,MedVidBench不只是「量大」。它包含了8个不同的数据集,涵盖三个粒度层级:
- 视频级:理解整段视频的全局信息,包含VS(视频摘要)、NAP(下一步操作预测)的任务;
- 片段级:定位和理解特定时间段的内容,包含TAG(时间动作定位)、STG(时空定位)、DVC(密集视频描述)的任务;
- 帧级:对单帧画面进行精细分析,包含RC(区域描述)、CVS(关键安全视野评估)、SA(技能评估)的任务。
这种「视频—片段—帧」的三层架构,完整还原了人类医生观看手术视频时由粗到细的认知过程:从整体流程出发,再聚焦关键步骤,最后审视细节。
数据质量方面,团队设计了一套严格的质量保障流水线:专家引导式提示词工程 + 双模型交叉验证(GPT + Gemini),确保每一条指令-响应对都经过双重把关。数据集分为两个版本——大规模版(53万样本,用于扩展实验)和标准版(5.15万样本,任务均衡,用于高效多任务学习)。
GRPO:好上加好
有了数据,下一个问题是:用什么训练方法最好?
我们知道,在特定任务和数据集上训练大模型,直观的方法是通过监督微调(SFT)。
基于 Qwen2.5-VL-7B 这一基座模型,研究团队在 MedVidBench 上执行了监督微调(SFT),其效果令人瞩目。在全部 8 项评测任务中,该模型的表现全面超越了 GPT-4.1、Gemini-2.5-Flash、GPT-5.4 以及 Gemini-3.1-flash-lite 等主流模型。尤为突出的是,在仅 7B 参数规模下,模型的 CVS 准确率达到了 89.4%,这一数值几乎是 GPT-5.4 的 50 倍;而在 TAG@0.3 的 mIoU 指标上,其表现更是 Gemini-3.1 的 3 倍之多。
然而,SFT 方法本身存在性能天花板。为了突破这一瓶颈,团队决定引入强化学习(RL),旨在进一步提升模型输出的质量。
但标准的 RL 方法在此面临一个致命难题:跨数据集的奖励尺度严重失衡。
不同医疗视频任务的难度差异极为悬殊。例如,在 CoPESD 数据集上,STG 任务的中位 mIoU 约为 0.5;而在 EgoSurgery 数据集中,同一任务的中位 mIoU 却只有约 0.12。如果直接使用原始的奖励信号进行 RL 训练,简单任务的梯度会完全淹没困难任务的信号,导致优化过程失衡,甚至引发训练崩溃。
实验数据也证实了这一点:在不进行归一化处理时,CVS 准确率从 0.894 骤降至 0.020,而 STG 的 mIoU 也从 0.177 跌落到 0.010。
团队的解决方案名为 MedGRPO,其核心包含两项算法创新:

图 3:MedGRPO 概览。(a)展示了包含跨数据集奖励归一化与医疗 LLM 裁判评估的 MedGRPO 框架。(b)对比了使用与未使用奖励归一化训练的模型之间的训练熵变化。
第一项创新:跨数据集奖励归一化(Cross-Dataset Reward Normalization)。
其关键洞察在于“中位数公平性”:所有数据集-任务对的中位性能将获得相等的归一化奖励,从而消除梯度更新中的偏差。团队引入了 Logistic 归一化函数,将每个数据集的中位性能统一映射到相同的奖励值 0.5:

其中 p_50 代表该数据集的中位性能,IQR 为四分位距。这一设计的精妙之处体现在四重保障上:
- 中位公平性:无论绝对难度如何,所有数据集在中位性能处都能获得相同奖励。
- 平滑梯度:Logistic 函数处处可导,有效避免了梯度消失或爆炸问题。
- 离群值鲁棒性:基于 IQR 进行缩放,极端异常值不会扭曲整体分布。
- 有界输出:奖励值被严格限制在 (0,1) 区间内,天然兼容 GRPO 的组归一化机制。
第二项创新:医学 LLM 评审(Medical LLM Judge)。
这堪称整个工作中最具洞察力的部分。团队发现,传统的语义相似度指标根本无法衡量医学描述的临床正确性。前面提到的例子就是最好的佐证:「工具在上方区域抓取组织」与「抓钳在右上象限分离胆囊管」,尽管语义相似度高达 0.82,但医学准确性却天差地别。
为此,团队设计了一套基于 GPT-4.1 的比较评分系统,从五个临床维度进行评判:
- 医学术语精确性:使用的是临床术语还是通俗表述?
- 器械与解剖结构识别:能否准确命名具体的工具和人体结构?
- 描述具体性:给出的是精确细节还是笼统概括?
- 临床上下文感知:是否理解手术流程和安全规范?
- 动作与状态准确性:对手术动作和组织状态的判断是否正确?
最终评分采用混合策略:LLM 评审得分占 50%,传统语义相似度占 50%——这样既能捕捉临床正确性,又能保留整体连贯性。
实际效果
那么,采用了如此完善的数据集,以及团队创新的 SFT + RL 方法,能否彻底改变大模型在医疗视频理解领域只会「瞎猜」的现状呢?
答案自然是肯定的。从前文图 1 中我们已经看到,经过完整训练的元智医疗视频理解大模型,在各项任务中的成绩都远远领先于通用大模型。

图 4:四个模型在 MedVidBench 上 8 个任务的主要结果。
这张多维图像清晰地展示了元智医疗视频理解大模型在 8 个主要任务上的优势,几乎可以称得上是「八边形战士」。
以 GPT-5.4、Gemini-3.1 和 Qwen3.5-4B 为代表的前沿通用大模型则呈现出非常一致的「偏科」问题。然而,即便是在它们最擅长的视频摘要任务中,也依然不敌元智医疗视频理解大模型。

图 5:uAI-NEXUS-MedVLM-1.0a-7B-RL 在奖励归一化和 LLM 判断上的消融研究。
比数据更能让人直观感受到大模型强大能力的,自然是定性对比。在这里,我们选择了画面相对温和的临床护理中「青霉素皮试」操作作为示例:

图 6:临床护理区域描述任务实验结果
仔细观察,对于大模型而言,要对一段时长超过一分钟的视频进行内容识别和理解,尤其是涉及医学专用术语和精准定位的任务,这对即使未经医学培训的人类来说也是极具挑战性的。
- GPT-5.4 的描述虽然详细,但出现了「排除残留空气」等幻觉现象。
- Gemini-3.1-Flash-lite 的结果与 GPT-5.4 类似,但出现了更明显的时间标记错误。
- Qwen3.5-4B 则出现了典型的时间定位偏移,并错误地描述了两次「进行皮内注射」。
uAI-NEXUS-MedVLM-1.0b-4B-RL 的表现则产生了显著的进化。它不仅准确识别了「皮肤消毒」和「皮内注射」的时间位置,还精准描述了人体前臂部位,准确表达了医疗专业术语,并成功描述了细粒度操作过程。
模型的输出已经从表层的动作识别,走向了对护理操作逻辑的流程化深度理解。这种提升说明,模型开始逐步建立起更接近临床视角的视频理解能力。
而且,MedGRPO 具备良好的泛化性。即使在 4B 小模型 + RL 的配置下,多数任务的表现已经超过了 7B 的 SFT 基线。这意味着高效的医疗视频理解不一定需要堆砌参数,正确的训练方法论同样至关重要。
广发「英雄帖」,共建基础设施
通往医疗视频理解领域的标尺已经确立,对这一领域的探索有了评估基准,一切都变得有迹可循。
要想真正让医疗领域的人工智能走向实用,就需要让全行业都来使用这把标尺,共同推进医疗领域 AI 的模型进步和基础设施建设。
团队上线了 MedVidBench 公开排行榜(Leaderboard),并向全球开发者发出正式邀请:任何团队都可以提交自有模型的测试结果,系统将基于统一标准自动评分,动态更新榜单。
这既是一张「英雄帖」,也是一个持续运转的全球竞技平台。开发者提交、系统评分、榜单刷新、排名迭代,形成了一个完整的闭环。

- 排行榜链接:https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
作为领域内首个完善的评测体系,它具有深远的意义:
构建可信的统一评测框架。 在医疗这样一个极度依赖信任的行业,「自说自话」的 benchmark 没有说服力。只有当全球不同机构、不同技术路线的模型在同一套标准下接受检验时,评测框架本身才能获得公信力。MedVidBench 的公开排行榜正是为此而生,旨在打造一个共同认可的「行业标准」,让所有参与者站在同一条起跑线上。
吸引全球开发者参与挑战。 排行榜天然具有竞技属性,而竞争是推动领域进步的最有效引擎之一。当一家医院的研究组、一所大学的实验室、一家创业公司的工程师都能在同一个榜单上看到自己的排名时,这种开放竞技模式在大模型的经典 benchmark 和 Arena 上已被反复验证。
提升国际影响力与信任度。 从更宏观的视角看,一个被全球开发者广泛使用的评测基准和排行榜,意味着打造这一大模型和评测标准的联影智能,正在从「中国的一家医疗 AI 公司」转变为「全球医疗视频理解领域的基础设施提供者」。
写在最后
在医疗 AI 领域,当前的竞争焦点已不再局限于单一模型、某项指标或某次榜单排名,而是技术突破能否持续连接真实临床场景、医学数据体系、算法研究与工程落地的综合能力。
在医疗视频理解大模型领域,元智医疗视频理解大模型首次实现了里程碑式的技术突破。其背后的研发团队,正是长期深耕 AI 领域的创新企业——联影智能。
作为联影集团旗下独立运营的子公司,联影智能专注于医疗数字化与智能化方向的技术创新和商业落地布局,致力于成为全球数智医疗创新的引领者。
去年,联影智能正式发布了面向医疗垂直领域、多模态协同的「元智」医疗大模型(简称:uAI NEXUS)。该大模型由文本、影像、视觉、语音、混合五个大模型组成,作为医疗数智化体系的坚实基座,可针对不同医疗场景输出底层智能。本次开源的视频理解大模型,正是「元智」视觉大模型的重要能力延伸与关键组成部分,进一步拓展了其在动态医疗场景中的理解、推理与决策能力。
为何联影智能能攻克视觉理解这一公认的技术难题?我们认为,这源于长期系统性的投入、多年的技术积累以及业内综合实力的厚积薄发,水到渠成。
第一层:真实临床场景的长期浸润。
联影智能深耕医疗影像与人工智能融合领域多年,在真实临床环境中积累了海量多模态数据与应用经验,并对医院临床需求有深刻洞察。这种基于真实医疗体系长期沉淀的积累,使模型从一开始就具备了「临床可用性」的基因。
第二层:顶会级算法研究的持续输出。
联影智能的研究团队长期深耕计算机视觉与医学影像分析方向,在手术视频理解和多模态大模型等领域拥有深厚技术储备。相关成果已发表于 CVPR、NeurIPS、ICLR、ICCV、ECCV、AAAI 等国际顶级 AI 会议——这意味着团队在方法论层面始终站在领域最前沿。
第三层:从数据源头到模型落地的完整闭环。
这是最关键、也最难复制的一环。团队直接从数据源头入手:对海量公共医疗视频数据进行逐帧级精细标注,精确到每一帧画面中的器械类型、空间位置、手术操作步骤、风险评估等级等核心要素。这种近乎严苛的高颗粒度、多维度标注模式,使模型从训练第一天起就建立起强大的视觉理解基础,并逐步构建出一套覆盖多场景的「感知—推理—决策」完整能力体系。
通用大模型在互联网文本和图像上攻城略地的同时,手术室里的那台摄像机仍在静静地记录着一切。在这里,语言的华丽毫无意义,唯有毫米级的精度和对生命的绝对严肃才是金标准。
未来,元智医疗视频理解大模型也有潜力深入融合具身智能,成为打通医疗影像、临床决策与物理执行的智能枢纽,形成「视觉感知—逻辑推理—物理执行」的完整能力闭环,推动复杂医疗操作迈向全面数字化、结构化与智能化。
医疗 AI 的落地是一场接力赛。联影智能将模型和数据开源,把「接力棒」递到了全行业手里。毕竟,手术刀尖上的事,只有全行业共同努力,才能让 AI 真正从冷冰冰的论文数据,变成手术室里那盏照亮生命的「无影灯」。
参考链接:
https://www.reuters.com/investigations/ai-enters-operating-room-reports-arise-botched-surgeries-misidentified-body-2026-02-09/
https://www.gii.tw/report/tbrc1939265-artificial-intelligence-ai-enhanced-surgical-video.html
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32434

