Hulu-Med：开源统一医学视觉语言大模型，破解医疗AI碎片化与透明度困局

2025年11月13日下午5:00 • AI产业动态 • 阅读 483

在医疗人工智能领域，长期以来存在着两大核心挑战：任务与模态的碎片化，以及技术实现的不透明性。传统医学AI模型通常针对特定任务（如影像诊断、病理分析或手术指导）和单一模态（如2D图像、3D体积或文本）进行优化，形成了众多性能卓越但彼此孤立的“专科助手”。这种碎片化架构不仅导致临床应用中需要拼凑复杂系统来处理多模态数据，增加了维护成本，更限制了AI从跨模态关联中进行深度学习和推理的能力。与此同时，许多领先的医疗AI系统在训练数据来源、模型架构和评估细节上缺乏透明度，使得研究社区难以独立验证、监管机构难以评估安全性、临床医生难以完全信任，数据隐私与版权风险也随之加剧。

正是在这一背景下，由浙江大学（吴健/刘佐珠课题组）、上海交通大学（谢伟迪课题组）、伊利诺伊大学厄巴纳-香槟分校（Sun Jimeng课题组）联合阿里巴巴、湖南大学、新加坡A*STAR、中国移动、时代天使、浙江省医学影像人工智能重点实验室等机构提出的通用医学视觉语言大模型Hulu-Med应运而生。该模型首次实现了在单一模型中对医学文本、2D图像、3D体积和医学视频的统一理解，标志着医学AI正从“专科助手”向“全能型选手”进化。Hulu-Med的核心价值在于其“一个模型，看懂医学世界的所有”的设计理念，通过全模态理解、规模化效率与端到端透明三大原则，为医疗AI的发展提供了全新的范式。

Hulu-Med的首要创新在于其前所未有的透明度与开放性。研究团队将透明度置于最高优先级，坚信开源开放是推动医学AI健康发展的必由之路。模型训练完全基于公开可获取的数据集和合成数据，摆脱了对私有、敏感数据的依赖。团队精心构建了目前已知规模最大的开放医学多模态语料库，包含1670万样本，覆盖12个人体主要器官系统和14种主要医学影像模态（包括CT、MRI、X光、病理等60多种具体类型）。面对公开数据中模态覆盖不均、图文对齐质量差、长尾分布显著等挑战，研究团队开发了5种专门的数据合成管线，能够将简短图注扩写为详细描述、为无标注图像生成高质量长文本描述、构建多样化的视觉问答对、生成多语言长思维链推理数据以及为缺乏标注的手术视频生成时序描述。这些高质量的合成数据（总计约286万样本）极大地丰富了训练语料，提升了模型的泛化能力和对复杂指令的理解力。

更关键的是，Hulu-Med实现了端到端全流程开源，公开了详细的数据筛选与合成流程、三阶段训练代码、所有基准测试的评估脚本以及最终训练完成的所有模型权重。这种彻底的开放性不仅有效规避了使用私有数据可能带来的隐私泄露和版权纠纷风险，更重要的是赋能了整个研究社区，降低了高质量医学AI的研发门槛。学术机构及医疗开发者无需依赖私有数据即可复现并定制高性能医学模型，这在30项权威评测中展现出媲美GPT-4.1等闭源模型的优异性能，同时显著降低了GPU训练成本。Hulu-Med在GitHub和HuggingFace上获得的积极反馈，近两周连续在HuggingFace medical trending榜单排名第一，正是对其开放策略的认可。

Hulu-Med的第二大创新在于其医学多模态统一理解架构。该模型首次实现了在单一模型内原生处理文本、2D图像、3D体积和医学视频四种核心模态。传统视觉语言模型通常需要为不同视觉模态设计独立的编码器，或采用将3D/视频数据拆解为2D帧序列的折衷方法，这限制了模型对空间或时间连续性的深度理解。Hulu-Med则通过创新应用旋转位置编码和统一视觉编码单元，另辟蹊径。它采用先进的SigLIP视觉编码器，并将其与二维旋转位置编码相结合，动态编码Patch在二维空间中的相对位置信息，无需预设固定的输入尺寸。通过巧妙设计，模型将图像Patch视为跨所有视觉模态的通用处理单元，使得3D体积数据可视为切片序列、视频数据可视为帧序列，并在统一的Transformer架构内自然地理解其空间或时间上的连续性与关联性，无需引入任何特定于3D或视频的复杂模块。这种统一架构不仅支持任意分辨率的医学影像输入，还天然具备了强大的时空理解能力。

此外，Hulu-Med采用解耦的训练方式，基于独立的视觉编码器与大型语言模型解码器开展持续预训练和后训练。这提供了极大的灵活性，允许研究者根据具体需求轻松替换或升级视觉编码器或LLM骨干（如使用不同规模或能力的Qwen系列模型），无需等待新版本通用VLM出现后再做医学场景后训练。相比于仅仅微调通用VLM的方法，这种“原生”的多模态整合方式更能保证数据使用的透明性，并强化领域特定的推理能力。Hulu-Med的出现，不仅为医学AI提供了统一、透明、高效的解决方案，更为整个行业树立了开源协作、技术民主化的典范，有望加速医疗AI从实验室走向临床应用的进程。

— 图片补充 —