百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

百川M3 Plus以2.6%幻觉率证据锚定技术,重塑医疗AI可信边界

AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。

百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭借独创的六源循证技术,结合Baichuan-M3基座,M3 Plus的幻觉率降低至2.6%,处于目前公开评测中的全球最低水平。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

全球最低幻觉率

“循证增强医疗大模型”是百川如今的模型主线。循证是一个医学概念,旨在将最佳研究证据、专业经验以及当事人的意愿三者相结合,以做出更科学、可靠的决策。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

此前,百川医疗大模型迭代至M3版本,在OpenAI发布的医疗评测集HealthBench上夺得全球第一。登顶背后的核心技术是Fact-Aware RL(事实感知强化学习)。该技术通过在奖励模型中引入医学事实的硬性约束,让模型在训练阶段就形成了对幻觉的“过敏反应”。在训练过程中,还特别引入了Citation Reward Model,专门惩罚错误引用。

此次发布的M3 Plus,由M3模型与成熟的六源循证技术深度融合而来,将幻觉率进一步压低至2.6%。这个水平已低于目前业内公认的标杆产品,也低于部分人类医生在复杂医学问题上的平均误判率区间。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

然而,如果模型成本过高,医生和医院也难以真正用起来。为此,M3 Plus在工程层面进行了多轮极致优化。通过MoE架构优化、模型量化以及Gated Eagle-3投机解码等关键技术,在严格保证模型能力与可靠性的前提下,实现了API调用成本较上一代降低70%。根据百川给出的数据,相同配置下,Gated Eagle-3相较原始Eagle-3可带来约15%的推理吞吐量提升,从而直接压低单位请求的推理成本。

首创“证据锚定”,模型说的每一句都是据实回答

此前的医疗大模型虽然大多支持标注“文献引用”,但在实际使用中,医生经常遇到“张冠李戴”(引用的文献里没有对应内容)或“内容冲突”(索引的文献不支持AI得出的结论)等痛点。据统计,目前医疗行业常见的引用准确率区间是40%到50%。

针对这一痛点,百川在M3 Plus中引入了证据锚定技术,将循证从理念变成模型必须遵守的结构性约束。与传统“标明引用”的方式不同,证据锚定反过来约束模型:如果一句医学结论找不到能与之精确对应的原始证据段落,这句话就不应该被说出来。

具体实现上,M3 Plus在生成答案时,不仅需要标注文献来源,还必须将每一句关键医学判断,逐条锚定到原始论文、指南或共识中的具体段落。每一个结论,都需要能在原文中找到明确对应。这使得医生可以直接核查AI的每一句话是否真的有原文支持。

引用内容丰富,包括但不限于药品说明书:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

中英文文献:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

以及专家共识等:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

在训练层面,百川将“证据是否准确锚定”作为独立目标进行建模,通过Citation Reward Model,显式惩罚“张冠李戴”“内容冲突”等情况。这使得M3 Plus的引用准确率从行业普遍的约75%水平提升至95%以上。

面向医疗服务,推出“海纳百川”免费计划

为了让“证据锚定”技术真正落地,百川在将M3 Plus的API调用成本降低70%的同时,同步开启了 “海纳百川计划” 。该计划中,M3 Plus将以API形式永久免费开放给服务医务工作者的机构,包括医疗信息化厂商、医疗教育机构、医学研究项目、垂直创业公司等,不限Token数量。唯一要求是产品需在前台展示“Powered by 百川”,且不得对模型输出进行影响准确性的修改。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

目前,国内有上千家医院和数百亿投入的专项工程正在探索AI。“海纳百川计划”这种技术普惠战略,有助于避免行业在底层技术上重复造轮子,也让医生端和医疗软件厂商可以在真实场景中进行多轮反复验证、持续迭代。

百川智能创始人王小川透露,如果全国500万医学工作者都来使用,百川一年预计投入成本约1亿元,“这是我们能接受的”。因为在医疗领域,技术试错的代价往往最终由具体的生命来承担。

对于身处一线、需要应对海量文献和复杂决策的医生与医学生来说,幻觉率从3%降到2.6%这0.4%的跨越,意味着更坚实的专业底气。这种底气不应只停留在实验室,而应该去往最需要它的地方。现在,每一位医生和医学生,都可以通过相关产品体验M3 Plus带来的改变。随着免费开放给行业伙伴,这种证据锚定的专业能力,将在更多真实临床场景里被反复检验。

医疗AI的进步,最终会落到走廊里焦急等待的每一个普通人身上。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19012

(0)
上一篇 2026年1月23日 下午7:43
下一篇 2026年1月23日 下午11:47

相关推荐

  • MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减

    Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

    2025年11月4日
    9000
  • FysicsWorld:全球首个物理世界全模态评测基准,开启AI感知真实环境新纪元

    近年来,多模态大语言模型正经历快速的范式转变,研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容,更要将视觉理解与生成整合进统一架构,实现模态间的协同交互。 这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来,正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

    2025年12月28日
    9000
  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    7400
  • AI Agent架构评测:从实验室到生产环境的Skills解耦工程化实践

    评测盲区:为什么「能用」不等于「可用」? 在大模型评测领域,我们有 MMLU 测知识、HumanEval 测代码、BFCL 测函数调用。但对于 Agent 系统,评测维度往往停留在「任务完成率」这个单一指标上。 这里存在一个评测盲区:我们很少评测 Agent 能力的「可迁移性」和「可工程化程度」。 举个例子:在 Claude Code 环境中,构建了一套完整…

    1天前
    4100
  • LLM应用评测全指南:核心指标、基准测试与实践方法

    手动抽查提示词和输出,既慢又容易遗漏,长期来看难以持续。要确保 LLM 应用上线后稳定可靠,必须将评估过程自动化、流水线化。本文旨在全面解析 LLM 评测的各个方面,帮助你构建长期稳定运行的 LLM 应用。 对 LLM 进行评测,是确保其输出符合人类预期的关键环节,涉及伦理安全、准确性、相关性等多个维度。从工程实践角度看,LLM 的输出可被转化为一系列单元测…

    2025年10月22日
    7900