百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

百川M3 Plus以2.6%幻觉率证据锚定技术,重塑医疗AI可信边界

AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。

百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭借独创的六源循证技术,结合Baichuan-M3基座,M3 Plus的幻觉率降低至2.6%,处于目前公开评测中的全球最低水平。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

全球最低幻觉率

“循证增强医疗大模型”是百川如今的模型主线。循证是一个医学概念,旨在将最佳研究证据、专业经验以及当事人的意愿三者相结合,以做出更科学、可靠的决策。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

此前,百川医疗大模型迭代至M3版本,在OpenAI发布的医疗评测集HealthBench上夺得全球第一。登顶背后的核心技术是Fact-Aware RL(事实感知强化学习)。该技术通过在奖励模型中引入医学事实的硬性约束,让模型在训练阶段就形成了对幻觉的“过敏反应”。在训练过程中,还特别引入了Citation Reward Model,专门惩罚错误引用。

此次发布的M3 Plus,由M3模型与成熟的六源循证技术深度融合而来,将幻觉率进一步压低至2.6%。这个水平已低于目前业内公认的标杆产品,也低于部分人类医生在复杂医学问题上的平均误判率区间。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

然而,如果模型成本过高,医生和医院也难以真正用起来。为此,M3 Plus在工程层面进行了多轮极致优化。通过MoE架构优化、模型量化以及Gated Eagle-3投机解码等关键技术,在严格保证模型能力与可靠性的前提下,实现了API调用成本较上一代降低70%。根据百川给出的数据,相同配置下,Gated Eagle-3相较原始Eagle-3可带来约15%的推理吞吐量提升,从而直接压低单位请求的推理成本。

首创“证据锚定”,模型说的每一句都是据实回答

此前的医疗大模型虽然大多支持标注“文献引用”,但在实际使用中,医生经常遇到“张冠李戴”(引用的文献里没有对应内容)或“内容冲突”(索引的文献不支持AI得出的结论)等痛点。据统计,目前医疗行业常见的引用准确率区间是40%到50%。

针对这一痛点,百川在M3 Plus中引入了证据锚定技术,将循证从理念变成模型必须遵守的结构性约束。与传统“标明引用”的方式不同,证据锚定反过来约束模型:如果一句医学结论找不到能与之精确对应的原始证据段落,这句话就不应该被说出来。

具体实现上,M3 Plus在生成答案时,不仅需要标注文献来源,还必须将每一句关键医学判断,逐条锚定到原始论文、指南或共识中的具体段落。每一个结论,都需要能在原文中找到明确对应。这使得医生可以直接核查AI的每一句话是否真的有原文支持。

引用内容丰富,包括但不限于药品说明书:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

中英文文献:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

以及专家共识等:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

在训练层面,百川将“证据是否准确锚定”作为独立目标进行建模,通过Citation Reward Model,显式惩罚“张冠李戴”“内容冲突”等情况。这使得M3 Plus的引用准确率从行业普遍的约75%水平提升至95%以上。

面向医疗服务,推出“海纳百川”免费计划

为了让“证据锚定”技术真正落地,百川在将M3 Plus的API调用成本降低70%的同时,同步开启了 “海纳百川计划” 。该计划中,M3 Plus将以API形式永久免费开放给服务医务工作者的机构,包括医疗信息化厂商、医疗教育机构、医学研究项目、垂直创业公司等,不限Token数量。唯一要求是产品需在前台展示“Powered by 百川”,且不得对模型输出进行影响准确性的修改。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

目前,国内有上千家医院和数百亿投入的专项工程正在探索AI。“海纳百川计划”这种技术普惠战略,有助于避免行业在底层技术上重复造轮子,也让医生端和医疗软件厂商可以在真实场景中进行多轮反复验证、持续迭代。

百川智能创始人王小川透露,如果全国500万医学工作者都来使用,百川一年预计投入成本约1亿元,“这是我们能接受的”。因为在医疗领域,技术试错的代价往往最终由具体的生命来承担。

对于身处一线、需要应对海量文献和复杂决策的医生与医学生来说,幻觉率从3%降到2.6%这0.4%的跨越,意味着更坚实的专业底气。这种底气不应只停留在实验室,而应该去往最需要它的地方。现在,每一位医生和医学生,都可以通过相关产品体验M3 Plus带来的改变。随着免费开放给行业伙伴,这种证据锚定的专业能力,将在更多真实临床场景里被反复检验。

医疗AI的进步,最终会落到走廊里焦急等待的每一个普通人身上。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19012

(0)
上一篇 2026年1月23日 下午7:43
下一篇 2026年1月23日 下午11:47

相关推荐

  • 摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖:3D高斯溅射重建效率突破性提升

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成果标志着该公司在下一代图形渲染技术领域取得了重要进展。 3D高斯溅射:图形渲染技术的范式变革3D高斯溅射(3D Gaussian Splatting)是2023年提出的一种革命性…

    2025年12月19日
    57900
  • 突破文本桎梏:C2C通信范式如何重塑多智能体协作效率

    随着大语言模型在代码生成、数学推理、视觉理解及边缘计算等垂直领域的深度渗透,多智能体系统正成为处理复杂场景任务的关键架构。传统基于文本对话(Text-to-Text,T2T)的协作模式,虽在基础任务中表现尚可,却在面对高维语义传递时暴露出根本性缺陷:信息在文本压缩过程中大量流失、自然语言固有的模糊性导致指令歧义、以及逐token生成机制引发的通信延迟。这些瓶…

    2025年10月29日
    36700
  • ICLR评审重置风波:AI顶会机制在漏洞冲击下的系统性反思

    近日,国际表征学习会议(ICLR)因审稿系统漏洞引发的“开盒事件”持续发酵,官方宣布将所有论文的领域主席(AC)重新分配,并将所有审稿意见与评分重置回讨论前状态。这一决定在国内外AI社区引发轩然大波,不仅暴露了学术评审流程的技术脆弱性,更引发了关于AI顶会评审机制公平性、效率与可持续性的深层讨论。 从技术层面看,此次事件源于审稿系统漏洞被少数作者恶意利用,导…

    2025年11月29日
    39900
  • 600亿美元!马斯克旗下SpaceX收购编程神器Cursor

    那个神话与争议并存的编程神器Cursor,现在要改姓“马”了。 马斯克旗下的SpaceX通过X账号官宣,将以600亿美元的价格收购Cursor。 该推文也被Cursor CEO Michael Truell转发,他表示:“很高兴能与SpaceX团队合作,共同扩展Composer的规模。” 600亿美元,是什么概念?这个数字比Cursor去年11月的估值整整翻…

    2026年4月22日
    22200
  • AI大模型周报:蚂蚁Ring-2.5-1T开源、OpenAI发布GPT-5.3-Codex-Spark、字节跳动多模态模型全面升级

    2月11日 【开源】 蚂蚁集团旗下团队 inclusionAI 发布 Ring-2.5-1T,这是 Ring-1T 的升级版本,核心特性可概括为“快、深、长”。其生成效率提升超过 3 倍,访存开销降低 10 倍;具备国际数学奥林匹克竞赛金牌级别的深度思考能力,并能连续工作 2 小时编写出迷你操作系统。该模型采用 MIT 协议完全开源。 模型详情:https:…

    2026年2月16日
    29800