百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

百川M3 Plus以2.6%幻觉率证据锚定技术,重塑医疗AI可信边界

AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。

百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭借独创的六源循证技术,结合Baichuan-M3基座,M3 Plus的幻觉率降低至2.6%,处于目前公开评测中的全球最低水平。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

全球最低幻觉率

“循证增强医疗大模型”是百川如今的模型主线。循证是一个医学概念,旨在将最佳研究证据、专业经验以及当事人的意愿三者相结合,以做出更科学、可靠的决策。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

此前,百川医疗大模型迭代至M3版本,在OpenAI发布的医疗评测集HealthBench上夺得全球第一。登顶背后的核心技术是Fact-Aware RL(事实感知强化学习)。该技术通过在奖励模型中引入医学事实的硬性约束,让模型在训练阶段就形成了对幻觉的“过敏反应”。在训练过程中,还特别引入了Citation Reward Model,专门惩罚错误引用。

此次发布的M3 Plus,由M3模型与成熟的六源循证技术深度融合而来,将幻觉率进一步压低至2.6%。这个水平已低于目前业内公认的标杆产品,也低于部分人类医生在复杂医学问题上的平均误判率区间。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

然而,如果模型成本过高,医生和医院也难以真正用起来。为此,M3 Plus在工程层面进行了多轮极致优化。通过MoE架构优化、模型量化以及Gated Eagle-3投机解码等关键技术,在严格保证模型能力与可靠性的前提下,实现了API调用成本较上一代降低70%。根据百川给出的数据,相同配置下,Gated Eagle-3相较原始Eagle-3可带来约15%的推理吞吐量提升,从而直接压低单位请求的推理成本。

首创“证据锚定”,模型说的每一句都是据实回答

此前的医疗大模型虽然大多支持标注“文献引用”,但在实际使用中,医生经常遇到“张冠李戴”(引用的文献里没有对应内容)或“内容冲突”(索引的文献不支持AI得出的结论)等痛点。据统计,目前医疗行业常见的引用准确率区间是40%到50%。

针对这一痛点,百川在M3 Plus中引入了证据锚定技术,将循证从理念变成模型必须遵守的结构性约束。与传统“标明引用”的方式不同,证据锚定反过来约束模型:如果一句医学结论找不到能与之精确对应的原始证据段落,这句话就不应该被说出来。

具体实现上,M3 Plus在生成答案时,不仅需要标注文献来源,还必须将每一句关键医学判断,逐条锚定到原始论文、指南或共识中的具体段落。每一个结论,都需要能在原文中找到明确对应。这使得医生可以直接核查AI的每一句话是否真的有原文支持。

引用内容丰富,包括但不限于药品说明书:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

中英文文献:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

以及专家共识等:

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

在训练层面,百川将“证据是否准确锚定”作为独立目标进行建模,通过Citation Reward Model,显式惩罚“张冠李戴”“内容冲突”等情况。这使得M3 Plus的引用准确率从行业普遍的约75%水平提升至95%以上。

面向医疗服务,推出“海纳百川”免费计划

为了让“证据锚定”技术真正落地,百川在将M3 Plus的API调用成本降低70%的同时,同步开启了 “海纳百川计划” 。该计划中,M3 Plus将以API形式永久免费开放给服务医务工作者的机构,包括医疗信息化厂商、医疗教育机构、医学研究项目、垂直创业公司等,不限Token数量。唯一要求是产品需在前台展示“Powered by 百川”,且不得对模型输出进行影响准确性的修改。

百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

目前,国内有上千家医院和数百亿投入的专项工程正在探索AI。“海纳百川计划”这种技术普惠战略,有助于避免行业在底层技术上重复造轮子,也让医生端和医疗软件厂商可以在真实场景中进行多轮反复验证、持续迭代。

百川智能创始人王小川透露,如果全国500万医学工作者都来使用,百川一年预计投入成本约1亿元,“这是我们能接受的”。因为在医疗领域,技术试错的代价往往最终由具体的生命来承担。

对于身处一线、需要应对海量文献和复杂决策的医生与医学生来说,幻觉率从3%降到2.6%这0.4%的跨越,意味着更坚实的专业底气。这种底气不应只停留在实验室,而应该去往最需要它的地方。现在,每一位医生和医学生,都可以通过相关产品体验M3 Plus带来的改变。随着免费开放给行业伙伴,这种证据锚定的专业能力,将在更多真实临床场景里被反复检验。

医疗AI的进步,最终会落到走廊里焦急等待的每一个普通人身上。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19012

(0)
上一篇 2026年1月23日 下午7:43
下一篇 2026年1月23日 下午11:47

相关推荐

  • LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

    当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。 来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic …

    2025年11月26日
    37300
  • 从脑机接口到脑机共生:天桥脑科学研究院尖峰智能实验室开启类脑大模型新纪元

    近日,天桥脑科学研究院在“从脑机接口到脑机共生”主题论坛上正式宣布成立尖峰智能实验室(Spiking Intelligence Lab, SIL),标志着中国在类脑智能与人工智能深度融合领域迈出了关键一步。这一由中国科学院自动化研究所李国齐教授领衔的非营利研究机构,将专注于类脑大模型和脉冲神经网络的研发,旨在探索人工智能与人类智慧的全新融合路径。 尖峰智能实…

    2025年12月15日
    38000
  • 从特征拼接失败到策略共识突破:多模态机器人感知的范式转移

    在机器人技术快速发展的今天,多模态感知融合已成为提升机器人环境交互能力的关键路径。然而,传统方法在处理稀疏模态任务时暴露出的严重缺陷,正推动着研究范式的根本性转变。由伊利诺伊大学香槟分校、哈佛大学、哥伦比亚大学和麻省理工学院联合完成的这项研究,通过《Multi-Modal Manipulation via Policy Consensus》论文(链接:htt…

    2025年12月3日
    36100
  • AI时代编程革命:MoltBot之父的20条哲学,揭示从代码打字员到品味制造者的蜕变

    MoltBot(Clawdbot)在短短数日内迅速爆火,其传播势头甚至超越了此前的Manus。各大厂商争相推出适配方案,对于一个开源项目而言,这样的传播速度实属罕见,其GitHub星数也以前所未有的斜率增长。作为其开发者,Peter Steinberger近日在一档播客中分享了他对AI的深度思考。以下是提炼出的20条核心观点。 [[IMAGE_1]] 关于心…

    AI产业动态 2026年1月30日
    46200
  • DeepSeek估值21天暴涨5倍至3500亿,梁文锋个人出资200亿领投,加速商业化转型

    短短21天内,DeepSeek的首轮估值实现了5倍暴涨,直接攀升至3500亿元人民币! 与此同时,DeepSeek V4.1也被曝定档于6月发布,一切进程都在显著提速。 在本轮融资中,最大的一张支票可能并非来自VC或互联网巨头,而是出自创始人梁文锋本人之手。 据The Information消息,梁文锋个人最高出资额达200亿元人民币,占据了本轮计划融资总额…

    4天前
    26100