百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界
AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。
百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭借独创的六源循证技术,结合Baichuan-M3基座,M3 Plus的幻觉率降低至2.6%,处于目前公开评测中的全球最低水平。

全球最低幻觉率
“循证增强医疗大模型”是百川如今的模型主线。循证是一个医学概念,旨在将最佳研究证据、专业经验以及当事人的意愿三者相结合,以做出更科学、可靠的决策。

此前,百川医疗大模型迭代至M3版本,在OpenAI发布的医疗评测集HealthBench上夺得全球第一。登顶背后的核心技术是Fact-Aware RL(事实感知强化学习)。该技术通过在奖励模型中引入医学事实的硬性约束,让模型在训练阶段就形成了对幻觉的“过敏反应”。在训练过程中,还特别引入了Citation Reward Model,专门惩罚错误引用。
此次发布的M3 Plus,由M3模型与成熟的六源循证技术深度融合而来,将幻觉率进一步压低至2.6%。这个水平已低于目前业内公认的标杆产品,也低于部分人类医生在复杂医学问题上的平均误判率区间。

然而,如果模型成本过高,医生和医院也难以真正用起来。为此,M3 Plus在工程层面进行了多轮极致优化。通过MoE架构优化、模型量化以及Gated Eagle-3投机解码等关键技术,在严格保证模型能力与可靠性的前提下,实现了API调用成本较上一代降低70%。根据百川给出的数据,相同配置下,Gated Eagle-3相较原始Eagle-3可带来约15%的推理吞吐量提升,从而直接压低单位请求的推理成本。
首创“证据锚定”,模型说的每一句都是据实回答
此前的医疗大模型虽然大多支持标注“文献引用”,但在实际使用中,医生经常遇到“张冠李戴”(引用的文献里没有对应内容)或“内容冲突”(索引的文献不支持AI得出的结论)等痛点。据统计,目前医疗行业常见的引用准确率区间是40%到50%。
针对这一痛点,百川在M3 Plus中引入了证据锚定技术,将循证从理念变成模型必须遵守的结构性约束。与传统“标明引用”的方式不同,证据锚定反过来约束模型:如果一句医学结论找不到能与之精确对应的原始证据段落,这句话就不应该被说出来。
具体实现上,M3 Plus在生成答案时,不仅需要标注文献来源,还必须将每一句关键医学判断,逐条锚定到原始论文、指南或共识中的具体段落。每一个结论,都需要能在原文中找到明确对应。这使得医生可以直接核查AI的每一句话是否真的有原文支持。
引用内容丰富,包括但不限于药品说明书:

中英文文献:

以及专家共识等:

在训练层面,百川将“证据是否准确锚定”作为独立目标进行建模,通过Citation Reward Model,显式惩罚“张冠李戴”“内容冲突”等情况。这使得M3 Plus的引用准确率从行业普遍的约75%水平提升至95%以上。
面向医疗服务,推出“海纳百川”免费计划
为了让“证据锚定”技术真正落地,百川在将M3 Plus的API调用成本降低70%的同时,同步开启了 “海纳百川计划” 。该计划中,M3 Plus将以API形式永久免费开放给服务医务工作者的机构,包括医疗信息化厂商、医疗教育机构、医学研究项目、垂直创业公司等,不限Token数量。唯一要求是产品需在前台展示“Powered by 百川”,且不得对模型输出进行影响准确性的修改。

目前,国内有上千家医院和数百亿投入的专项工程正在探索AI。“海纳百川计划”这种技术普惠战略,有助于避免行业在底层技术上重复造轮子,也让医生端和医疗软件厂商可以在真实场景中进行多轮反复验证、持续迭代。
百川智能创始人王小川透露,如果全国500万医学工作者都来使用,百川一年预计投入成本约1亿元,“这是我们能接受的”。因为在医疗领域,技术试错的代价往往最终由具体的生命来承担。
对于身处一线、需要应对海量文献和复杂决策的医生与医学生来说,幻觉率从3%降到2.6%这0.4%的跨越,意味着更坚实的专业底气。这种底气不应只停留在实验室,而应该去往最需要它的地方。现在,每一位医生和医学生,都可以通过相关产品体验M3 Plus带来的改变。随着免费开放给行业伙伴,这种证据锚定的专业能力,将在更多真实临床场景里被反复检验。
医疗AI的进步,最终会落到走廊里焦急等待的每一个普通人身上。
— 完 —
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19012
