
时隔九天,在开源新一代医疗大模型 Baichuan-M3 后,百川智能又有了新的发布。
1 月 22 日,百川智能正式发布 Baichuan-M3 Plus。在严肃医疗场景下的问答准确性、可靠性,再次刷新了刚刚推出的 M3 所创下的纪录。
据百川智能介绍,凭借六源循证技术与 M3 基座结合,M3 Plus 将幻觉率降低至 2.6%,低于 Open Evidence;首创 " 证据锚定 " 技术,不仅给出引文来源,还能将模型生成的每一句医学结论,精确锚定到原始论文中的对应证据段落,使 AI 的医学判断真正做到可核验、可追责、可教学。
此外,百川宣布推出 " 海纳百川 " 计划,将循证增强医疗大模型以 API 形式,免费开放给中国医疗服务机构。
据百川智能创始人、CEO 王小川介绍,作为百川拓展低幻觉技术路线的实践,M3 首创的 Fact-Aware RL 的强化学习范式,使底座模型在无工具的设定下,幻觉也能大幅降低到 SOTA 水平。
在此基础上,M3 Plus 将 M2 Plus 模型已验证有效的六源循证范式,引入模型训练和推理过程,确保模型的每条建议都有专业医学证据支持。最终,M3 Plus 的事实性幻觉降低到新的 SOTA,仅 2.6%,相较 GPT-5.2 大幅下降超 30%。即便与行业标杆 Open Evidence 相比,M3 Plus 也完成了超越。
相比 " 说得像不像医生 ",临床更关心的是:这句话,究竟依据哪篇论文、哪条指南、哪一段原文。当前行业中,无论是通用大模型还是医疗模型,大多已支持 " 文献引用 " ——在结论后标注论文或指南来源。
但在实际使用中,医生往往会发现:点开引文,依然无法判断 AI 的这句结论究竟源自哪一段证据。更常见的问题是两类:一是 " 张冠李戴 ",引用编号存在,但文献内容对不上;二是 " 内容冲突 ",文献本身正确,但被引用的段落与结论并不匹配,甚至存在拼接、误读。
针对这一问题,百川 M3 Plus 提出了 " 证据锚定(Evidence Anchoring)" 技术,不是简单标注 " 引用自哪篇文献 ",而是要求模型生成的每一句医学结论,都必须精确对应到原始论文或指南中的具体证据段落。每一句判断,都能被逐字溯源、逐条核验。
为实现这一目标,百川将 " 证据锚定 " 作为独立训练目标,引入 Citation Reward Model,对错误引用进行明确惩罚,让模型只能在 " 确实有证据支持 " 的空间中推理与生成。最终,结论与证据段落的匹配准确率超过 95%,真正让 AI 的医学判断做到可核验、可追责、可教学。
此外,M3 Plus API 调用价格较上一代模型大幅降低 70%。百川全面开放 M3 Plus 的技术能力,API 限时免费体验 15 天,所有开发者均可申请使用。
以下是王小川在媒体沟通会的对话实录,经钛媒体编辑整理:
Q:海纳百川计划,API 你们免费开放,这是一笔多大的支出?
王小川:要是全部临床医生都使用 AI,我们觉得一年的成本也就是 1 亿左右。中国现在有 500 万的医学工作者,我们认为这种成本是可接受的,带来的行业变化会非常大。
Q:主要目的就是想让大家用起来是吗?
王小川:要让大家享受到今天世界上最好的模型,就是看到和体验。不只是我们一家能用上,海纳百川就是让行业 " 大海 " 中更多的机构都能够做好医学服务。国家去年就一直在倡导 AI+ 医疗,但今天美国跑得比我们快,医生都在使用 OpenEvidence,ChatGPT 可以让 2 亿患者用到,中国需要追赶上去,由于国情不一样,需要更多的机构参与,不管是厂商还是院外的服务,社会主义就是能够共创,我们认为这是应该承担的一种方式。
Q:海纳百川计划主要是面向机构,基层特别是三四线城市的医生对于 AI 不是很了解,产生了很多可能被 AI 替代的忧虑,对于这些基层医生个体,怎么想办法让他们用起来?有没有什么让他们加入计划的措施?我们知道美国 OpenEvidence 主要是向医生收费,但中国的医疗体系跟他们完全不一样,医生恐怕很难自己付费,将来 To C 的营收模式怎么建立?
王小川:我们对机构的要求就是机构本身服务医务工作者,所以这是我们的限定。今天患者付费或者生命模型涉及的药物研发更加长期,只要能够把医疗水平提上去,让患者受益,不管是患者还是药厂都能够得到新的商业模式,并不是向医生收费,其实之前向医院、医生收费的商业模式已经被证明是不成立的。
Q:现在有多少医生在使用你们的专业版产品?AI 深入到他们工作中的哪一步?
王小川:我们看到医生的留存率还是蛮高的,更多的是年轻的医生在使用,更加拥抱 AI,确实也有很多不懂的事情,面对需要决策场景的时候真正需要的是一个专家跟自己一起来做,但没有那么多专家,AI 就充当了很好的角色。我们看到非常有意思的 Case 就是医生说 " 我认为我的主任说得不对,这个病人不应该转院,我还有几分钟跟主任讨论,你给我一些证据支持我 ",就是类似这样的场景。可以看到非常负责任、非常上进的年轻医生对于自己有很高的要求,需要更先进的工具支持,我们的服务是给他们提供帮助,最终还是患者受益。
Q:你们跟儿童医院、肿瘤医院合作的话,这一部分的 AI 应用是处于什么阶段?哪些事情 AI 能够做到,哪些事情 AI 做不到?
王小川:去年我们就在医院里面部署系统,肿瘤属于皇冠上的明珠,我们已经在和医院深入合作,不仅推动医院的使用,甚至把百川作为药厂进行 Clinical Trial,就是注册开展研究,下次我们会再和大家分享这方面的进展,我们在最硬核的医学学科会有新的突破。
Q:API 会不会成为比较重要的竞争入口?刚才提到价格降低 70%,要是抛开免费计划的话,你们的成本在行业大概是什么水平?
王小川:API 开放是我们战略的一部分,一方面是让行业有更多伙伴们,共同来服务医生,另一方面是改善医患关系,所以通过医生可以直接服务患者。我们跟其他厂商的想法不太一样,终极目标是解决改善医患关系,开放目的也是让医疗机构拥抱 AI,带来一些快速的理解,有利于医生与患者共同做好服务关系。国内没有我们这种做法,我们的重点主要是改善医患关系。
Token 的成本是比 DeepSeek 更低,但是幻觉会引入额外的计算,同样的 Query 其实是比 DeepSeek 更贵,但医疗场景就不应该和 DeepSeek 对比。
Q:免费时间有大概的预期吗?
王小川:对于加入海纳百川计划的机构,我们是永久免费的,可以得到完整的生态服务。
Q:有没有可能不用其他的,只用 API?
王小川:可以,我们是整体性考虑,医生拥抱以后就会产生一种信任和好感,要是医生都使用这种引擎,对于药厂和患者就有了更多的背书和触点。
Q:刚才您提到百川医疗路线是想要改善医患关系,上周 M3 更加强调患者,就是让大家更加明明白白看病,而这周更加突出医生医院,您也提到以后会进入制药环节,目前哪一条线路是以后会一直持续的主线?
王小川:我们的布局是很完整的,今天不会完全公开背后的思路,但 M3 不是给患者的,M3 属于开源模型,本身就是为行业赋能,M3 Plus 是前进了一步,能够更好地为医生、行业机构提供服务,再往下就会接触患者,不断地为大家公布产品。今天医疗本身就是有患者、医生、药械、科研的整体,医学是一门不发达的科学,需要大量的数据积累才能提升医学性能,包括药物的有效性评价。
只有在行业中串联起来,我们有足够多的解决医学真实世界的痛点以后,我们就能够更好地帮助制药,因此要在真实世界使用才能获得数据。药厂的研发大概会有 12 亿美金,十年时间研发一款药物,只有 10% 的成功率,大部分的钱都是花在临床,所以临床就需要引入医生和患者,AI 就是辅助真实世界。
Q:百川 API 平台已经推出了很久,M2、M2 Plus 都有 API 服务,你们主要的客户群体是哪些类型的机构和企业?医疗教育机构?医院还是高校?占比是多少?API 服务的量级是怎样的?
王小川:M2 本身就有医院在使用,也有一些是给医生提供科研能力的中小型企业,我们觉得还没有分析占比,M3 Plus 发布以后结构可能会有很大变化,无论是降价还是合作伙伴关系。原来通用集团也是我们的用户,我们认为科研、临床都会有使用。今天正好是一个分水岭的起点,M3 Plus 就是足够在医疗临床可用的状态。
Q:要是跨过这个分水岭,应用的场景会不会催生新的用途?
王小川:去年 DeepSeek 发布,今天美国也开始纷纷拥抱医疗,所以去年算是一个元年和松土,今年是 AI 进入医疗的关键一年。
Q:最近国内国外的几个大佬对于 AGI 这个事情并没有达成共识,您深耕医疗领域很长时间,AGI 和造医生的关系是什么?有没有什么观察和思考?
王小川:大家应该会验证我们的观点是正确的,之前我们的观点都在被验证,包括共情、低幻觉、多模态、强记忆,这些都跟医生的需求一致。大家没有共识的使用,可以引用哈萨比斯的分类方法,弱 AGI,强 AGI、ASI。弱 AGI 就是能够取代大多数今天人类的职业,可能写代码就是一个很大的辅助。
医疗行业要是能够达到跟医生同样的水平,也能够上岗,代表着对于人类职业的 Benchmark。AI 和代码是两个很好的场景,甚至 AI 比代码更加复杂。强 AGI 就是达到人类顶尖水平,就像爱因斯坦、贝多芬。ASI 就是人类不能企及的了,所以要和人类职业和个体进行对比。
Q:您认为什么时候能够达到这种水平?
王小川:具身智能做手术会晚一点,要是表达、察言观色的话,应该是三年以内。
Q:刚才您提到美国医生对于 AI 的拥抱更快,中国比较偏保守,主要是因为模型层面的差别还是其他原因?
王小川:不是模型层面,我们的模型水平应该是超过 OpenAI 的,主要有几个原因:今天中国医生的工作环境不一样,中国医生太忙了,美国医生可能一天看十个病人,中国医生要看上百人,每个患者只有三五分钟时间,所以美国医生可以闲下来好好用 AI,他们是预约制,头一天就知道第二天谁来看病,中国医生要用 AI 的话就会难很多。中国没有像美国那么真实地表达进展,就像我们发布一个模型,我们说好的话大家都不信,美国人说大家才信。
不管是公司还是媒体,很多时候没有那种求真的状态,假的东西太多了,真的东西出来也难以快速取得信任,成本就会高很多。医疗行业需要大家更加真诚地评价表达自己真实的状态,发布 M2 的时候,我们说比 GPT5 要差,高于市面上的开源模型,我们真的是这样想、这样做、这样说,M3 超过 GPT5 就是真正超过,M3 Plus 幻觉真的低于 OpenEvidence,但友商会说他们跟 DeepSeek 一样,其他厂商幻觉比 OpenEvidence 多 2-3 倍,大家不是真诚地拥抱这种环境,导致进展慢很多,会有很多新的成本产生。
一些行业媒体说是某些模型完败百川,其实不是认真严肃的,就像手机和汽车行业的黑公关很多,医疗行业同样有这种现象。张文宏说的是 AI 不能服务腰部医生,头部医生可以用。大家习惯了真实环境,医生造模型是挺扯的,都是更加相信国外,国内应该更加良性竞争,把医疗行业做得更真实,这样速度才会加快,否则就会有很多 " 皇帝的新衣 "。
Q:因为现在推理成本更高,为什么引入外部工具降低幻觉?
王小川:必须以模型为核心加上循证方式,我们力所能及走到今天,已经是最优的道路了,要是有更好的技术方式,可以跟我们讲一讲。
Q:站在医院的角度,很多医院要求提质增效,包括门诊量、出诊量的要求都有提高,很多年轻医生都在习惯使用,现在也在开展垂直专科和联合诊疗。MDT 可能是接到一个需求,但不敢要求会诊,可能是先做分析,某个专科医生做不到全部专科,需要医疗 AI 模型的帮助。百川未来有没有可能针对医务工作者做到垂直专科细分,包括多学科联合诊疗分析,可能在固定场景下使用你们的产品,第一时间找到自己的诊断方向和问题?
王小川:MDT 一般都是大专家来做,对于 AI 的拥抱度不够,可能是我们自己的宣传和产品不匹配,但现在已经够用了,关键是怎么做到场景。我们是敦促行业伙伴更多地理解和使用这样的系统,所以要看其中有没有问题。
Q:一个比较极限的问题,刚才在说百川推出海纳百川计划,帮助医生进行医学诊断,要是在 AI 辅助的情况下出现了罕见的疑难杂症和诊断问题,可能就会考虑责任和风险应该怎么控制。就像自动驾驶行业一样,现在都在讲 L2 是很安全的,但要是出了问题,责任方怎么判定?
王小川:按照今天的现行法规,模型是不能直接给出最终诊断的,因此权力和责任都是医生的,医生可以一起负担责任。美国已经开始有了一些进步,犹他州可以直接让 AI 开出处方药,所以这是我们可以学习的。
Q:美国 AI 医疗的 OpenEvidence 商业模式就是通过聚集庞大的医生用户,然后通过药企营销取得收入,取代部分医药代表的角色,百川有没有这方面的计划和想法?
王小川:应该会有一些不一样,需要符合中国国情。就像现在药厂打广告本身是不被允许的,通过学术会议进行营销,我们有机会渗入进去。
Q:您之前提到 AI Coding 和医疗两个领域有些共性,最近也有推出医疗工具,未来医疗领域会不会有代码这样的商业机会和市场机遇?
王小川:中国和美国会不太一样,最近的两个 API 都是给医院服务,所以医院提效大概 2000 多亿美金,中国并不存在这样的市场空间,所以必须通过符合中国国情的方式获取价值回报。
Q:您也比较关注 AI 制药,重点放在临床招募患者阶段,前端分子发现这些方面有没有计划?
王小川:我们不是做招募,而是药效评价、药物伴随、Digital Companion 的体系提高药效,变成提高药物疗效的一部分。
Q:就是精准医疗的概念?
王小川:没错。
Q:真实医疗场景的幻觉有没有一个可接受的值?是不是低于人类医生平均误诊率?其实每次发布都是在和人类医生比较,包括问诊能力和误诊率,对标的是基层医生、全科医生还是专科医生的能力?
王小川:全科、专科和基层我们都会判断,但概率多低是医院接受的事情,不是百川能够判断的,就像无人驾驶出一例事故可能就是特别大的事情,虽然人类司机的事故率远远高于无人驾驶。我们是先给医生辅助,再给患者建议。以前大家要是用百度看病,医生直接把你赶出门,现在医生已经开始接受通过 DeepSeek 讨论,所以未来两三年接受度会有很大的提高,就是从国家政策到行业伙伴共同努力的事情。
Q:海纳百川计划应该是想跟医生做朋友,但 AI 医疗可能会让医生焦虑,你们的生态有没有针对医疗工作者,既能够改善医患关系,又能够把蛋糕分得比较均衡,从而把医疗效率提高?
王小川:焦不焦虑跟技术没有什么关系,没有 AI,医生也会焦虑,比如别人比自己晋升更快,所以焦虑的问题我们解决不了,也不是 AI 能够解决的。更多的是要有沟通机会,能够让医生用好,所以我们要有合作伙伴共创,可能 " 上船 " 以后就不焦虑了。现在一边说 AI 有问题,不能干这个不能干那个,一边又在焦虑,这个谁管得了?医生要接受 AI 有些方面比他们强,有些方面比他们弱,真实了就不焦虑了。
Q:你们模型训练对齐的挑战是什么?因为现在模型还不能踩诊疗结论这条红线,不能给出太准确、太激进的答案,但也不能太保守,不然就没用了。
王小川:我们给医生的都是安全的,医生已经把关之后,AI 再给出提醒,明显是有意义的,但是不踩红线。
Q:训练过程还是要靠人类标注吗?怎么保证不会完全踩诊疗的红线?
王小川:医生使用可以给诊疗结果,由医生最终决策判断;但患者使用,不可以给结果,涉及各个场景覆盖,不同的问题就是要有不同的结论。
Q:你们 API 向医疗开发者开放,具体会有什么二次创新,最终让患者受益?有没有代表性的案例?感觉医疗应用不像娱乐那么有感知。
王小川:我们希望能够有好的案例,今年是特别好的一年,就是技术 Ready,希望医生不要自己造模型,更多的机构可以有更多的对话,更好地帮助医生。
Q:之前不是用专业厂商的模型,非要自己做模型的原因是什么?
王小川:我也不知道。
Q:据说今年你们还会推出两个产品,整体是免费的,但里面会包含收费的模块,你们是针对患者还是针对医院和医生?
王小川:针对患者,收费不会针对医院和医生。
Q:但是医疗模型在中国这样收费可能是比较困难的事情。
王小川:患者要为自己的健康负责,现在主要是没有好的产品供给,要是有的话,他们是有付费意愿的,以前没有创造更大的共计价值,不能拿过去的经验来看今天。
Q:但是就个人的经验来说,要是有健康问题,可能不是很信任 AI,特别是收费的情况下,宁愿更加相信医生一点。
王小川:因为你没有需求,有需求就会相信了。还是你太健康了。
Q:你们的竞品也很多,怎么占领用户心智?大家用起来,你们就要在前端做很多工作。阿福可以和支付宝、医保联动,也可以有保险参与,你们有没有考虑跟有资源的伙伴合作?
王小川:我们现在更多的是要把模型做得更加专业,因为有大量的模型数据,不是当成互联网产品来做研发,能够让医生和患者体验到我们是更加负责任、更加有医学推理、更加低幻觉,就像小朋友上学找最好的学校,去医院看病找最好的医生。
Q:目前同类产品都在争夺医院入口,可能以供应链入场,阿里健康也发布了相关产品,对于医院和医生来说,可能通过技术是比较难做的事情,你们会怎么介绍自己的产品?
王小川:我们就是医生版的最强 ChatGPT 或者 DeepSeek,用过的都觉得挺好的。(作者|李程程,编辑|李玉鹏)