
1月13日,百川智能正式开源新一代医疗大模型Baichuan-M3。
在全球权威医疗AI评测HealthBench中,Baichuan-M3以65.1分的综合成绩位列全球第一;在专门考验复杂决策能力的HealthBench Hard上,以44.4分的成绩夺冠。
这一成绩刷新了HealthBench的最高分,首次在医疗领域实现了对GPT-5.2的全面超越。在低幻觉领域,M3也实现了超越,幻觉率3.5全球最低。

M3还首次具备了原生的"端到端"严肃问诊能力。它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。
从月初OpenAI发布ChatGPT Health,到今天(1月13日) Anthropic推出Claude for Healthcare,AI医疗正在全球范围内提档加速。
强化学习是过去一年新一代Scaling Law的技术中轴。在M2发布后的五个月里,百川智能对强化学习系统进行了升级,将原本以患者模拟器和静态Rubric为主的半动态反馈,升级为随模型能力不断演进的全动态Verifier System。
随着监督信号持续变细、变难,模型不断突破能力上限,M3在复杂医学问题上的表现实现跃迁,在HealthBench总分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。
2025年8月,百川开源医疗增强大模型M2在HealthBench Hard上取得34.7分的成绩,仅次于GPT-5,成为全球唯二突破32分的模型。
在大多数场景,大模型幻觉只是体验问题,而在严肃医疗场景可能导致安全事件,这也对AI医疗的普及和医患信任建立带来很大困扰。
百川M3将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将"知之为知之,不知为不知"直接作用于模型自身能力的形成过程。
这一新的训练方法将医学事实可靠性内化为M3自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。
通过将事实一致性约束融入训练流程,M3重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2。
除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。
2025年行业的技术共识是,用户提供更完整的上下文,模型才有更好的表现。而在医疗领域,患者很难完整表达自己的病症,需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。
在Baichuan-M3媒体沟通会上,百川智能创始人、CEO王小川表示,当前大模型在医疗场景的短板在于,患者描述不完整,模型须具备"主动提问"能力,以收集足够信息支持决策。
应用实践中,通过prompt"你是一位经验丰富的医生",激活模型的"角色扮演"是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。
针对这一行业困境,百川智能提出了"严肃问诊范式"与"SCAN原则",通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地"白盒化"。

医疗应用"百小应"已同步接入M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。
在沟通会上的交流环节,王小川直言,数据不是核心,很多医疗模型不知道自己在做什么,他更看重算法与评测体系的重要性。
王小川预判,医疗AI未来巨大的增量是在院外,不在院内。他认为,医疗AI更多的是服务患者,而非替代医生,可以推动"医患权力让渡"。百川智能目前已与药企、医院合作,未来商业化是To C导向,通过辅助决策和健康陪伴等方式实现。
以下是媒体沟通会的对话实录,经钛媒体编辑整理:
Q:刚才讲到你们可以解决很多幻觉的问题,可以在多大程度上导致智能一定程度上损耗?大概会损耗多少?怎么解决这个问题?因为这次是语言模型,我们知道主战场还是多模态比较重要,有没有相关的进展披露?怎么看二者之间的关系?
王小川:这就是有用和有害的平衡,算法需要把二者拿捏才能做到综合评分很高。HealthBench就是降低有害,提升有用。多模态主战场这个话我是不认同的,我们2023年就提到语言是自己的中轴,ChatGPT发布的时候,大家最震撼的就是掌握智力。智力是把不抽象的事情变成抽象事情的能力,所以符号才是核心。
类比即智力,因此在这种逻辑下主要有三种语言:自然语言、数学语言、代码语言,都是形式语言。之前的数学家讲过数学是用相同的事情刻画不同的事情,Give the same name to different things,所以符号和语言才是中轴。
到目前为止,评判某个公司的模型能力强不强都是以符号作为基础,可用性很强并不代表智力很高。现在医疗领域很多都是决策问题,并不只是图像问题,否则看片子就行了。以后医院看片子会由小模型来做,很多厂商都有图像引擎,符号化以后再用语言开展推理工作。感知模型和认知模型需要结合,可见的时候就是把影像变成报告和诊断模型,最近还有胰腺癌频扫CT模型,相比智力模型属于树上挂着的小叶子,不是主战场。
Q:所以你们多模态会用偏小的参数去做?
王小川:会的,下次我们就会发布和图像相关的模型,就是医疗图像诊断做到SOTA的水平,M3只是更小的课题。
Q:要是做得更小的话,是不是背后更重要的是数据采集?
王小川:图像模型对于高质量的数据依赖度更大,因为有高精度的图像数据,很多都是院内收集的。今天的语言模型是知识Knowledge,更多的就是论文里面的,医生只是把这些知识变成科研题目,就是从专利库变成论文。
可能有个反常识的地方,大家觉得需要依赖院内的高质量数据,把医院的高质量数据转化成知识,然后在论文里面萃取这些信息才是关键。这跟上一代的图像方法是不一样的,图像不是搬出来的,知识是搬出来的。
Q:联影也提到多模态数据很难出院,怎么看院内数据的处理?
王小川:主要是两个要点:一个是技术,一个是场景。我们认为未来巨大的增量是在院外,不在院内,院内更多的是做手术、执行、挂水的地方,Planning就在院内,不是帮医生在院内搞事儿,空间本身是有限的,我们并不鼓励把场景放在院内,写个病历、做个质控,这些都不是未来的主流方向。
最重要的是帮到患者,隔山打牛。今天大家总是讲数据不够,投了上千亿,去年发布了500款医疗垂直大模型,但今天大家有感觉吗?美国已经把两件事情做完了:OpenEvidence,很多医生都在用这款产品辅助诊疗,让安全性和准确度提升了很多,ChatGPT马上就要接入健康数据,2.3亿人很快就可以直接受益。
原来提到的数据范式、场景范式都会有点问题,已经运行了一年,继续运行又能怎么样?我们强调AI直接产生作用是在院外,上一代是以医生为中心的服务模式,距离AI的本质是远的。我们强调技术红利是发生在智力上,不是发生在图象识别上,图象识别不代表智力,只是做题家手里的活儿。
Q:智能的上限多了以后,某种程度上可以弥补数据整体不足的问题?
王小川:智力是本质问题,不是弥补数据不足。数据很重要,但在大模型行业没有成功案例,大家都搞错了。我们没有公开这样讲,要是这样讲的话得罪人太多了。大家都在提数据很重要,但只是传阅的概念,没有人做成功过。
Q:AI医疗的主要场景是在院外,不是在院内,这是什么逻辑?
王小川:我觉得那个院士有他的道理,就是屁股决定脑袋,他的位置在那里,但医疗是为谁服务?最终还是要为患者服务,所以需要局部最优解。根本问题是医生不够,医学不发达,患者是受益方,但没有决策权,居家服务太少。我们老是说患者是自己健康的第一责任人,但AI都是帮医生的,不是帮患者的,总是隔山打牛,这样对吗?
我们觉得自己不行,所以要求医生赋能给我们。最终总是要服务个人,因为医生的利益也不太一致,医生主要就是写论文,这是他们的主要诉求。OpenEvidence确实让医疗效果提升了很多,因为他们习惯用辅助系统,中国医生不习惯,因为很忙,没有时间去用,而且用不用对于他们评职称写论文有帮助吗?
Q:刚才提到数据到底重不重要,我想提几个根上的问题:新一代模型的训练主要是从哪几个方面提升水平和能力?你们肯定是需要数据的,到底需要哪些数据?量级和通用大模型有什么差别?百川数据获取主要来源是哪些?
王小川:我们要发展新医学,AI for Science需要大量数据,院内也不够,所以需要自己采集和创造数据。
Q:现在你们采用哪些数据训练?医院的还是患者的?
王小川:核心不是院内数据,而是评价系统,DeepSeek也没有天天说自己的数据是怎么来的,所以就是好的定义和训练方法的准备。我们认为让医生帮助我们生产模拟患者的评价体系,跟数据训练模型是两件事情。
Q:医生标注数据的工作量很大,因为医生本身也很忙。
王小川:是的,之前GPT是找了262个国家做到HealthBench的评测集,我们也有百川SCAN的评测集,系统自己就会知道怎么改进,范式决定怎么使用这些数据。
Q:刚才提到动态反馈这件事情,现在大家也都有看到,OpenAI很快就要开放医疗档案,国内阿福也有在做。虽然你们已经有了很好的方法,建立起了模型体系,但会不会因为数据量的差距让模型迭代相对没有那么快?
王小川:有了个人档案当然没有问题,但不是数据就可以形成训练阿福的模型,档案就是更加个性化,跟用户多少没什么关系,用户更多以后至少团队能够通过问答推动产品改进,就像以前的产品一样,通过用户反馈进行改进也是技术层面的事情,所以有机会优化产品,但不代表能够推动模型的进化。
今天的Gemini发展得非常快,没有那么大的数据量也做起来了,所以还是技术驱动。今天有些东西是被证明是真的,有些东西是被证伪的。阿福更多的是做生态,有了用户以后,这是最容易获得的红利收益,不是技术本身。
Q:百川接下来的路想怎么走?
王小川:我们跟阿福不太一样,阿福还是泛健康的概念,健康这个词就是很泛的概念,居家至少能够取代家庭医生。
Q:刚才提到C端产品接下来的路线,之前你也讲,百川第一天就想做To C,目前To C的商业化路径是怎么规划的?
王小川:帮助患者产生辅助决策的价值就是有意义的,因此我们可以向患者收费,也可以形成服务包,后面的医疗资源和药械就以服务包的形式收费。我倒不担心商业模式本身,确实是要过了医疗这个门槛,为用户创造价值,不管直接收费还是生态收费都是很容易的事情。
Q:大概会在什么时间实现?
王小川:今年上半年就会开始入场,之前停顿了一段时间,确实不是只赚医院的钱或者只赚医生的钱。
Q:To C属于比较偏严肃性的,核心是严肃性医疗涉及诊疗由谁负责,怎么看这个问题?
王小川:现在的法规要求诊断结论和治疗方案必须由医生来给出,我们短期内不会去碰这条红线,可以辅助医生把诊疗做得更好,但会有一个痛点。我们主打的就是让患者能够明明白白看医生,缩短医生和患者之间的Gap,医生没有擅长给患者做更多的沟通、讲解,没法在报告单抽取相关的内容。
最后的诊疗决策不是一件事情,可能是看两个方案选哪个,这个决定是患者来做,我们会帮助患者做好。医生要让出决策权,保守方案和激进方案应该选哪个?可以让患者自己选,最后患者会对自己的健康更负责,因为患者是自己健康的第一责任人。我们不做决策,而是建议患者做决策。
Q:产品最终To C,想把决策权从医生手里让渡到患者手里,现在M3的能力已经可以达到这样的水平了吗?还是医疗模型要往更强的能力迭代,才能支撑起来这个愿望?
王小川:需要建立产品形态和信任。
Q:抛开现有的法规,必须要有医院来开处方,要是To C的话,患者Prompt能力并没有专业工程师那么强,你们会怎样挖掘足够的患者信息支撑最终提供的诊断?
王小川:搜集足够的信息就可以给出好的建议和服务,我们的核心能力就是端到端严肃问诊,以前的模型就是"你是一位资深的医生",但想问的和该问的不是一件事情。我们是跟着医院的体系在评测中已经超过了今天医生的提问能力,以前的模型是做不到的。很多问题看着很对,其实是不符合的,现在患者平时的表达就被AI管起来了,感冒以后AI会很清楚身体系统,不会被带到沟里面。
未来的产品场景也在规划中,要是去两个医院,每个医院给的治疗方案不一样,应该听谁的?我们把相关方案都放进来,AI可以帮助分析,找到更适合自己的方案,有的是为了让生存期更长,有的是为了减少痛苦,有的是为了成本更低,能够把方案讲得很清楚,就是为什么这么设计,怎么才能适合自己,医院是打死也做不了的。
Q:要是做To C产品的话,早期怎么培养用户心智?因为市面上有很多医疗,阿福泛健康也被当作医生来问。
王小川:需要三个事情发生:要有一定的广告宣传投入,我们也会适量增加。要有医生的认可,阿福跟我们的路线不一样,老医生都是无感的,我们希望医生和患者是一体两面,共享一款产品,要让专家点头,而不只是患者鼓掌。产品做好以后确实能够取得一定的口碑效应,GPT可以发现自己多年以前误诊的对象,就是从接口说话。
Q:你们商业化做得怎么样?
王小川:今天上市的两家是踩在了通用模型的技术红利和国家对科技强国扶持的基础上。AI医疗也是同样,属于今天大模型竞争的重要力量。可以说从技术范式再到国计民生的意义,从通用AI的概念来说更早一些,未来我们也会走到上市这条道路上。
Q:OpenAI商业路线和产品路线是To C和To B的区别,百川好像两条路都在走,怎么评价不同的选择?
王小川:美国是To C和To B都可以干,但在中国To C比To B更好。
Q:产品形态具体是怎样的?
王小川:就是医生医疗版本的大模型,非医疗的问题就不答了,因为接入患者数据以后就会变成子产品放在ChatGPT里面,我们做的就是这样一个对标的板块。
虽然是同一个产品,但由于医生和患者的身份不同,给出的结果是不一样的。医生版更像OpenEvidence,更加强调循证,就是一篇文章的一番话引用在什么地方,ChatGPT引用的有些文章是不存在的,只是幻觉,但在我们的系统中100%存在。
医生和患者之间会有区别,医生可以接受各种专业答案,给到患者几个不同的点。必须足够看得懂,让患者理解专业语言,翻译成患者能懂的内容,同样保留循证的能力。必须让自己能够做决策,给的信息足够充分,因为医生都是训练过的,知道应该怎么办,也要给患者这种决策能力。
患者模式就会强调补充信息,进入启发式端到端的问诊能力,医生不会这样,因为医生有自己提问的方法。在这种情况下,我们和OpenEvidence的区别在于,OpenEvidence只是服务于医生,我们是可复数、可懂、可决策、可行动、能够服务到患者,这样的产品定位在全球是独一无二的。
Q:现在国内医疗AI赛道越来越火,你们怎么做好自己的护城河?
王小川:护城河分为三个部分:模型做得足够好,今天屡试不爽就在于模型领先一代,就像教育的好学区,我们的领先度是可以保证的。解决问题的切入点,我们更愿意切入严肃、高价值的场景。
大厂和创业公司不一样,毕竟有职业团队,需要的是更加安稳的方案,大创新靠小厂,小创新靠大厂,必须切入我们认为有高价值的事情,共识不是我们优先的突破点,而大厂更多的是注重共识,路线图和产品形态是不一样的。
Q:你们产品的核心是解决哪一部分人群对于医疗认知的Gap?不同人群的Prompt能力有差异,为什么一个专业问题,医生讲不明白,你们的产品能够讲明白?产品设计有什么巧思?
王小川:我们需要患者更好地表达,甚至老年人的话可能是家属帮助在做,缺少一种医学的Knowhow,患者和医生沟通也需要有表达能力,所以要把自己的问题说清楚,把你要什么表达出来,这是一个基础。现在ChapGPT可以把一个东西讲得让7岁的小孩子都明白,可以让一个严肃的文档夸张一点、友好一点,所以分析问题、讲清楚的能力是大模型不缺的。
Q:现阶段就是帮助患者建立辅助决策的价值,你们突破到多少用户规模就会觉得辅助价值被验证了?从价值验证到价格成立大概需要多久?需要经历哪些步骤?
王小川:我们没有一个完整的判断,不在我们的计划中,要是真正有10万人在用,我们觉得就已经证明了让渡权利的价值。
Q:刚才你们提到最大增量是在院外,现在医疗大模型还面临技术端需要走在法律法规政策红线的前面,院外的哪些场景能够最终落地?大模型要是出现误诊,责任在哪里?
王小川:今天我们也不会越过红线,不会去做本身的诊断或者给出处方,但可以做辅助工作,所以我们在红线内已经产生了巨大的价值,能够推动医疗改革的加速。美国犹他州已经开始用AI开药了,其实可以放开更多的AI能力,只是看能否应用于患者而不是躲在医生背后。一旦有了体感,就会形成行业内的滚雪球效应。
Q:是不是就像自动驾驶L2、L3那样,权责更加清晰就可以实现AI医生?
王小川:我们的思考并不是把医生取代,做手术、做查体、做各种各样的康复诊疗都需要真实医生,但AI可以填补空白。就像刚才讲的沟通、提醒、通过给出建议辅助患者决策,这些都是空白,我们大有空间可干。
Q:刚刚进入2026年,各家厂商都在上市,宣布自己的融资情况,你们怎么评价百川现在的状态?去年做了哪几件比较重要的事情?今年的计划是什么?
王小川:百川去年最重大的就是组织管理专注医疗,发布M2和M2Plus,把基础的医疗增强概念稳固,把循证概念树立起来,除了推理能力以外就是循证和会问诊,去年做了很多积累,M2和M2Plus,包括今年的M3都是在去年的基础上夯实,我们在肿瘤领域也开了一条线,就是把最难的医学皇冠明珠做好,所以就是模型本身的进步。今年的核心就是模型迭代和落地,帮助患者做决策的能力和居家陪伴的健康看护能力,我们都会进一步落地,医疗AI也是肉眼可见的未来最重要的应用场景。
Q:你们做的事情是造医生,不是辅助AI,在什么情况下能够真正实现跟AI聊天觉得不是辅助的作用,而是真正的医生?
王小川:造医生就是因为医疗供给不足,我们的第二个产品已经可以当成院外医生来看了。
Q:之前提到现在OpenAI也在进军医疗领域,你们在中国做AI医疗本身的优势和劣势是什么?美国不同医院对于个人隐私数据保护得非常严谨,相互之间数据不通,不知道国内AI医疗有没有自己的优势?
王小川:你是指跟美国相比吗?我觉得跟美国相比的话,美国更加市场化,而且美国的医生数量是够的,中国广大地缘反而更缺优质的医生。你在北京可能没感觉,北京的资源太丰富了,但那些五年规培的村医只有26%,空白的地方是更多的。中国政府要是想明白了怎么办,可能会有很大的助力。
Q:你们产品智力的部分其实来自公开的论文,就是类似知识图谱,用医生做标注提高模型的诊断准确率,基于我的理解,是不是有更好的一俩数据库、更优的医院数据就能够拿到比你们更高的诊断准确性?
王小川:算法是核心,医生主要是驱动评测体系。
Q:脑卒中领域也有跟你们相同的产品,现在已经遇到了瓶颈,卫健系统也有质量更优的数据。
王小川:大家总是把数据当回事,懂这件事、有钱做这件事才是关键,市面上有500多个垂直医疗模型,我认为他们都不知道什么叫作做模型,所以不要被他们影响。
Q:你们场景的偏向是怎样的?相比阿福泛健康的打法,性价比比较高,面向全部人群,不管智力能不能看懂医学文献,能不能和真人交流,要是你们花了很多成本做循证,很有可能拿不到真正肯花钱的用户。
王小川:我们没有什么前辈,因为我们是在做To C。解决一个问题要有人买单,因为医疗最大的问题就是决策方和使用方是不统一的,可能卡在这个问题里面。把一个好产品交给了一个利益不一致的人使用,不是循证成本高不高,而是是否能够触达目标人群。达摩院之前宣传得很好,就是胰腺癌的屏扫CT,但医院干嘛要这种便宜的东西?找不到买单方。
Q:你们有病种和场景的偏向吗?
王小川:目前的做法基本上就是全覆盖,重点放在儿科、慢病和肿瘤领域。
Q:中国医疗最大的支付方是医保,不是患者,借由中间方就是医院,你们规划的宏大愿景直接面向患者,患者本身之所以没有决策权就是因为不是最大的买单方,要是可以形成规模的买单方就是在电商平台,你们的目标买单方是谁?
王小川:现在我们在跟一些药械沟通,他们都非常强调在院外,并不是收在院内,大家在这一点上是同频的,更多的是让C端受益方成为决策方和买单方,做到三个统一。
Q:就是要把患者吸引过来,然后让药械企业买单?
王小川:也有可能打包都让患者买单。
Q:这一部分有其他的厂家在跟,而且已经比较落地了,你们比他们的优势是什么?
王小川:技术更好,确实能够把病搞明白。
Q:你们现在主要的监管方是卫健委吗?
王小川:是的。
Q:跟你们合作的主要医院是哪家?
王小川:儿童医院,现在也在和东肿合作,就是以药厂的身份跟他们联合研发,进入Clinical Trial,合同已经签完了,但发现还没有人注册。
Q:你们的人去医院还是医院的人来这里?
王小川:都有,他们也有人驻扎在我们这里,副院长带队。
Q:会不会出海?
王小川:肯定会出海,不能出海的医疗公司不是好公司。
Q:要是有个超过中国最顶尖儿科医生的模型,你们会用来干嘛?你们比中国最顶尖的儿科医生厉害。
王小川:我们不会讲比他们厉害,比医生厉害这件事情在某些维度上一定是这几年在迅速达到的,目的是让大家更健康。
Q:你们会重点在一线吗?还是在二三线、四五线?
王小川:我们会试探,但严肃场景还是得从一线开始。
Q:你们在安全和加密方面的等级是怎么做的?因为用户也会害怕自己的数据被泄露。
王小川:我们在安全能力上肯定有做这些基础工作,也是我们的一种承诺,你们的数据只是为个人服务,内部的文化也要小心,内部员工都要尊重这件事情,就是文化和技术能力都要做到。公司越大,用户就会越信任,要是泄露你的数据,公司就挂了,他们就没有动力干这个活了,因为数亿人的数据都在里面。
Q:如果攻击者把这些数据拿到了呢?
王小川:攻击者可能会去攻击银行这种地方,他们要这些数据干什么?我是不会要这些数据,没什么用。
Q:张文宏拒绝把AI引入自己医院的系统,因为引用AI以后,医生的训练完全改变了,没有经过疾病诊断系统训练的实习医生,通过AI也可以得出跟自己一样的结论,如果医生缺乏这种系统性的训练,无法鉴别AI给出的结论是对是错。如何看待引入AI以后产生的矛盾?
王小川:专业领域都会遇到这种问题,人与机器共生以后,相不相信AI会降低自己的能力?能驾驭AI的医生就是好医生,思考如何帮助患者才是正道。
Q:刚才您提到今年会有新的产品发布,是不是面向C端,上线初始会免费是吗?
王小川:刚开始肯定会有免费。
Q:你们最开始为什么选择儿科?
王小川:我们的第一个切入点其实是院外,不想往院内去做,希望做的是比较轻的病。儿科属于长期骚扰你,但没有什么大的问题,就是从焦虑感出发,之后我们就会逐步扩展到肿瘤这种最核心的疾病。
Q:会不会继续在儿科重点投入?
王小川:慢性病、儿科和肿瘤,"一老一小"。
Q:你们会不会做硬件?
王小川:目前正在做睡眠。
Q:按照百川对于模型训练的探索,未来有没有可能涌现出某种Idea,能够解决目前人类解决不了的疑难杂症?
王小川:现在来看是不能,就是把现有知识学会,并不是创造新知识。医学主要是靠经验总结,不是基础发现,未来要是有长期的数据挖掘还是有机会的。
Q:技术是百川非常核心的差异点,最近你提到和医生合作非常必要,但不能只根据医生的需求确定技术的迭代方向,M1、M2、M3主要是沿着怎样的方向迭代?
王小川:我们主要的定义是什么叫作模型的好,就是从技术推理走向临床需求,既需要足够懂AI,也需要在具体场景跟医生沟通。现在我们主要强调四个重要方向:医疗本身的推理能力,能够给出正确的解决,减少幻觉,医疗搜索或者循证能力,就是从专业的知识库抽取证据,包括临床指南级别的基础科研,甚至是监管的证据准确性足够高,搜集信息的能力就是以问诊为核心。M3发布以后,四个方向已经补全了。
Q:很多医疗问题不只是技术的问题,你们在技术之外,有没有和监管机构建立信任?
王小川:会有,我们跟三甲医院、基层医院都有沟通。我们在药厂都有临床试验,没有哪个互联网AI公司在干这个。我们就是以药厂的身份和医院合作,把我们的产品当作药物验证安全性和临床性,都会有Clinical Trial。
Q:30亿好像不够烧。
王小川:够烧,要看是什么标准。我们是患者的Companion,可能一款药十年十亿美金,成功率10%,那肯定不够烧,但美国FDA正在鼓励一个Digital Companion指导用药,药效就会提升。一款老药的有效性是70%,通过算法可以提到75%,相当于发明一款新药,既不需要十年十亿美金也不会成功率只有10%,就是范式变化带来的结果。我们就是药物伴随,Follow-up。
Q:要让药企为服务买单?
王小川:有可能,我们的群里面会拉五个人,有医生,有护士,有AI,有患者,有患者家属。
Q:相当于CRC的工作。
王小川:类似,我们要告诉患者那是AI,虽然很像人,为了让患者愿意主动跟AI去聊,其他的真人还要装扮成AI的样子。
Q:你们是从哪个肿瘤开始做?
王小川:应该是从肺开始做起。
Q:AI属于一个黑盒,会不会有额外的难度?
王小川:AI其实是有思维链的,可以真正像人一样思考。要看危害性有多大,有效性有多大。
Q:之前你很少发声,为什么现在愿意把大家聚在一起聊一聊?
王小川:就是跟大家重新建立连接,之前被骂惨了。
Q:可能因为行业到了爆发的节点。
王小川:我们从第一天开始就想做医疗,但被裹挟以后干了很多医疗以外的事情,现在吸取教训,每个新人都要直接面试,看一看是不是想做医疗。
Q:你们为什么想做医疗?不是什么好干的事情。
王小川:生命本身就很有意思,规律已经很显著了。原来我是学计算机的,研究的是高强度计算,搞的是天气预报,但我觉得天气预报太不靠谱了,有一点变化结果就会不同。老板问我,那你想干什么?我说就搞人类基因组计划吧。
真的是从2000年开始搞基因拼接算法,发现这个比天气预报还天气预报,更复杂更混沌,但结论又更清楚。一个细胞有细胞膜、细胞核,十个月以后受精卵就会变成婴儿,跟爸妈长得很像。
我当时的好奇心就在于生命比天气预报还复杂,凭什么背后有规律?所以花时间去研究,总想找到背后的数学模型,现在就需要数据驱动,语言模型能够解决智力问题,这就是我最初的动力。理论不能解释现象,你能说现象不对吗?只有理论不对,所以这是特别有意思的话题。这个时代已经很好了,前面二十年干互联网,这二十年就干人类基因。(作者|李程程,编辑|李玉鹏)