长久以来,科学研究的范式都以数学原理和实验观测为基础。从牛顿的《自然哲学的数学原理》到爱因斯坦的质能方程,科学家们借助公式、定律、实验和精确计算,来理解和预测自然。
而今,随着生成式人工智能的发展,特别是 Transformer 和 Diffusion 模型在文本、多模态等领域大放异彩," 生成式科学 " 有可能改变既往的科学研究范式,即不再拘泥于对每一个中间步骤的精确数学描述和实验验证,而是依靠海量科学数据(如基因序列、结构等)进行基石模型训练并获得直接生成结果的能力,以达到 " 相对准、绝对快、绝对广 " 的更优效果。
这种 " 生成式科学 " 的真正开端是 AlphaFold 2 诞生,革命性地解决了蛋白质 " 从序列到结构 " 的预测问题。2023 年,AlphaFold 3 发布,将能力扩展到蛋白质与核酸、小分子、抗体等复杂生物分子的相互作用,这使得 AF3 具备了指导药物研发的潜力。
2024 年初,Deepmind 旗下负责 AF3 产业化的子公司 Isomorphic Labs,从礼来、诺华两家 MNC 获得了巨额订单,合作开发多靶点的小分子疗法,预付款分别高达 4500 万美元、3750 万美元。值得一提的是,2025 年初,诺华宣布拓展与 Isomorphic Labs 的合作,进一步增加合作研究数量。这也意味着诺华对其探索 " 未公开靶点 " 药物能力的认可。
36 氪了解到,2024 年下半年成立的新创公司探序秩元(以下简称探序),在生成式科学(Generative Science)的浪潮中,新近发布了自研基础模型 IntelliFold。目前已开放公开 server。
创始人孙鹏是一位前 tech venture 投资人,职业生涯开始于 Accenture 管理咨询、后于明势资本等 VC 机构任职,多年从事前沿科技投资,拥有丰富的 AI 投资与产业经营经验;首席科学家孙思琦为复旦大学研究员、博士生导师,在芝加哥大学 TTI-Chicago 读博期间师从许锦波教授。2018-2022 年间,孙思琦于微软西雅图总部工作,投身于前沿的大语言模型技术研究。回国后致力于 AI 在交叉学科中的创新应用,围绕结构生物学智能计算领域的精度与效率瓶颈取得系统性前沿突破,成果发表于 Science、Nature 子刊等系列顶刊,总引用超过 7000 次。
孙鹏对 36 氪介绍,探序秩元的科研团队成员大多同时具有 " 结构生物学 + 大语言模型 " 双重研发背景,因此有能力自主开发结构预测基础模型。
" 几年前,AI 对于结构生物学面临的结合预测和设计任务,价值以效率提升为主;但现在要用新的 AI 做传统技术难以解决的问题,如高效探索未公开靶点,又或设计药化学家未曾涉猎、甚至超越人类直觉的全新产物等,在这个过程中 AI 大模型不可或缺。但我们所做的事,不像训练通用大语言模型那样算力消耗甚巨无底,同时其产业价值转化的路径更短、更明确。用生成式科学模型直接参与科学研究探索,是 AGI 展开为智能生产力的三个一级切入点之一。"
据了解,IntelliFold 的定位是 " 可控的基础模型 "。这意味着,一方面它可以对多种生物分子(蛋白质、核酸、小分子、离子、修饰残基等)之间的相互作用进行高精度三维结构预测;同时,通过应用轻量级的可训练适配器,它可以被引导和控制,进而实现别构预测、给定口袋结合预测等特异性针对能力,帮助完成药物发现等特定下游应用所需的复杂任务。
据公司提供的技术测试报告,IntelliFold 在蛋白质结构预测测试的多个关键指标与 AF3 表现相当,如蛋白质单体结构预测、蛋白质 - 蛋白质界面预测、蛋白质 -DNA/RNA 界面等。在抗体 - 抗原界面、蛋白质 - 配体相互作用预测方面,成功率略低于 AF3。值得注意的是,在 RNA 单体预测上,甚至超越了 AF3,展现了其在核酸结构预测上的优势。
" 给定具体蛋白质序列,IntelliFold 模型可以预测它与小分子的结合构象及模式,这是我们当前技术为具特点、也是市场有明确需求的方向之一," 孙鹏表示。" 除预测别构等特异性结合模式外,IntelliFold 模型还可以预测 Affinity(结合亲和力,衡量药物效力的核心指标之一)数值,可以增强药物虚拟筛选的效率和准确性。"
在药物设计中,蛋白质可能会根据结合的分子产生构象变化,形成不同的功能状态,例如激酶家族中的 CDK2,其活性可能受到抑制剂诱导的别构变化影响。这对于药物设计至关重要,却难以在大模型中有效训练。但通过目标特异性适配器,IntelliFold 能够正确预测别构构象," 识别罕见构象状态,同时不影响模型在正构状态上的准确性。" 这对药物的精准设计的灵活性颇为重要。
同时,孙鹏还提到,生成式科学模型也正在对蛋白质设计带来快速变革;与经典的专家主导药物设计范式不同,生成式模型可以完全从头设计(De Novo Design)每一个氨基酸的位置及可能,甚至探索自然界不存在但可能更优的结果。" 虽然蛋白质从头设计的难点部分异于结合预测,但二者使用的基石模型源流相通近似,相互具备横向拓展的能力;基石模型能力,毫无疑问是未来获取具体场景领先性与产业可用性的关键前提。"
在探序秩元的未来规划中,希望能将 IntelliFold 打造成通用的智能科学基石模型,在不同具体任务上发挥引擎作用,提高整个行业的研发效率。接下来,探序将通过与大型药企联合开发、为药企 / 科研机构提供有价值的早期资产等多种方式,进行商业化。希望通过 IntelliFold 的应用和持续升级,系统提升新药早期研发的成功率,从而改变新药研发 "10 年周期、10 亿美元、10% 成功率 " 的困境。
" 通过 AI,像设计芯片一样设计蛋白质和药物," 黄仁勋的这一理念在美国已被广为接受。随着 AI 的应用,临床前和处于临床一期的药物资产价值,目前也正在面临重估。因为 AI 的介入,这些早期资产的成药概率大大增加。诺华全球 CEO 瓦斯 · 纳拉辛汉也曾表示,希望看到 AI 等新技术能将药物研发的成功率,从现在的 1/10 提升到 2/10、甚至 3/10。