返回首页
信息来源:bvp.com 2026.05.04 02:25 约 17 分钟 AI 1.1万 阅读

为 AI 时代构建生物原生数据基础设施

随着算力成本下降、模型日趋成熟,要在全球药物研发中保持竞争优势,就必须在整个数据基础设施栈上持续创新。生物原生数据、智能体工作流程和实验室自动化将定义下一代领先生物科技公司。

药物开发长期以来一直是一个通过反复试错,将生物学假设与临床现实相互检验的过程。尽管科学技术不断进步,从靶点确认到获得临床候选药物的周期通常仍需五年以上,而进入临床试验的药物中近90%最终失败。随着治疗格局不断演变、技术路径日益复杂,每种获批疗法对应的研发成本持续以每九年翻一番的速度上升,也就不足为奇。药物开发的限制因素从来不是缺乏假设,而是缺乏能够以有效且高效方式验证这些假设的资源。
机器学习在药物设计中的应用有望改变这一局面,通过加快迭代并提高成功概率来重塑这笔账。2012 年至 2022 年间,约有 200 家利用 AI 开展药物发现的公司累计融资 180 亿美元。 如今,我们正看到这些努力开始在临床领域显现成果。
2025 年 6 月,Insilico Medicine 在 Nature Medicine 上发表了积极的 IIa 期结果 :其同类首创小分子 TNIK 抑制剂 rentosertib 用于治疗特发性肺纤维化。由此,它成为首个取得临床概念验证的药物,其靶点发现和分子设计均完全借助生成式 AI 完成。在这一案例中,AI 通过利用生成式化学平台进行分子设计与优化,在改变“计算方式”方面发挥了关键作用。该团队仅筛选了 78 个分子便提名出一个临床前候选物,而通常这一过程需要筛选数千个分子;同时,这一成果仅用 18 个月便完成,成本还不到每款获批药物平均成本的 10%。 
鉴于投资回报状况颇具吸引力,许多公司——包括大型制药企业——纷纷积极将 AI 平台纳入研发流程,以加速药物发现,这并不令人意外。2026 年初,GSK 和 Eli Lilly 宣布分别与 NOETIK 和 Chai Discovery 达成合作,以获取其肿瘤学和药物设计基础模型;其中,GSK 承诺向 NOETIK 预付 5000 万美元,而 Lilly 则向 Chai 支付每年数千万美元中段的使用费用,用于生物制剂设计。
insitro 将大规模人类细胞数据生成与机器学习相结合。近期,BMS 在双方合作中又提名了两个额外的 ALS 靶点,这进一步验证了全栈式方法的价值,即将专有数据生成与药物开发相结合。
Isomorphic Labs 是从 Google DeepMind 分拆出来、打造了 AlphaFold 的公司,已与 Lilly、Novartis 和 J&J 建立深度合作关系,潜在交易价值超过 30 亿美元,同时正将其内部肿瘤学产品管线推进至首次人体试验阶段。其最新发布的 IsoDDE 模型在最具挑战性的泛化基准测试中,准确率较 AlphaFold 3 提升逾一倍,使其成为 AI 驱动药物设计领域最受关注的公司之一。 而表现出兴趣的并不只有制药行业:2026 年 4 月上旬,Anthropic 以 4 亿美元股票收购了 Coefficient Bio。这家成立仅八个月的初创公司由来自 Evozyne、Genentech 和 Prescient Design 的前计算生物学家创立,此举表明,前沿 AI 实验室如今正直接押注药物发现。
尽管计算化学工具早在 20 世纪 80 年代就已出现,但生物科技领域现代 AI 时代实际上始于 2010 年代深度学习的兴起。当时人们逐渐明确,神经网络能够从数据中学习分子结构的有意义表征。转折点出现在 DeepMind 的 AlphaFold2 和 Baker Lab 的 RoseTTAFold 攻克了仅凭氨基酸序列预测蛋白质三维结构这一难题之后。自此,生物 AI 模型的数量呈指数级增长。 到 2024 年,已发表的生物 AI 模型超过 350 个,包括 AlphaFold3、ESM3、Boltz-1、BindCraft、Evo、scGPT 和 H-Optimus-0,凸显了 AI 在生成式蛋白设计、基因组学与扰动建模以及病理图像分析等任务中的能力。
number of new biology AI models by year
The Cambrian explosion of AI models for biology has already happened. Between 2015 and 2025, the number of new biology AI models released each year has exponentially increased from sub-ten to 380+ and counting. (Note that this is based purely on the dataset from Epoch AI and may not be complete.)
就在最近,JAM-2、BoltzGen、Latent-X2、Chai-2 和 IsoDDE 等新模型持续推动我们更接近于直接在电脑上设计具有药物特性的生物制剂。零样本设计任务的势头从未如此强劲。随着生物学领域新一波 AI 模型涌现,如今该领域已拥有覆盖药物开发全流程的工具库,从结构建模到分子设计,再到药物优化。

生物原生数据基础设施的三项原则

在日益拥挤的竞争格局中,我们认为,能够长期存续并实现规模化发展的 AI 驱动型生物科技公司,将是那些建立在三项核心原则之上的企业;我们将这些原则统称为生物原生数据基础设施原则:

  1. 围绕药物作用机制相关的生物学挑战,构建可扩展的多模态数据集并进行策展。
  2. 将最新的智能体 AI 框架融入整个研发工作流程。
  3. 采用实验室自动化,推动快速、闭环的实验反馈循环。
那些推动或践行这些原则的公司,才能真正加快药物设计进程,降低临床试验失败风险,并兑现 AI 在生物领域所蕴含的潜力。
下面我们将解释,为什么这些原则对药物开发行业至关重要,并重点介绍正在将这些原则付诸实践的新兴类别及相关公司。

市场版图

为 AI 时代构建生物原生数据基础设施
Our market map highlights private life science companies that are leveraging AI to create and analyze biological datasets that address challenges along the drug development continuum, accelerate R&D workflows end-to-end, and automate the physical work of conducting wet lab experiments. 

1. 大规模生物原生数据

使当前 AI 生物学模型成为可能的大量数据,是数十年来由公共资金支持的科学研究缓慢积累而成的。Protein Data Bank(PDB)收录的 20 多万个蛋白质结构,都是通过 X 射线晶体学和核磁共振波谱等技术实验测定得到的。同样,Human Genome Project 绘制的人类基因和 DNA 图谱,是全球各研究机构共同开展测序工作的成果;而 ChEMBL 关于数百万种小分子生物活性的数据库,则是通过多年对专利和文献数据的人工提取逐步积累起来的。这些数据库的影响十分显著——例如,来自 PDB 的结构数据推动了 2019 年至 2023 年间获 FDA 批准的所有以蛋白质为靶点的小分子抗癌药物的开发。

most frequently used training biotech models
10 most frequent tasks biotech models
过去几十年开发的 AI 生物学模型,反映的是那些易于获取的数据,其中近 63% 的模型使用来自 Uniprot 数据库和 PDB 的蛋白质序列与结构进行训练(Epoch AI)。 这些模型最常见的用途包括对蛋白质或核苷酸序列进行语境理解、预测蛋白质折叠,或开展蛋白质设计。然而,由于生物系统本身极其复杂,以及我们用于研究它们的工具存在局限,我们对药物发现早期阶段生物学的理解仍存在重大空白。 
尽管 PDB 规模庞大,但其数据明显偏向于那些稳定、可溶且易于结晶的蛋白质。尽管膜蛋白、内在无序蛋白以及瞬时蛋白复合物是肿瘤学和神经退行性疾病领域一些最具吸引力的药物靶点,但它们往往不符合这些标准,因此在数据库中的代表性严重不足。此外,PDB 所捕捉的结构是静态快照,将蛋白质固定在单一构象中,而非其在活细胞内所呈现的动态构象集合。然而,真正最具治疗相关性的往往正是这些替代构象,正如变构结合位点所体现的那样——这类位点通常只有在配体结合后才会暴露出来。
尽管将一种新药推向市场始于蛋白质结构解析和设计任务,但药物发现早期阶段仅占整个药物开发流程时间和成本的一小部分。 药物开发时间和资源中,超过三分之二投入到了早期药物发现之后的各个环节 ,其中包括临床前研究中开展的 ADME(与“吸收、分布、代谢和排泄”相关的药代动力学性质)及制剂优化工作,以及临床试验中进行的安全性和有效性研究。要将一种药物从命中化合物推进到先导化合物,再发展为开发候选药物,远不止需要确认某个分子能够与其靶点结合。药物开发过程还要求理解其可开发性、免疫原性、脱靶效应、热稳定性、溶解性和聚集倾向,而目前尚不存在可用于监督模型学习的大规模、高质量公开数据集来覆盖这些属性。
尽管药物发现从根本上说是一个理解扰动的问题,但目前并不存在一个类似 PDB 的代码仓库,用于理解细胞表型对扰动的响应,甚至也缺乏覆盖不同疾病状态的蛋白质组学数据。将细胞层面数据与临床数据打通则存在更大的缺口,因为与治疗结果和试验响应相关联的患者级组学特征仍分散孤立在医院系统和生物制药数据库中,这使得几乎不可能训练出能够在患者尚未进入试验之前,就预测其是否会对某种既定治疗产生响应的模型。恰恰是这些特征决定了一种分子最终能否成为获批药物,这也意味着,商业上最重要的预测,正是数据基础设施最薄弱的领域。
如今可获得的大量生物数据都产生于 AI 生物学模型爆发之前,这意味着这些数据往往缺乏使其适用于机器学习的特征。 数据注释往往不完整或缺乏标准化,而诸如细胞环境或所用实验室设备等重要背景信息,也很少被采集或编码进数据集。在许多情况下,生物数据集的规模根本不足以支撑模型得出具有统计学意义的结论或作出无偏预测。即便具备一定规模,数据也往往按模态彼此割裂——基因组学、转录组学、病理学和临床结局数据集常常分别采集并存放于不同地点,使得构建能够让 AI 在整个人体生物学全景中进行推理的数据层变得极具挑战。
要真正释放 AI 在药物开发中的潜力,我们认为企业应在两个方面进行投入:首先,生成新型的多模态生物测量数据,以拓宽我们对疾病的理解;其次,构建具备足够规模、一致性和上下文信息的数据集,从而训练出能够跨多样化生物学场景实现泛化的模型。
我们很荣幸曾支持多家体现这一原则的公司。Peptone 正将原子级生物物理学与超级计算相结合,生成关于内在无序蛋白的专有结构数据;Inductive Bio 则在构建业内规模最大、最多样化的 ADMET 数据集之一,用于训练其 Beacon 模型, 该模型最近在 OpenADMET-ExpansionRx 终点预测挑战赛 370 多个参赛方案中拔得头筹 Converge Bio 正在生成大规模数据集,以训练并验证其自有模型,面向制药和生物技术客户部署,用于抗体设计或序列优化;而 Seismic 则采取以研发管线为先的方法,利用其 IMPACT 平台并行优化新型免疫学生物制剂的多种类药属性。
我们也看到药物开发链条下游正在取得进展。例如,NOETIK 正通过将肿瘤多组学与纵向治疗结果相结合,构建肿瘤学领域最全面的数据集之一;而 Prima Mente 则正在构建应用于大脑疾病的全基因组表观遗传和多组学数据模型。这些数据密集型、聚焦特定疾病的基础模型,旨在推动新型靶点和生物标志物的发现、实现更精准的虚拟细胞模拟扰动模型,并改进临床试验设计。

2. 贯穿研发工作流程的智能体 AI

尽管将一种药物推向市场的成本不断上升 ,但自 20 世纪 50 年代以来,计算成本一直在按照摩尔定律呈指数级下降。如今在药物开发全流程中计算成本高昂的任务,在未来几年将大幅变得更便宜;而那些构建技术栈、使其能够快速适应 AI 能力持续演进的公司,将相较于把 AI 视为一次性固定投资的公司,获得日益显著的结构性优势。

计算药物发现工作流程的演进,是观察这种适应性在实践中如何体现的一个有益视角。尽管十年前在内部构建专有分子建模和模拟工具或许还是一种差异化优势,但现成的计算机模拟工具日益丰富,已改变了这种防御性叙事。结构预测器、ADMET 模型和分子动力学模拟器已高度成熟,如今可通过闭源架构和开源代码库广泛获取,因此,相较于从零开始构建,在这一生态系统中有策略地拼接整合各类工具,往往更具时间和资源效率。随着新的基础模型不断涌现、新的训练技术持续演进,以及新硬件带来更高的算力效率,同样的逻辑也依然适用。
企业应从第一天起构建其基础设施,以便能够测试、实施并利用最新工具,而不是被任何单一技术栈所束缚。如今,这种模块化基础设施可以表现为一个能够自主利用并编排最适合特定任务工具的系统,无论是进行文献综述,还是运行生物信息学流程。
更低廉的算力成本,使长上下文推理在经济上变得切实可行,让 AI 智能体能够在一次运行中整合逾 1000 篇论文和 4 万行代码。 结合提升 AI 准确性和效率的技术——如思维链推理和多智能体框架——AI 有望切实压缩研发周期的成本与时间。
智能体式 AI 科学家可以挖掘预印本服务器、专利申请文件和公共生物数据库,发掘那些并不显而易见的关联,提出全新假设,开展计算机模拟数据分析,设计湿实验,并撰写报告,同时还能保留团队范围内的研究上下文和实验历史记录,从而帮助科学家做出更聪明、更迅速的决策。
很快,采用覆盖整个药物开发流程的人工智能操作系统将成为标准做法,借助人工智能保留海量上下文的能力,将分析与结果整合到一个统一的研究环境中,而不是让它们继续分散在彼此割裂的点状解决方案之中。
越来越多的公司正朝着这一愿景迈进,其中既包括专注于生命科学领域的初创企业,也包括像 Anthropic 这样的前沿实验室。Anthropic 如今提供连接器 ,可将 Claude 与 Benchling、PubMed、ChEMBL、ClinicalTrials.gov 等平台集成。K-Dense 和 Edison Scientific 正在开发自主式 AI 科学家平台,能够对复杂、长周期的研究工作流进行端到端的规划、执行和迭代,从提出假设到开展计算实验。Phylo 则采取了互补性路径,通过其集成生物学环境打造统一工作空间,使科学家无需在割裂的界面之间来回切换,便可在其数据集和分析流程中与 AI 智能体无缝协作。
像 Potato 和 Convoke 这样的公司,正在为生物制药构建覆盖早期药物发现及下游商业化流程的操作系统。其中,Potato 作为基础设施,用于自主设计并运行实验;Convoke 则作为记录与执行系统,加速监管及基于文档的工作流程,推动药物更快上市。

3. 闭环实验室自动化

即便是采用最前沿 AI 模型的公司,也会受到实验数据生成能力的制约。尽管结构预测和分子建模已取得显著进展,许多 in silico 输出——例如结合亲和力预测——仍需在湿实验室中加以验证,之后才能对后续开发决策抱有足够信心。此外,体内疗效从第一性原理出发本质上仍无法预测,而后期失败在很大程度上是由药代动力学和毒性特性所驱动,而这些恰恰是 in silico 模型未能识别出来的。 鉴于实验结果才是生物学真实情况的最终来源,至关重要的是,这些模型必须持续纳入来自湿实验室的反馈,以确保其准确性建立在坚实基础之上。

遗憾的是,从模型输出到获得更新模型先验所需数据之间的实验周期往往需要数周到数月。湿实验室实验速度缓慢、易于失败,而且依赖高技能人力,使其成为缩短药物开发周期过程中最大的瓶颈之一。表征先导优化的迭代式“设计—测试—合成—分析”循环本身最长可达三年,约占整个药物开发总周期的近四分之一。与此同时,实验验证通常外包给合同研究组织(CRO),这一现实进一步拉长了时间线,因为协调成本、排队等待时间以及数据质量不一致,都会为每一轮迭代增加数周甚至数月。随着团队愈发需要掌控数据生成的语境与质量水准,以使闭环学习真正具备意义,将实验能力内置化正变得越来越必要。
尽管用于液体处理的 Hamilton 机器人和用于自动化合成的 Chemspeed 平台已在实验室中存在数十年,但它们优化的是特定单点任务的高通量处理,而非整个实验工作流程的自动化与集成。如今,大多数实验室自动化仍需要大量人工干预,在不同仪器之间转移材料、排查故障,并在下一步实验开始前解读结果,这只是压缩了单个任务的时间,而未缩短端到端的整体周期。
尤其是,实验室机器人设备的自动化在历史上一直需要专门的自动化工程师来配置仪器,并持续为不同工作流程编写新的脚本。用于机器人控制的自然语言界面有望有效普及自动化能力,使没有任何机器人学或软件工程背景的科学家也能远程、自主地开展、监测并迭代实验。机器人技术和物理 AI 的进步还可进一步协调如今仍由人工完成的物料和数据传输。例如,以视觉为原生的系统如今能够自主读取并解读细胞的显微图像,并将结构化数据直接回传至模型流程,无需科学家手动提取和输入结果。
朝着自主实验室迈进,将在速度和运营支出两方面为企业带来显著杠杆效应。一个模型如果能在竞争对手完成一次设计—测试—分析循环的时间内完成五次此类循环,其对生物学的理解将以快得多的速度持续积累,而这种积累会直接转化为更好的模型、更优的分子,以及一种极难被依赖传统 CRO 时间表的企业追赶上的结构性优势。那些通过实验室自动化提升迭代速度的公司,也将获得更高的数据一致性、准确性和规模——这进一步印证了我们的第一条原则:对可规模化的生物原生数据的需求。
在实验室自动化领域,各家公司正从不同角度推进这一目标。Medra 正在打造一个与仪器无关的机器人平台,让通用型机器人通过物理控制和软件接口与现有实验室设备交互。Automata 则通过其 LINQ 平台采取实验室编排方案,提供模块化硬件和软件,将分散的仪器连接成协调一致、端到端的自动化工作流程。Dash Bio 正利用机器人技术,将自身打造为一家速度更快、自动化程度更高的 CRO,提供内部自动化所具备的速度和一致性。Lila Sciences 则代表了纵向整合程度最高的路径之一,正在建设一个用于端到端药物发现与开发的全自动化实验室。

生命科学将由 AI 驱动

我们相信,那些构建大规模生物原生数据集、以 AI 为核心的开发技术栈,以及支撑快速闭环实验的实验室自动化平台的公司,将推动并定义下一代生命科学企业。

我们认为,这一市场由三个相互依存的层次构成。最上层是生成符合 AI 需求的数据的公司,这些数据在规模、模态和保真度上足以支撑整个药物开发流程中的有意义发现。其下是物理基础设施和软件基础设施层,包括工作流平台和实验室自动化平台,它们能够压缩各个阶段的研发周期。这三个层次共同构成了 AI 驱动药物开发正在形成的价值链主体。我们相信,这是一个核心投资领域,下一代生命科学公司将在此基础上建立。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读