为 AI 时代构建生物原生数据基础设施
随着算力成本下降、模型日趋成熟,要在全球药物研发中保持竞争优势,就必须在整个数据基础设施栈上持续创新。生物原生数据、智能体工作流程和实验室自动化将定义下一代领先生物科技公司。

生物原生数据基础设施的三项原则
在日益拥挤的竞争格局中,我们认为,能够长期存续并实现规模化发展的 AI 驱动型生物科技公司,将是那些建立在三项核心原则之上的企业;我们将这些原则统称为生物原生数据基础设施原则:
- 围绕药物作用机制相关的生物学挑战,构建可扩展的多模态数据集并进行策展。
- 将最新的智能体 AI 框架融入整个研发工作流程。
- 采用实验室自动化,推动快速、闭环的实验反馈循环。
市场版图

1. 大规模生物原生数据
使当前 AI 生物学模型成为可能的大量数据,是数十年来由公共资金支持的科学研究缓慢积累而成的。Protein Data Bank(PDB)收录的 20 多万个蛋白质结构,都是通过 X 射线晶体学和核磁共振波谱等技术实验测定得到的。同样,Human Genome Project 绘制的人类基因和 DNA 图谱,是全球各研究机构共同开展测序工作的成果;而 ChEMBL 关于数百万种小分子生物活性的数据库,则是通过多年对专利和文献数据的人工提取逐步积累起来的。这些数据库的影响十分显著——例如,来自 PDB 的结构数据推动了 2019 年至 2023 年间获 FDA 批准的所有以蛋白质为靶点的小分子抗癌药物的开发。


| 要真正释放 AI 在药物开发中的潜力,我们认为企业应在两个方面进行投入:首先,生成新型的多模态生物测量数据,以拓宽我们对疾病的理解;其次,构建具备足够规模、一致性和上下文信息的数据集,从而训练出能够跨多样化生物学场景实现泛化的模型。 |
2. 贯穿研发工作流程的智能体 AI
尽管将一种药物推向市场的成本不断上升 ,但自 20 世纪 50 年代以来,计算成本一直在按照摩尔定律呈指数级下降。如今在药物开发全流程中计算成本高昂的任务,在未来几年将大幅变得更便宜;而那些构建技术栈、使其能够快速适应 AI 能力持续演进的公司,将相较于把 AI 视为一次性固定投资的公司,获得日益显著的结构性优势。
| 企业应从第一天起构建其基础设施,以便能够测试、实施并利用最新工具,而不是被任何单一技术栈所束缚。如今,这种模块化基础设施可以表现为一个能够自主利用并编排最适合特定任务工具的系统,无论是进行文献综述,还是运行生物信息学流程。 |
3. 闭环实验室自动化
即便是采用最前沿 AI 模型的公司,也会受到实验数据生成能力的制约。尽管结构预测和分子建模已取得显著进展,许多 in silico 输出——例如结合亲和力预测——仍需在湿实验室中加以验证,之后才能对后续开发决策抱有足够信心。此外,体内疗效从第一性原理出发本质上仍无法预测,而后期失败在很大程度上是由药代动力学和毒性特性所驱动,而这些恰恰是 in silico 模型未能识别出来的。 鉴于实验结果才是生物学真实情况的最终来源,至关重要的是,这些模型必须持续纳入来自湿实验室的反馈,以确保其准确性建立在坚实基础之上。
生命科学将由 AI 驱动
我们相信,那些构建大规模生物原生数据集、以 AI 为核心的开发技术栈,以及支撑快速闭环实验的实验室自动化平台的公司,将推动并定义下一代生命科学企业。