Blank Bio 获720万美元种子轮融资:用RNA基础模型解码肿瘤转录组,提升癌症预测精度
当RNA数据不再被“压缩”:Blank Bio用7.2M美元赌一个更完整的转录组世界
在癌症基因组学领域,一个长期被忽视的真相是:我们用来读取RNA的标准流程,其实是在主动丢弃信息。Blank Bio刚刚完成的720万美元种子轮融资,以及它与基因测序巨头Pacific Biosciences(PacBio)的战略合作,正在挑战这一行业惯性。这家应用AI实验室的目标是训练RNA基础模型,让模型直接学习肿瘤转录组的分子复杂性,而非被压缩后的基因计数摘要。这笔超额认购的融资由Define Ventures领投,Leonis Capital、Nova Threshold等机构跟投,团队背景横跨Recursion、Deep Genomics、DeepMind和Memorial Sloan Kettering。
标准RNA-seq的“信息压缩”困境:一个被行业默认的妥协
当前的RNA测序分析流程,本质上是一个“暴力压缩”过程。原始测序数据经过比对、组装后,最终被简化为每个基因的计数摘要。这种做法在20年前或许是合理的——当时计算能力有限,模型只能处理低维数据。但代价是巨大的:它完全丢失了RNA的可变剪接异构体结构、突变复杂性以及非编码RNA的调控信息。Blank Bio的CEO Jonathan Hsu指出,这种压缩相当于把一张高清照片转成64×64像素的缩略图,然后试图从中诊断疾病。标准流程无法区分一个基因的致癌异构体和抑癌异构体,因为它们在基因计数层面看起来完全一样。这种信息丢失在肿瘤学中尤为致命——癌症的异质性往往体现在转录本的细微变化上。
基础模型的“零样本”能力:从肿瘤转录组直接学习
Blank Bio的核心技术路线是训练RNA基础模型,使其能够直接从原始转录组数据中学习生物学表征。与传统的监督学习不同,基础模型通过自监督学习在大量未标注数据上预训练,然后通过微调适配下游任务。这种方法的优势在于:模型能够捕捉到传统分析流程丢失的异构体架构和突变模式。更重要的是,它具备“零样本”推理能力——即使从未见过某种癌症类型,模型也能基于对RNA生物学的通用理解做出预测。这与DeepMind的AlphaFold在蛋白质结构预测上的思路有异曲同工之处:先学习底层生物物理规律,再解决具体问题。Blank Bio的模型已经在多个肿瘤患者队列上展示出优于传统方法的预后预测性能,尤其是在区分不同亚型乳腺癌患者的生存风险时,模型能识别出传统方法完全忽略的转录本特征。
与PacBio的战略合作:用长读长测序构建高质量训练数据
Blank Bio与PacBio的合作并非简单的技术授权,而是数据基建层面的深度绑定。作为合作的一部分,Blank Bio将在西雅图儿童研究所生成多达100份新鲜冷冻肿瘤样本的HiFi长读长bulk RNA测序数据,覆盖多种癌症适应症。长读长测序技术能够读取完整的RNA分子,而非像短读长测序那样只能读取碎片化的片段。这意味着Blank Bio的训练数据将包含完整的异构体结构信息,这是短读长数据无法提供的。值得注意的是,Blank Bio选择使用新鲜冷冻样本而非福尔马林固定石蜡包埋(FFPE)样本——前者能保留更完整的RNA分子完整性,但获取成本更高、操作更复杂。这一选择表明团队对数据质量的偏执,但也暗示了其商业化路径的潜在瓶颈:如果模型需要高质量新鲜冷冻样本数据才能发挥最佳性能,那么在真实临床场景(通常只有FFPE样本可用)中的泛化能力将面临挑战。
竞争壁垒与商业化迷思:从AI实验室到诊断产品的鸿沟
Blank Bio的团队背景令人印象深刻——AI科学家来自Recursion、Deep Genomics、DeepMind、Amazon,临床研究者来自Memorial Sloan Kettering、Stanford和Vector Institute。但将AI实验室转变为可持续的诊断或药物发现公司,中间存在巨大的鸿沟。Blank Bio目前面临的核心挑战是:如何将基础模型转化为可落地的产品?一条路径是作为诊断工具,直接向医院或药企销售模型预测结果;另一条路径是作为药物发现平台,帮助药企识别新靶点或预测药物响应。前者需要获得FDA等监管机构的批准,后者则需要与大型药企建立深度合作。从融资结构看,Define Ventures的参与暗示了诊断方向的偏好——该基金在数字健康和诊断领域有丰富经验。但Blank Bio需要证明其模型在真实临床环境中的稳健性,尤其是面对不同测序平台、不同样本处理方式带来的批次效应时。此外,基础模型的“黑箱”特性在监管审批中可能成为障碍:FDA对可解释性的要求与深度学习模型的不可解释性之间存在根本矛盾。
辩证总结:RNA基础模型的光明与阴影
Blank Bio代表了一个令人兴奋的技术方向:用基础模型解锁被传统分析流程丢弃的生物学信息。其与PacBio的合作提供了稀缺的高质量长读长测序数据,团队的技术背景也令人信服。但我们必须清醒地认识到:RNA基础模型目前仍处于概念验证阶段,距离真正的临床转化还有很长的路。最大的不确定性在于:模型学到的“生物学规律”是否真实可泛化,还是仅仅过拟合了有限的高质量数据集?另一个风险是:长读长测序的成本仍然显著高于短读长测序,这限制了训练数据的规模和模型的应用场景。Blank Bio需要证明,其模型带来的预测性能提升,足以抵消数据获取成本的增加。如果成功,它可能改写肿瘤诊断和药物发现的规则;如果失败,它将成为又一个被数据质量和商业化路径困住的AI实验室。在这个意义上,Blank Bio的故事不仅是关于技术,更是关于如何在生物学的复杂性和商业的务实性之间找到平衡点。