Pramaana Labs融资2700万美元:当AI的每一个回答都必须附带”数学证明”,形式化验证能否终结大模型的信任危机?
在2026年的AI行业,一个悖论正在变得越来越尖锐:大语言模型(LLM)的能力越强,人们对它的信任反而越脆弱。
GPT-5能写出令人信服的法律备忘录,Claude能生成看似完美的医疗建议,Gemini能在税务计算中给出精确到小数点后两位的数字——但没有人能保证这些答案是对的。在概率生成的底层架构下,每一个AI输出都是一次”有根据的猜测”(educated guess),而非一个可验证的事实陈述。对于写一封邮件或总结一篇文章来说,95%的准确率已经足够好了。但当场景切换到税务合规、临床诊断、金融监管或法律裁决时,那5%的不确定性就变成了一颗定时炸弹。
这正是Pramaana Labs试图拆除的炸弹。
2026年6月17日,这家成立仅一年多的AI初创公司宣布完成2700万美元的follow-on种子轮融资,由硅谷传奇投资人Vinod Khosla领导的Khosla Ventures领投,Accel、BoldCap、Nexus Venture Partners、Premji Invest、Unbound和Founders Future等多家知名机构跟投。Google DeepMind副总裁Pushmeet Kohli和微软研究院印度实验室负责人Sriram Rajamani也以个人身份参与了这轮投资。Pramaana的核心命题极其大胆又极其简洁:用数学上的形式化验证(Formal Verification),将AI的输出从”大概率正确”(probably right)升级为”可证明正确”(provably right)。
这不是又一个”AI安全”的抽象口号,而是一套可以运行的技术系统——将税法条文、临床指南、金融监管规则编码成LEAN证明语言,让AI在给出每一个答案之前,先运行一次数学证明。如果证明通不过,答案就不会被呈现。
| 项目 | 详情 |
|---|---|
| 公司名称 | Pramaana Labs |
| 总部 | 美国加利福尼亚州帕洛阿尔托 |
| 成立时间 | 2025年 |
| 融资轮次 | Follow-on种子轮 |
| 融资金额 | 2700万美元 |
| 领投方 | Khosla Ventures(Vinod Khosla、Kanu Gulati) |
| 跟投方 | Accel、BoldCap、Nexus Venture Partners、Premji Invest、Unbound、Founders Future |
| 个人投资者 | Pushmeet Kohli(Google DeepMind VP)、Sriram Rajamani(Microsoft Research India) |
| 创始团队 | Ranjan Rajagopalan(CEO)、Krishnan Raghavan(CTO)、Sanjay Ganapathy Subramaniam(首席科学家) |
| 核心技术 | 基于LEAN语言的形式化验证(Formal Verification)与自动形式化(Auto-formalization) |
| 目标行业 | 税务、法律、医疗诊断、金融合规、网络安全 |
从芯片验证到AI验证:一个被忽视了半个世纪的技术范式,为什么在今天突然变得重要?
形式化验证并不是什么新鲜事物。
在计算机科学的历史中,这项技术已经沉默地工作了超过五十年。每一块英特尔处理器在出厂前都要经过形式化验证,以确保在所有可能的输入组合下,芯片的逻辑行为与设计规格完全一致。每一架空客A380的飞控软件都经过形式化验证,以数学方式证明在任何飞行条件下,系统不会进入未定义状态。SpaceX的火箭控制系统、核电站的安全联锁逻辑、FDA批准的心脏起搏器固件——这些”绝对不能出错”的系统,背后都有形式化验证的影子。
但形式化验证从未进入过AI领域。原因很简单:传统的形式化验证处理的是确定性系统——给定输入A,系统必须输出B,这个关系是固定的、可枚举的、可穷举的。而大语言模型恰恰是概率性系统——给定输入A,模型可能输出B1、B2、B3中的任何一个,且每次运行结果可能不同。对一个概率黑箱做形式化验证,在学术界长期被认为是一个”范畴错误”——你不能对一个本质上不确定的系统要求确定性保证。
Pramaana Labs的突破在于:它不是试图验证模型本身(那确实是不可能的),而是验证模型的输出是否符合一套已编码的规则体系。这个思路的精妙之处在于,它把问题从”这个模型可靠吗?”转换为”这个答案符合规则吗?”——前者是一个无法回答的哲学问题,后者是一个可以用数学证明的工程问题。
具体来说,Pramaana的系统由三个核心层构成。第一层是”自动形式化”(Auto-formalization):将自然语言书写的规则——比如美国税法第179条关于设备折旧的规定,或者WHO关于2型糖尿病诊断的临床指南——翻译成LEAN语言的形式化表达。LEAN是一种由微软研究院开发、被全球数学家广泛使用的定理证明编程语言,它的核心特性是:任何在LEAN中被标记为”已证明”的命题,在数学上都是绝对正确的,不存在”差不多对”的可能性。
第二层是LLM推理层:当用户提出一个问题——比如”一个年收入12万美元的自由职业者,在2026年购买了一台5000美元的笔记本电脑用于工作,能否在当年全额抵扣?”——系统先调用大语言模型生成一个候选答案和推理链条。
第三层是证明引擎(Proof Engine):系统将LLM的推理链条翻译成LEAN中的形式化命题,然后尝试对其进行证明。如果证明成功,用户收到的不仅是答案,还有一份机器可检查的证明——任何人都可以用LEAN编译器独立验证这份证明的正确性。如果证明失败,系统不会返回一个”可能的”答案,而是精确指出推理链条在哪个环节违反了哪条规则。
这种”不能证明就不回答”的设计哲学,与当前AI行业”先输出再说、错了也没关系”的主流做法形成了鲜明对比。
三个Google系老兵的创业逻辑:当你在世界最强的AI公司内部看到了AI最大的缺陷
Pramaana Labs的三位创始人——Ranjan Rajagopalan、Krishnan Raghavan和Sanjay Ganapathy Subramaniam——都是印度理工学院马德拉斯分校(IIT Madras)的校友,且全部出身于Google生态系统。这个背景并非巧合,而是理解这家公司创业动机的关键线索。
CEO Ranjan Rajagopalan在IIT Madras获得计算机科学与工程的本硕双学位后,加入Google担任软件工程师长达四年,专注于本地搜索的验证框架开发。这段经历让他深刻理解了一个问题:即使是Google这样拥有最强大工程团队的公司,在面对需要绝对准确性的场景时,也不得不依赖大量人工审核来弥补AI系统的不确定性。2023年,Rajagopalan离开Google,联合创办了一家名为Astra的AI初创公司并担任CTO,专注于RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)的智能体开发。这段经历进一步坚定了他的判断:AI可靠性问题的解决方案不在于训练更大的模型,而在于引入一个外部的、确定性的验证层。
CTO Krishnan Raghavan曾在Google担任高级软件工程师(Staff Engineer),之后加入企业级AI搜索公司Glean,在那里从零搭建了企业对话式AI和搜索团队。Raghavan的职业轨迹表明了一个清晰的认知演进:在Google,他看到了AI的巨大潜力;在Glean,他看到了将AI部署到企业场景时遇到的巨大信任障碍——企业客户不会仅仅因为一个AI系统”大部分时候是对的”就信任它来处理合规、税务或法律事务。
首席科学家Sanjay Ganapathy Subramaniam的背景最为关键——他此前是Google DeepMind的高级研究工程师(Staff Research Engineer),直接参与了Gemini模型相关工具的架构设计。作为一个在AI最前沿工作过的人,Subramaniam对大语言模型的能力和局限性有着最切身的理解。他清楚地知道:即使是Gemini这样的顶尖模型,其底层架构也决定了它永远无法提供”确定性保证”。这不是工程上的缺陷,而是设计上的本质特征——概率生成模型就是这样工作的。
三个人的背景拼图在一起,画面变得清晰:一个在Google做过验证框架的CEO,一个在企业AI落地中碰壁的CTO,一个在DeepMind看到了模型天花板的首席科学家——他们各自从不同角度看到了同一个问题,然后决定用一种截然不同的方法来解决它。
值得注意的是,”Pramaana”这个名字本身就暗示了公司的哲学根基。在梵文中,”Pramāṇa”(प्रमाण)是一个认识论概念,指的是”有效的知识来源”或”正确认知的手段”——在印度哲学的六大正统体系中,关于什么构成”有效知识”的辩论已经持续了两千多年。选择这个名字,暗示创始人将公司的使命定位在一个根本性的认识论层面:在AI时代,什么才算是”可信的知识”?
Vinod Khosla的赌注:为什么这位硅谷教父认为”验证层”是AI基础设施的缺失环节?
2700万美元的种子轮融资对于一家成立仅一年多的公司来说已经不小,但更值得关注的是投资人名单背后的战略信号。
Khosla Ventures不仅仅是一家大型风投基金——Vinod Khosla本人对AI行业有着极为鲜明且大胆的判断。他多次公开表示,AI将在未来十到二十年内”取代几乎所有领域的专家”。但他同时意识到,这个愿景的实现有一个关键前提:AI必须从”人工审核+概率输出”的模式,进化为”机器自验证+确定性输出”的模式。否则,每一个AI应用都需要一个人类专家来”把关”,这就从根本上否定了AI替代专家的经济逻辑。
在Khosla的投资框架中,Pramaana Labs扮演的角色不是”又一个AI应用公司”,而是AI基础设施栈中的一个”缺失层”。正如云计算需要身份认证层(Auth0/Okta)、需要可观测性层(Datadog/New Relic)、需要安全层(CrowdStrike/Palo Alto Networks)一样,AI系统也需要一个独立的”验证层”来确保输出的可信度。Pramaana要做的就是这个验证层。
Khosla Ventures的合伙人Kanu Gulati也参与了这轮投资,并出席了Pramaana在2026年6月10日于旧金山Chorus Theater举办的首届”Verification Summit”(验证峰会)。这场单轨制的技术峰会聚集了来自学术界和工业界的形式化验证研究者,讨论”可证明AI”的未来路线图。Vinod Khosla亲自出席峰会的举动本身就传递了一个强烈信号:他不仅仅是在投资一家公司,而是在试图推动一个新的技术生态系统的形成。
跟投方的名单同样值得玩味。Accel是全球最活跃的风投机构之一,在企业软件和基础设施领域有着深厚的投资组合。Nexus Venture Partners和Premji Invest的参与,则反映了印度科技投资生态对这家IIT Madras校友创办的公司的强烈兴趣。Premji Invest是Wipro创始人Azim Premji的家族投资机构,其参与通常被视为对创始团队技术深度的一种背书。
但最值得深思的是两位个人投资者的身份。Pushmeet Kohli是Google DeepMind的副总裁,领导AI for Science和战略计划部门,是AlphaFold项目的关键推动者之一,同时也是”Safe and Verified AI”研究方向的积极倡导者——他的投资意味着,即使在全球最强大的AI实验室内部,也有人认为当前的大模型范式需要一个外部验证机制。Sriram Rajamani是微软研究院印度实验室的总经理,他最知名的工作是SLAM项目——一个用形式化验证方法自动检测Windows驱动程序错误的系统,后来演变为微软的Static Driver Verifier工具,至今仍在保护着全球数十亿台Windows电脑的稳定运行。让一个形式化验证领域的世界级权威来投资一家做AI形式化验证的创业公司,这本身就是对技术可行性最有力的背书。
这些投资人的共同特征是:他们不是在押注一个市场趋势,而是在押注一个技术范式转移——从概率AI到可证明AI。
竞争地图:Pramaana不是唯一一个想给AI装上”刹车系统”的玩家
形式化验证应用于AI的赛道正在迅速升温,Pramaana Labs并非孤军奋战。要理解这家公司的差异化定位,必须将其放在更大的竞争地图中审视。
Harmonic是这个领域最引人注目的公司之一。由Robinhood联合创始人兼CEO Vlad Tenev和Tudor Achim共同创办,Harmonic的旗舰产品Aristotle是一个”数学超级智能”(Mathematical Superintelligence)系统。Aristotle同样使用LEAN 4作为证明后端,在2025年的国际数学奥林匹克竞赛(IMO)中达到了金牌水平的表现。Harmonic最近已达到独角兽估值,其野心是构建一个通用的数学推理引擎。与Pramaana的关键区别在于:Harmonic的重心在纯数学推理和定理证明,而Pramaana专注于将形式化验证应用于领域特定的规则系统(税法、医疗指南等)。两者并不直接竞争,但共享了同一个技术栈(LEAN 4)和同一个底层信念(AI需要确定性验证)。
Logical Intelligence则走了一条与Pramaana更接近的路线。由CEO Eve Bodnia领导的这家公司开发了名为Aleph的模型,专注于将代码生成的结果转化为可验证的数学证明,以确保代码的100%正确性。它还拥有一个名为Noa的审计智能体,用于检测现有代码库中的漏洞。Logical Intelligence的焦点更多在软件工程和区块链安全领域——智能合约的形式化验证是一个天然的应用场景,因为一个bug可能导致数亿美元的资金损失。相比之下,Pramaana的视野更宽,它瞄准的是所有”由人类专家制定的规则体系”——无论这些规则是法律条文、医疗协议还是税务准则。
在更广泛的”AI可信度”赛道上,还有一些不同路径的竞争者值得注意。Guardrails AI和Nvidia的NeMo Guardrails采用的是”护栏”(guardrails)方法——通过预定义的规则过滤器来阻止AI输出有害或不准确的内容。但这种方法的本质局限在于:它是基于启发式规则的过滤,而非基于数学证明的验证。一个通过了guardrails检查的回答,仍然可能在事实层面是错误的。
Galois, Inc.是形式化方法领域的”老兵”,已经运营了二十多年,主要服务于美国国防和航空航天客户。Galois最近也开始将生成式AI整合到其形式化验证流程中,以降低验证的成本和复杂度。但Galois的模式是传统的咨询和服务模式,而Pramaana试图构建的是一个可规模化的产品平台。
还有一个不可忽视的玩家:字节跳动。其研究团队开发的Seed-Prover系统引入了多阶段强化学习和LEAN编译器反馈的迭代优化架构,在多个证明搜索基准上表现出色。Google DeepMind的LEAP框架也在2026年中发布,将复杂证明分解为目标和子目标的图结构,显著提升了形式化推理的成功率。这些来自大型科技公司的研究成果既是Pramaana的潜在竞争威胁,也是其技术可行性的有力佐证——当Google和字节跳动都在投入资源研究形式化证明与AI的结合时,这条路线的价值已经不需要进一步论证。
Pramaana的差异化在于,它不仅仅是一个证明引擎或一个数学推理系统,而是一个”领域知识编译器”。它的核心壁垒不在LEAN语言本身(这是一个开源工具),而在于将特定行业的复杂规则体系成功”翻译”为LEAN形式化表达的能力——这既需要AI自动化技术(auto-formalization),也需要深厚的领域专家网络。这也是为什么公司计划用本轮融资来扩大”领域专家网络”(domain expert network),而不仅仅是招聘更多AI研究员。
LEAN的崛起:一种数学家的小众语言,如何成为AI可靠性竞赛中的关键武器?
要真正理解Pramaana Labs的技术深度,必须理解LEAN——这种语言的特殊性质是整个技术方案成立的根基。
LEAN最初由微软研究院的Leonardo de Moura于2013年开发,最初的目标用户是数学家和逻辑学家。LEAN 4在2021年发布后,逐渐从一个纯学术工具演变为一个具有工业级性能的定理证明与编程语言。与Python或Java这样的通用编程语言不同,LEAN的核心设计哲学是:程序即证明。在LEAN中,你写的不是”执行指令”,而是”逻辑命题”;你的代码不是”被运行的”,而是”被验证的”。如果一段LEAN代码能够通过编译器,那么它所表达的逻辑命题在数学上就是成立的——这不是一种统计上的保证,而是一种逻辑上的绝对保证。
2025年到2026年间,LEAN生态系统经历了一次爆发式增长,被业界称为”验证革命”(Verification Revolution)。这背后有几个关键推动力:
首先,大语言模型在数学推理领域的快速进步,为LEAN的自动化使用打开了大门。传统上,用LEAN编写形式化证明需要高度专业化的人才——全球能够熟练使用LEAN的人可能不超过几千人。但随着LLM在理解和生成LEAN代码方面能力的提升,”自动形式化”(auto-formalization)——即用AI自动将自然语言表述的规则转化为LEAN形式化表达——变得越来越可行。Pramaana Labs正是押注于这一趋势:用AI来降低形式化验证的门槛,从而将其从一种只有航天和芯片行业才能负担的奢侈品,变成每一个企业AI应用都能使用的标准组件。
其次,学术界在AI辅助证明搜索方面取得了一系列突破。LeanAide等工具使数学家和开发者能够更快地定位定理和形式化自然语言陈述。Lean Focused Research Organization(LEAN FRO)持续推动语言的可扩展性和易用性改进。斯坦福大学的Centaur Lab——Pramaana的研究合作伙伴之一——也在AI与形式化方法结合领域做出了重要贡献。
第三,”神经-符号”(Neural-Symbolic)混合架构的兴起。在这种架构中,LLM充当候选解决方案的生成器,而LEAN编译器充当确定性验证层。这种”先猜后验”的工作流程巧妙地利用了两个系统的互补优势:LLM擅长创造性地探索解决方案空间,而LEAN擅长确定性地验证解决方案的正确性。Pramaana的技术架构本质上就是这种混合范式在企业规则验证场景中的具体实现。
不过,LEAN也有其固有局限。形式化表达的覆盖度问题是一个核心挑战:并非所有领域规则都能被干净利落地编码为形式化命题。法律条文经常充满模糊性和需要情境判断的”灰色地带”——比如”合理”、”适当”、”在可行的范围内”这类措辞。税法虽然相对结构化,但也存在大量需要具体事实判断的条款。Pramaana能否在保持形式化严谨性的同时处理这些”软边界”,将是决定其产品实用性的关键技术挑战。
风险与悬念:一个对数学保持敬畏的公司,需要面对哪些不那么确定的现实?
Pramaana Labs的技术愿景令人兴奋,但任何负责任的分析都不能回避其面临的实质性挑战。
规则编码的规模和成本问题是最直接的障碍。美国联邦税法(Internal Revenue Code)本身就有超过240万字,加上各州的税法、IRS的裁决和判例法,整个体系的复杂度是惊人的。将这些规则”翻译”成LEAN形式化表达,即使有AI辅助的auto-formalization,也需要大量的领域专家参与审核和校准。Pramaana计划用本轮融资扩大领域专家网络,说明公司对这个瓶颈有清醒认识。但问题在于:这种”人类专家+AI”的翻译模式,其边际成本能否随着规模扩大而显著下降?如果每进入一个新的垂直领域都需要从头构建规则库,那么公司的规模化速度就会受到严重制约。
规则的动态更新是另一个挑战。法律和监管规则不是静态的——税法每年都在修改,FDA的临床指南定期更新,金融监管条例因市场事件而频繁调整。Pramaana需要建立一个持续的、接近实时的规则更新机制,确保其形式化规则库始终与最新的法律法规保持同步。这不仅仅是一个技术问题,更是一个运营和商业模式问题——谁来为这种持续更新付费?如何确保更新的及时性和准确性?
证明延迟问题也不容忽视。形式化证明的计算复杂度可能很高——对于简单的税务计算,证明可能在毫秒级完成;但对于涉及多条规则交叉适用的复杂场景,证明搜索可能需要数秒甚至更长时间。在用户习惯了ChatGPT即时响应的今天,Pramaana需要在证明的严谨性和响应速度之间找到一个可接受的平衡点。
市场教育可能是最隐蔽但最根本的挑战。对于大多数企业决策者来说,”形式化验证”是一个陌生且抽象的概念。说服一家会计师事务所或医疗机构的CTO理解”为什么你需要一个LEAN证明引擎”,远比向他们推销一个”更聪明的AI助手”要困难得多。Pramaana需要找到一种方式,将深奥的技术优势转化为直观的商业价值主张——不是”我们用LEAN做形式化验证”,而是”我们保证AI给你的税务建议100%合规,如果不合规我们能精确告诉你为什么”。
最后,还有一个更根本的哲学性挑战:形式化验证只能保证AI的输出”符合已编码的规则”,但不能保证这些规则本身是完整的或正确的。如果规则库遗漏了某条重要法规,或者某条规则的形式化表达与其原始含义之间存在细微偏差,那么即使通过了证明的答案也可能是错误的。换言之,Pramaana的系统提供的是”相对于规则库的正确性保证”,而非”绝对的正确性保证”。这个区别很重要,也需要在市场沟通中被诚实地传达。
“验证革命”的终局:AI行业正在经历从”能力竞赛”到”可信度竞赛”的历史性转折
Pramaana Labs的出现,以及整个”可证明AI”(Provable AI)赛道的兴起,折射出一个更宏观的行业趋势:AI行业的竞争维度正在发生根本性变化。
过去五年,AI行业的竞争核心是”能力”——谁的模型参数更多、谁的基准测试分数更高、谁能生成更流畅的文本、更逼真的图像。这场能力竞赛催生了一系列令人惊叹的技术成就,但也暴露了一个致命弱点:能力的增长并没有带来信任的等比例增长。事实上,随着AI被部署到越来越多的高风险场景中,信任缺口反而在扩大。
这正在推动行业竞争的重心从”做得更好”转向”证明做得对”。在这个新的竞争维度上,不是”谁的模型更聪明”重要,而是”谁的输出可以被独立验证”重要。Pramaana Labs押注的正是这个转折点。
如果Pramaana和类似的公司成功了,AI行业的架构可能会发生一次根本性重组——就像互联网早期从”任何人都可以搭一个网站”演变为必须有HTTPS加密、身份认证、合规审计等信任基础设施一样,AI系统也将被要求配备标准化的验证层。在这个未来中,一个没有验证层的AI应用就像一个没有HTTPS的网站——技术上可以运行,但没有人会信任它来处理重要事务。
但这个未来的实现并不确定。形式化验证能否从芯片和航天领域的小众应用,真正扩展到覆盖人类知识和规则体系的广泛领域?auto-formalization技术的成熟速度是否能赶上市场需求?LEAN生态系统能否培养出足够多的专业人才?这些都是尚未回答的问题。
Pramaana Labs的2700万美元种子轮,本质上是一张押注”验证革命”的门票。三位来自Google和DeepMind的创始人,用他们在世界最强AI系统内部的第一手经验,提出了一个反直觉的判断:AI行业最大的技术挑战不是让模型变得更强,而是让模型的输出变得可信。在一个即将被AI深度渗透的世界里,”可证明正确”这四个字的价值,可能远超我们今天的想象——也远比”可能正确”值钱得多。