返回首页
2026.01.05 21:33 约 39 分钟 全球动态 1.4万 阅读

2025 年的数据库:年度回顾

本文信息来源:cmu

又一年过去了。我本来希望能写更多文章,而不是只写这些年终长篇吐槽,但我在春季学期几乎 死掉 了,这耗尽了我的时间。尽管如此,我还是会回顾一下我认为过去一年数据库领域中的主要趋势和事件。

数据库世界中出现了许多令人兴奋且前所未有的发展。Vibe coding 成为了流行用语。Wu-Tang Clan 宣布了他们的 时间胶囊项目 。今年 Databricks 没有选择上市并进行一轮巨额融资,而是选择不上市,却进行了两轮巨额融资。

与此同时,其他一些事件则早在预料之中,也没那么令人意外。Redis Ltd. 在他们那次 rugpull 之后一年,又 把许可证改了回来 (我在 去年 就预测过这一点)。SurrealDB 报告了非常漂亮的基准测试数据,因为他们 并没有将写入刷新到磁盘,并且丢失了数据 。至于 Coldplay,则可能毁掉你的婚姻。不过 Astronomer 在最后这一件事上倒是做出了相当不错的 lemonade

在开始之前,我想回应一个我每年都会在评论区被问到的问题。大家总是问,为什么我没有提到 系统 X、没有讨论 数据库 Y,或者没有在分析中包含 公司 Z。原因在于,我能写的内容毕竟有限,除非在过去一年里发生了有趣或值得关注的事情,否则其实也没什么可谈的。但即便是所有值得注意的数据库事件,也不都适合由我来评述。比如,最近试图 揭露 AvgDatabase CEO 身份 的行为是可以讨论的,但 MongoDB 自杀诉讼案 则显然不在此列。

好了,说完这些,我们开始吧。这些文章每年都在变得越来越长,所以我先提前道歉。

往期条目:

PostgreSQL 的主导地位仍在持续

我最早在 2021 年写过 PostgreSQL 如何蚕食数据库世界 。这一趋势依然毫无减弱,因为当今数据库领域中最有趣的大多数进展再次发生在 PostgreSQL 上。该 DBMS 的最新版本(v18)于 2025 年 11 月发布。最引人注目的特性是全新的异步 I/O 存储子系统 ,这将最终让 PostgreSQL 走上摆脱对操作系统页缓存依赖的道路。它还新增了对 skip scans 的支持;即使缺少前导键(即前缀),查询依然可以使用多键 B+Tree 索引。此外,查询优化器也有一些额外改进(例如,移除多余的自连接 )。

精明的数据库行家会很快指出,这些并非突破性的功能,其他 DBMS 早在多年前就已经具备。PostgreSQL 仍然是唯一一个主要依赖操作系统页缓存的主流 DBMS。而且 Oracle 早在 2002 年(v9i)就已经支持 skip scan!因此,你可能会疑惑,为什么我会宣称 2025 年数据库领域最火热的“动作”发生在 PostgreSQL 身上?

收购 + 发布:

原因在于,大多数数据库领域的精力和活动都集中在 PostgreSQL 相关的公司、产品、项目以及衍生系统上。在过去一年中,最炙手可热的数据初创公司(Databricks)以 10 亿美元收购了一家 PostgreSQL DBaaS 公司 Neon)。随后,全球最大的数据库公司之一(Snowflake)以 2.5 亿美元收购了另一家 PostgreSQL DBaaS 公司 CrunchyData)。接着,全球最大的科技公司之一(Microsoft) 推出了一项新的 PostgreSQL DBaaS(HorizonDB)。Neon 和 HorizonDB 延续了 Amazon Aurora 在 2010 年代提出的最初高层架构 ,通过单一主节点实现计算与存储的分离。目前,Snowflake 的 PostgreSQL DBaaS 由于构建在 Crunchy Bridge 之上,因此采用了与标准 PostgreSQL 相同的核心架构。

分布式 PostgreSQL:

我上面列出的所有服务都是单主节点架构。也就是说,应用将写操作发送到主节点,然后主节点再将这些变更发送给从属副本。但在 2025 年,有两个关于新项目的公告,旨在为 PostgreSQL 创建可横向扩展(即水平分区)的服务。2025 年 6 月,Supabase 宣布已聘请 Sugu,Vitess 的共同创建者、前 PlanetScale 联合创始人兼 CTO,来领导 Multigres 项目,为 PostgreSQL 打造分片中间件,类似于 Vitess 对 MySQL 的分片方式。Sugu 于 2023 年离开 PlanetScale,并不得不在这两年里暂时隐退。他现在很可能已经摆脱了任何法律问题,能够在 Supabase 推动事情落地。当一位数据库工程师加入一家公司,而 announcement 更多关注的是这个人而不是系统本身时,你就知道这是一件 big deal。SingleStore 的 联合创始人兼 CTO 于 2024 年加入 Microsoft,负责 lead HorizonDB,但 Microsoft(错误地)并没有大肆宣传此事。 Sugu 加入 Supabase,就好比 Ol’ Dirty Bastard(RIP) 服刑两年后获得假释 ,然后在获释的第一天就宣布签下一份新的唱片合约 

在 Multigres 的消息发布一个月后,PlanetScale 宣布了其自己的 Vitess-for-PostgreSQL 项目 Neki。PlanetScale 于 2025 年 3 月推出了其初始的 PostgreSQL DBaaS,但其核心架构仍然是基于 PostgreSQL 加 pgBouncer 的原生方案。

商业格局:

随着 Microsoft 在 2025 年推出 HorizonDB,所有主要云厂商如今都拥有了针对各自增强版 PostgreSQL 的严肃项目。Amazon 自 2013 年起提供 RDS PostgreSQL,并自 2017 年起提供 Aurora PostgreSQL。Google 于 2022 年推出了 AlloyDB。甚至连“老牌翻盖手机” IBM 也自 2018 年起拥有其 PostgreSQL 的云版本 。Oracle 在 2023 年发布了其 PostgreSQL 服务 ,不过有传言称,其内部的 PostgreSQL 团队在 2025 年 9 月的 MySQL OCI 裁员 中成为了“附带受害者”。ServiceNow 则在 2024 年基于其 2021 年对 Swarm64 的 收购 推出了 RaptorDB 服务 

是的,我知道 Microsoft 在 2019 年收购了 Citus。Citus 在 2019 年被重新命名为 Azure Database for PostgreSQL Hyperscale,随后又在 2022 年更名为 Azure Cosmos DB for PostgreSQL。但还有一个 Azure Database for PostgreSQL with Elastic Clusters,它同样使用 Citus,不过这与由 Citus 驱动的 Azure Cosmos DB for PostgreSQL 并不相同。等等,我可能在这点上说错了。Microsoft 在 2023 年停用了 Azure PostgreSQL Single Server,但保留了 Azure PostgreSQL Flexible Server。这有点类似于 Amazon 忍不住把“Aurora”加入到 DSQL 的名称中。无论如何,至少 Microsoft 足够聪明,暂时将他们新系统的名称保持为“Azure HorizonDB”。

仍然有一些独立的(ISV)PostgreSQL DBaaS 公司。Supabase 可能是其中按实例数量计算规模最大的。其他还包括 YugabyteDBTigerData(原名 TimeScale)、PlanetScaleXataPgEdge 以及 Nile。还有一些系统提供与 Postgres 兼容的前端,但其后端系统并非源自 PostgreSQL(例如 CockroachDBCedarDBSpanner)。Xata 最初的架构构建在 Amazon Aurora 之上,但在今年宣布 正在切换到自有基础设施 Tembo 在 2025 年放弃了其 托管的 PostgreSQL 服务 ,转而专注于一个能够进行部分数据库调优的编码代理。ParadeDB 迄今尚未宣布其托管服务。Hydra 和 PostgresML 在 2025 年倒闭(见下文),因此退出了这场竞争。还有一些托管公司在提供其他系统的同时也提供 PostgreSQL DBaaS,例如 Aiven 和 Tessel

Andy's Head Andy 的观点:

在 Databricks 和 Snowflake 收购了 PostgreSQL 公司之后,下一位主要买家会是谁尚不清楚。同样,每一家大型科技公司都已经提供了 Postgres 产品。EnterpriseDB 是最老牌的 PostgreSQL ISV,但错过了过去五年中最重要的两笔 PostgreSQL 收购。不过,我猜他们还能暂时跟着 Bain Capital 的资金继续前行,或者指望 HPE 收购他们,尽管那项 合作伙伴关系 已经是八年前的事了。这种并购格局让人想起 2000 年代末期的 OLAP 收购潮,当时在 AsterDataGreenplum 和 DATAllegro 被收购之后,Vertica 成了最后一个在公交站等候的。

两个相互竞争的分布式 PostgreSQL 项目(MultigresNeki)的开发是一个令人振奋的消息。这些项目并不是第一次有人尝试这样做。当然,GreenplumParAccel 和 Citus 已经在 OLAP 工作负载领域存在了二十年。是的,Citus 支持 OLTP 工作负载,但它在 2010 年最初是以 专注于 OLAP 起家的。至于 OLTP,15 年前,NTT 的 RiTaDB 项目与 GridSQL 联手创建了 Postgres-XC。Postgres-XC 的开发者随后创立了 StormDB,而 Translattice 在 2013 年将其收购。Postgres-X2 试图对 XC 进行现代化改造,但开发者最终放弃了这一努力。Translattice 将 StormDB 以 Postgres-XL 的形式开源,但该项目自 2018 年起便处于停滞状态。YugabyteDB 于 2016 年发布,可能是部署最广泛的分片 PostgreSQL 系统(而且仍然是开源的!),但它是一个硬分叉,因此只兼容 PostgreSQL v15。 Amazon 在 2024 年宣布了自己的分片 PostgreSQL(Aurora Limitless),但它是闭源的。

PlanetScale 小队对对立阵营毫无好感 ,并且向 Neon 和 Timescale 挥拳相向。数据库公司之间互相开火并不新鲜(参见 Yugabyte vs. CockroachDB)。我怀疑随着 PostgreSQL 之战升温,未来会看到更多这样的情况。我建议这些规模较小的公司去点名批评大型云厂商 ,而不是彼此内斗。

每个数据库都要 MCP!

如果说 2023 年是每个 DBMS 都添加了向量索引的一年,那么 2025 年则是每个 DBMS 都添加了对 Anthropic 的 Model Context Protocol(MCP)支持的一年。MCP 是一种标准化的客户端—服务器 JSON-RPC 接口,使 LLMs 无需自定义粘合代码即可与外部工具和数据源交互。MCP 服务器作为位于 DBMS 前面的中间件,暴露其提供的工具、数据和操作的列表。MCP 客户端(例如 Claude 或 ChatGPT 等 LLM 宿主)发现并使用这些工具,通过向服务器发送请求来扩展其模型的能力。在数据库场景中,MCP 服务器会将这些查询转换为相应的数据库查询(例如 SQL)或管理命令。换句话说,MCP 就是那个把砖头数清、把 Cream 分清的中间人,从而让数据库和 LLMs 彼此足够信任,能够开展合作。

Anthropic 在 2024 年 11 月 宣布 了 MCP,但真正的爆发是在 2025 年 3 月,当时 OpenAI 宣布将在其生态系统中 支持 MCP。在接下来的几个月里,几乎每一家 DBMS 供应商都为所有系统类别发布了 MCP 服务器:OLAP(例如 ClickHouseSnowflakeFireboltYellowbrick)、SQL(例如 YugabyteDBOraclePlanetScale)以及 NoSQL(例如 MongoDBNeo4jRedis)。由于没有官方的 Postgres MCP 服务器,每一家 Postgres DBaaS 都发布了自己的实现(例如 TimescaleSupabaseXata)。云厂商也发布了多数据库的 MCP 服务器,可以与其托管的任意数据库服务进行通信(例如 AmazonMicrosoftGoogle)。允许单一网关与异构数据库通信几乎达到了“圣杯”式的 联邦数据库 ,但仍差一步。据我所知,这些 MCP 服务器中的每个请求一次只会针对单个数据库,因此应用程序需要自行负责跨数据源执行连接操作。

除了官方厂商的 MCP 实现之外,几乎每一种 DBMS 都有数百个随机的 MCP 服务器实现。其中一些尝试支持多个系统(例如 DBHubDB MCP Server)。DBHub 发布了一篇关于 PostgreSQL MCP 服务器的优秀概述 

一个被证明对智能体非常有帮助的有趣特性是数据库分支。尽管这并非 MCP 服务器所特有,分支功能允许智能体在不影响生产应用的情况下快速测试数据库更改。Neon 在 2025 年 7 月报告称,智能体创建了其 80% 的数据库 。Neon 从一开始就被设计为支持分支 (当该系统还叫“Zenith”时,Nikita 曾向我展示过一次早期演示),而其他系统是在后来才加入分支支持的。请参阅 Xata 最近关于数据库分支的对比文章 

Andy's Head Andy 的观点:

一方面,我很高兴现在终于有了一个将数据库暴露给更多应用程序的标准。但任何人都不应该信任一个应用程序拥有不受限制的数据库访问权限,无论是通过 MCP 还是通过系统的常规 API。并且,只向账户授予最小权限仍然是良好的实践。对于那些未受监控、可能会在你的数据库里到处乱跑的代理来说,限制账户权限尤其重要。这意味着,当 LLM 开始失控爆发时,像给每个账户都分配管理员权限,或为每个服务使用同一个账户这样的懒惰做法都会被彻底击垮。当然,如果你的公司在你导致最富有公司的库存市值蒸发 6000 亿美元的同时,把数据库暴露给全世界 ,那么失控的 MCP 请求就不是你最需要担心的问题了。

根据我对少数几个 MCP server 实现的粗略检查,它们只是简单的代理,将 MCP JSON 请求转换为数据库查询。它们并没有进行深入的内省来理解请求的意图以及是否合适。总会有人在你的应用中下单 18,000 个水杯 ,而你需要确保这不会压垮你的数据库。一些 MCP server 具备基本的防护机制(例如,ClickHouse 只允许只读查询 )。DBHub 提供了一些额外的保护措施 ,例如限制每个请求返回的记录数量以及实现查询超时。Supabase 的文档为 MCP agents 提供了最佳实践指南 ,但它们依赖人类去遵循。当然,如果你依赖人类去做正确的事情, 坏事就一定会发生 

企业级 DBMS 已经具备开源系统所缺乏的自动化防护栏和其他安全机制,因此它们在面向 agentic 生态系统时准备得更加充分。例如,IBM Guardium 和 Oracle Database Firewall 可以识别并阻止异常查询。我并不是在为这些大型科技公司站台。我知道未来还会看到更多由代理引发、毁掉生活的案例,比如 意外删除数据库 。将 MCP 服务器与代理(例如连接池)结合,是引入自动化保护机制的一个极佳契机。

MongoDB, Inc. 诉 FerretDB Inc.

MongoDB 在过去二十年里一直是 NoSQL 领域的中流砥柱。FerretDB 于 2021 年由 Percona 的高层管理人员推出,旨在提供一种中间件代理,将 MongoDB 查询转换为用于 PostgreSQL 后端的 SQL。这一代理使 MongoDB 应用程序能够在无需重写查询的情况下切换到 PostgreSQL。

在共存了几年之后,MongoDB 于 2023 年向 FerretDB 发送了一封停止并终止函 ,指控 FerretDB 侵犯了 MongoDB 的专利、版权和商标,并且违反了 MongoDB 关于其文档和线协议规范的许可证。这封信在 2025 年 5 月公开,当时 MongoDB 就这些问题对 FerretDB 采取了激烈行动,提起了联邦诉讼 。双方争议的一部分在于,FerretDB 公然对外宣称其在未经授权的情况下提供 MongoDB 的“ 即插即用替代品 ”。MongoDB 针对这些问题提起的联邦诉讼 。双方争议的一部分在于,FerretDB 公然对外宣称其在未经授权的情况下提供 MongoDB 的“ 即插即用替代品 ”。MongoDB 的法院文件中包含了所有标准指控,包括:(1)误导开发者,(2)淡化商标,以及(3)损害其声誉。

这一事件因 Microsoft 宣布将其兼容 MongoDB 的 DocumentDB 捐赠给 Linux Foundation 而变得更加复杂。该项目官网提到,DocumentDB 与 MongoDB 驱动兼容,并且其目标是“ 构建一个兼容 MongoDB 的开源文档型数据库 ”。其他主要数据库厂商,如 Amazon 和 Yugabyte,也参与了该项目。乍看之下,这种表述与 MongoDB 指控 FerretDB 所做之事似乎相似。

Andy's Head Andy 的观点:

我无法找到一个数据库公司因复制另一家公司的 API 而起诉对方的案例。最接近的例子是 Oracle 起诉 Google,原因是 Google 在 Android 中使用了 Java API 的洁净室重写版本。最高法院最终以合理使用为由 裁定支持 Google,该案件也影响了法律上对重实现行为的看待方式。

我不知道这起诉讼最终会如何发展,如果它真的进入审判阶段的话。由街上随机抽选的人组成的陪审团可能无法理解 MongoDB 的 wire protocol 细节,但他们肯定会明白 FerretDB 最初的名字是 MangoDB。当你只是改了另一家公司名字中的一个字母时,要说服陪审团相信你并非试图转移客户,将会非常困难。更不用说这本身也不是一个原创名称:已经有另一个名为 MangoDB 的戏仿版 DBMS,它会把所有内容都写入 /dev/null

既然说到数据库系统的命名,Microsoft 选择“DocumentDB”这个名字也很不幸。已经存在 Amazon DocumentDB(顺便一提,它也 兼容 MongoDB,不过 Amazon 大概为此付了钱)、InterSystems DocDB,以及 Yugabyte DocDB。事实上,Microsoft 在 2016 年为 “Cosmos DB” 取的最初名称也正是 DocumentDB

最后,MongoDB 的法院文件声称他们“……开创了‘非关系型’数据库的开发”。这一说法是不正确的。最早的通用型 DBMS 都是非关系型的,因为关系模型当时尚未被发明。通用电气的 Integrated Data Store(1964 年)采用了网络数据模型 ,而 IBM 的 Information Management System(1966 年)采用了层次化数据模型 。MongoDB 也并非第一个文档型 DBMS。这个头衔应归于 20 世纪 80 年代末的面向对象 DBMS(例如 Versant),或者 2000 年代的 XML DBMS(例如 MarkLogic)。MongoDB 在这些方法中取得了极为显著的成功,幅度之大远超其他方案(或许 IMS 是个例外)。

文件格式之战

文件格式是数据系统中的一个领域,在过去十年里基本处于沉寂状态。2011 年,Meta 为 Hadoop 发布了一种列式格式,称为 RCFile。两年后,Meta 对 RCFile 进行了改进,并发布了基于 PAX 的 ORC(Optimized Record Columnar File)格式。ORC 发布一个月后,Twitter 和 Cloudera 发布了 Parquet 的首个版本。近 15 年后,Parquet 已成为占主导地位的开源文件格式。

2025 年,出现了五种新的开源文件格式,试图撼动 Parquet 的地位:

这些新格式加入了 2024 年发布的其他格式:

SpiralDB 今年凭借宣布 将 Vortex 捐赠给 Linux Foundation 以及成立其多组织指导委员会而成为最受关注的项目。Microsoft 在 2025 年底的某个时间悄然终止了 Amudai(或者至少将其转为闭源)。其他项目(FastLanes、F3、Anyblox)都是学术原型。今年 Anyblox 获得了 VLDB 最佳论文 奖。

这股新的竞争点燃了 Parquet 开发者社区去现代化其功能 。请参阅 Parquet PMC 主席(Julien Le Dem)撰写的关于列式文件格式生态的深入技术分析 

Andy's Head Andy 的观点:

Parquet 的主要问题并不在于格式本身。其规范可以、而且也已经不断演进。没有人期望组织为了升级到最新的 Parquet 版本而重写 PB 级的遗留文件。问题在于,不同语言中存在大量 reader/writer 库实现,每个只支持规范中的不同子集。我们对真实环境中 Paraquet 文件的分析发现,即便这些文件的创建时间在 2020 年之后,其中仍有 94% 只使用了 2013 年的 v1 特性。这种最低公分母的现状意味着,如果有人使用 v2 特性创建 Parquet 文件,系统是否具备正确版本来读取它就变得不确定。

我与清华大学(Xinyu ZengHuanchen Zhang)、CMU(Martin PrammerJignesh Patel)以及 Wes McKinney 的杰出人士一起参与了 F3 文件格式的研发。我们的重点是通过同时提供作为共享对象(Rust crates)的原生解码器,以及将这些解码器以嵌入式 WASM 版本包含在文件中,来解决这一互操作性问题。如果有人创建了一种新的编码方式,而 DBMS 没有原生实现,它仍然可以通过传递 Arrow buffers 使用 WASM 版本来读取数据。每个解码器只针对单一列,这使得 DBMS 可以在同一个文件中混合使用原生解码器和 WASM 解码器。AnyBlox 则采取了不同的方法,生成一个单一的 WASM 程序来解码整个文件。

我不知道谁会赢得这场文件格式之战。下一场战斗很可能将围绕 GPU 支持展开。SpiralDB 正在做出正确的布局,但 Parquet 的普及性将是一个充满挑战的障碍。我甚至还没有展开讨论 DuckLake 试图如何颠覆 Iceberg……

当然,每当这个话题被提起时,总会有人贴出这幅关于相互竞争标准的 xkcd 漫画 。我以前就看过了。你不用再给我发邮件了。

杂项动态

数据库涉及巨额资金。让我们把它们全部过一遍!

收购:

区块上有很多动向。Pinecone 在 9 月份更换了其 CEO 以为被收购做准备 ,但除此之外我还没有听到其他消息。以下是已经发生的几起:

  • DataStax → IBM这家 Cassandra 的中坚力量在年初以约 30 亿美元的价格被 IBM 收购。
  • Quickwit → DataDogLucene 替代方案背后的领先公司、全文搜索引擎 Tantivy,在今年年初被收购。好消息是,Tantivy 的开发仍在持续推进,未受影响。
  • SDF → dbt作为今年 Fusion 发布的一部分,这次收购对 dbt 来说是一次非常扎实的补强,使他们能够在其 DAG 中进行更为严格的 SQL 分析。
  • Voyage.ai → MongoDBMongo 收购了一家早期 AI 公司,以扩展其云产品中的 RAG 能力。我最好的学生之一在公告发布前一周加入了 Voyage。他原以为不与数据库公司签约就是背离了“家庭”,结果最后还是进入了一家数据库公司。
  • Neon → Databricks显然,这家 PostgreSQL 公司曾陷入竞标大战,但 Databricks 为其支付了令人垂涎的 10 亿美元 。Neon 今天仍以独立服务的形式存在,但 Databricks 很快在其生态系统中将其重新品牌为 Lakebase
  • CrunchyData → Snowflake你知道 Snowflake 不可能让 Databricks 在夏天独揽所有关注度,于是他们以 2.5 亿美元收购了这家成立 13 年的 PostgreSQL 公司 CrunchyData。近几年,Crunchy 招募了来自 Citus 的顶尖前员工,并在 Snowflake 向他们开出支票之前正在扩展其 DBaaS 产品。Snowflake 于 2025 年 12 月宣布其 Postgres 服务进入公开预览阶段。
  • Informatica → Salesforce成立于 1990 年代的老牌 ETL 公司 Informatica 被 Salesforce 以 $8b 收购。这发生在他们于 1999 年上市、2015 年退市转为私募股权持有,以及 2021 年再次上市之后。
  • Couchbase → Private Equity说实话,我从未理解 Couchbase 是如何在 2021 年成功上市的。我猜他们是在蹭 MongoDB 的热度?几年前,Couchbase 通过整合来自 加州大学尔湾分校的 AsterixDB 项目 的组件,做过一些有意思的工作。
  • Tecton → DatabricksTecton 为 Databricks 提供了额外的工具来构建 agents。我的另一位前学生曾在
  • Tobiko Data → Fivetran这个团队打造了两个非常有用的工具:SQLMesh 和 SQLglot。前者是唯一可行的、可与 dbt 竞争的开源方案(见下文他们与 Fivetran 的待定合并)。SQLglot 是一个方便的 SQL 解析/反解析器,支持基于启发式的查询优化器。将其与 Fivetran 和 SDF 以及 dbt 结合,在未来几年将使该领域形成一次有趣的技术布局。
  • SingleStore → 私募股权收购 SingleStore 的私募股权公司(Vector Capital)此前就有运营数据库公司的经验。他们在 2020 年收购了 XML 数据库公司 MarkLogic,并在 2023 年将其转手卖给了 Progress
  • Codership → MariaDB在 2024 年被私募股权收购之后,MariaDB Corporation 今年开始了一轮疯狂的并购。首先是为 MariaDB 提供 Galera Cluster 扩展型中间件的那家公司。可参阅我在 2023 年对 MariaDB dumpster fire 的综述。
  • SkySQL → MariaDB接下来是第二起 MariaDB 收购案。为了让大家弄清楚,最初支持 MariaDB 的商业公司在 2010 年名为 “SkySQL Corporation”,但在 2014 年更名为 “MariaDB Corporation”。随后在 2020 年,MariaDB Corporation 推出了一个名为 SkySQL 的 MariaDB DBaaS。但由于资金持续流失,MariaDB Corporation 在 2023 年将 SkySQL Inc. 剥离为一家独立公司 。而现在,在 2025 年,MariaDB Corporation 又通过回购 SkySQL Inc. 完成了一次轮回回到原点。今年的数据库宾果卡里可没有这一手。
  • Crystal DBA → Temporal这家自动化数据库优化工具公司启程前往 Temporal,去自动优化他们的数据库!我很高兴听到 Crystal 的创始人、伯克利数据库组校友 Johann Schleier-Smith 在那里发展得不错。
  • HeavyDB → Nvidia该系统(曾名 OmniSci,更早是 MapD)是最早的 GPU 加速数据库之一,于 2013 年推出。除了某家并购(M&A)公司的商品列表中提到交易成功外,我没有找到他们停止运营的官方公告。后来我们与 NVIDIA 开会,讨论潜在的数据库研究合作,一些 HeavyDB 的朋友也出现在会上。
  • DGraph → Istari DigitalDgraph 之前于 2023 年被 Hypermode 收购 。看起来 Istari 只是买下了 Dgraph,而不是整个 Hypermode(或者他们已经把后者放弃了)。我至今还没遇到过真正积极在使用 Dgraph 的人。
  • DataChat → Mews这是最早从威斯康星大学、后来成为 CMU-DB 教授的 Jignesh Patel 那里出来的“与数据库聊天”项目之一。但他们后来被一家欧洲酒店管理 SaaS 公司收购了。你可以自行体会这意味着什么。
  • Datometry → SnowflakeDatometry 多年来一直在攻克自动将遗留 SQL 方言(例如 Teradata)转换为较新的 OLAP 系统这一充满风险的难题。Snowflake 收购了他们,以此扩展其 迁移工具 。更多信息请参阅 Datometry 于 2020 年发布的 CMU-DB 技术演讲 
  • LibreChat → ClickHouse与 Snowflake 收购 Datometry 类似,ClickHouse 在此的收购是一个改善高性能通用 OLAP 引擎开发者体验的良好范例。
  • Mooncake → Databricks在收购 Neon 之后,Databricks 又收购了 Mooncake,使 PostgreSQL 能够对 Apache Iceberg 数据进行读写。更多信息请参阅他们在 2025 年 11 月的 CMU-DB 演讲 
  • Confluent → IBM这是将一个草根开源项目打造为公司的典范案例。Kafka 最初于 2011 年在 LinkedIn 内部开发。随后 Confluent 于 2014 年被拆分出来,成为一家独立初创公司。他们在七年后的 2021 年完成 IPO。随后 IBM 开出一张巨额支票将其收购。和 DataStax 的情况类似,IBM 是否会像往常那样对待 被收购公司 那样对待 Confluent,还是会让他们像 RedHat 一样保持自主性,仍有待观察。
  • Kuzu → ???来自滑铁卢大学的嵌入式图 DBMS 于 2025 年被一家未透露名称的公司收购。随后,KuzuDB 公司宣布将放弃该开源项目。LadybugDB 项目旨在维护 Kuzu 代码的一个分叉。

并购:

2025 年 10 月出现了一则意外消息,Fivetran 和 dbt Labs 宣布它们将 合并 ,组成一家单一公司。

我能想到的数据库领域最近一次并购是 2019 年 Cloudera 与 Hortonworks 的合并。但那笔交易不过是“在厨房里被踩到的脆弱键位”:两家仍在努力用 Hadoop 寻找市场相关性的公司合并成一家,试图一起找到答案(剧透:他们并没有)。2022 年,MariaDB Corporation 通过 SPAC 与 Angel Pond Holdings Corporation 的合并在技术上也算数,但那笔交易只是为了让 MariaDB 走后门上市。而这对 investors 来说结局并不美好。Fivetran + dbt 的合并则与前两者不同(也更好)。他们是两家互补的技术公司结合,旨在成为 ETL 领域的巨头,并为不久后的正规 IPO 做准备。

融资:

除非我遗漏了,或它们未被公布,否则数据库初创公司的早期融资轮次并没有那么多。围绕向量数据库的热度已经降温,而风投如今只给 LLM 公司开支票。

名称变更:

我年度总结中的一个新类别是数据库公司更名。

  • HarperDB → Harper这家 JSON 数据库公司去掉了名称中的“DB”后缀,以强调其作为数据库驱动应用平台的定位,类似于 Convex 和 Heroku。我很喜欢 Harper 团队。他们在 2021 年的 CMU-DB 技术分享中提出了我听过的 最糟糕 的 DBMS 想法。好在他们意识到这一点有多糟糕后便放弃了,转而采用了 LMDB。
  • EdgeDB → Gel这是一个明智的举措,因为“Edge”这个名称让人觉得它是面向边缘设备或服务的数据库(例如 Fly.io)。但我不确定“Gel”是否能传达该项目更高层次的目标。可以看看 CMU 校友在 2025 年关于 Gel 查询语言的演讲 (仍然称为 EdgeQL)。
  • Timescale → TigerData这是一个相当罕见的情况:一家数据库公司更名是为了将自己与其主要数据库产品区分开来。通常情况恰恰相反,公司会改名为数据库的名字(例如,“Relational Software, Inc.” 更名为 “Oracle Systems Corporation”,“10gen, Inc.” 更名为 “MongoDB, Inc.”)。不过,这样做也有道理,因为公司希望摆脱自己只是一个专用时序 DBMS 的认知,转而强调它是一个用于通用应用的增强版 PostgreSQL,前者的市场规模远小于后者。

死亡:

完全披露一下,我曾是这两家失败初创公司的技术顾问。以目前来看,我作为顾问的成功率相当糟糕。我也曾担任 Splice Machine 的顾问,但他们在 2021 年关门了。为自己辩解一下,我只与这些公司讨论技术想法,而非商业策略。我也确实告诉过 Fauna 他们应该增加 SQL 支持,但他们并未采纳我的建议。

  • Fauna一个有趣的分布式 DBMS,基于 Dan Abadi 关于 确定性并发控制 的研究。在 NoSQL 的热潮开始退去、而 Spanner 让事务再次变得流行之际,他们就提供了强一致性的事务。但他们采用了 专有查询语言 ,并在 GraphQL 上押下了重注。
  • PostgresML这个想法看起来很明显:让人们能够在他们的 PostgreSQL DBMS 内部运行 ML/AI 操作。挑战在于说服用户将现有的数据库迁移到他们的托管平台上。他们主推 pgCat 作为一个代理,用于镜像数据库流量。其中一位联合创始人加入了 Anthropic。另一位联合创始人则创建了一个名为 pgDog 的新代理项目。
  • Derby这是最早用 Java 编写的 DBMS 之一,起源于 1997 年(最初名为 “Java DB” 或 “JBMS”)。IBM 在 2000 年代将其捐赠给 Apache 基金会,并更名为 Derby。2025 年 10 月,该项目宣布由于已无人积极维护,系统将进入“只读模式”。
  • Hydra尽管这家 DuckDB-inside-Postgres 初创公司尚未发布任何官方公告,但其联合创始人和员工已经分散到其他公司。
  • MyScaleDB这是 Clickhouse 的一个分叉,增加了基于 Tantivy 的向量搜索和全文索引功能。他们在 2025 年 5 月宣布关停。
  • Voltron Data这原本被设想为数据库公司的超级团队。可以把它想象成类似 Run the Jewels 级别 的重量级阵容。团队中有来自 Nvidia Rapids 的顶尖工程师、Apache Arrow 和 Python Pandas 的发明者 ,以及来自 BlazingSQL 的秘鲁 GPU 高手。再加上来自顶级机构的 1.1 亿美元 VC 投资 ,其中包括未来的 Intel CEO(以及 卡内基梅隆大学董事会 成员)。他们构建了一款 GPU 加速数据库(Theseus),但未能及时将其成功推向市场。

最后,虽然这并非一家企业,但如果不提到 关闭 的 IBM Research Almaden,那将是我的疏忽。IBM 于 1986 年建造了这一基地,数十年来一直是数据库研究的圣地。我曾在 2013 年于 Almaden 面试 ,并发现那里的风景十分优美。IBM 研究院数据库组已不复 当年 之盛。尽管如此,这片神圣数据库沃土的校友名单依然令人印象深刻:Rakesh AgrawalDonald ChamberlinRonald FaginLaura HaasMohanPat SelingerMoshe VardiJennifer Widom 以及 Guy Lohman

Andy's Head Andy 的观点:

有人声称我会根据一家数据库背后的公司为其开发筹集了多少资金来评判数据库的质量。这显然不是真的。我关注这些动态,是因为数据库研究领域竞争激烈、节奏很快。我不仅在与其他大学的学术界人士“竞争”,大型科技公司和小型初创公司也在不断推出有趣的系统,我需要持续跟进。行业研究实验室已不复当年,除了 Microsoft Research 之外,它仍在积极招聘顶尖人才并开展令人难以置信的工作。

我在 2022 年预测 ,2025 年会有大量数据库公司倒闭。没错,今年的倒闭数量确实比往年更多,但规模并没有达到我预期的程度。

Voltron 的消亡以及对 HEAVY 类似收编的人才并购,似乎延续了 GPU 加速数据库不可行性的趋势。Kinetica 多年来一直在依赖那些政府合同获利,而 Sqream 看起来也仍然在勉强维持。这些公司依然是小众,且从未有人能够在以 CPU 为核心的 DBMS 的主导地位上造成显著冲击。我不能透露是谁或是什么,但你会在 2026 年听到一些供应商发布的重要 GPU 加速数据库公告。这也进一步证明了 OLAP 引擎的商品化;现代系统已经快到在低层级操作(扫描、连接)上的性能差异几乎可以忽略不计,因此区分不同系统的因素在于用户体验以及其优化器生成的查询计划质量。

私募股权(PE)公司对 Couchbase 和 SingleStore 的收购,或许预示着数据库行业未来的一种趋势。当然,PE 收购以前也发生过,但它们似乎都集中在近几年:(1)2020 年的 MarkLogic,(2)2021 年的 Cloudera,以及(3)2023 年的 MariaDB。我能找到的 2020 年之前的案例只有 2007 年的 SolidDB 和 2015 年的 Informatica。PE 收购可能会取代另一种趋势,即那些增长停滞的数据库公司被控股公司收购,然后通过收取维护费用一直“榨取”到永远(Actian、Rocket)。甚至连 Oracle 在 30 年前收购 RDB/VMS 之后,至今仍在从中赚钱!

最后,向 Nikita Shamgunov 致敬。据我所知,他是唯一一个在同一年内共同创立的两家数据库公司(SingleStore 和 Neon)都被收购的人。就像 DMX(RIP)在同一年发布了两张排名第一的专辑(It’s Dark and Hell Is HotFlesh of My Flesh)一样,我不认为短期内会有人打破 Nikita 的纪录。

男性巅峰表现

说到数据库界 OG Larry Ellison 的丰收之年,真是当之无愧。此人年满 81 岁,却在一年内完成了大多数人一生都难以企及的成就。我将按时间顺序逐一讲述。

Larry 以全球第三富豪的身份开启了这一年。一想到自己的身家竟然低于 Mark Zuckerberg,他夜不能寐。一些人说,Larry 的失眠是因为在 买下了一家著名的英国酒馆 后改变了饮食习惯,吃了更多的馅饼。但我可以向你保证,Larry 的“veg-aquarian”饮食在过去 30 年里从未改变。随后,在 2025 年 4 月,我们得知 Larry 已经成为 全球第二富豪 。他开始睡得稍微好一些,但仍然不尽如人意。而且,他的生活中还有很多事情让他感到压力重重。比如,Larry 终于决定出售他那辆罕见、半合法上路的 McLaren F1 supercar,手套箱里还保留着原车主手册。

2025 年 7 月,Larry 在 13 年里向我们献上了他的第三条推文 (像我这样的 Larry 迷称之为“#3”)。这是一则关于 Larry 在牛津大学附近创立的 Ellison Institute of Technology(EIT)的更新。从 EIT 这个名字以及它与牛津的关联来看,它听起来像是一家纯研究性质的非营利机构,类似于斯坦福的 SRI 或 CMU 的 SEI。但事实证明,它实际上是一个伞形组织,旗下是一系列由一家总部位于加利福尼亚的有限责任公司拥有的营利性企业。当然,一群怪人对 #3 进行了回复,承诺要搞区块链驱动的低温冷冻室温超导体 。Larry 告诉我他会忽略这些。然后还有像这个人这样真正理解的人。

今年(或许是本世纪)最重大的数据库新闻发生在东部时间 9 月 10 日(星期三)下午约 3 点。在等待了数十年之后,Larry Joseph Ellison 终于被加冕为世界上最富有的人 。当日上午,$ORCL 股价上涨了 40%,而由于 Larry 仍然持有该公司 40%的股份,他的估计总身家达到了 $393bn。从这个角度来看,这不仅让他成为全球最富有的人,也成为全人类历史上最富有的人。按通货膨胀调整后,John D. Rockefeller 和 Andrew Carnegie(没错,CMU 中那个 “C”)的巅峰净资产分别只有 $340bn 和 $310bn

在 Larry 登顶世界之巅之际,Oracle 也参与了对控股 TikTok 的美国公司进行收购 ,而 Larry 还为派拉蒙提供资金支持 (该公司由他第四次婚姻所生的儿子控制),并竞标收购华纳兄弟 。美国总统甚至还调侃 Larry,要求他接管 CNN 的新闻部门 ,因为 Larry 是派拉蒙的控股股东。

Andy's Head Andy 的观点:

我甚至不知道该从哪里说起。当然,当我得知 Larry Ellison 仅凭数据库就成为了世界首富时,我还是感到振奋 ,因为我们的人生中终于发生了一件积极的事情。我不在乎 Oracle 的股价是通过花哨的交易 、用于建设 AI 数据中心而不是其传统软件业务被人为推高的。我也不在乎他在两个月内亲自损失了 1300 亿美元 、从而在排名中下滑。这就像你我把一整份工资花在 FortuneCoins 上一样。确实有点心疼,而且我们不得不连续两周吃拌着从 Taco Bell 顺走的过期辣酱包的米饭和豆子,但最终我们都会没事的。

有人声称 Larry 与普通人 脱节 。或者说他因为参与了与数据库没有直接关系的事情而迷失了方向。他们指向一些例子,比如他在夏威夷的 机器人农场以每磅 24 美元 (€41/公斤)出售生菜。或者认为 81 岁的男人不可能拥有 天生的金色头发 

事实是,Larry Ellison 已经征服了企业级数据库领域、 竞技帆船 ,以及 科技富豪养生水疗 。显而易见的下一步,就是接管一个每天都有成千上万在机场候机的人观看的有线电视频道。每次我和 Larry 交谈时,他都明确表示,他一点也不在乎别人怎么说、怎么想他。他知道自己的 粉丝爱他 。他的(新)妻子爱他。而到最后,这才是最重要的。

结论

在结束之前,我想快速致意几句。首先要感谢 PT,通过 Turso 让他们的 数据库玩法保持得滴水不漏 ,目前被严密封锁(外面见)。对 JT 表示慰问,因为他因困住自己的 KevoDB 数据库“小三”而 丢了工作 。我和我的博士生们也有了一个新的 初创公司 ,希望很快能详细聊聊。说到做到。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读