数据网络:破解 AI 重大瓶颈

本文信息来源:chainofthought
去中心化网络如何重塑 AI 最宝贵的资源。
早安 {{ First Name | }} 👋
我在测试一个新的 AI 代理时,问了它一个关于特朗普关税的简单问题。它自信地用 2024 年的答案回复了我。因为它的训练数据只到那一年。
这是数据的失败,而不是智能的失败。
欢迎阅读我们的第一篇文章,30 天链式思维
我们从核心部分开始: 数据网络 。是什么让它们运作,为什么许多会失败,以及构建一个有生命力、不断进化的数据经济实际上需要什么。
数据网络是我们“2025 年重大理念 ”中的第一个,特别属于我们称之为缓慢燃烧的类别:一种基础性的转变,虽然安静但持续推进。技术或许还在成熟中,但方向已经明确。这些是会随着时间推移而不断积累的长期布局。
如果你对此产生共鸣,请在 X 上分享这篇文章或转发给朋友。如果你有不同的看法,请发帖并@@cot_research(或@ 我 ),我们会转发。
让我们把这变成一场值得进行的对话。
摘要
-
公开文本几乎已经被挖掘殆尽,而最有价值的私人信息流仍被锁在付费墙、API 和隐私屏障之后。
-
加密数据网络通过三种主要方式来解决这一问题:去中心化网页抓取(如 Grass)、用户同意的私人数据聚合(如 Vana)以及按需生成合成数据(如 Dria)。
-
这些网络利用加密原语,如用于激励的代币、用于可验证溯源的区块链,以及用于社区治理的 DAO。
-
可持续的商业模式需要专注于以实用性为驱动的应用,并在价值链上向上延伸,超越原始数据销售。
-
主要挑战包括启动早期网络、确保数据质量以及克服企业的怀疑态度。
-
最终愿景是一个充满活力的数据经济。现在能够保障可信、高保真数据的网络,将决定训练速度、模型性能,并占据未来 AI 价值的最大份额。
AI 领域的矛盾日益加剧:我们正竞相开发更强大的模型,但却逐渐耗尽最重要的资源: 高信号训练数据 。问题不在于数量,而在于质量 。

据 Epoch AI 预测,最大规模的训练可能会在 2028 年前耗尽全球由人类生成的公共文本资源——大约 300 万亿个 token。一些预测甚至认为,尤其是在过度训练的情况下,我们最早可能在 2026 年就会遇到这一瓶颈。
正如 Ethan Mollick 所指出的,即使是大量的小众文本(比如数万亿字节的业余小说)也几乎无法带来显著提升。容易获取的数据已经用尽。我们已经抓取了维基百科,耗尽了 Reddit,挖掘了 Common Crawl。剩下的数据带来的回报正在递减。
于是我们遇到了一个悖论:尽管模型能力持续飞跃,但“正确”类型的数据却越来越稀缺。随着这种趋势,优质、高保真数据的价格和重要性也在飙升。
这正是事情变得有趣的地方。
我们现在需要的数据(以及为什么它被锁起来)
人们常说,“数据是新的石油”。
但这种说法过于简单化了问题。
石油是静态且可互换的。数据则是动态的、有情境的,并且与其获取和使用方式密切相关。
以下是 AI 关键数据的新层级结构:
|
类别 |
来源 |
典型障碍 |
|---|---|---|
|
私有与小众 |
医院影像档案、制造业遥测数据 |
机构孤岛、隐私法 |
|
全新领域 |
机器人远程操作,代理交互日志 |
需要定制化的数据收集流程 |
|
实时数据流 |
市场订单簿、社交媒体信息流、供应链物联网 |
延迟和许可成本 |
|
专家注释 |
带有专家标签的放射学扫描 |
昂贵、缓慢、难以扩展 |
-
私有和小众数据集: 最高价值的数据被锁在机构的壁垒之内:健康记录、基因组信息、财务历史、工厂遥测、专有研发。这些数据分散且常常被孤立。
-
新兴领域的全新数据: 你无法用 Reddit 来训练家用机器人。机器人技术需要远程操作、传感器数据和真实世界的上下文。这些数据目前还没有大规模存在,必须通过专门构建的流程主动生成。
推动智能体 AI 进步的另一个关键领域是捕捉真实的动作序列 :用户点击、导航路径和交互日志。其中一个例子是 Wikipedia clickstream,这是一个匿名化的数据集,追踪用户如何从一篇文章跳转到下一篇文章。
-
新鲜、实时的数据: 智能需要一个数据流 ,而不是一张快照。为了让它们适应实时市场,我们需要实时抓取和流式传输。
-
高质量、专家标注的数据: 在放射学、法律和高级科学等领域,准确性依赖于专家标注。众包标注无法满足需求。这类数据成本高、速度慢且难以扩展,但对于领域能力至关重要。
仅靠抓取互联网的时代正在结束。
Web2 早已明白这一点
随着人工智能估值飙升,平台意识到他们最有价值的资产是用户数据 。
Reddit 与 Google 签署了一份价值 6000 万美元的训练协议。X 向企业收取高昂的 API 访问费用。OpenAI 正在与像《The Atlantic》和 Vox Media 这样的出版商达成授权协议,每份档案提供 100 万至 500 万美元。
而像你我这样的数据创造者呢?我们什么也得不到。
用户创造内容。平台将其变现。收益集中在少数中心化的参与者手中,而真正的贡献者却被排除在外。这是一种极具剥削性的动态。
如果这种情况发生改变会怎样?
加密 x 数据 = 从第一性原理重塑数据所有权

我们看到围绕数据形成了三种主要的聚合策略:
-
抓取和标注公共网络数据
-
聚合用户拥有的私人数据
-
按需生成合成数据
1. 抓取公共数据,大规模重新包装
这主要关注于收集开放网络(论坛、社交平台、公共网站),并将这些原始数据流转化为结构化、可供 AI 开发者读取的数据。
被索引的互联网大约包含 10 PB(10,000 TB)的可用数据。当将更广泛的公共数据库计算在内时,这一数字会膨胀到大约 3 EB(3,000,000 TB)。如果再加上像 YouTube 这样的平台,数据总量将超过 10 EB。
所以,外面的数据非常庞大。
|
来源 |
估算规模 |
备注 |
|---|---|---|
|
已索引网页 |
约10拍字节 |
基于 45.7 亿个网页,每个网页 2.2 MB 进行估算 |
|
深网页面 |
约100拍字节 |
估算为已索引网络的10倍 |
|
公共数据库和 API |
约1-10艾字节 |
基因组学、天文学、气候数据、开放政府门户 |
|
公共文件共享与存储 |
约1艾字节 |
来自 GitHub、Dropbox 和公共存储库等平台的数据。 |
|
公共多媒体平台 |
约 10 EB 以上 |
YouTube。若要用于除转录之外的 AI 应用,需要大量处理。 |
数据通过分布式爬取基础设施获取:通常是由用户运行的节点网络。数据收集后,会进行清洗、简单标注,并整理成结构化数据集。随后,这些数据集以远低于像 Scale AI 这样的中心化供应商的价格出售给需要经济实惠数据的模型开发者。
来源:Grass
Grass 于 2024 年作为一个建立在 Solana 上的去中心化爬虫网络上线。不到一年时间,活跃节点数量已超过 200 万个 。用户只需安装一个轻量级桌面应用,就能将自己的设备变成 Grass 节点,利用闲置带宽参与网络爬取。
每个节点负责处理一小部分爬取任务,所有节点合计每天抓取超过 1,300 TB 的数据,并且还在持续增长(见上方图表)。这些数据被打包后,作为持续数据流出售给 AI 公司。
到 2024 年底,据报道 Grass 每年从 AI 客户获得约 3,300 万美元的年化收入 ,据说其中包括一些我们都很熟悉的大型 AI 研究实验室(仅为传闻,尚未证实)。
随着时间推移,Grass 计划将收入分配给节点运营者和代币质押者,本质上将数据变现作为一种共享收益流。

愿景不仅仅是数据抓取:Grass 的目标是成为一个去中心化的实时数据 API。未来,它将推出 实时上下文检索 ,允许客户从整个网络查询实时网页数据。要实现这一阶段,将需要更多的节点。
Masa 选择了另一条路径,通过 Bittensor 生态系统,运行一个专门的数据抓取子网(子网 42)。它的“数据矿工”收集并标注实时网页内容,为 AI 智能体提供数据流。开发者利用 Masa 检索 X/Twitter 内容,直接输入到 LLM 流水线中,绕过了高昂的 API。
为了扩展,Grass 和 Masa 都依赖于稳定可靠的节点运营者和贡献者基础。这使得 激励机制设计 成为核心挑战。其他关键挑战包括:
-
数据非常嘈杂,容易产生偏见
-
监管灰色地带
-
由于数据非独占,缺乏真正的竞争壁垒
2. 私有数据,由用户控制并实现变现
这主要关注于解锁那些被墙壁隔离的高价值数据:个人数据、专有数据,以及无法通过公开抓取获得的数据。比如私信、健康记录、金融交易、代码库、应用使用情况、智能设备日志。
核心假设: 如果能够在用户同意且安全的前提下访问,私有数据蕴含着深层次、高价值的上下文信息,能够显著提升 AI 的表现
加密 AI 初创公司将私有数据转化为链上资产:可追踪、可组合、可变现。
像 Vana、OpenLedger 和 ORO 这样的初创公司正在构建这一生态系统。
Vana 已经开发出一个面向用户数据所有权的完整第一层区块链。用户可以将他们的数据链接或上传到数据 DAO 中,这些 DAO 会为特定的 AI 用例汇集相似类型的数据(例如社交媒体、可穿戴设备日志)。已有超过 130 万用户为 Vana 数据池做出贡献,上传了超过 650 万个数据点。

一个特别突出的例子:DLP labs,在 Vana 生态系统内构建。在不到两个月的时间里,该项目通过 Dimo 设备接入了 8000 多辆汽车,分享了如里程、速度和遥测等数据。团队目前正围绕这一不断增长的数据集开发多种变现渠道。
ORO 采用了更具互动性的方式。它提供了一个数据共享应用,用户可以连接账户并完成“任务”来贡献特定类型的数据。例如,模型开发者可能会请求电商收据以训练推荐系统。用户可以安全地分享过去的亚马逊订单、完成问卷调查或授权访问购物模式,并在他们的数据被使用时获得报酬。所有操作都运行在保护隐私的基础设施上,包括 zkTLS(零知识 TLS)和加密数据保险库。

OpenLedger 是一个用于可验证和可归属 AI 的协议,运行着 DataNets,用户可以将私有数据贡献到链上聚合数据池,并在数据被使用时获得代币奖励。
主要挑战:
-
启动早期用户和私有数据集需要大量时间
-
激励机制设计复杂且仍在不断发展
-
隐私必须坚如磐石,才能赢得信任
不过,如果基础设施能够稳固运行,这种模式为解决 AI 的核心瓶颈之一——在不牺牲所有权或隐私的前提下,获取真实、有上下文、高质量的私人数据——提供了有力的答案。
3. 按需生成的合成数据
当现实世界的数据稀缺、混乱或成本高昂时,最好的做法可能就是从零开始生成数据。
合成数据是指人为创建的数据(文本、图像、结构化记录),它们模仿现实世界的模式,但不复制现实世界的内容。
合成数据解决了多个瓶颈问题:
-
隐私 :不涉及个人数据,降低了合规风险。
-
可扩展性 :数据集可以按需在一夜之间生成。
-
覆盖率 :合成流程可以填补盲点,模拟罕见的极端情况,或平衡人口统计偏差。
-
定制化 :输出可以精确调整以满足模型需求。
对于机器人或智能体训练等高速度领域,合成数据往往比真实世界数据更有用。你可以模拟尚未发生的极端情况。
像 Dria 这样的平台组建了去中心化的 AI 智能体网络,以创建针对特定用例定制的数据集。
用户可能会提出类似“生成一百万道生物学题目”这样的请求。
Dria 将任务分配给一群专业智能体,每个智能体负责工作流程中的一部分:生成、评估、格式化和质量控制。该系统并行运行,通常可同时运行 50 多个模型,每秒可生成超过 10,000 个 token。
来源:Dria
为了确保质量,其他节点作为验证者,核查准确性和一致性。贡献者以代币获得奖励,区块链基础设施则透明地跟踪执行过程和支付情况。
这种架构创造了一种全新的数据供应链:低价、快速、私密且可组合。
自然的变现模式是数据即服务:
-
基于任务的定价 :用户指定一个数据集(例如,“10 万条法律对话样本”),收到报价,网络生成并交付数据。
-
按输出付费 :开发者按样本或 Token 付费。
-
市场 :经过策划的提示或数据集配置可以被上架和出售,Dria 会从中抽成。
在撰写本文时,我们注意到一个有趣的进展:Dria 似乎正在悄然进入为对延迟敏感的 AI 工作负载打造加速硬件的领域。
不过,合成数据并不是万能的。过度使用可能导致模型崩溃,使系统失去对现实世界的基础。生成式流程还可能继承并放大其所依赖模型的偏见。而且,合成数据集有时会缺乏只有真实数据中才会出现的边缘案例细节。
其他关键挑战
-
需要强大的评估和反馈机制
-
偏见放大,并且需要以真实世界数据为基础
我们认为,AI 训练的未来将是现实世界数据与合成数据的融合,这一趋势已经在许多最新模型中初现端倪。
现实世界数据提供了边缘案例、上下文和真实情况。合成数据则补充了空白并带来了规模。关键在于知道何时要锚定 ,何时要增强 ,以及如何保持这种平衡不至于向任何一方倾斜过度。
💡一条简短提示:
这三种策略并不是互斥的。
例如,一个设计良好的 DataDAO 可能会以公共数据为基础,用用户自愿提供的数据进行丰富,并生成合成数据来填补空白。
据报道,Grass 正在构建可能成为“世界上最大的多模态合成数据集”。
加密技术在数据中的作用
加密与数据结合的重点并不是天真地把所有数据都“上链”。那既不具备可扩展性,也不利于隐私保护。
坦率地说,你会希望你的个人数据被刻在区块链上吗?我不会。
相反,加密技术为构建激励机制一致且无需许可的新型数据系统提供了基础组件。
那么实际情况是什么样的?
代币作为可编程激励
高质量数据需要被收集、标注、验证和维护。这些任务往往得不到足够的报酬。代币为在网络中协调和奖励这些努力提供了一种可编程的方式。
它们将零散的工作流程转变为经济系统:贡献者因上传数据获得收益,验证者因质量检查获得报酬,算力提供者可以将闲置资源变现。
未来收入的承诺(通过代币)降低了构建强大数据集的前期成本。
Vana 提供了一个可行的示例。其 DataDAO 通过代币激励吸引参与者,同时依靠智能的经济设计保持系统稳定。代币发行会随着时间递减,其“按访问销毁”模式减少了代币供应,有助于管理通胀并为贡献者维持长期价值。
链上溯源与智能许可
区块链为数据生态系统提供了信任保障。
虽然原始数据本身通常存储在链下,但区块链会记录是谁、在何时、以何种条件贡献了什么数据。这创造了可验证的溯源,是后续归属分配的必要基础。

接下来,如何在技术上证明某个特定数据集提升了模型的性能?简短的答案是:这仍然是一个棘手的问题。追踪数据输入对模型行为的影响需要精细的追踪系统,而这些系统要么还处于早期研究阶段,要么仅限于狭窄的领域。影响函数或 Shapley 方法(见上表)等技术存在扩展性限制,不适用于大型模型。
这个挑战不仅仅是基础设施层面的问题。并非所有数据都具有同等价值。一份关于罕见疾病的、记录详实的案例研究,可能比成千上万张通用图片贡献更大。但如何量化并奖励这种不对称性呢?
基于数据量的统一分配方式易于实施,但同样容易被利用。真正有意义的归属分配需要更复杂的衡量标准:数据有多独特?在特定情境下有多相关?它的现实世界影响如何?构建能够透明评估这些因素的系统,仍然是一个有待探索的前沿领域。
在可以强制执行溯源的地方,智能合约实现了闭环。许可条款被直接嵌入代码中。每当模型被部署、查询或变现时,版税都可以自动分配给贡献者。
通过这种方式,加密技术将数据从静态资产转变为可编程的经济资源。
DAO 治理的数据公地
最后,数据代币化系统还解锁了集体治理。贡献者成为管理者。代币持有者投票决定谁可以获得访问权限、在什么条件下、以什么价格,以及如何维护数据质量。
在这里,数据不仅仅是个人资产,更是一个社区资源 。
商业模式:原始数据并不够
现在到了有趣的部分:让我们来谈谈商业 。
我们在当下的行业中看到一个普遍的模式:许多 Web3 团队痴迷于数据收集,但很少有人知道如何将这些数据转化为真正的商业。
他们很难清楚地说明这些数据集如何转化为收入。结果往往是建立在猜测之上的模糊推介。
这反映了“ 建好了他们就会来 ”的思维方式。而这种方式很少奏效。

要让数据变现,你需要商业直觉。数据驱动的用例是什么?谁为此买单?多久一次?还有哪些只有你能提供的他们所需的东西?
你不需要训练基础模型才能获胜。你甚至不需要接触 AI 技术栈。你只需要把数据放在关键的位置。
DLP Labs 向保险公司和电动汽车生态系统合作伙伴授权结构化的车辆遥测数据(电池健康状况、里程、GPS 轨迹)。其价值立竿见影:更优定价、更佳保单、更好项目。这就是数据业务。
扼杀大多数项目的成本:DAC
一种思考方式是通过数据获取成本(DAC):
收集足够高质量、针对性强的数据,使其具有价值的成本是多少?
纯粹为了收集用户生成数据而存在的应用,往往面临高昂的数据获取成本,因为它们必须提供大量激励来启动数据贡献。
两个残酷的问题随之而来:
-
激励可持续性: 代币经济能否在空投时代之后继续存活?
-
价值与成本: 你为获取数据所支付的成本,是否被数据的生命周期价值所证明?
在很多情况下,答案是否定的。
最优秀的数据型企业不会要求用户主动贡献数据。他们打造人们真正想用的产品,数据的收集只是副产品。这极大地改善了单位经济效益,使得 DAC 趋近于零。

特斯拉的全自动驾驶(FSD)是一个典型案例。用户为汽车买单。汽车产生数据。这些数据反哺以提升 FSD,从而卖出更多汽车。DAC 趋近于零。数据飞轮开始旋转。
在 Web3 中,最强大的数据网络将遵循类似的逻辑:以实用性为先,而不是单纯的激励。如果产品本身足够优秀,数据的产生就会自然而然。我喜欢用“特洛伊木马”来做比喻。
向上移动到更高的技术栈:利润空间更大

出售原始数据是一个利润较低且很快会被商品化的业务。
真正的杠杆来自于在其之上进行构建:
-
用于专业模型训练的数据管道:AI 公司需要经过精心整理的数据,能够直接接入特定的 AI 训练流程。边缘案例的放射学扫描、本地方言、罕见的合同纠纷——这些类型的数据集才是真正能带来突破的。能够提供这类结构化、溯源丰富数据的网络,有望成为 AI 开发流程中的关键基础设施。
-
基于独家数据构建的专有 AI 应用: 如果你的网络收集了独特的数据,你就有能力构建其他人无法实现的应用。想象一下为特定行业量身定制的智能代理,基于只有你能访问的交互模式进行训练。
-
构建开放数据平台: 从长远来看,最大的机会在于赋能他人。开放、可组合的数据生态系统,让开发者能够访问带有归属和收益分成机制的共享数据集,为新兴用例创造了空间。你无需预见每一个用例,只需让它们成为可能。
我们已经看到这种情况正在实现。Skyfire 正在构建由实时垂直数据驱动的 AI 代理。还有一些人在聚合来自可穿戴设备的生物识别数据流。更多的人则在医学、法律和科学研究等通用模型持续表现不佳的领域,策划专家级数据集。
💡 一个有趣的观察:
数据购买方通常是企业,并且对与加密公司合作持谨慎态度。我们听说有些团队为了通过采购流程,不得不在所有材料和社交媒体中删除与加密相关的所有内容。
未解难题
构建去中心化数据网络意味着要应对一系列尚未解决的重大挑战,以实现数百万级的扩展。
1. 价值悖论:谁先行动?
早期数据网络面临两难困境:贡献者希望获得奖励,但数据购买者则希望网络具备一定规模后才会承诺并签署商业协议。你无法出售一个尚不存在的数据集,而没有贡献者你也无法建立数据集。要摆脱这种冷启动困境,需要清晰的叙事和创新的启动方式。大多数项目都低估了这需要多长时间。
2. 女巫攻击抵抗与数据质量
当激励出现时,剥削者也会随之而来——垃圾信息、虚假用户、低质量上传。如果网络奖励数量而非质量,网络会迅速恶化。像 OpenLedger 这样的项目正在尝试基于质押的验证机制,贡献者如果其数据被标记为有问题就有可能失去代币。其他项目则依赖于声誉评分。没有万能的解决方案,但强有力的验证对于维护信任至关重要。
3. 隐私
没有隐私,信任就会瓦解。将原始数据存储在链上并不可行。解决方案在于链下加密存储、通过智能合约进行权限访问以及加密验证。
越来越多的隐私增强技术(如 TEE、ZKP、FHE 和联邦学习)正在让这种架构成为可能。
核心理念: 私有托管,公开可验证 。
4. 发现
随着 DataDAO 的增多,发现成为瓶颈。开发者需要工具来轻松搜索、对比和重混数据集。缺失的那一层是数据原生的中间件——类似于数据集的 GitHub,内置语义搜索、API 和可组合性。
放眼全局:最有效的网络不会试图包揽一切。它们会专注于那些中心化模式无法满足、用户有明确理由选择更优方案的领域,比如开放科学、医学研究和教育。
未来会是什么样子?
现在是我最喜欢的部分,因为我可以坐下来畅想未来。
可组合的数据网络
随着数据被代币化,完全新型的市场开始形成。数据代币可以被持有、交易,或用作抵押品。
-
一家对冲基金可能会押注于“合成人类基因组学”数据集,预期生物技术实验室的需求。
-
一家 AI 初创公司可能会质押其 DataDAO 代币以借用算力。
有了共享标准和互操作性,我们或许会看到开放的数据交易所,公共、私有和合成数据集能够无缝交互,并且实现实时定价。
实时数据与反馈回路
当 AI 一味坚持我的日期是错的,只因为它们停留在过去时,我会感到很沮丧。
这种情况即将改变。下一代 AI 系统将持续学习,实时适应。Grass 已经在集成实时数据流。Masa 直接从网络获取更新。Dria 正在构建按需生成合成数据的基础设施。
它们正在共同为闭环 AI 系统奠定基础:这些模型可以根据需要获取最新上下文,立即重新训练,并持续进化,无需等待下一个大型更新周期。
AI 管理 AI
随着网络的成熟,AI 代理将开始直接管理数据流。
一个基于 ORO 的个人 AI 可能会处理你的数据权限,决定出售哪些数据、卖给谁以及以什么价格。在后台,AI 验证者会对接收到的贡献进行评分,过滤噪音,并在高质量的合成输入上训练模型。
最终,网络将不再只是人类参与。AI 代理将加入其中。一个代理可以请求数据、为数据付费、用数据进行训练,并出售其输出结果。所有过程都在链上完成,无需人工干预。
最终,我们可能会看到由 AI 代理组成的自治 DAO 在链上相互协商,买卖数据。
公共基础设施与战略联盟
政府和机构很可能会参与其中。
想象一下,一个国家级的研究型 DataDAO,公民自愿贡献健康数据以换取奖励,并且有强有力的隐私保障。甚至跨网络联盟也是可能的:Grass 的数据被整合进 Vana 的用户池,在用户同意的前提下进行筛选和路由,将公共和私人信号融合为个性化的数据层。
总而言之:数据网络是迈向一个活跃的数据经济的重要一步,在这个经济体中,所有权、智能和价值在人与机器之间持续流动。随着代理在这个系统中获得更多自主权,我们能否管理由此带来的风险?
说实话,我对此仍在思考。
致敬,
Teng Yan
在 X 上分享你的看法或简要总结。请@@cot_research(或我 ),我们会转发你的内容。
P.S. 喜欢这篇内容吗?点击订阅,抢先获取下周的“2025 年大创想”。
彩蛋:我们正在密切关注的12个数据网络
Vana 是一个去中心化平台,让用户在保有数据所有权和隐私的前提下为 AI 模型贡献数据。该平台获得了包括 Coinbase Ventures 在内的投资者 2500 万美元支持,通过数据 DAO 激励贡献,解决了 AI 的数据短缺问题。
OpenLedger 是一个区块链网络,支持模型的去中心化获取、微调和变现。它采用归属证明机制(Proof of Attribution)以确保公平奖励,并提供如 Model Factory 和 OpenLoRA 等工具,以提升透明度并降低 AI 开发成本。
DLP Labs:DLP Labs 专注于通过区块链平台变现车辆数据,如电池健康状况、里程和 GPS 位置,并以 $DLP 实用型代币奖励用户。其目标是打造一个现实驾驶洞察力的市场。
Tensorplex Labs 是一家 Web3 与 AI 初创公司,致力于为去中心化 AI 网络构建基础设施,包括为 Bittensor 提供如 stTAO 的流动质押解决方案,以及像 Dojo 这样用于众包人类生成数据集的平台。
Dria 是一个去中心化网络,允许数百万 AI 智能体协作生成合成数据,以提升 AI/ML 模型,提供无需大量算力即可扩展的数据集创建工具。
Masa 作为一个去中心化的 AI 数据网络,通过 MASA 代币为 AI 应用提供实时数据访问。Masa 已在多轮融资中筹集了 1800 万美元,并与 Bittensor 子网集成以实现公平 AI,同时高度关注 X 数据。
Fraction AI 通过创建一个平台,让 AI 代理竞争生成高质量标注数据,并通过加密货币奖励激励,从而实现 AI 模型的数据标注去中心化。Fraction AI 已从 Spartan 和 Symbolic 获得 600 万美元的 Pre-seed 融资。
Grass 是一个去中心化网络,用户通过贡献未使用的互联网带宽来支持 AI 数据收集(如网页抓取),并以可兑换为代币的 Grass Points 获得奖励。该平台拥有超过 300 万用户。
ORO 是一个去中心化平台,允许用户通过 zkTLS 等密码学技术和安全计算环境,在保护隐私的前提下为 AI 开发贡献数据。它利用区块链实现透明的验证和补偿。
Pundi AI:Pundi 正在去中心化 AI 最关键的层面:训练数据。通过链上激励机制,Pundi AI 将数据标注和验证转变为一项全球众包行动,在确保高质量数据的同时奖励贡献者。
Reborn 正在构建一个面向 AGI 机器人的开放生态系统,融合 AI 与区块链来管理数据、模型和实体代理。该平台通过超过 5000 万条高质量机器人数据和 12,000 多名创作者,促进机器人领域的协作。
Frodobots 利用游戏化方式为具身 AI 研究众包机器人数据,并计划推出 BitRobot——一个“面向机器人领域的 Bittensor”,已获得 800 万美元融资,其中包括由 Protocol VC 领投的 600 万美元种子轮。
本文仅供教育用途,不构成金融建议。本文并非对买卖资产或做出金融决策的认可。在进行投资时,请务必自行研究并谨慎行事。