集体智慧能减少AI的幻觉和偏见吗?Mira: 一个用于信任的统一API

本文信息来源:chainofthought 作者:Teng Yan 翻译:Claude 总结:ChatGPT
摘要
Mira正在开发一个去中心化的一层网络,以提供无需信任、可扩展且准确的AI输出验证,解决对可靠和无偏见AI系统的关键需求。通过分片和二值化将复杂的AI输出分解成更小的可验证片段,并使用多样化AI模型集成进行验证,Mira减少了AI模型固有的幻觉和偏见。Mira的目标是成为一个合成基础模型,无缝集成主要AI供应商,通过单一API提供预先验证的输出,将自己定位为快速增长的AI行业的信任层。
关键点
- 评估(“evals”)对确保AI模型可靠运行和维持用户信任至关重要。
- Mira使用分片和二值化技术将复杂的AI输出分解成更小的可验证单元。
- 采用多样化的AI模型集成来验证每个片段,提高准确性并减少单个模型的偏见。
- Mira的去中心化网络利用区块链技术确保验证过程的透明性和防篡改性。
- 验证证明机制通过将奖励与诚实参与挂钩来激励节点运营者执行准确的评估。
- Mira解决了延迟和工程复杂性等挑战,提供可扩展和高效的AI验证服务。
- 凭借巨大的潜在市场,Mira旨在成为合成基础模型,通过单一API为各行业提供预先验证的AI输出。
内容提要
- 评估或”evals”对确保AI可靠运行至关重要。
- Mira正在构建一个一层网络,提供无需信任、可扩展且准确的AI输出验证。
- 同时减少幻觉和偏见是一个需要精细平衡的过程。Mira通过利用AI模型的集体智慧来实现这一点。
- Mira的验证系统建立在两个基本设计原则之上:(1)将AI输出分解成更小的、易于验证的片段,以及(2)使用模型集成来验证每个片段。
- Mira的初始市场规模与LLMOps相关,但其潜在的可服务市场可能扩展到整个AI领域,因为每个AI应用都需要更可靠的输出。
- Mira已经为拥有20万以上用户的多个AI应用提供AI验证服务。
- Mira的最终目标是成为一个合成基础模型,无缝对接每个主要供应商,通过单一API提供预先验证的输出。
幻觉:一种涉及感知到实际并不存在事物的体验。
Andrej Karpathy称AI为”造梦机器”。他认为幻觉——那些AI自信地生成不真实内容的时刻——是一个特性而不是缺陷。试图完全消除它们是徒劳的。老实说,这其中确实有一些诗意。
生成式AI是一个艺术家,一个创造者。它用代码做梦,凭空产生想法,从数据中衍生出意义。但要让AI从美丽的白日梦转变为实用的日常应用,我们必须控制住这些幻觉。
当我们达到那个难以捉摸的99.x%的输出准确率时,奇迹就会发生。这是AI达到人类级别可靠性的门槛,它将为AI开启一个此前无法触及的无限应用领域。但要达到这种精确度并不容易,这需要大量的工程努力。
Mira的故事从这里开始。但在深入之前,让我们先来谈谈大型语言模型(LLM)的发展——以及为什么评估正在成为AI领域的下一个重要领域。
LLM是如何诞生的

LLM的开发是一个全新的领域——与我们在过去50多年中完善的传统软件开发实践完全不同。LLM仅仅存在了约三年时间,就完全改变了游戏规则,从确定性思维(如果X,那么Y)转向了概率推理(如果X,那么…可能是Y?)。
这意味着AI驱动世界的基础设施与当前的软件范式相比几乎完全不同。如今在AI领域的开发需要一套全新的工具和工作流程。然而,许多这样的工具仍然被锁在创建LLM的研究实验室内。
好消息是,这些工具开始逐渐进入公共领域,为全球的开发者们开启了无限可能。
在这个新工作流程的末端,有一个关键的拼图:评估(或称”evals”)。今天,我们的聚光灯将落在这上面。它们回答了一个基本问题:AI运行得好吗?
评估 = 信任
信任是任何优秀AI产品的基础。
当我们探索AI如何帮助我们过上更有效率的生活时,这项技术本身仍然脆弱。存在着尾部风险,一旦出现问题,用户很快就会失去信心。
要让AI成功,用户必须相信其输出是准确的、无偏见的,并且真正有帮助的。没有这种信任,错误就会导致挫败感,进而导致用户流失。
这就是评估发挥作用的地方。
评估是维持用户信任的支柱。它们为开发者提供持续的反馈循环,确保AI可靠运行并满足期望。这是一个质量保证系统。
就像我们一样,AI模型也会变老

即使是最好的模型也会随时间退化。以下几个因素会影响它们的表现:
概念漂移:
随着用户行为和环境条件的改变,AI模型常常会失去准确性。以垃圾邮件过滤器为例。垃圾邮件发送者不断改变他们的策略,所以过滤器需要适应才能保持有效。评估帮助追踪这些变化,确保模型随时间保持相关性。
检测偏见:
偏见是AI中最棘手的问题之一。它经常随时间悄然潜入,导致不公平或不准确的预测。定期评估有助于及早发现偏见,允许在问题升级之前及时纠正,特别是在法律和医疗保健等关键领域。
泛化到新用例:
当AI模型部署在新的、多样化的场景中时,它们经常遇到超出原始训练范围的意外用例。评估确保模型能够适应并泛化到这些新情况,而不会牺牲质量,从而扩展它们在更广泛应用范围内的实用性。
Mira正在解决一个核心的Web2问题,但它利用了加密技术的固有优势。通过利用去中心化的验证节点网络,Mira确保评估不仅准确而且无偏见。我们稍后将深入探讨它是如何运作的。
评估很困难
好的评估很具有挑战性,因为AI本质上很复杂。
LLM被设计用来处理各种各样令人惊叹的任务,从回答简单问题到生成详细的研究摘要。这种多样性使得在完全不同的场景中建立一刀切的评估框架几乎是不可能的。
这就像走钢丝——提高一个领域的表现往往意味着牺牲另一个领域。我真不羡慕管理这种平衡的AI工程师!
除此之外,开发者通常会针对特定任务微调像Llama-3这样的模型,而不是从头开始训练模型(太贵了)。这意味着他们很少能直接访问原始的预训练数据,这使得识别性能问题的根源变得更加困难。
评估的剖析

来源:Databricks
评估有几种类型,每种都有其优势和局限性。
公共基准
最熟悉的评估方法是公共基准,它们通常以MMLU或GLUE这样的神秘缩写出现。这些基准通过一组标准化的问题和答案来衡量模型的表现。
每当新模型推出时,公共基准都会被大肆宣传。它们允许开发者通过与其他模型的性能比较来炫耀。然而,对于AI社区外的人来说,这些基准可能显得抽象和令人困惑。
虽然基准对于衡量整体性能很有用,但它们缺乏针对特定应用或现实世界任务所需的细微差别。
以数据科学基准为例。这些基准通常无法覆盖整个数据科学流程或考虑现实世界的复杂性。即使是在这些基准测试中表现良好的高级LLM,在实际的数据科学任务中也常常力不从心。
自动评估
最令人兴奋的进展之一是自动评估,特别是LLM评估其他LLM的理念。
想象一下使用Claude来评估你的Llama-3模型——这听起来很奇怪,但效果出奇地好。
研究表明,像GPT-4这样的强大模型在80%以上的情况下能够与人类偏好保持一致——与众包人类评估者的准确性相当。这种方法是一种可扩展、成本效益高的方式来复制人类判断,否则获取人类判断将既昂贵又耗时。
但就像AI中的一切一样,它也有其局限性。
基于LLM的评估倾向于简单化,常常将细微的反馈简化为单一分数(如1-5分)。虽然这使评估易于处理,但也可能过度简化重要的见解。
模型也倾向于认为更长、更详细的回答”更好”,即使简洁可能更合适。位置偏见也存在,即较早出现的回答会得到更高的评价,仅仅因为呈现顺序就扭曲了结果。
虽然LLM可以帮助有效地扩展评估,但这些偏见限制了它们捕捉重要的质量细微差别的能力。
这就带我们来到…
人工评估
人们可以发现自动评估可能遗漏的细微错误、不一致或特定上下文的缺陷。然而,依赖人类也带来了一系列挑战。
评估可能不一致——不同的人审查相同的回答可能给出不同的评分,特别是在使用李克特量表这样的主观工具时。人类评估者倾向于关注表面层面的品质,如写作风格或流畅度,而不是准确性或逻辑推理等更深层次的方面。这可能会使评估产生偏差。
最大的挑战是人工评估成本高且耗时,维持评估者之间的一致质量很困难。即使最有信誉的公司也有过失败。人在回路中的方法是不可扩展的。
今天最有效的评估系统将高质量的人工评估与自动评估相结合。自动化提供速度和可扩展性,而人类则提供确保模型满足技术和实际标准所需的细微差别和深度。它们共同形成了一个平衡的反馈循环,推动持续改进。
但如果你能将自动评估扩展到准确且无偏见的程度——而不需要人在回路中呢?
这听起来几乎好得难以置信。
Mira登场

评估对于构建有效的AI产品至关重要。它们决定了AI系统是否准确和可靠。然而,正如我们所看到的,评估面临着重大挑战,从准确性和偏见到人力成本高昂等问题。
这就是Mira登场的地方。
Mira的愿景很大胆:创建一个一层网络,提供无需信任、可扩展且准确的AI输出验证。通过利用集体智慧,Mira减少偏见和幻觉,解决公平性和成本等核心问题,同时证明区块链如何真正增强AI。

来源:Mira
早期结果很有希望。在最近发表在Arxiv上的一项研究中,Mira证明使用多个模型生成输出并要求达成共识能显著提高准确性。使用三个模型时,精确度达到95.6%,而单个模型输出仅为73.1%。
Mira的方法基于两个关键设计要素:
- 分片和二值化内容:将复杂的AI输出分解成更小的、可独立验证的片段。
- 模型多样性:利用多个模型来提高可靠性并最小化偏见。
#1:通过二值化和分片进行内容转换
由于内容生成的成本接近于零,AI生成的输出范围从简单的陈述到庞大的文章都有。但这种复杂性的丰富带来了一个挑战:如何确保如此多样化输出的准确性?
Mira的解决方案很简单:分解它。
在一个称为分片的过程中,Mira将复杂的AI生成内容转换成更小的、易于消化的片段,这些片段可以被AI模型客观地审查。
通过标准化输出并将其分解成离散的、可验证的声明,Mira确保每个片段都能得到一致的评估,消除了经常困扰评估的模糊性。
例如,考虑这个复合陈述: “光合作用在植物中发生,将阳光转化为能量,而蜜蜂通过在花朵之间传递花粉在授粉中起着关键作用。”
表面上看,这似乎很容易验证。但当交给多个模型时,解释上的差异可能导致不同的答案。Mira通过分片进行的内容转换通过将陈述分成两个独立的声明来解决这个问题:
- “光合作用在植物中发生,将阳光转化为能量。”
- “蜜蜂通过在花朵之间传递花粉在授粉中起着关键作用。”
一旦分片完成,每个声明都会经过二值化,被转换成一个多选题。这些问题被分发到运行AI模型的节点网络。使用Mira的集成验证方法,这些模型协作评估并确认每个声明的有效性。
目前,Mira的内容分片和二值化功能专注于文本输入。到2025年初,这些过程将扩展到支持多模态输入,如图像和视频。
#2:集成而非个体
Mira开发了一个先进的验证系统,结合多个AI模型的优势来评估AI输出的质量。
让我们详细解释一下。
传统的自动评估通常依赖于单个大型语言模型(LLM),如GPT-4,作为质量的最终仲裁者。虽然可行,但这种方法有重大缺陷:成本高、容易产生偏见,并受限于模型固有的怪癖和”个性”。
Mira的突破在于从依赖单个庞大模型转向利用多个较小、多样化的LLM集成。在事实准确性比创造性更重要的任务中,这种集成表现出色,降低错误率并提供更可靠、一致的评估。
集成技术在分类等机器学习任务中已经得到充分研究,而Mira现在正将其应用于验证。
Mira系统的核心是LLM评估者小组(PoLL)——一个协作的小型模型网络,共同评估输出。可以将其想象为一个多样化的专家小组在权衡决定,而不是将其留给一个可能有偏见的单一评判者。
这不仅仅是一厢情愿的想法——它是基于研究的。看看下面的图表:

与人类评判相比,不同评估评判者的准确度变化。PoLL(模型组,最右)与人类评判相比显示出最小的分数差异。
Cohere在2024年4月发布的一项研究表明,由三个较小模型组成的小组——GPT-3.5、Claude-3 Haiku和Command R——比单独使用GPT-4更接近人类判断。令人惊讶的是,这种集成方法的成本也降低了7倍。
Mira现在正在将这项研究付诸实践,大规模部署其集成评估方法。到目前为止,他们分享的内部结果令人信服:
- 对于复杂推理任务,错误率从80%降至5%。
- 与人工验证相比,速度和成本提高了5倍。
这不是一个小壮举。通过采用共识机制,Mira的多样化模型集成有效地过滤掉幻觉并平衡个别模型的偏见。它们共同创造出比各部分之和更大的价值:更快、更便宜且更符合我们需求的评估。
工作原理 — 架构设计
总结一下,Mira的验证系统建立在两个基本设计原则之上:
- 将AI输出分解成更小的、容易验证的片段。
- 使用多样化AI模型的集成来验证每个片段。
维护一组多样化的模型对于高质量输出至关重要,这使得Mira的设计非常适合去中心化架构。消除单点故障对任何验证产品都至关重要。
Mira使用基于区块链的方法确保没有单一实体可以操纵结果。前提很简单:AI生成的输出应该像区块链状态变化一样被验证。
验证通过独立节点网络进行,运营者通过经济激励来执行准确的评估。通过将奖励与诚实对齐,Mira的系统抑制不良行为者并确保可靠的结果。
以下是它的工作原理:

- AI开发者通过API向Mira提交其模型的输出数据集。
- Mira将数据集转换为多选题(二值化)并将其分割成更小、可管理的片段(分片)。
- 这些分片被分发到Mira的评估节点网络。每个节点接收不同的分片进行评估。
- 每个节点独立评估其分配分片中的问题,并将结果提交回网络。
- 分配到相同分片的节点就评估结果达成共识,然后这些结果被汇总成最终评估。
- 最终的评估结果返回给AI开发者,同时附带评估证书——评估的加密证明。该证书存储在区块链上,创建一个可验证、防篡改的评估记录。
Mira通过将输入数据分解成更小的片段来确保数据机密性,确保没有单个节点可以访问完整的数据集。
为了额外的安全性,Mira支持动态隐私级别,允许用户根据数据敏感性调整分片数量。虽然更高的隐私级别需要更多的分片(因此成本更高),但它为处理敏感信息的用户提供了额外的机密性。
节点执行的每个验证都记录在区块链上,为验证过程创建一个透明和可审计的记录。这种不可变的分类账确保了传统非区块链方法无法实现的信任和问责。
这为安全和无偏见的AI验证设立了新标准。
确保节点完成工作
在Mira的去中心化网络中,诚实的工作会得到奖励。
专家可以通过节点软件部署专业的AI模型,并通过准确的评估赚取代币。相应地,AI开发者为每次评估支付费用,在需求和供应之间创造一个自我维持的经济循环。
这种方法将Web2工作流程的实际价值桥接到Web3生态系统中,直接奖励推理提供者和模型创建者等参与者。
但激励机制也带来挑战。在任何去中心化系统中,不良行为者都会试图利用网络,提交虚假结果以赚取奖励而不做实际工作。
那么,我们如何确保节点实际上准确和诚实地执行其任务呢?
为了维护完整性,Mira采用验证证明(Proof-of-Evaluation)——一种受比特币工作量证明启发但专为AI设计的机制。节点必须证明它们已完成评估任务才能参与共识过程,而不是挖掘区块。
以下是其工作原理:
质押要求:每个节点必须质押代币作为经济承诺。如果节点重复提交错误结果,其部分质押将作为惩罚被削减。这确保节点有利害关系并有理由诚实行事。
假工作惩罚:提交虚假结果的节点——如跳过计算或生成随机输出——面临惩罚。当他们的结果持续显著偏离共识时(假设大多数节点是诚实的),欺诈会被检测出来。
验证证明创建了一个平衡的系统,节点在经济上被激励执行高质量的评估。这种机制确保网络随时间保持安全和可靠。
挑战与权衡
这里有个问题:如果Mira的方法如此有效,为什么不是每个人都在使用它?
答案在于在现实世界中实施这样一个系统的权衡和复杂性。在快速、准确的评估和管理多个模型的复杂性之间达到完美平衡并非易事。
Mira最大的障碍之一是延迟。虽然使用模型集成允许评估并行运行,但同步结果和达成共识会引入延迟。整个过程的速度取决于最慢的节点。
目前,这使得Mira非常适合AI输出的批处理——不需要实时结果的用例。随着网络增长和更多节点及计算资源的可用,长期目标是实现实时评估,扩大Mira在更广泛场景中的适用性。
除了延迟之外,其他挑战包括:
工程复杂性:跨多个模型协调评估并确保共识机制顺利运行需要大量工程努力。
更高的计算需求:即使使用较小的模型,将它们一起在集成中运行也会增加计算需求。
良好的共识机制设计:达成共识的方式——通过多数投票、加权评分或其他方法——在系统可靠性中起着关键作用。在模糊的情况下,集成可能难以达成一致,导致结果不一致。
Mira的应用和用例

来源:Mira
Mira的API易于与任何应用程序集成,类似于OpenAI的GPT-4。它对消费者和B2B应用都是不可知的,使其成为各种用例的通用解决方案。今天,已有十几个应用程序使用Mira的基础设施。
消费者集成
在消费者方面,Mira已经为几个早期AI应用提供AI验证支持:
- Creato:一个用于个性化每日引言和状态消息的发现和分享应用,服务超过12万用户。
- Astro247:一个让用户与AI星象师交谈获取个性化星座运势和预测的平台。
- Amor:一个AI伴侣应用,允许用户与虚拟AI角色进行沉浸式对话。
- Klok:由Mira开发的专注于加密货币的ChatGPT,使用CoinMarketCap等API和从加密货币网站及新闻媒体抓取的网络数据来回答加密货币相关查询。

Delphi Oracle是最新且可能是最先进的集成。这个AI驱动的研究助手允许Delphi Digital会员直接与研究内容互动,提出问题,澄清观点,整合价格信息,并调整内容的复杂度。
Delphi Oracle利用Mira Network的验证技术来提供可靠和准确的响应。通过跨多个模型验证响应,Mira将幻觉率从约30%降低到5%以下,确保建立坚实的信任基础。
Delphi Oracle的核心是一个高性能查询路由器
- 价格查询:直接路由到市场数据端点以获得近乎即时的响应。
- 基本问题:由缓存响应系统处理,平衡速度和成本效益。
- 复杂查询:导向专门的LLM处理管道,能够综合多个来源的信息。
这个智能路由系统,结合智能缓存,通过平衡延迟、成本和质量确保最佳性能。
Mira的测试显示,较小的、成本效益高的模型几乎可以像大型模型一样好地处理大多数查询。这使运营成本降低了90%,同时保持用户期望的高质量响应。
虽然这些消费者应用中很多仍处于早期阶段,但它们突显了Mira无缝集成和支持大型活跃用户群的能力。不难想象数千个应用程序接入Mira的生态系统——只要开发者体验保持简单,价值主张保持清晰。
B2B应用
在B2B方面,Mira正专注于信任和精确度至关重要的行业的专业集成,初期重点关注医疗保健和教育。
主要应用包括:
- 医疗保健:提供可靠第二意见并支持医生做出关键决策的AI助手。
- 教育:适应个别学生需求的个性化学习助手,同时保持事实准确性和与课程的一致性。
- 法律服务:能够准确总结判例法和预测法律结果以简化法律工作流程的系统。
Mira的最终目标
Mira的最终目标是提供原生验证的生成内容——用户只需像连接OpenAI或Anthropic那样通过API连接,就能在返回前收到预先验证的输出。
他们的目标是通过提供现有模型的高度可靠版本(例如,Mira-Claude-3.5-Sonnet或Mira-OpenAI-GPT-4o)来替代现有的模型API,这些版本通过内置的基于共识的可靠性得到增强。
市场规模

生成式AI正在以火箭般的速度发展。根据彭博社的数据,该市场预计将以惊人的42%的年复合增长率增长,到2030年收入将超过1万亿美元。在这一巨大浪潮中,提高AI工作流程速度、准确性和可靠性的工具将占据重要份额。
随着更多企业将LLM整合到工作流程中——从客户支持聊天机器人到复杂的研究助手——对强大的模型评估和基准测试工具的需求变得更加迫切。
组织将寻求能够(1)衡量模型准确性和可靠性,(2)诊断提示和参数效率,(3)持续监控性能和漂移,以及(4)确保符合新兴AI安全监管框架的工具。
听起来熟悉吗?这是我们在MLOps(”机器学习运营”的简称)中见过的剧本。随着机器学习在2010年代的扩展,部署、跟踪和维护模型的工具变得必不可少,创造了一个数十亿美元的市场。随着生成式AI的兴起,LLMOps正在走同样的轨迹。
仅捕获万亿美元市场的一小部分,到2030年这个子行业就可能达到1000亿美元以上。
几家Web2创业公司已经在布局,提供数据注释、模型微调和性能评估的工具:
- Braintrust(募集3600万美元)
- Vellum AI(募集500万美元)
- Humanloop(募集280万美元)
这些早期参与者正在奠定基础,但这个领域仍在变化。在2025年,我们可能会看到该领域创业公司的激增。有些可能专注于特定的评估指标(如偏见检测和稳健性测试),而其他公司则扩大其产品范围以覆盖整个AI开发生命周期。
较大的科技公司——如主要云服务提供商和AI平台——可能会将评估功能捆绑到他们的产品中。上个月,OpenAI在其平台上直接引入了评估。要保持竞争力,创业公司必须通过专业化、易用性和高级分析来实现差异化。
Mira不是这些创业公司或现有公司的直接竞争对手。相反,它是一个通过API无缝集成两者的基础设施提供商。关键是?它必须能正常运作。
Mira的初始市场规模与LLMOps相关,但其总体可服务市场将扩展到所有AI领域,因为每个AI应用都需要更可靠的输出。
从博弈论的角度来看,Mira处于独特的地位。与OpenAI等被锁定在支持自己系统的其他模型提供商不同,Mira可以跨模型集成。这使Mira成为AI的信任层,提供任何单一提供商都无法匹配的可靠性。
2025路线图
Mira的2025路线图旨在在通往完全去中心化的道路上平衡完整性、可扩展性和社区参与:
第1阶段:建立信任(我们现在所处的阶段)
在早期阶段,经过审核的节点运营商确保网络可靠性。知名的GPU计算提供商作为第一波运营商,处理初始操作并为增长奠定坚实基础。
第2阶段:渐进式去中心化
Mira引入设计重复,其中同一验证器模型的多个实例处理每个请求。虽然这增加了验证成本,但对于识别和移除恶意运营商至关重要。通过比较各节点的输出,可以及早发现不良行为者。
在其成熟形态中,Mira将实施随机分片来分配验证任务。这使得串通在经济上不可行,并在扩展时增强网络的弹性和安全性。
第3阶段:合成基础模型
在这里,Mira将提供原生验证的生成内容。用户将通过API连接,类似于OpenAI或Anthropic,并接收预先验证的输出——可靠、即用的结果,无需额外验证。
在未来几个月,Mira正准备实现几个重要里程碑:
- 推出Mira Flows,其AI工作流产品,允许开发者快速构建API驱动的AI应用
- 1月推出公共测试网
- 代币发布也在计划中,目标是2025年第一季度
🌈 研究独家:节点委托人计划
Mira正通过其节点委托人计划扩大社区参与机会。这项计划使支持网络对每个人都变得可行——不需要技术专业知识。
流程很简单:你可以租用计算资源并将其委托给精选的节点运营商组。贡献可以从35美元到750美元不等,并为支持网络提供奖励。Mira管理所有复杂的基础设施,因此节点委托人可以轻松参与,观察网络成长,并获得一些收益。
你可以使用以下专属于Chain of Thought读者的代码(仅300个邀请,先到先得)来为委托人计划加入白名单:COTR0
团队

今天,Mira拥有一个规模小但紧密的团队,主要专注于工程领域。
团队有3位联合创始人:
- Karan Sirdesai(CEO),曾在Accel的加密货币和AI投资团队工作,并在BCG担任顾问
- Sid Doddipalli(CTO)是IIT马德拉斯校友,此前是Stader Labs的联合创始人,这是一个TVL超过4亿美元的以太坊流动性质押平台
- Ninad Naik(首席产品官)曾在Uber担任产品管理总监,并在亚马逊智能家居部门担任总经理。
他们将投资敏锐度、技术创新和产品领导力结合起来,共同推进Mira的去中心化AI验证愿景。Mira在2024年7月完成了900万美元的种子轮融资,由BITKRAFT和Framework Ventures领投。
我们的思考
很高兴看到一个加密AI团队在解决一个基础的Web2 AI问题——让AI变得更好——而不是在加密泡沫中玩投机游戏。
1、评估将成为2025年的AI热词
行业正在意识到评估的重要性。仅仅依靠”感觉”已经不够了。每个AI应用和工作流程很快都会需要一个适当的评估过程——未来的法规要求这些流程以确保安全也并非不可能。
Mira的方法利用多个模型独立验证输出,避免依赖单一中心化模型。这种去中心化框架增强了信任并减少了偏见和操纵的风险。
让我们考虑一下,如果在未来几年内我们达到AGI(一个真实的可能性)会发生什么。
正如Canonical的Anand Iyer指出的,如果AI可以巧妙地操纵决策和代码,我们如何信任测试这些行为的系统?聪明的人正在未雨绸缪。Anthropic的研究强调了这种紧迫性,突出评估作为识别潜在危险AI能力的关键工具,在问题升级之前就能发现它们。
通过实现彻底的透明度,区块链为对抗失控的AI系统添加了一层强大的保护。无需信任的共识机制确保安全评估由数千个独立节点(如在Mira上)验证,大大降低了女巫攻击的风险。
2、雄心勃勃的愿景与执行风险
Mira正在追逐一个对有效解决方案有明确需求的巨大市场。但挑战是真实的。提高延迟、精确度和成本效率将需要持续不断的工程努力和时间。团队需要持续证明他们的方法明显优于现有替代方案。
核心创新在于Mira的二值化和分片过程。这个”秘密配方”承诺解决可扩展性和信任挑战。要让Mira成功,这项技术需要实现其承诺。
3、代币设计与Mira的秘密配方
在任何去中心化网络中,代币和激励设计都是成败的关键因素。Mira的成功将取决于这些机制如何在维护网络完整性的同时调整参与者利益。
虽然Mira的代币经济学细节仍未公开,但我预计团队会在2025年初代币发布临近时透露更多信息。
光明的未来
“我们发现,实施出色评估的工程团队的行动速度明显更快——比那些仅仅观察生产中发生的情况并试图临时修复的团队快10倍。”
-
Ankur Goyal,Braintrust
在一个由AI驱动的世界里,信任就是一切。
随着模型变得更加复杂,可靠的评估将成为每个优秀AI产品的基础。它们帮助我们解决幻觉、消除偏见,并确保AI输出与用户的实际需求保持一致。
Mira自动化评估,降低成本和对人工干预的依赖。这解锁了更快的迭代、实时调整和可扩展的解决方案,没有瓶颈。
最终,Mira的目标是成为信任的API——一个每个AI开发者和应用程序都可以依赖的去中心化评估框架,用于获取经验证的答案。
这是大胆的、雄心勃勃的,也正是AI世界所需要的。
感谢阅读, Teng Yan
这篇研究深度分析由Mira赞助,Chain of Thought为此项目获得资金。所有见解和分析都是我们自己的。我们在所有观点中都坚持严格的客观标准。
要了解更多关于我们对赞助深度分析的方法,请参阅我们的说明。
本报告仅供教育目的,不构成财务建议。它不是购买或出售资产或做出财务决定的背书。在做出投资选择时,请务必进行自己的研究并谨慎行事。