智能体视角#1：ElevenLabs 的新技术栈

本文信息来源：chainofthought

AND：SakanaAI 的战略调整、Salesforce 的 Agentforce3、Janus 及其他动态

朋友们好 👋

这个想法在我脑海中酝酿了数月，现在终于到了启动的最佳时机。

那么…

欢迎订阅 《智能体视角》，这是由 Chain of Thought 团队推出的全新周刊，专注探索 AI 智能体领域！

注意：不是加密代理。这与 Web3 无关。我们正将目光移出加密货币领域，因为在更广阔的智能体世界，正发生着大量精彩而快速的变化——而我们对此无比着迷。

智能体正变得出奇地强大。它们能编程、做计划、预约会议、写作、调试程序，甚至参与商业谈判。有些很实用，有些则略显狂野。但所有这些都在突破软件的边界—— 而你甚至无需动一根手指。

我们确信智能体将成为下一个重大技术变革。它们已开始从工具属性转向更像人类同事的存在。

正因如此，我们决定每周为您精选 5 篇 AI 智能体领域的劲爆内容：最大胆的产品发布、最炫酷的演示、最前沿的研究成果。所有内容都经过精心筛选，助您始终快人一步，从容应对未来变局。

五分钟轻松读完，绝无水分。

您收到此邮件是因为订阅了《思维链》。若不想接收这封每周 AI 智能体简报，只需点击此处即可一键退订。

精彩内容马上开始！

#1: 11ai 让你只需说出那个词

6 月 23 日，Eleven Labs 发布了 11ai——一个基于其低延迟对话式 AI 平台打造的语音优先智能体。它支持检索增强生成技术以提供实时答案，并通过模型上下文协议(MCP)直接与 Notion、Slack 和 Perplexity 集成。

你可以从 5000 多种声音中选择，或使用自己的声音。11ai 不是让人们学习新工具，而是将语音转化为他们已在使用应用的命令层。这招很聪明。

有件事我们很清楚：人类天生懒惰。阻力越小，留存率越高。

人类每分钟打字约 40 个词，说话却能输出 150 个词。语音不仅更便捷，速度还快了三倍。通过 11ai，研究、执行和多步骤任务都能以对话形式完成。

随着又一重量级集成的加入，MCP 作为首选集成层的势头正日益强劲。

智能体视角#1：ElevenLabs 的新技术栈

11ai 智能体架构 – ElevenLabs

这给现有巨头带来了压力。苹果和谷歌拥有出色的语音模型，但集成体验笨拙。亚马逊的 Alexa 仍缺乏通用功能调用层。而 ElevenLabs 凭借在用户已信任工具间的流畅执行能力，实现了对它们的弯道超车。

11ai 目前免费开放试用。只需用语音向 Perplexity 提问，就能自动生成 Notion 页面摘要。操作流畅，一句话就能搞定。

#2：Sakana 的 ALE-Agent 攻克复杂难题

多数 AI 助手只能处理文档检索、邮件整理或 Slack 消息管理。而 ALE-Agent 专为解决那些通常需要白板会议、一两个博士学位外加大量咖啡才能搞定的硬核问题而生。

它完全是为工业流程中的高难度优化挑战设计的，比如物流调度、路径规划和生产排程等场景。

LLMs 通常难以应对那种需要长远战略思考的棘手开放式问题。

那么它到底有多聪明呢？

今年 5 月，ALE-Agent 参加了 AtCoder 启发式算法竞赛（可以理解为优化算法极客的编程奥运会），与 1000 名人类选手同台竞技。它获得了第 21 名，这意味着它超越了 98%的参赛者——对手可是真实人类。

我们已见证众多 AI 代理在各类领域超越人类（如国际象棋、编程、数学），但这次情况不同。

这标志着人工智能正突破人类优势的最后堡垒之一： 创造性推理 。若智能体能超越 98%的专家程序员，我们讨论的就不再是拼写检查助手，而是比人类工程师团队更强大的成熟工业问题解决者。

智能体视角#1：ElevenLabs 的新技术栈

ALE-Agent 推理框架 – SakanaAI

你可能不会亲自使用 ALE-Agent。它不会在 X 平台上成为热门话题。但这个故事依然重要，因为它预示着未来的发展方向：能够进行抽象思考、提前多步规划，并在专业领域击败专家的智能体。

对我们而言，这既令人恐惧又令人兴奋。

更耐人寻味的是：Sakana 不仅构建了这个智能体，他们还创建了评估标准：ALE-Bench，这是一个专注于复杂优化问题的编程基准测试。没错，他们同时掌控着竞技场和场上最优秀的选手。

#3：Janus 像专业人士一样对你的智能体进行压力测试

智能体视角#1：ElevenLabs 的新技术栈

与雅努斯同行

对 AI 代理进行人工质量检测存在明显缺陷。这种方法效率低下、不够完善，且过于依赖人类判断，难以捕捉 LLMs 开始产生幻觉或编造内容的极端异常情况。

进入 Janus 的世界，该系统于五月下旬推出。

Janus 能生成数千个虚拟用户角色（比如困惑的顾客、暴躁的开发者、热衷阴谋论的亲戚），用它们来测试你的 AI 代理直到系统崩溃。它能挖掘出幻觉输出、逻辑漏洞和偏见行为，最后提供包含修复方案和直白建议的完整报告。

你只需用通俗英语描述何为”优秀”标准。十分钟后，砰的一声：完整的质量检测报告就绪，附带模拟用户反馈和待修复问题清单。

糟糕的输出不仅令人难堪：它们甚至能在你正式发布前就毁掉品牌声誉。Janus 能在真实用户发现问题前，就帮你找出这些故障点

但最精彩的部分在于：这是智能体间的相互监督 。简而言之，雅努斯就是个元智能体，负责测试、修正并优化其他 AI。这朝着系统自我维护的目标迈出了巨大一步。

ALE-Agent，再到如今的 Janus。趋势已然明朗。智能体不仅变得更聪明、能力更全面，它们对人类监督的依赖也日益减少。

#4: Salesforce 携 Agentforce3 进军竞技场

如果说 Janus 是您用来测试代理程序的平台，Agentforce 3 则是您部署真正经得起生产环境考验的代理程序的地方。

Salesforce 最新版本原生支持 MCP 功能并提供了数百个预构建操作。现在代理程序可以启动工作流、调取合同、更新 CRM 记录并生成报告。无需自定义代码，也无需临时拼凑集成方案。

这之所以重要是因为：在企业级领域， 互操作性=金钱 。每个无需人工干预即可运行的工作流都能节省时间、减少错误并提高利润率。对于运行复杂业务的公司而言，即使是 0.5%的效率提升也能累积成数百万美元的收益。

智能体视角#1：ElevenLabs 的新技术栈

Agentforce 3 的 MCP 客户端 – Salesforce

Agentforce 并不性感，也无需性感。它是为成人联赛（即企业级市场）设计的，在这里合规性、一致性和可预测的结果才是制胜关键。这就是 B2B 领域的秘诀： 枯燥即利润 。

Salesforce 深谙客户需求。Agentforce 3 堪称精准满足客户需求的典范之作。

#5：全能选手 Abacus，稳如磐石

大多数号称”无所不能”的工具往往一事无成。所以当 Abacus 的 DeepAgent 承诺能自动化几乎任何任务时，我们持怀疑态度。

但亲眼见证它的运行后，我们彻底改观了。

没错，它能构建应用。没错，它能处理工作流、制作短视频、挖掘研究资料，甚至像套娃般将任务分派给子代理。但最令人惊艳的是什么？是迭代速度 。团队持续高频更新，认真倾听用户反馈的态度堪称典范。

界面虽非最美观，且明显偏向开发者体验。某些操作流程尚待优化。但每月 10 美元就能获得可观的代币额度、顶级 LLMs 使用权，以及足够构建智能体工作流原型的能力——还不用心疼钱包。

在众多华而不实的通用工具中，DeepAgent 展现出惊人的扎实度。它如同瑞士军刀：虽无法替代专业工具，但在探索阶段或需要快速解决问题时，绝不会让你失望。

本周快讯：

互操作性就是一切。 MCP 已不再是锦上添花…而是必备要素。
智能体正在快速升级。 人类还能主导多久？
速度决定生死。 巨头纷纷入场，小团队必须以前所未有的速度交付产品。

下周继续为您带来关于 AI 智能体的辛辣观点。

有什么想法或反馈？直接回复即可，我们会阅读每一封邮件（拉钩保证）

干杯，

0xDriverz_ 与 Teng Yan

#企业级应用 #深度学习 #Crypto x AI #ElevenLabs #Web3 前沿

智能体视角#1：ElevenLabs 的新技术栈

#1: 11ai 让你只需说出那个词

#2：Sakana 的 ALE-Agent 攻克复杂难题

#3：Janus 像专业人士一样对你的智能体进行压力测试

#4: Salesforce 携 Agentforce3 进军竞技场

#5：全能选手 Abacus，稳如磐石

推荐阅读

停止向企业销售。开始与他们共建。

如何在不失去信任的情况下实现支持自动化

并非所有记录系统都生而平等

为什么世界仍在运行 SAP

智能体视角#1：ElevenLabs 的新技术栈

#1: 11ai 让你只需说出那个词

#2：Sakana 的 ALE-Agent 攻克复杂难题

#3：Janus 像专业人士一样对你的智能体进行压力测试

#4: Salesforce 携 Agentforce3 进军竞技场

#5：全能选手 Abacus，稳如磐石

推荐阅读

停止向企业销售。开始与他们共建。

如何在不失去信任的情况下实现支持自动化

并非所有记录系统都生而平等

为什么世界仍在运行 SAP

了解 RecodeX 的更多信息