智能体视角#1:ElevenLabs 的新技术栈

本文信息来源:chainofthought
AND:SakanaAI 的战略调整、Salesforce 的 Agentforce3、Janus 及其他动态
朋友们好 👋
这个想法在我脑海中酝酿了数月,现在终于到了启动的最佳时机。
那么…
欢迎订阅 《智能体视角》,这是由 Chain of Thought 团队推出的全新周刊,专注探索 AI 智能体领域!
注意:不是加密代理。这与 Web3 无关。我们正将目光移出加密货币领域,因为在更广阔的智能体世界,正发生着大量精彩而快速的变化——而我们对此无比着迷。
智能体正变得出奇地强大。它们能编程、做计划、预约会议、写作、调试程序,甚至参与商业谈判。有些很实用,有些则略显狂野。但所有这些都在突破软件的边界—— 而你甚至无需动一根手指。
我们确信智能体将成为下一个重大技术变革。它们已开始从工具属性转向更像人类同事的存在。
正因如此,我们决定每周为您精选 5 篇 AI 智能体领域的劲爆内容:最大胆的产品发布、最炫酷的演示、最前沿的研究成果。所有内容都经过精心筛选,助您始终快人一步,从容应对未来变局。
五分钟轻松读完,绝无水分。
您收到此邮件是因为订阅了《思维链》。若不想接收这封每周 AI 智能体简报,只需点击此处即可一键退订。
精彩内容马上开始!
#1: 11ai 让你只需说出那个词
6 月 23 日,Eleven Labs 发布了 11ai——一个基于其低延迟对话式 AI 平台打造的语音优先智能体。它支持检索增强生成技术以提供实时答案,并通过模型上下文协议(MCP)直接与 Notion、Slack 和 Perplexity 集成。
你可以从 5000 多种声音中选择,或使用自己的声音。11ai 不是让人们学习新工具,而是将语音转化为他们已在使用应用的命令层。这招很聪明。
有件事我们很清楚:人类天生懒惰。阻力越小,留存率越高。
人类每分钟打字约 40 个词,说话却能输出 150 个词。语音不仅更便捷,速度还快了三倍。通过 11ai,研究、执行和多步骤任务都能以对话形式完成。
随着又一重量级集成的加入,MCP 作为首选集成层的势头正日益强劲。

11ai 智能体架构 – ElevenLabs
这给现有巨头带来了压力。苹果和谷歌拥有出色的语音模型,但集成体验笨拙。亚马逊的 Alexa 仍缺乏通用功能调用层。而 ElevenLabs 凭借在用户已信任工具间的流畅执行能力,实现了对它们的弯道超车。
11ai 目前免费开放试用。只需用语音向 Perplexity 提问,就能自动生成 Notion 页面摘要。操作流畅,一句话就能搞定。
#2:Sakana 的 ALE-Agent 攻克复杂难题
多数 AI 助手只能处理文档检索、邮件整理或 Slack 消息管理。而 ALE-Agent 专为解决那些通常需要白板会议、一两个博士学位外加大量咖啡才能搞定的硬核问题而生。
它完全是为工业流程中的高难度优化挑战设计的,比如物流调度、路径规划和生产排程等场景。
LLMs 通常难以应对那种需要长远战略思考的棘手开放式问题。
那么它到底有多聪明呢?
今年 5 月,ALE-Agent 参加了 AtCoder 启发式算法竞赛 (可以理解为优化算法极客的编程奥运会),与 1000 名人类选手同台竞技。它获得了第 21 名,这意味着它超越了 98%的参赛者——对手可是真实人类。
我们已见证众多 AI 代理在各类领域超越人类(如国际象棋、编程、数学),但这次情况不同。
这标志着人工智能正突破人类优势的最后堡垒之一: 创造性推理 。若智能体能超越 98%的专家程序员,我们讨论的就不再是拼写检查助手,而是比人类工程师团队更强大的成熟工业问题解决者。

ALE-Agent 推理框架 – SakanaAI
你可能不会亲自使用 ALE-Agent。它不会在 X 平台上成为热门话题。但这个故事依然重要,因为它预示着未来的发展方向:能够进行抽象思考、提前多步规划,并在专业领域击败专家的智能体。
对我们而言,这既令人恐惧又令人兴奋。
更耐人寻味的是:Sakana 不仅构建了这个智能体,他们还创建了评估标准:ALE-Bench,这是一个专注于复杂优化问题的编程基准测试。没错,他们同时掌控着竞技场和场上最优秀的选手。
#3:Janus 像专业人士一样对你的智能体进行压力测试
对 AI 代理进行人工质量检测存在明显缺陷。这种方法效率低下、不够完善,且过于依赖人类判断,难以捕捉 LLMs 开始产生幻觉或编造内容的极端异常情况。
进入 Janus 的世界,该系统于五月下旬推出。
Janus 能生成数千个虚拟用户角色(比如困惑的顾客、暴躁的开发者、热衷阴谋论的亲戚),用它们来测试你的 AI 代理直到系统崩溃。它能挖掘出幻觉输出、逻辑漏洞和偏见行为,最后提供包含修复方案和直白建议的完整报告。
你只需用通俗英语描述何为”优秀”标准。十分钟后,砰的一声:完整的质量检测报告就绪,附带模拟用户反馈和待修复问题清单。
糟糕的输出不仅令人难堪:它们甚至能在你正式发布前就毁掉品牌声誉。Janus 能在真实用户发现问题前,就帮你找出这些故障点
但最精彩的部分在于:这是智能体间的相互监督 。简而言之,雅努斯就是个元智能体,负责测试、修正并优化其他 AI。这朝着系统自我维护的目标迈出了巨大一步。
ALE-Agent,再到如今的 Janus。趋势已然明朗。智能体不仅变得更聪明、能力更全面,它们对人类监督的依赖也日益减少。
#4: Salesforce 携 Agentforce3 进军竞技场
如果说 Janus 是您用来测试代理程序的平台,Agentforce 3 则是您部署真正经得起生产环境考验的代理程序的地方。
Salesforce 最新版本原生支持 MCP 功能并提供了数百个预构建操作。现在代理程序可以启动工作流、调取合同、更新 CRM 记录并生成报告。无需自定义代码,也无需临时拼凑集成方案。
这之所以重要是因为:在企业级领域, 互操作性=金钱 。每个无需人工干预即可运行的工作流都能节省时间、减少错误并提高利润率。对于运行复杂业务的公司而言,即使是 0.5%的效率提升也能累积成数百万美元的收益。

Agentforce 3 的 MCP 客户端 – Salesforce
Agentforce 并不性感,也无需性感。它是为成人联赛(即企业级市场)设计的,在这里合规性、一致性和可预测的结果才是制胜关键。这就是 B2B 领域的秘诀: 枯燥即利润 。
Salesforce 深谙客户需求。Agentforce 3 堪称精准满足客户需求的典范之作。
#5:全能选手 Abacus,稳如磐石
大多数号称”无所不能”的工具往往一事无成。所以当 Abacus 的 DeepAgent 承诺能自动化几乎任何任务时,我们持怀疑态度。
但亲眼见证它的运行后,我们彻底改观了。
没错,它能构建应用。没错,它能处理工作流、制作短视频、挖掘研究资料,甚至像套娃般将任务分派给子代理。但最令人惊艳的是什么?是迭代速度 。团队持续高频更新,认真倾听用户反馈的态度堪称典范。
界面虽非最美观,且明显偏向开发者体验。某些操作流程尚待优化。但每月 10 美元就能获得可观的代币额度、顶级 LLMs 使用权,以及足够构建智能体工作流原型的能力——还不用心疼钱包。
在众多华而不实的通用工具中,DeepAgent 展现出惊人的扎实度。它如同瑞士军刀:虽无法替代专业工具,但在探索阶段或需要快速解决问题时,绝不会让你失望。
本周快讯:
-
互操作性就是一切。 MCP 已不再是锦上添花…而是必备要素。
-
智能体正在快速升级。 人类还能主导多久?
-
速度决定生死。 巨头纷纷入场,小团队必须以前所未有的速度交付产品。
下周继续为您带来关于 AI 智能体的辛辣观点。
有什么想法或反馈?直接回复即可,我们会阅读每一封邮件(拉钩保证)
干杯,
0xDriverz_ 与 Teng Yan
