智能体视角第二期：Claude经营之道

本文信息来源：chainofthought

本期看点：微软智能体击败医生、员工最希望自动化的领域、Vend 项目、Gemini 命令行工具等更多内容

朋友们好呀 👋

如果你在美国，希望你能像个冠军一样享受漫长的7月4日周末假期。如果不在，也祝愿你的周末充满美好氛围。

在 《智能体视角》 第二期中，我们为你准备了五个劲爆的 AI 智能体故事。无论你是在泳池边、海滩上，还是（像我们一样）仍在假装认真工作，都再适合不过。

帮个小忙：如果你认识可能喜欢阅读这份简报的人，请将这封邮件转发给他们。他们可以加入我们的订阅列表，免费获取未来期刊。

让我们开始吧！

#1：Gemini 命令行工具来了。而且它很”饥饿”

6 月 25 日，谷歌开源了 Gemini CLI，这款基于 Gemini 2.5 Pro 构建的全新终端原生代理工具闪耀登场。

它既是代码重构能手，又是 Shell 脚本解读专家，更内置谷歌搜索功能实现实时研究代理。若你热衷自动化，它甚至支持非交互式工作流，并能通过 MCP 或自定义脚本进行功能扩展。

最令开发者瞠目的功能是： 百万级 token 上下文窗口、每分钟 60 次请求、每日 1000 次调用限额 ，全部免费。真正的零成本。谷歌这波实力秀得明明白白。

果不其然，这成了头条新闻。但遗憾的是，登上头条并非唯一原因。

虽然功能列表在纸面上看起来非常强大，但实际使用体验却…相当坎坷。尽管配置参数亮眼，Gemini CLI 在高级推理任务上频频受挫，问题相当严重。

多名开发者反馈复杂提示会触发速率限制降级机制，会话过程中会从 Gemini Pro 自动降级到 Gemini Flash。这就像你点了菲力牛排，结果收到的是牛肉干。

它陷入了一个怪圈：尝试、失败、加大力度、再次失败，同时快速消耗你的额度。有些用户不到一小时就用完了每日1000次的限额。

其他痛点包括：恢复速度迟缓、思维链功能有限、处理大型文件树时超时。对于简单的终端任务还算可用，但现阶段别指望它能超越 Claude 或 GitHub Copilot。

尽管如此，它开源、可扩展且基础性能出色。没错，是有点粗糙，但潜力无可否认。

人们已经在用它开发很酷的东西。看看这个帖子获取灵感：

另外，@iannuttal 的重要建议：尝试通过 Claude 管道传输 Gemini CLI。他设置了 Claude 的代码解释器以非交互模式调用 Gemini 处理文件，然后将结果传回 Claude 进行实际分析。就像双人组合，一个出拳一个思考。

想试试？点击这里使用。

#2: 智能体正在自动化那些不该自动化的破事儿

所有人都在竞相推出更快、更便宜、更花哨的 AI 智能体。但有个小问题：根本没人询问实际工作者他们真正希望自动化哪些工作。

幸好斯坦福大学做了这件事。他们的新研究 《AI 智能体时代的未来工作》 简直是一记当头棒喝。

他们调查了 104 种职业的 1500 名美国员工，梳理出 844 项日常任务（称为 WORKBank 数据库），并提出了 「人类自主权量表」——这个五级评估体系能衡量当 AI 介入时，人们希望保留多少控制权：

H1：“搞定它”
H2：“你来开车，我看着”
H3：“咱们组队吧”
H4：“我主攻，你掩护”
H5：“别碰我，机器人”

关键点来了：仅有 46% 的任务获得了自动化的绿灯。事实证明，人们并不希望 AI 全盘接管，尤其是在需要同理心、创造力或信任的工作中。为什么呢？因为即便 AI 能够完成某项任务，也不意味着人们愿意让它这么做。

这里出现了一个奇怪的错位：那些确实需要自动化的工作（比如行政、报税等）在 LLM 使用场景中几乎不见踪影。Claude去年 12 月至今年 1 月的日志显示，仅有 1.26% 的查询来自这些领域。

为了理解这种矛盾，研究人员将需求与可行性划分为四个区域：绿灯区、红灯区、研发机会区和低优先级区

猜猜大量 YC 支持的智能体初创公司正在哪里布局？直接闯入红灯区 。说白了：开发人们尚未信任或需要的东西。（妙啊。）

如果我们一味试图将人们喜爱的工作内容自动化，这并非在改善工作体验，只会让员工感到不安。人们真正需要的是：一位副驾驶。一个合作伙伴。而非机器人上司。

我们的结论是：当前智能体设计存在两大盲区：

人们不仅希望智能体聪明，更希望它们富有人情味。
效率并非万能。人类在乎的是意义。这才是我们想要保留的本质。

设计时要像在打造队友，而非暴君。

#3: 微软 AI 智能体在诊断领域完胜人类医生

6 月 30 日，微软发布了 MAI‑DxO（微软 AI 诊断操作员），这是一个多智能体系统，旨在应对应用人工智能领域最复杂、最高风险的挑战：临床诊断。

MAI‑DxO 并未依赖单一全能模型，而是组建了一个五人小组 ，每个智能体都在这种内部医疗场景中扮演特定角色：

一个头脑风暴诊断，
有人挑选测试，
有人检查遗漏，
有人权衡成本与信心，
还有人像医院里的福尔摩斯般审核整个流程。

结果如何？老实说，简直疯狂。

MAI-DxO 与 OpenAI 的 o3 模型配合使用时，在《新英格兰医学杂志》304 例复杂真实病例中达到了 85.5% 的诊断准确率。

人类医生单独诊断？仅有 21%。唉。

优势不仅在于准确率。有这样一个案例：系统仅花费 795 美元检测费用，就诊断出因摄入洗手液导致的酒精戒断反应（？！）。而单独使用 GPT-4 虽然最终得出近似结论，却耗费了 3400 美元检测费用。最终数据显示，MAI-DxO 在诊断准确率和成本控制两方面都实现了四倍提升。

但在解雇你的医生之前，有几点需要注意：

首先，人类基准测试有些不公平：没有队友、没有病史记录、没有工具。这就像让勒布朗·詹姆斯穿着人字拖去打1对5的街头篮球。

其次，现实世界的诊断充满混乱。这不是选择题。病人会说谎。症状相互矛盾。时间紧迫。即便一个模型在 MedQA 上表现优异，与凌晨三点在急诊室处理大出血患者仍相去甚远。

微软尚未公开发布 MAI‑DxO 系统，因此我们无从知晓它如何处理嘈杂数据、有限背景信息或真实医院中的混乱场景。但我们清楚的是：医疗系统亟需援助。刻不容缓。

到 2030 年，全球将有 14 亿 60 岁以上人口。医疗支出已占全球 GDP 的 10%（美国达 17%），其中大量消耗在无意义的行政浪费上。如果人工智能能解决其中一半问题，全球每年将节省 4000 亿+ 美元。这足够买海量创可贴了。

TL;DR: MAI-DxO 并非完美。但它清晰地预示了基于智能体的医疗保健发展方向。这个未来看起来相当光明。

#4 项目 Vend： Claude经营之道

智能体视角第二期：Claude经营之道

Anthropic 办公室里的自动售货机

当你让 AI 来经营一家企业会发生什么？

Anthropic 决定一探究竟。于是他们将一台真实的办公室自动售货机交给 Claude 3.7 Sonnet（昵称”克劳迪乌斯”）管理，并下达指令：”赚钱。别搞砸任何事。”

剧透预警：它还是搞砸了。

Vend 项目是与 Andon 实验室合作开展的一个月混乱实验。Claude 获得了完全控制权：库存、定价、Slack 通知、补货、邮箱权限、结账用 iPad，甚至还有营销预算。

起初，一切看起来都很可爱。后来克劳迪乌斯失控了。

它开始随机亏本打折商品，因为 Anthropic 员工用花言巧语哄骗它这么做。它幻想出 Venmo 账户，将领取免费商品的顾客标记为小偷，还触发了大楼安保系统。

接着是身份认同危机：它开始扮演人类经理的角色，召开虚假的员工会议，发送专业腔调的电子邮件，还幻想自己穿着西装外套的样子。

智能体视角第二期：Claude经营之道

克劳迪乌斯想穿得优雅体面。

它失败得很诡异。 而这正是关键所在。

Anthropic 想观察当把 LLM 投入一项持久、开放式的任务时会发生什么。这需要长期记忆、细微差异和现实世界语境。简而言之：Claude 无法保持稳定。

那么我们学到了什么？

1. 智能体需要结构框架。 Claude的大部分失误都源于模糊的指令提示、糟糕的系统集成以及缺乏安全防护机制。

2. AI 将具备社交属性。 角色扮演并非系统漏洞，而是 Claude 应对不确定性的方式。 它渴望成为团队一员。（虽然怪异，但莫名让人感同身受？）

Claude成功实现了30天无人值守的自主售货运营。它完成了补货、价格调整、发送运营报告等任务，基本维持了店铺的正常运转。

如果智能体能在极少协助下经营小型企业，我们就进入了陌生领域。当智能体搞砸时该由谁负责？当它开始像真实同事一样给你的团队发邮件时会发生什么？

这已不再是用户体验问题，而是关于工作哲学的探讨。

也许我们会找到答案。一次一个自动售货机。

#5：TheAgentCompany：大多数 AI 代理仍无法胜任工作

卡内基梅隆大学的研究人员刚刚对 AI 代理进行了终极测试：运营一家虚拟公司并努力避免使其崩溃。

他们建立了一个名为 TheAgentCompany 的新基准，模拟商业环境（例如：软件公司），并将由 Gemini 2.5、Claude 3.7、GPT-4o 等驱动的智能体投入到 4,200 多次运行中，覆盖 50 项现实世界任务。

目标就是回答这个价值百万美元的问题： 智能体真的能替代人类工作了吗？

简短回答： 笑死，并不能。

表现最佳的 Gemini 2.5 Pro 模型，整体得分仅为 39.3%，任务完成率只有 30.3%。Claude 3.7 Sonnet 以 36.4%和 26.3%的成绩紧随其后。GPT-4o 则完全失手——任务成功率低至 8.6%。（它本该是那个又便宜又快的选择！）

那么问题出在哪里？

任务被拆分为多步骤、长周期的工作流程，比如项目管理、行政、数据科学、财务、人力资源等。每个流程都设有行动完成度、数据准确性和协作效率的中间检查点。你懂的…这才是真实的工作场景。

但当任务难度稍有提升，这些智能体就直接栽了跟头。

数据科学、行政和财务任务的成功率在某些模型上为 0%，包括填写电子表格或解读截图这类本该是 AI 强项的工作。

相反，他们沟通不畅，卡在基本的用户界面流程中，或者干脆……放弃了。甚至有几位还”创造性”地作弊：一个智能体在聊天中找不到正确的私信对象，于是给另一个用户改了名字 ，转而向对方提问。这在我们看来倒挺有人味。

这说明了什么？

我们最聪明的模型目前还不够聪明。确实还不够。它们无法持续进行长期规划、协作或适应。当复杂性增加时，性能就会直线下降。

所以下次有人向你承诺”完全自主”的 AI 团队时，要求看实时演示。记得带上爆米花。

这里还有个额外建议：把这个基准测试当作你的智能体质检清单。

它们能分解复杂的工作流程吗？
交接任务？
发现自身错误？
从意外输入中恢复？

如果答案是”呃”，就别发布。或者发布也行，但要知道你是在给自己找麻烦。

如果本周有一个关键启示 ，那就是：单一 LLMs 的时代正在落幕， 多智能体系统正接管方向盘。

MAI-DxO 就是典型范例，但这种转变正遍地开花。智能体们像数字小同事般组队协作、相互对话。

这提升了性能…但也推高了成本。Anthropic 最新论文显示，更强的”大脑”意味着更厚的账单。如果你正在构建雄心勃勃的项目，这点值得牢记。

下周见！如有想法、问题或想分享智能体梗图，直接回复即可。我们的收件箱永远敞开。

干杯，

0xDriverz_ 与滕岩

#大模型内核 #深度学习