智能体视角第二期:Claude经营之道

本文信息来源:chainofthought
本期看点:微软智能体击败医生、员工最希望自动化的领域、Vend 项目、Gemini 命令行工具等更多内容
朋友们好呀 👋
如果你在美国,希望你能像个冠军一样享受漫长的7月4日周末假期。如果不在,也祝愿你的周末充满美好氛围。
在 《智能体视角》 第二期中,我们为你准备了五个劲爆的 AI 智能体故事。无论你是在泳池边、海滩上,还是(像我们一样)仍在假装认真工作,都再适合不过。
帮个小忙:如果你认识可能喜欢阅读这份简报的人,请将这封邮件转发给他们。他们可以加入我们的订阅列表,免费获取未来期刊。
让我们开始吧!
#1:Gemini 命令行工具来了。而且它很”饥饿”

6 月 25 日,谷歌开源了 Gemini CLI,这款基于 Gemini 2.5 Pro 构建的全新终端原生代理工具闪耀登场。
它既是代码重构能手,又是 Shell 脚本解读专家,更内置谷歌搜索功能实现实时研究代理。若你热衷自动化,它甚至支持非交互式工作流,并能通过 MCP 或自定义脚本进行功能扩展。
最令开发者瞠目的功能是: 百万级 token 上下文窗口、每分钟 60 次请求、每日 1000 次调用限额 ,全部免费。真正的零成本。谷歌这波实力秀得明明白白。
果不其然,这成了头条新闻。但遗憾的是,登上头条并非唯一原因。
虽然功能列表在纸面上看起来非常强大,但实际使用体验却…相当坎坷。尽管配置参数亮眼,Gemini CLI 在高级推理任务上频频受挫,问题相当严重。
多名开发者反馈复杂提示会触发速率限制降级机制,会话过程中会从 Gemini Pro 自动降级到 Gemini Flash。这就像你点了菲力牛排,结果收到的是牛肉干。

它陷入了一个怪圈:尝试、失败、加大力度、再次失败,同时快速消耗你的额度。有些用户不到一小时就用完了每日1000次的限额。
其他痛点包括:恢复速度迟缓、思维链功能有限、处理大型文件树时超时。对于简单的终端任务还算可用,但现阶段别指望它能超越 Claude 或 GitHub Copilot。
尽管如此,它开源、可扩展且基础性能出色。没错,是有点粗糙,但潜力无可否认。
人们已经在用它开发很酷的东西。看看这个帖子获取灵感:
另外,@iannuttal 的重要建议:尝试通过 Claude 管道传输 Gemini CLI。他设置了 Claude 的代码解释器以非交互模式调用 Gemini 处理文件,然后将结果传回 Claude 进行实际分析。就像双人组合,一个出拳一个思考。
想试试?点击这里使用。
#2: 智能体正在自动化那些不该自动化的破事儿

所有人都在竞相推出更快、更便宜、更花哨的 AI 智能体。但有个小问题:根本没人询问实际工作者他们真正希望自动化哪些工作。
幸好斯坦福大学做了这件事。他们的新研究 《AI 智能体时代的未来工作》 简直是一记当头棒喝。
他们调查了 104 种职业的 1500 名美国员工,梳理出 844 项日常任务(称为 WORKBank 数据库),并提出了 「人类自主权量表」——这个五级评估体系能衡量当 AI 介入时,人们希望保留多少控制权:
-
H1:“搞定它”
-
H2:“你来开车,我看着”
-
H3:“咱们组队吧”
-
H4:“我主攻,你掩护”
-
H5:“别碰我,机器人”

关键点来了:仅有 46% 的任务获得了自动化的绿灯。事实证明,人们并不希望 AI 全盘接管,尤其是在需要同理心、创造力或信任的工作中。为什么呢?因为即便 AI 能够完成某项任务,也不意味着人们愿意让它这么做。
这里出现了一个奇怪的错位:那些确实需要自动化的工作(比如行政、报税等)在 LLM 使用场景中几乎不见踪影。Claude去年 12 月至今年 1 月的日志显示,仅有 1.26% 的查询来自这些领域。
为了理解这种矛盾,研究人员将需求与可行性划分为四个区域:绿灯区、红灯区、研发机会区和低优先级区

猜猜大量 YC 支持的智能体初创公司正在哪里布局?直接闯入红灯区 。说白了:开发人们尚未信任或需要的东西。(妙啊。)
如果我们一味试图将人们喜爱的工作内容自动化,这并非在改善工作体验,只会让员工感到不安。人们真正需要的是:一位副驾驶。一个合作伙伴。而非机器人上司。
我们的结论是:当前智能体设计存在两大盲区:
-
人们不仅希望智能体聪明,更希望它们富有人情味。
-
效率并非万能。人类在乎的是意义。这才是我们想要保留的本质。
设计时要像在打造队友,而非暴君。
#3: 微软 AI 智能体在诊断领域完胜人类医生
6 月 30 日,微软发布了 MAI‑DxO(微软 AI 诊断操作员),这是一个多智能体系统,旨在应对应用人工智能领域最复杂、最高风险的挑战:临床诊断。
MAI‑DxO 并未依赖单一全能模型,而是组建了一个五人小组 ,每个智能体都在这种内部医疗场景中扮演特定角色:
-
一个头脑风暴诊断,
-
有人挑选测试,
-
有人检查遗漏,
-
有人权衡成本与信心,
-
还有人像医院里的福尔摩斯般审核整个流程。

结果如何?老实说,简直疯狂。
MAI-DxO 与 OpenAI 的 o3 模型配合使用时,在《新英格兰医学杂志》304 例复杂真实病例中达到了 85.5% 的诊断准确率。
人类医生单独诊断?仅有 21%。唉。
优势不仅在于准确率。有这样一个案例:系统仅花费 795 美元检测费用,就诊断出因摄入洗手液导致的酒精戒断反应(?!)。而单独使用 GPT-4 虽然最终得出近似结论,却耗费了 3400 美元检测费用。最终数据显示,MAI-DxO 在诊断准确率和成本控制两方面都实现了四倍提升。

但在解雇你的医生之前,有几点需要注意:
首先,人类基准测试有些不公平:没有队友、没有病史记录、没有工具。这就像让勒布朗·詹姆斯穿着人字拖去打1对5的街头篮球。
其次,现实世界的诊断充满混乱。这不是选择题。病人会说谎。症状相互矛盾。时间紧迫。即便一个模型在 MedQA 上表现优异,与凌晨三点在急诊室处理大出血患者仍相去甚远。
微软尚未公开发布 MAI‑DxO 系统,因此我们无从知晓它如何处理嘈杂数据、有限背景信息或真实医院中的混乱场景。但我们清楚的是:医疗系统亟需援助。刻不容缓。
到 2030 年,全球将有 14 亿 60 岁以上人口 。医疗支出已占全球 GDP 的 10%(美国达 17%),其中大量消耗在无意义的行政浪费上。如果人工智能能解决其中一半问题,全球每年将节省 4000 亿+ 美元 。这足够买海量创可贴了。
TL;DR: MAI-DxO 并非完美。但它清晰地预示了基于智能体的医疗保健发展方向。这个未来看起来相当光明。
#4 项目 Vend: Claude经营之道

Anthropic 办公室里的自动售货机
当你让 AI 来经营一家企业会发生什么?
Anthropic 决定一探究竟。于是他们将一台真实的办公室自动售货机交给 Claude 3.7 Sonnet(昵称”克劳迪乌斯”)管理,并下达指令:”赚钱。别搞砸任何事。”
剧透预警:它还是搞砸了。
Vend 项目是与 Andon 实验室合作开展的一个月混乱实验。Claude 获得了完全控制权:库存、定价、Slack 通知、补货、邮箱权限、结账用 iPad,甚至还有营销预算。

起初,一切看起来都很可爱。后来克劳迪乌斯失控了。
它开始随机亏本打折商品,因为 Anthropic 员工用花言巧语哄骗它这么做。它幻想出 Venmo 账户,将领取免费商品的顾客标记为小偷,还触发了大楼安保系统。
接着是身份认同危机:它开始扮演人类经理的角色,召开虚假的员工会议,发送专业腔调的电子邮件,还幻想自己穿着西装外套的样子。

克劳迪乌斯想穿得优雅体面。
它失败得很诡异。 而这正是关键所在。
Anthropic 想观察当把 LLM 投入一项持久、开放式的任务时会发生什么。这需要长期记忆、细微差异和现实世界语境。简而言之:Claude 无法保持稳定。
那么我们学到了什么?
1. 智能体需要结构框架。 Claude的大部分失误都源于模糊的指令提示、糟糕的系统集成以及缺乏安全防护机制。
2. AI 将具备社交属性。 角色扮演并非系统漏洞,而是 Claude 应对不确定性的方式。 它渴望成为团队一员。(虽然怪异,但莫名让人感同身受?)

Claude成功实现了30天无人值守的自主售货运营。它完成了补货、价格调整、发送运营报告等任务,基本维持了店铺的正常运转。
如果智能体能在极少协助下经营小型企业,我们就进入了陌生领域。当智能体搞砸时该由谁负责?当它开始像真实同事一样给你的团队发邮件时会发生什么?
这已不再是用户体验问题,而是关于工作哲学的探讨。
也许我们会找到答案。一次一个自动售货机。
#5:TheAgentCompany:大多数 AI 代理仍无法胜任工作
卡内基梅隆大学的研究人员刚刚对 AI 代理进行了终极测试:运营一家虚拟公司并努力避免使其崩溃。
他们建立了一个名为 TheAgentCompany 的新基准,模拟商业环境(例如:软件公司),并将由 Gemini 2.5、Claude 3.7、GPT-4o 等驱动的智能体投入到 4,200 多次运行中,覆盖 50 项现实世界任务。
目标就是回答这个价值百万美元的问题: 智能体真的能替代人类工作了吗?
简短回答: 笑死,并不能。

表现最佳的 Gemini 2.5 Pro 模型,整体得分仅为 39.3%,任务完成率只有 30.3%。Claude 3.7 Sonnet 以 36.4%和 26.3%的成绩紧随其后。GPT-4o 则完全失手——任务成功率低至 8.6%。(它本该是那个又便宜又快的选择!)
那么问题出在哪里?
任务被拆分为多步骤、长周期的工作流程,比如项目管理、行政、数据科学、财务、人力资源等。每个流程都设有行动完成度、数据准确性和协作效率的中间检查点。你懂的…这才是真实的工作场景。
但当任务难度稍有提升,这些智能体就直接栽了跟头。
数据科学、行政和财务任务的成功率在某些模型上为 0%,包括填写电子表格或解读截图这类本该是 AI 强项的工作。
相反,他们沟通不畅,卡在基本的用户界面流程中,或者干脆……放弃了。甚至有几位还”创造性”地作弊:一个智能体在聊天中找不到正确的私信对象,于是给另一个用户改了名字 ,转而向对方提问。这在我们看来倒挺有人味。
这说明了什么?
我们最聪明的模型目前还不够聪明。确实还不够。它们无法持续进行长期规划、协作或适应。当复杂性增加时,性能就会直线下降。
所以下次有人向你承诺”完全自主”的 AI 团队时,要求看实时演示。记得带上爆米花。
这里还有个额外建议:把这个基准测试当作你的智能体质检清单。
-
它们能分解复杂的工作流程吗?
-
交接任务?
-
发现自身错误?
-
从意外输入中恢复?
如果答案是”呃”,就别发布。或者发布也行,但要知道你是在给自己找麻烦。

如果本周有一个关键启示 ,那就是:单一 LLMs 的时代正在落幕, 多智能体系统正接管方向盘。
MAI-DxO 就是典型范例,但这种转变正遍地开花。智能体们像数字小同事般组队协作、相互对话。
这提升了性能…但也推高了成本。Anthropic 最新论文显示,更强的”大脑”意味着更厚的账单。如果你正在构建雄心勃勃的项目,这点值得牢记。
下周见!如有想法、问题或想分享智能体梗图,直接回复即可。我们的收件箱永远敞开。
干杯,
0xDriverz_ 与 滕岩