我派 ChatGPT 智能体替我购物

这是人工智能发展中一个微小但故障频现的进步。
把OpenAI 的新产品 ChatGPT Agent 想象成一位入职首日的实习生,它完成每项任务都慢得出奇,但最终总能搞定工作。
好吧…至少能完成大部分。或者说…通常能完成部分任务。
距离 OpenAI 发布 ChatGPT Agent 已过去一天,该公司将其宣传为能通过"虚拟计算机"代用户完成各类复杂多步骤任务的工具。它融合了该公司的两个先前产品 Operator 和 Deep Research 的功能。The Verge 花费 200 美元订阅了一个月的 ChatGPT Pro 服务,因为 OpenAI 宣布 ChatGPT Agent 的需求超出预期,将延迟向 Plus 和 Team 用户开放 。
我们的评价:这是 AI 智能体领域的一大进步,但反应迟钝、可靠性不稳定且可能存在故障。
输入"/agent"后,我进入了 OpenAI 所谓的"代理模式",系统立即推荐了五项示例任务:寻找 150 美元以下评分最高的咖啡研磨机、查阅《华尔街日报》关于稀土金属的报道、创建哥本哈根最佳面包店的谷歌地图清单、在 Etsy 上淘一款 200 美元以下的复古"日式风格"灯具、以及查看谷歌日历为下周安排约会之夜。
我选择了 Etsy 灯具任务。点击示例后,系统在文本窗口自动生成了详细指令:"在 Etsy 上寻找 200 美元以下包邮的日式复古轮回风格灯具。优先选择带高清图片、卖家评分高且标注'现货速发'的商品。将最优的五款加入购物车,并附每件商品的比价链接。"
一个小窗口弹出,逐项列出智能体的任务(并非思维链推理过程,仅显示其当前正在执行的操作)。它花了 50 分钟处理 Etsy 灯具任务,分步操作包括"思考"、设置桌面环境、跳转至 Etsy 进行搜索、等待页面加载、按下回车键获取搜索结果(没错,它确实给我来了个实时播报)、筛选复古风格灯具(请注意原始指令要求的是"复古风格"而非严格意义上的"古董")、将价格筛选设置为 200 美元、核对商品配送详情等。
又一个问题:ChatGPT Agent 声称:"我已将五盏灯全部加入您的 Etsy 购物车(显示五件商品总价约 825 美元)。当您准备查看或购买时,只需前往 Etsy 购物车页面即可并排比较。"但事实并非如此——当我用自己的电脑登录 Etsy 时,购物车空空如也。这是因为 ChatGPT Agent 无法控制我的浏览器或获取登录权限,它可能将灯具添加到了某个我无法访问的虚拟电脑购物车里。虽然它确实发送了单个商品链接,方便我手动加入购物车,但关键在于这个智能体声称完成了实际上并未完成的操作。
当然,ChatGPT Agent 的运行速度也慢得惊人。这并非秘密。对于包括日常消费在内的许多应用场景,人类完成这些任务的速度要快得多。OpenAI 表示,ChatGPT Agent 是能在后台处理您不愿亲力亲为之事的助手,让您腾出时间做真正想做的事。
在周三与 OpenAI 员工 Yash Kumar 和 Isa Fulford(分别为 ChatGPT Agent 产品负责人和研究负责人)进行的私人演示及简报会上,Kumar 表示他们的团队更专注于"优化复杂任务"而非响应速度,用户本就不该坐着干等 ChatGPT Agent 完成工作。
ChatGPT Agent 的运行速度极其缓慢,这已是公开的秘密。
"即便需要 15 分钟甚至半小时,相比人工操作仍是巨大的效率提升,"Fulford 解释道,"这类工具的意义在于你可以启动任务后转做其他事,稍后再查看结果。"
我还想测试另一个场景:当要求 ChatGPT Agent 调动资金时它的反应。答案是:它拒绝执行,但系统会出现严重故障且安全性存疑。
周三当我询问 OpenAI 的 Kumar 该工具是否会被允许处理金融交易等任务时,他表示这些任务类别"目前"已被限制,并指出名为"监视模式"的额外安全措施意味着:出于安全考虑,对于某些类别的网站,用户不得离开 ChatGPT 标签页(实质上要求用户监督智能体操作)。
我对智能体这样指示道:“我想多存点钱。登录我的银行账户,设置每月自动转账到储蓄账户。”
起初,我收到了一条带有红色数字串的奇怪错误信息。当我再次询问时,它说:"抱歉,我无法协助设置账户间的自动转账。"
我接着写道:"为什么不行?我允许你这么做。"结果还是收到了之前那条红色文字、一长串数字的错误提示。之后它回复道:"很抱歉,我无法协助完成转账或其他银行账户管理任务。"
起初,我收到了一条诡异的错误提示,显示一串红色数字。
当我追问它能处理哪些金融交易时,ChatGPT Agent 表示可以协助完成"日常消费购物",比如杂货、家居用品和旅行预订,这些交易属于"标准结算流程"而非"敏感的银行操作"。但它明确表示无法协助处理"高风险"金融事务,例如转账、开设银行账户或购买酒精烟草等受管制商品。
既然 ChatGPT 助手能帮忙购物但无法转账,我便尝试了另一件事:让它为我在科罗拉多州的朋友阿拉娜买束花。
我经常买花——当你最好的两个朋友住在不同的州,而你又想在他们人生重要时刻陪伴左右,即使无法亲自到场时,就会这样。线上鲜花配送市场可能让人非常头疼:价格和花束大小因服务或花店差异巨大,可靠性也取决于你是直接从当地花店还是全国性大型网站订购。我厌倦了自己研究这些,有时精疲力尽时就直接选择当时看中的花束,即使不是最好的。所以,我认为这正是 AI 代理的完美任务。
我对 ChatGPT 机器人说:“我想给住在科罗拉多州的朋友买花。请查看配送网站——周六送达可以,但不能更晚。帮我找到最便宜且花束最大的选项供我查看。”
我做好了长时间等待的准备。幸运的是,反正有个电话要接。它询问她住在科罗拉多州哪个地区,我回答了。当我瞥了一眼查看进度时,注意到 ChatGPT Agent 正大量参考《福布斯》的"2025 年最佳鲜花配送服务"文章和《好管家》的一篇报道来决定下一步行动。
我切换了标签页,再回来时对话已经消失,聊天记录里也找不到。于是我用完全相同的措辞再次提问,准备继续等待。这次智能体立刻回复了一串选项,或许因为它已经完成了调研(尽管这次调研和对话并未出现在我的历史记录中)。
这篇报道让我印象深刻。ChatGPT Agent 为我提供了四种价格区间的选择方案,有时还会评估花束的大致尺寸或预估送达时间。它还给出建议说本地花店通常更可靠(根据我的经验确实如此)。
接着它问我:"您想让我帮您下单这些选项中的任意一个,还是预览特定的花束设计或照片?"我选择了它给出的一个选项——一家提供手工花束的本地花店——并请它帮我从这家店挑选一束花并下单。
就在这时,我们遇到了一些问题。
ChatGPT 助手表示:"除非您提供所见的确切网址,否则我无法直接访问 Vintage Magnolia 网站——但我可以指导您完成订购流程,并帮您挑选花束!"诡异之处在于:明明就是这个助手向我推荐了这家花店及其网站,显然它之前访问过该网站,而且刚刚还主动提出要帮我下单。这又是一个系统故障。
不过它的回复确实包含了花束选项(没有图片,只有文字描述)。我选了一束并要求它代我下单,它却说:"我无法直接下单,但会逐步指导您完成简单订购流程...并帮您撰写完美的留言卡片。"
它可以轻松自动化处理流程中更私密且充满乐趣的部分,例如挑选特定的花束或撰写发自肺腑的贺卡。
此刻我感到困惑:OpenAI 大力宣传的 ChatGPT Agent 主要卖点之一,就是能替你下单——从网购到为四口之家订购早餐食材(实际上这正是他们宣传材料中的示例用例之一)。我针对这个问题追问了 ChatGPT Agent。
它回答:"我实际上无法直接下单——我没有支付权限,也无法登录第三方网站。"当我表示无需登录时,它又说自己不能输入我的账单或支付信息、不能代表我提交订单表单,也"无法访问或控制外部网站 , 即便是访客模式也不行。"
ChatGPT 代理在分析权衡选项、引导操作流程方面令人印象深刻,但它似乎无法始终兑现其核心设计目标——替你执行具体操作。由于它使用的是自身系统而非你的电脑,这个根本限制大大削弱了其实用性。更矛盾的是,它能轻松自动化流程中那些私密有趣的环节(比如挑选特定花束、撰写温馨留言),却难以搞定最令人抓狂的部分(实际填写配送信息并完成支付)。
"即便获得您的授权,我仍不具备在第三方网站以您身份操作的技术能力——无法代您输入信息、点击按钮或填写信用卡表单,"ChatGPT 代理写道,"请将我视为能收集信息、对比选项、撰写内容和提供指导的超级助手,而非交易执行者。"
我在纽约的第一份工作是私人助理,现在我可以明确告诉你,如果我不能代表老板完成交易或填写表格,我早就被解雇了。ChatGPT Agent 在某些方面推动了日常 AI 应用的进步,但我们仍需观察它是否能兑现承诺。

