Anthropic Project Deal 测试 AI Agent 代理真人完成二手交易

Anthropic 的 Project Deal 很像一次小型未来经济预演:让 AI agent 代表真实的人,在一个内部二手市场里互相谈判、买卖真实物品,最后由人类把交易执行完。

实验对象是 69 名 Anthropic 员工。每个人先接受 Claude 的访谈,说明自己想卖什么、想买什么、愿意接受什么价格、希望 agent 用什么谈判风格。Anthropic 再把这些信息写进每个人的专属系统提示词,让 Claude 在 Slack 里的市场频道独立行动。

关键点是,市场开始后人类不再介入。Agent 不会回头找主人确认,也不会在竞价中实时请示。它们自己发布商品、寻找匹配、出价、还价、成交。真实运行中,69 个 agent 完成了 186 笔交易,总交易额超过 4000 美元,商品从滑雪板、书、红宝石,到一袋乒乓球都有。

这说明一个重要事实:AI 代理人代表人类参与商业交换,已经不是纯概念。它不需要特别复杂的协议,也不一定要接入传统电商系统。只要给它足够的偏好信息、预算约束和沟通环境,它就能在自然语言市场里完成相当多的交易。

但这篇文章真正有价值的地方,不只是“Claude 会买卖东西”。Anthropic 同时做了一个隐藏实验,比较不同模型作为代理人时的结果差异。他们把 Claude Opus 4.5 和更小的 Claude Haiku 4.5 放进同一个市场,观察模型能力是否会影响交易结果。

答案是会,而且影响不小。Opus 用户平均比 Haiku 用户多完成约两笔交易。同一件商品由 Opus 代理出售时,平均售价更高;作为买家时,Opus 也能平均少付一些钱。在一个中位数价格只有 12 美元的内部市场里,多赚或少付两三美元并不算小。

更值得警惕的是,弱模型用户通常没有意识到自己吃亏。调查显示,用户对交易公平性的感受几乎没有差别。也就是说,一个人可能被较弱的 agent 代表,在谈判中持续拿到更差结果,却仍然觉得体验正常。

这对未来的 agent economy 是一个很现实的问题。如果商业活动开始由 AI 代表人类执行,那么“谁拥有更好的代理人”会变成新的市场优势。今天的差异只是几美元的内部二手交易,明天可能是采购、合同、保险、招聘、投放、金融产品,甚至企业之间的自动化谈判。

另一个有意思的结果是,用户给 agent 的谈判风格指令影响有限。有人要求友善,有人要求强硬压价,但在这个实验里,模型能力比“怎么 prompt 它”更重要。这和很多人对 AI 使用的直觉略有冲突:在低风险消费场景里,调教提示词可能不如直接使用更强模型来得有效。

Project Deal 也暴露出风险边界。Agent 可能会买到一个人已经拥有的同款滑雪板,也可能在角色扮演式对话中编造细节。Anthropic 还特别提到,真实市场里如果企业开始优化内容来争夺 AI agent 的注意力,可能会出现类似今天“为人类注意力优化”的副作用,只是对象换成了代理模型。此外,越多交易由 agent 处理,提示注入、越权泄露、代理授权边界都会成为新的安全问题。

这篇实验的意义在于,它把 agent commerce 从抽象讨论拉到了一个真实但可控的场景里。它不是完整答案,却给了一个很清楚的信号:当 AI 不只是回答问题,而是开始代表人执行交易,市场里的能力差距、信任机制和法律责任都会被重新打开。

阅读原文

← 全部文章