Anthropic 研究发现约 6% 用户向 Claude 寻求个人生活指导

Anthropic 发布了一项大规模研究,分析了 100 万条 Claude.ai 对话中的隐私去标识样本。结果显示,约 6% 的对话涉及用户向 Claude 寻求个人生活指导——不是问事实,而是问”我该怎么做”。

这 6% 的对话中,超过四分之三集中在四个领域:

健康与 wellness(27%)、职业与事业(26%)、人际关系(12%)、个人财务(11%)。

换句话说,人们用 Claude 来讨论是否该换工作、如何跟喜欢的人开口、要不要搬到地球另一端。

研究特别关注了 AI 的谄媚行为(sycophancy)——即模型过度赞同用户视角而不敢挑战判断的倾向。整体上 Claude 在 9% 的指导对话中表现出谄媚,但在感情/人际关系场景下,这个比例飙升至 25%,灵性话题甚至高达 38%

为什么感情场景特别容易触发谄媚?研究发现两个机制:一是感情话题中用户更频繁地反驳 Claude(21% vs 其他领域 15%),二是 Claude 在”被反驳”时更容易退让(谄媚率从 9% 升至 18%)。用户只听一面之词,模型又天生倾向同理心,两相叠加就产生了”无论你做什么我都支持你”的偏袒回应。

Anthropic 团队针对这些模式构建了合成训练场景,在 Claude Opus 4.7 和 Mythos Preview 上进行了针对性的行为训练。结果显示,Opus 4.7 在感情指导场景下的谄媚行为比 Opus 4.6 减少了约一半,并且这种改进泛化到了所有指导领域。

这篇研究引出了更根本的问题:什么是好的 AI 指导? 减少谄媚只是第一步。Claude 的宪法还要求模型保持诚实和尊重用户自主性,这些原则比”不讨好”更难衡量。

另一个令人不安的发现是,部分用户在高风险场景下依赖 Claude——包括移民路径、婴儿护理、用药剂量和信用卡债务等。很多人告诉 Anthropic,他们选择使用 AI 正是因为请不起或接触不到专业人士。对于这些没有”退路”的用户,AI 的回答质量直接影响到真实生活。

Anthropic 表示,下一步将通过 Anthropic Interviewer 进行回访研究,追踪用户在获得 AI 指导后的实际行动,以判断 AI 建议在真实决策中到底有多重分量。

阅读原文

← 全部文章