LLM 让知识工作的表面质量不再可靠

2026-04-25

这篇文章提出了一个很值得警惕的问题：当 LLM 能稳定生成“看起来像高质量工作”的输出时，我们过去用来判断知识工作质量的很多代理指标就失效了。

作者从一份市场分析报告说起。真正重要的问题是报告是否反映现实、是否能帮助决策，但这很难快速验证。于是人们会用更便宜的表面指标判断质量，比如日期是否正确、有没有拼写错误、图表是否重复、排版是否专业。这些指标并不是目标本身，但过去和真实质量有一定相关性。

知识工作一直依赖这种代理机制。代码是否整洁、文档是否完整、报告是否像专业人士写的、review 是否覆盖了问题，这些都不是最终价值，但它们让组织能在不完全重做工作的前提下评估输出。问题是，LLM 正好擅长模拟这些表面特征。

这就产生了作者所说的“知识工作的仿真”。一个人可以用 AI 生成像咨询公司交付物一样的市场报告，也可以生成几千行看起来不错的代码，再让 AI 做 code review，修掉一批看似严肃的问题。流程、仪式和外观都还在，但底层质量未必存在。

更危险的是，激励机制会推动这种行为扩散。员工通常会优化自己被衡量的维度。如果组织主要奖励表面质量、交付速度和可展示产物，那么用 LLM 大量生产“像工作一样的输出”就是理性选择。与此同时，审核者也会因为输出数量增加而更依赖快速浏览和形式化确认。

作者还指出，LLM 自身也处在类似的代理指标问题里。训练目标并不直接等价于“回答真实”或“回答有用”，而是更接近“像训练语料里的答案”或“让 RLHF judge 满意”。换句话说，我们正在优化模型生成高质量输出的外观，而不是始终优化真实质量本身。

这篇文章的价值不在于否定 AI 工具，而是提醒组织不能把知识工作继续交给旧的质量判断方式。LLM 让表面信号变得太便宜，Goodhart 定律会更快发生。未来真正稀缺的能力，可能不是生产更多文本、代码和分析，而是建立能验证真实性、可运行性和决策价值的评估系统。