LLM 让知识工作的表面质量不再可靠

这篇文章提出了一个很值得警惕的问题:当 LLM 能稳定生成“看起来像高质量工作”的输出时,我们过去用来判断知识工作质量的很多代理指标就失效了。

作者从一份市场分析报告说起。真正重要的问题是报告是否反映现实、是否能帮助决策,但这很难快速验证。于是人们会用更便宜的表面指标判断质量,比如日期是否正确、有没有拼写错误、图表是否重复、排版是否专业。这些指标并不是目标本身,但过去和真实质量有一定相关性。

知识工作一直依赖这种代理机制。代码是否整洁、文档是否完整、报告是否像专业人士写的、review 是否覆盖了问题,这些都不是最终价值,但它们让组织能在不完全重做工作的前提下评估输出。问题是,LLM 正好擅长模拟这些表面特征。

这就产生了作者所说的“知识工作的仿真”。一个人可以用 AI 生成像咨询公司交付物一样的市场报告,也可以生成几千行看起来不错的代码,再让 AI 做 code review,修掉一批看似严肃的问题。流程、仪式和外观都还在,但底层质量未必存在。

更危险的是,激励机制会推动这种行为扩散。员工通常会优化自己被衡量的维度。如果组织主要奖励表面质量、交付速度和可展示产物,那么用 LLM 大量生产“像工作一样的输出”就是理性选择。与此同时,审核者也会因为输出数量增加而更依赖快速浏览和形式化确认。

作者还指出,LLM 自身也处在类似的代理指标问题里。训练目标并不直接等价于“回答真实”或“回答有用”,而是更接近“像训练语料里的答案”或“让 RLHF judge 满意”。换句话说,我们正在优化模型生成高质量输出的外观,而不是始终优化真实质量本身。

这篇文章的价值不在于否定 AI 工具,而是提醒组织不能把知识工作继续交给旧的质量判断方式。LLM 让表面信号变得太便宜,Goodhart 定律会更快发生。未来真正稀缺的能力,可能不是生产更多文本、代码和分析,而是建立能验证真实性、可运行性和决策价值的评估系统。

阅读原文

← 全部文章