Apple Silicon 本地推理成本高于云端 API 三倍

2026-05-18

威廉·安吉尔（William Angel）发表了一篇数据驱动的分析文章，直接比较了在 Apple Silicon 上运行本地 LLM 推理与通过 OpenRouter 使用云端 API 的真实成本。结论出乎许多本地优先倡导者的意料：云端更便宜，也更快。

以一台搭载 M5 Max 芯片、64GB 内存、售价 4299 美元的 MacBook Pro 为例，安吉尔按 3 年、5 年、10 年三个寿命周期进行摊销。在 Gemma 4 31B 模型上，本地推理速度约为 10-40 token/秒，每百万 token 的综合成本（电费加硬件折旧）约在 0.40 美元到 4.79 美元之间。而 OpenRouter 上同级别模型的价格仅为 0.38-0.50 美元/百万 token，推理速度可达 60-70 token/秒。

关键放大因素在于人的时间成本。对于一个年薪数十万美元的工程师来说，本地推理缓慢的速度意味着开发周期延长，远远抵消了 token 本身的边际成本。正如安吉尔所言：「向 Anthropic 花钱比等待本地推理更合理。」

这篇文章的价值在于它用实际数据挑战了「本地更省钱」的直觉。对于 AI 基础设施采购决策、开发者工具链设计以及模型部署策略而言，这种成本透明度至关重要——尤其是在智能体应用日益依赖高频推理调用的当下。

阅读原文