AI 编程的账单真凶,可能不是模型

发布时间:2026/7/1 22:07:54
AI 编程的账单真凶,可能不是模型 AI 编程真正贵起来,可能不是因为它“写了很多代码”,而是因为它在背后跑了太多轮。这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving,6 月 29 日提交到 arXiv,6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark,而是真实日常使用里的 Claude Code 和 Codex 记录。数据量不小:4,265 个 coding-agent 会话43 位开发者357,161 次 LLM step432,510 次工具调用549 亿输入 token看到这里,很多人第一反应可能是:那不就是模型调用多吗?但 TraceLab 真正有意思的地方,不在“调用多”,而在它拆开了 AI 编程的真实工作方式。以前我们想象 AI 编程,脑子里大概是这样的:你给它一个需求,它想一下,吐一段代码。但真实的 coding agent 不是这样工作的。它更像一个小型开发者,在你的项目里来回跑:先读文件,再搜上下文,再改代码,再跑命令,再看报错,再改,再跑测试,再读新的文件,再继续下一轮。也就是说,账单不是一次回答产生的。账单是循环产生的。论文里提到,平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟,p90 超过 6.4 分钟。这就很像什么?像你请了一个助手,不是让他“写一页文档”,而是让他在办公室里来回跑腿。每跑一步,都要刷一次卡。更关