AI 编程的账单真凶，可能不是模型

发布时间：2026/7/1 22:07:54

AI 编程真正贵起来，可能不是因为它“写了很多代码”，而是因为它在背后跑了太多轮。这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving，6 月 29 日提交到 arXiv，6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark，而是真实日常使用里的 Claude Code 和 Codex 记录。数据量不小：4,265 个 coding-agent 会话43 位开发者357,161 次 LLM step432,510 次工具调用549 亿输入 token看到这里，很多人第一反应可能是：那不就是模型调用多吗？但 TraceLab 真正有意思的地方，不在“调用多”，而在它拆开了 AI 编程的真实工作方式。以前我们想象 AI 编程，脑子里大概是这样的：你给它一个需求，它想一下，吐一段代码。但真实的 coding agent 不是这样工作的。它更像一个小型开发者，在你的项目里来回跑：先读文件，再搜上下文，再改代码，再跑命令，再看报错，再改，再跑测试，再读新的文件，再继续下一轮。也就是说，账单不是一次回答产生的。账单是循环产生的。论文里提到，平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟，p90 超过 6.4 分钟。这就很像什么？像你请了一个助手，不是让他“写一页文档”，而是让他在办公室里来回跑腿。每跑一步，都要刷一次卡。更关

相关新闻

Claude底层架构解析：长上下文稳定性与宪法式对齐设计

三类私有化部署路径对比：开源、企业版与全栈信创

Claude底层技术解析：宪法AI、分层推理沙盒与可解释性约束

GPT-4.1如何重塑工程师的数据交互方式

移动端UI自动化测试框架Maestro终极指南：从入门到实战

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

IMU与MCU协同实现6DoF运动追踪的技术解析

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

Selenium元素定位全解析：从八大方法到实战策略

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

别再死记硬背了！用‘分界线’思维彻底搞懂C++ set的lower_bound和upper_bound

TwitchDropsMiner：无需观看直播，自动化获取Twitch掉落奖励的终极指南

从提示工程到上下文工程：2026年AI开发者的核心技能转换