
2025–2026 年 Agent 圈一层不太愿意被挑破的窗户纸——市面上号称具备规划能力的 Agent十之八九的 planner 模块本质是把 CoT 的 prompt 模板套进了一个 while-loop再贴个Planning的标签。下面把这件事拆开讲透先界定什么叫真规划再看当前 Agent 的 planner 实际在干什么最后说清为什么这种CoT 套壳能横行以及真规划该往哪走。一、先立标杆什么叫真规划它和 CoT 根本不是一件事CoTChain-of-Thought的原始定义很清楚——Wei 等人 2022 年的论文里它就是在输出答案前让模型用自然语言展开一步步推理把input → output变成input → reasoning chain → output。它解决的是模型容易在中间步骤跳步、偷懒、算错这个问题本质是单路径、线性、闭卷式的思维展开。而规划Planning在 Agent 语境下要重得多它至少得扛住这四件事任务拆解把一个开放目标分析用户流失原因出报告拆成若干子目标且拆法本身可被评价状态管理记得已经做到了哪、哪些子目标完成了、当前上下文是什么环境 grounding每一步的假设能被环境反馈校正调工具、拿观测、再决定下一步动态重规划执行到一半发现原计划走不通能回溯、能改路线、能弃子目标 一句话分界CoT 是脑内演算规划是带地图和探照灯的野外行动。前者不连环境、不涉及工具、没有显式状态、更不会在半路改主意。 里作者用同一个电商用户流失分析任务跑过三模式对照CoT 是想清楚再动手——问题是你以为想清楚了执行总有意外。所以工程圈里有个共识分层CoT ≈ 局部推理增强ReAct ≈ 在线决策机制Plan-and-Execute ≈ 才接近真正意义上的任务规划框架 的同作者表述。把 CoT 直接叫规划是这一轮最普遍的术语通胀。二、拆开看当前 Agent 的规划到底长什么样拿几个被反复引用的标杆 Agent开刀AutoGPT / BabyAGI 的规划器表面看是自主拆解任务、维护待办列表、循环执行。但拆开 prompt 看核心就是一段被写死的模板You are an AI assistant. To complete tasks, always think step by step, consider tools you have, and reason before acting. Use this format: Think → Decide → Act → Observe模型每一步的规划不过是在这个模板里填空。程序层面强制了一个任务 → 拆解 → 执行 → 记录 → 复盘 → 继续的 while-loopLLM 只负责生成每一步的文字描述。你看到的自动规划其实是 prompt 代码骨架合谋演的一出戏LLM 本人并没有悟出规划。ReAct 的规划ReAct 论文Yao et al., ICLR 2023的本职是把推理和行动拧成Thought → Action → Observation → Thought的闭环解决的是 CoT 无 grounding、Act-only 无策略这两个单边缺陷。但注意——ReAct 的规划仍是单路径、线性、一次生成的它不能并行探索多条方案也不能在推理链死胡同时回溯。所以严格说ReAct 是带环境反馈的 CoT不是规划器。Plan-and-Execute 框架LangGraph 等这套把规划 Agent和执行 Agent分开看起来最接近真规划。但实际落地时规划 Agent干的事通常还是一次性让 LLM 吐一份步骤清单然后交给执行侧逐条消费。如果执行侧某步挂了有没有重规划re-plan取决于你代码里有没有写失败 → 回到 planner 再生成一份这个分支——而多数 demo 里这个分支是缺的或者只是简单地把 error msg 塞回上下文让 LLM 再吐一次依然是没有状态空间建模的 CoT 重生成。一个对照表把CoT 套壳规划和真规划钉死维度CoT 套壳式规划真规划路径结构单路径线性可多路径、可回溯ToT / search tree是否 grounding闭卷推理无环境反馈每步可被观测校正状态管理靠 context 窗口顺便记得显式状态机或结构化记忆重规划触发靠 prompt 里一句如果失败请重试有失败检测 → 根因诊断 → 计划改写闭环抽象层级自然语言步骤串可执行抽象如 CodeAct或 symbolic 约束代表实现AutoGPT/BabyAGI/多数 ReAct demo带 Reflexion 的 ReAct、LLM搜索树、CodeAct三、为什么CoT 套壳能横行三个结构性原因1. Demo 经济学给 LLM 塞一句 Lets think step by step 再加个 few-shot 的Think/Act/Observe模板挂个 while-loop半小时能跑出哇它会自己拆解任务了的效果。真规划要维护状态、要做 failure recovery、要接环境反馈闭环——工程量差一个数量级。95% 的 Agent 产品停在能跑通 happy path 的 demo就够了没人愿意为那 5% 的鲁棒性付钱。2. LLM 本身的规划能力还没收敛你让 GPT 类模型给设计一个两周上线的小程序计划它能吐一份看着不错的东西——但那是静态规划一口气生成的。真 Agent 规划要的是动态调整、环境反馈驱动下一步、持续修正目标。这三件事目前 LLM 单靠自己做不到所以框架才得在外面帮它补脑ReAct 补观测、MRKL 补工具选择、BabyAGI 补任务队列。换句话说不是框架不想做真规划是 LLM 当不了真 planner只能当 CoT 生成器框架只好在外部用代码补。3. CoT 的幻觉问题被有工具掩盖了aakashshran 那篇拆得狠FEVER 数据集上超过 56% 的 CoT 轨迹包含虚构事实而且模型越大会hallucinate with greater confidence——因为它全程在脑子里推没有外部校正机制。但 Agent 场景里塞了工具调用后工具的返回结果部分承担了 grounding 的职责于是 CoT 的漂移被掩盖成了哦看起来规划还行。一旦任务跨到工具覆盖不到的抽象层比如要不要换一种打法这种 meta 决策CoT 套壳立刻露馅。⚠️ 一个常被忽略的点OpenAI o1/o3 这条线把推理做成内部化thinking tokens 不暴露表面上脱离了CoT 套壳但本质仍是单路径推理增强不是带状态管理的规划。所以即便 frontier model 往前走Agent 层的规划标签水分还在。四、真规划该往哪走几条已经在动的方向不是说 CoT 套壳没用——它是地基但不能顶替规划。几条值得跟踪的演进Plan-and-Execute Reflexion规划器生成计划 → 执行 → 轻量评估模型甚至小模型就行判断进展/失败根因 → 回到规划器改写。LangGraph 的reflect节点就是这个思路。CodeAct / 可执行抽象让 planner 输出代码而非自然语言步骤执行侧直接跑状态由变量和异常接管。比第一步做 A第二步做 B的 NL plan 稳得多。LLM 搜索树ToTTree of Thoughts让模型同时展开多条候选、评估、回溯——这是 CoT 线性结构唯一被打破的地方代价是 token 爆炸。LLM Symbolic 混合把步骤顺序约束资源依赖失败阈值这些用 symbolic plannerPDDL 类管LLM 只负责子目标到具体动作的翻译。工业界长 Horizon 任务大概率走这条。五、一句收得住的话当前多数 Agent 宣传页上的自主规划翻译成 engineering 实话是system prompt 里塞了一段 Think/Act/Observe 模板 外层一个 while-loop LLM 负责每轮填 Thought 和 Action 的文本。它让模型看起来在规划但模型既没有状态机、也没有回溯、也没有对计划的元认知——本质上是 CoT 被 prompt 模板和代码骨架夹了一下穿上了一件叫 Planning 的风衣。真规划要等两件事之一发生要么 LLM 本身长出带状态、能重规划的推理模式不是 o1 这种内部化 CoT而是真正的过程级规划要么 Agent 框架把 symbolic / search-tree / reflexion 这些非 LLM 部分做得足够重重到 planner 不再是 LLM 独奏而是 LLM 结构引擎的双人舞。在此之前Agent 具备规划能力这句话建议默认打个折扣读。