GLM-5.1 与 GLM-5.2关键区别

发布时间:2026/7/2 10:52:10
GLM-5.1 与 GLM-5.2关键区别 GLM-5.1 与 GLM-5.2 在架构上的主要区别一、架构层面对比维度GLM-5.1GLM-5.2参数量744B 总参数 / 40B 激活参数744B 总参数 / 40B 激活参数保持不变注意力机制DSA动态稀疏注意力DSA 优化版上下文窗口1M但超过 200K 后性能衰减1M 全长度稳定可用核心架构改进1. DSA 机制优化掩码生成精度和效率提升采用分层稀疏策略先粗粒度确定注意力范围再细粒度精化注意力模式2. 1M 上下文真正可用GLM-5.1 在超过 200K token 后存在中间遗忘问题GLM-5.2 在全长度范围内保持稳定检索和推理能力二、训练方法改进维度GLM-5.1GLM-5.2预训练数据28.5T tokens28.5T tokens持续扩充数据截止时间较早2025 年 11 月后训练Agentic 能力强化新增双思考模式训练改进详情1. 双思考模式核心创新标准思考模式快速响应简单任务深度思考模式多步推理 自我验证适合复杂任务2. 长上下文训练策略渐进式训练32K → 128K → 512K → 1M增加代码仓库级别数据训练跨文件依赖理解能力3. Agentic 能力强化更多 Agent 轨迹数据完整思考-行动-观察序列基于执行结果的奖励信号优化三、性能提升评测项GLM-5.1GLM-5.2SWE-bench Verified77.8%~80%HumanEval90.0%~91%1M 上下文稳定性良好有衰减优秀全长度稳定长程 Agent 任务开源 SOTA持续领先四、总结三大核心改进1M 上下文真正可用DSA 优化解决了长上下文性能衰减长程 Agentic Coding 强化多步骤、多文件协作能力显著提升双思考模式用户可按需选择效率或质量定位GLM-5.2 不是全新架构而是在 GLM-5/5.1 基础上的精细化迭代重点优化长上下文稳定性和 Agent 能力。