GLM-5.1 与 GLM-5.2关键区别

GLM-5.1 与 GLM-5.2 在架构上的主要区别


一、架构层面对比

维度GLM-5.1GLM-5.2
参数量744B 总参数 / 40B 激活参数744B 总参数 / 40B 激活参数(保持不变)
注意力机制DSA(动态稀疏注意力)DSA 优化版
上下文窗口1M(但超过 200K 后性能衰减)1M 全长度稳定可用

核心架构改进:

1. DSA 机制优化

  • 掩码生成精度和效率提升
  • 采用分层稀疏策略:先粗粒度确定注意力范围,再细粒度精化注意力模式

2. 1M 上下文真正可用

  • GLM-5.1 在超过 200K token 后存在"中间遗忘"问题
  • GLM-5.2 在全长度范围内保持稳定检索和推理能力

二、训练方法改进

维度GLM-5.1GLM-5.2
预训练数据28.5T tokens28.5T+ tokens(持续扩充)
数据截止时间较早2025 年 11 月
后训练Agentic 能力强化新增双思考模式

训练改进详情:

1. 双思考模式(核心创新)

  • 标准思考模式:快速响应简单任务
  • 深度思考模式:多步推理 + 自我验证,适合复杂任务

2. 长上下文训练策略

  • 渐进式训练:32K → 128K → 512K → 1M
  • 增加代码仓库级别数据,训练跨文件依赖理解能力

3. Agentic 能力强化

  • 更多 Agent 轨迹数据(完整思考-行动-观察序列)
  • 基于执行结果的奖励信号优化

三、性能提升

评测项GLM-5.1GLM-5.2
SWE-bench Verified77.8%~80%+
HumanEval90.0%~91%
1M 上下文稳定性良好(有衰减)优秀(全长度稳定)
长程 Agent 任务开源 SOTA持续领先

四、总结:三大核心改进

  1. 1M 上下文真正可用:DSA 优化解决了长上下文性能衰减
  2. 长程 Agentic Coding 强化:多步骤、多文件协作能力显著提升
  3. 双思考模式:用户可按需选择效率或质量

定位:GLM-5.2 不是全新架构,而是在 GLM-5/5.1 基础上的精细化迭代,重点优化长上下文稳定性和 Agent 能力。