GLM-5.1 与 GLM-5.2关键区别

2026/7/2 11:04:56

GLM-5.1 与 GLM-5.2关键区别

GLM-5.1 与 GLM-5.2 在架构上的主要区别：

一、架构层面对比

维度	GLM-5.1	GLM-5.2
参数量	744B 总参数 / 40B 激活参数	744B 总参数 / 40B 激活参数（保持不变）
注意力机制	DSA（动态稀疏注意力）	DSA 优化版
上下文窗口	1M（但超过 200K 后性能衰减）	1M 全长度稳定可用

核心架构改进：

1. DSA 机制优化

掩码生成精度和效率提升
采用分层稀疏策略：先粗粒度确定注意力范围，再细粒度精化注意力模式

2. 1M 上下文真正可用

GLM-5.1 在超过 200K token 后存在"中间遗忘"问题
GLM-5.2 在全长度范围内保持稳定检索和推理能力

二、训练方法改进

维度	GLM-5.1	GLM-5.2
预训练数据	28.5T tokens	28.5T+ tokens（持续扩充）
数据截止时间	较早	2025 年 11 月
后训练	Agentic 能力强化	新增双思考模式

训练改进详情：

1. 双思考模式（核心创新）

标准思考模式：快速响应简单任务
深度思考模式：多步推理 + 自我验证，适合复杂任务

2. 长上下文训练策略

渐进式训练：32K → 128K → 512K → 1M
增加代码仓库级别数据，训练跨文件依赖理解能力

3. Agentic 能力强化

更多 Agent 轨迹数据（完整思考-行动-观察序列）
基于执行结果的奖励信号优化

三、性能提升

评测项	GLM-5.1	GLM-5.2
SWE-bench Verified	77.8%	~80%+
HumanEval	90.0%	~91%
1M 上下文稳定性	良好（有衰减）	优秀（全长度稳定）
长程 Agent 任务	开源 SOTA	持续领先

四、总结：三大核心改进

1M 上下文真正可用：DSA 优化解决了长上下文性能衰减
长程 Agentic Coding 强化：多步骤、多文件协作能力显著提升
双思考模式：用户可按需选择效率或质量

定位：GLM-5.2 不是全新架构，而是在 GLM-5/5.1 基础上的精细化迭代，重点优化长上下文稳定性和 Agent 能力。

最新新闻

KLayout完整指南：从零开始掌握专业版图设计与验证

KLayout完整指南：从零开始掌握专业版图设计与验证

一次陪家人看牙的简单记录

一次陪家人看牙的简单记录

儿童近视防控眼科机构咋选择

儿童近视防控眼科机构咋选择

6款实用AI降重软件推荐，合规改写不踩学术红线

6款实用AI降重软件推荐，合规改写不踩学术红线

ICM-42688-P与PIC18F2680在运动控制与传感融合中的应用

ICM-42688-P与PIC18F2680在运动控制与传感融合中的应用

腾讯会议多端接入音视频稳定技术方案

腾讯会议多端接入音视频稳定技术方案

日新闻

2026/7/2 0:00:29 HBM Predictor数据集完全指南：从19个数据中心收集的HBM错误数据深度解析 2026/7/2 0:00:42 如何用开源工具永久保存你心爱的小说：novel-downloader全攻略 2026/7/2 0:01:33 ASM330LHH与STM32F072RB运动跟踪系统设计与优化

周新闻

2026/7/1 15:29:28 管理者的六个层次 2026/7/2 10:49:11 AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告 2026/7/2 10:49:12 审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

月新闻

2026/7/2 2:51:13 [C++]内存管理：串顺序存储的内存回收 2026/7/2 1:54:33 ai agent框架spring ai/alibaba 源码原理分析(六) agent和组件 2026/7/2 3:14:54 抖音内容监控助手：告别手动刷新，让优质内容主动找你