智谱GLM-5推理吞吐提升132%，开源修复方案

（AI 资源之家讯）4 月 30 日，智谱发布技术博客《Scaling Pain：超大规模 Coding Agent 推理实践》，首次系统披露 GLM- 5 系列模型在超大规模 Coding Agent 调用场景下的底层推理技术突破。

报告显示，经底层工程优化 GLM- 5 系列在 Coding Agent 场景下的系统吞吐量最高提升 132%，系统异常输出率从万分之十几下降至万分之三以下。这些数字的背后，是智谱团队在每日数亿次 Coding Agent 调用压力下解决的一系列真实工程问题。

报告透露，在高峰期部分用户遭遇了 GLM- 5 系列模型乱码、复读和生僻字等异常。这些现象在表面上与长上下文场景下常见的 "降智" 相似，但智谱并未将其简单归因于模型能力不足。通过深入排查，团队定位到了两个关键 Bug：Context Parallel 策略中的 KV Cache 冗余存储问题和长上下文场景下的注意力漂移。

针对 KV Cache 冗余存储问题，智谱设计实现了 KV Cache 共享机制，将显存占用降低了 40% 以上。这些修复方案已通过 Pull Request 提交给了主流开源推理框架 SGLang 社区，体现了智谱对开源生态的贡献。

智谱 GLM Coding Plan 上线后曾一度 "推出即售罄"，近期一批海外开发者正试图涌入中国平台抢购。这一现象说明，国产大模型在编程领域的竞争力正在获得国际认可。从模型性能到工程实践，智谱正在构建完整的技术护城河。

正文完