(AI 资源之家讯)4 月 30 日,智谱发布技术博客《Scaling Pain:超大规模 Coding Agent 推理实践》,首次系统披露 GLM- 5 系列模型在超大规模 Coding Agent 调用场景下的底层推理技术突破。
报告显示,经底层工程优化 GLM- 5 系列在 Coding Agent 场景下的系统吞吐量最高提升 132%,系统异常输出率从万分之十几下降至万分之三以下。这些数字的背后,是智谱团队在每日数亿次 Coding Agent 调用压力下解决的一系列真实工程问题。
报告透露,在高峰期部分用户遭遇了 GLM- 5 系列模型乱码、复读和生僻字等异常。这些现象在表面上与长上下文场景下常见的 "降智" 相似,但智谱并未将其简单归因于模型能力不足。通过深入排查,团队定位到了两个关键 Bug:Context Parallel 策略中的 KV Cache 冗余存储问题和长上下文场景下的注意力漂移。
针对 KV Cache 冗余存储问题,智谱设计实现了 KV Cache 共享机制,将显存占用降低了 40% 以上。这些修复方案已通过 Pull Request 提交给了主流开源推理框架 SGLang 社区,体现了智谱对开源生态的贡献。
智谱 GLM Coding Plan 上线后曾一度 "推出即售罄",近期一批海外开发者正试图涌入中国平台抢购。这一现象说明,国产大模型在编程领域的竞争力正在获得国际认可。从模型性能到工程实践,智谱正在构建完整的技术护城河。
正文完