查看内容

智谱首次发布推理基础设施技术报告揭秘大模型后台“隐形BUG”
== 2026/4/30 10:10:51 == 热度 190

4月30日凌晨，智谱发布技术博客，公布GLM-5底层基础设施重大工程进展：系统吞吐最高提升132%，相同硬件条件下服务能力显著扩容。HiCache修复方案已通过Pull Request #22811提交至SGLang开源社区。同时，智谱推理优化还在进一步加速，大幅提升单位算力Token吞吐效率，降低推理成本。智谱团队坦言：“这些问题在Chat时代根本不存在，只有在Coding&Agent时代、超大规模调用下才会出现。”这篇技术博客显示，随着大模型从“聊天”转向“干活”，模型需要记住的上下文长度从平均55k Tokens增至70k Tokens以上，日均Token调用量达万亿级别。高频工具调用、长尾提问模式叠加，让Chat时代从未暴露的底层问题在GLM-5系列上第一次显现出来。其中，两个“隐形Bug”浮出水面。第一个是PD分离下的KV Cache竞态。Decode侧因超时触发Abort并回收KV Cache槽位，但Abort信号未能及时传递到Prefill，导致旧请求残留的RDMA写操作继续落在已被复用的槽位上，覆盖新请求数据。处理上，在Decode与Prefill之间引入显式同步，只有在确认相关RDMA写入尚未开始或已全部完成后，才允许回收槽位。修复后，异常率由约万分之十几下降至万分之三以下。第二个问题是HiCache的加载时序缺失。在Load Stream与Forward Stream重叠执行的情况下，Indexer算子启动前未等待Indexer Cache加载完成，出现典型的read-before-ready，使用未初始化数据参与计算，进而引发输出异常。智谱的解决方案是在Indexer启动前增加与Load Stream的同步点，确保依赖数据就绪。修复后该类异常不再出现。与此同时，智谱还进行了一项优化：让“记忆缓存”瘦身，长文本吞吐量翻倍。在Agent场景下，模型需频繁调用历史记忆。传统做法是每张计算卡保存全部层级的记忆，造成冗余。智谱设计分层存储方案：每张卡只保留部分层，通过广播协同，额外通信开销仅为原来的八分之一。实验显示，在缓存命中率90%的情况下，对40k至120k Tokens长度的请求，系统吞吐量提升10%至132%，上下文越长收益越明显。此外，在排查过程中，智谱团队还发现了一个意外的洞察：原本用来加速模型生成的“投机
=*=*=*=*=*=
当前为第1/2页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页