查看内容

智谱发布可持续工作8小时的旗舰模型GLM
== 2026/4/8 11:24:58 == 热度 198

0 个真实机器学习计算负载的 KernelBench Level 3 优化基准上，让 GLM-5.1 对每个负载独立进行持续优化。在超过 24 小时的不间断迭代中，GLM-5.1 自主完成了多轮编译测试分析重写循环，最终取得 3.6 倍的几何平均加速比，显著高于torch.compilemax-autotune 模式的 1.49 倍。模型展现出的优化深度与创造力尤其值得关注。GLM-5.1 能够自主编写定制 Triton Kernel 和 CUDA Kernel，运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化。这些优化策略覆盖了从高层算子融合到微架构级调优的完整技术栈，每一步都是模型的自主决策。这一结果表明，在 GPU 内核优化这一传统上高度依赖专家经验的领域，AI 模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在 GPU 以及更广泛的高性能计算领域，长期制约工程效率的优化瓶颈正在被 AI 逐步打破。Behind the 8h让模型跑 8 小时并不难，真正难的是让第 8 小时的工作仍然有效。此前包括 GLM-5 在内的模型，在面对复杂优化任务时，往往在早期快速取得收益后就进入瓶颈期。它们会反复尝试已知的优化手段，但无法在一条路走不通时主动切换策略。GLM-5.1 的训练目标是突破这个瓶颈。在向量数据库优化任务中，我们观察到一个典型的 " 阶梯型 " 优化轨迹：模型在一个固定策略内进行增量调优，当收益趋于停滞时，主动分析 Benchmark 日志、定位当前瓶颈，然后跳转到结构性不同的方案从全库扫描到 IVF 分桶，从单精度到量化粗排，从单层路由到两级剪枝。每一次跳跃都伴随着短暂的 Recall 下降，因为模型在探索新方向时会暂时打破约束，随后再调回来。这个 " 打破-修复 " 的循环本身就是有效优化的标志。在 KernelBench 上，我们通过对比多个模型的优化曲线，更直接地看到了这个差异。GLM-5 在前期上升较快，但很早就趋于平坦；GLM-5.1 在同样的时间窗口内持续上升得更久，最终达到了 GLM-5 的 1.4 倍。关键在于模型能把 " 有效优化 " 的窗口延伸多远。在 Linux 桌
=*=*=*=*=*=
当前为第3/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页