智谱发布可持续工作8小时的旗舰模型GLM
== 2026/4/8 11:24:58 == 热度 198
0 个真实机器学习计算负载的 KernelBench Level 3 优化基准上,让 GLM-5.1 对每个负载独立进行持续优化。在超过 24 小时的不间断迭代中,GLM-5.1 自主完成了多轮编译 测试 分析 重写循环,最终取得 3.6 倍的几何平均加速比,显著高于torch.compilemax-autotune 模式的 1.49 倍。模型展现出的优化深度与创造力尤其值得关注。GLM-5.1 能够自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化。这些优化策略覆盖了从高层算子融合到微架构级调优的完整技术栈,每一步都是模型的自主决策。这一结果表明,在 GPU 内核优化这一传统上高度依赖专家经验的领域,AI 模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在 GPU 以及更广泛的高性能计算领域,长期制约工程效率的优化瓶颈正在被 AI 逐步打破。Behind the 8h让模型跑 8 小时并不难,真正难的是让第 8 小时的工作仍然有效。此前包括 GLM-5 在内的模型,在面对复杂优化任务时,往往在早期快速取得收益后就进入瓶颈期。它们会反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。GLM-5.1 的训练目标是突破这个瓶颈。在向量数据库优化任务中,我们观察到一个典型的 " 阶梯型 " 优化轨迹:模型在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案 从全库扫描到 IVF 分桶,从单精度到量化粗排,从单层路由到两级剪枝。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个 " 打破-修复 " 的循环本身就是有效优化的标志。在 KernelBench 上,我们通过对比多个模型的优化曲线,更直接地看到了这个差异。GLM-5 在前期上升较快,但很早就趋于平坦;GLM-5.1 在同样的时间窗口内持续上升得更久,最终达到了 GLM-5 的 1.4 倍。关键在于模型能把 " 有效优化 " 的窗口延伸多远。在 Linux 桌
=*=*=*=*=*=
当前为第3/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页