智谱发布可持续工作8小时的旗舰模型GLM
== 2026/4/8 11:24:58 == 热度 195
的工程决策点:主动跑 benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求,需要像人类工程师一样,形成实验 分析 优化的完整闭环,而不是写完代码停下来等人打分。在 METR 榜单的同等评估标准下,GLM-5.1 是唯一达到 8 小时级持续工作的开源模型,也是全球范围内除 Claude Opus 4.6 外少数具备这一能力的模型。我们的终极目标是全自治智能体(AutonomousAgent),模型 724 小时不间断地分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。看看模型的一天 8 小时工作,都能做些什么。场景一:8 小时从零构建 Linux 桌面白天画好架构草图,睡前交给 GLM-5.1,早上醒来已产出完整系统。历时 8 小时整,执行 1200 多步,20 分钟时产生第一个有意义的成果,8 小时产出了一套功能完善的 Linux 桌面系统,包括:完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等,4.8MB 的配套文件,这相当于一个 4 人团队一周的开发工作量。以下视频是 GLM-5.1 在 8 小时内的代码提交结果:这些不是四五行的小 patch,每一次提交都是具有实质意义的系统级演进,而且全程没有人参与测试、审查代码。模型甚至给自己的代码写了一些回归测试,而且跑过了。场景二:655 次迭代打破向量数据库优化瓶颈向量数据库是 AI 搜索和推荐系统背后的核心引擎,而近似最近邻检索则是其中非常关键、也非常考验算法与工程能力的一环。这个过程既要求模型掌握 IVF、HNSW、向量量化等底层算法知识,也要求它具备真实的工程判断力,能够在一条优化路径碰壁时主动识别瓶颈、切换策略,而不是盲目重复同一个方向。GLM-5.1 不是只会微调参数,而是一路自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。在 655 轮迭代里,它持续自主跑 Benchmark、定位瓶颈、调整方案,最终把向量数据库的查询吞吐从初次交付的 3108 QPS 一路推到 21472 QPS,提升到初始正式版本的 6.9 倍。场景三:1000 轮工具调用优化真实机器学习模型负载GLM-5.1 展现的长时间工作和自进化能力,让其从单纯的代码生成器进化为主动的系统优化器。我们在涵盖 5
=*=*=*=*=*=
当前为第2/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页