查看内容

智谱发布可持续工作8小时的旗舰模型GLM
== 2026/4/8 11:24:58 == 热度 195

的工程决策点：主动跑 benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求，需要像人类工程师一样，形成实验分析优化的完整闭环，而不是写完代码停下来等人打分。在 METR 榜单的同等评估标准下，GLM-5.1 是唯一达到 8 小时级持续工作的开源模型，也是全球范围内除 Claude Opus 4.6 外少数具备这一能力的模型。我们的终极目标是全自治智能体（AutonomousAgent），模型 724 小时不间断地分解目标、执行交付、自我评价与纠正、自我进化，从此无需人类介入。看看模型的一天 8 小时工作，都能做些什么。场景一：8 小时从零构建 Linux 桌面白天画好架构草图，睡前交给 GLM-5.1，早上醒来已产出完整系统。历时 8 小时整，执行 1200 多步，20 分钟时产生第一个有意义的成果，8 小时产出了一套功能完善的 Linux 桌面系统，包括：完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等，4.8MB 的配套文件，这相当于一个 4 人团队一周的开发工作量。以下视频是 GLM-5.1 在 8 小时内的代码提交结果：这些不是四五行的小 patch，每一次提交都是具有实质意义的系统级演进，而且全程没有人参与测试、审查代码。模型甚至给自己的代码写了一些回归测试，而且跑过了。场景二：655 次迭代打破向量数据库优化瓶颈向量数据库是 AI 搜索和推荐系统背后的核心引擎，而近似最近邻检索则是其中非常关键、也非常考验算法与工程能力的一环。这个过程既要求模型掌握 IVF、HNSW、向量量化等底层算法知识，也要求它具备真实的工程判断力，能够在一条优化路径碰壁时主动识别瓶颈、切换策略，而不是盲目重复同一个方向。GLM-5.1 不是只会微调参数，而是一路自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由，再到提前剪枝的整套优化链条。在 655 轮迭代里，它持续自主跑 Benchmark、定位瓶颈、调整方案，最终把向量数据库的查询吞吐从初次交付的 3108 QPS 一路推到 21472 QPS，提升到初始正式版本的 6.9 倍。场景三：1000 轮工具调用优化真实机器学习模型负载GLM-5.1 展现的长时间工作和自进化能力，让其从单纯的代码生成器进化为主动的系统优化器。我们在涵盖 5
=*=*=*=*=*=
当前为第2/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页