智谱发布可持续工作8小时的旗舰模型GLM
== 2026/4/8 11:24:58 == 热度 203
面构建任务中,挑战又不一样了。前两个场景都有明确的数值指标(QPS、加速比)可以用来衡量每一步是否有效,但构建一个完整的桌面系统没有单一指标,什么算 " 好 " 取决于功能完整度、视觉一致性、交互质量的综合判断。这要求模型具备初步的自我评估能力:在每一轮执行后审视自己的产出,判断哪里需要改进、继续优化。这是三个场景中反馈信号最弱的一个,也是当前最需要突破的方向。我们认为,延长模型的 " 有效工作时长 " 是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。GLM-5.1 是我们在这个方向上迈出的一步,我们会持续推进。GLM-5.1 不只是一个更强的模型,而是一种新的技术范式的开启。此刻,尝试给它一个指令,然后离开 8 小时。
=*=*=*=*=*=
当前为第4/4页
上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页