英伟达H200“解禁”次日,智谱联手华为发布全国产开源多模态模型!
===2026/1/14 18:55:28===
以 0.9557 的成绩继续领跑,意味着其生成文字与目标文本高度一致,错字、漏字等问题显著更少。
而在更偏向“真实应用场景”的 LongText-Bench(长文本渲染)榜单中,GLM-Image 的表现也相当突出。该榜单主要考察模型在长文本、多行文字场景下的渲染能力,覆盖招牌、海报、PPT、对话框等 8 类文字密集场景,并同时设置中英文双语测试。
最终结果显示,GLM-Image 在英文任务中取得 0.952,中文任务中达到 0.979,双语成绩均位列开源模型第一。
国产芯片如何训练
而从具体如何使用国产芯片实现顶级模型训练,华为昇腾的工作人员向观察者网解释了其中的技术原理。
华为表示,其自回归结构的整个训练基座,从最早期的数据预处理,到最终的大规模预训练,全部运行在昇腾 Atlas 800T A2 设备之上。
而围绕昇腾NPU与昇思MindSpore AI框架,智谱对训练系统进行了深度定制,自研了一整套模型训练套件,对数据预处理、预训练、SFT 以及 RL 等关键环节进行了端到端优化。在执行层面,模型充分利用了动态图多级流水下发、高性能融合算子以及多流并行等特性,将原本容易成为瓶颈的流程拆解并重组。
具体来看,通过动态图的多级流水优化,Host 侧算子下发中的关键阶段被流水化并高度重叠,有效消除了算子下发带来的性能瓶颈;借助多流并行策略,通信与计算实现互相掩蔽,文本梯度同步、图像特征广播等高频操作不再“卡脖子”,显著降低了通信开销。
在算子层面,训练过程中大量采用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的高性能融合算子,在提升吞吐效率的同时,也进一步增强了整体训练的稳定性。
这套软硬件深度协同的训练体系,为 GLM-Image 的规模化训练和复杂能力打下了扎实的工程基础,使其成为首个在国产芯片上完成全流程训练的SOTA多模态模型,也验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。
1毛钱生成商业级图片
而在模型架构本身,GLM-Image采用‘自回归 + 扩散解码器’的混合架构。
其中9B的自回归部分负责语义理解和全局构图,全程在昇腾上训练,而7B的扩散解码器部分则采用DiT结构,配合Glyph Encoder做文字渲染,解决提笔忘字的问题。
也就是说,智谱将图像生成拆解成了理
=*=*=*=*=*=
当前为第2/3页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页