logo
东吴证券:大模型全流程国产算力训练 重点关注适配前景
== 2026/4/30 14:32:31 == 热度 190
作对Gemini-3.1-Pro胜率达62.7%,创意写作质量胜率高达77.5%,仅在高难度多轮约束场景略逊于Claude Opus4.5。模型技术架构:CSA+HCA+mHC进一步压缩推理成本(1)首创CSA+HCA交替的混合注意力架构。通过分层KV缓存压缩与稀疏注意力结合,在1M token上下文场景下,Pro版本单token推理FLOPs仅为V3.2的27%,KV缓存占用降至10%,Flash版本更是分别降至10%与7%,从底层解决了超长上下文的算力瓶颈;(2)引入mHC流形约束超连接升级传统残差结构,提升了深层模型的信号传播稳定性与表达能力,同时采用Muon优化器搭配预期性路由、SwiGLU钳制技术,解决了万亿参数MoE模型训练的Loss Spike难题;(3)采用领域专家独立训练+全词表在线蒸馏的后训练范式,规避了多能力融合的性能退化问题。风险提示:大模型迭代节奏不及预期;国产算力软硬件生态适配进度不及预期;大模型行业市场竞争持续加剧;行业政策监管持续趋严
=*=*=*=*=*=
当前为第2/2页
上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页