查看内容

东吴证券：大模型全流程国产算力训练重点关注适配前景
== 2026/4/30 14:32:31 == 热度 190

作对Gemini-3.1-Pro胜率达62.7%，创意写作质量胜率高达77.5%，仅在高难度多轮约束场景略逊于Claude Opus4.5。模型技术架构：CSA+HCA+mHC进一步压缩推理成本(1)首创CSA+HCA交替的混合注意力架构。通过分层KV缓存压缩与稀疏注意力结合，在1M token上下文场景下，Pro版本单token推理FLOPs仅为V3.2的27%，KV缓存占用降至10%，Flash版本更是分别降至10%与7%，从底层解决了超长上下文的算力瓶颈;(2)引入mHC流形约束超连接升级传统残差结构，提升了深层模型的信号传播稳定性与表达能力，同时采用Muon优化器搭配预期性路由、SwiGLU钳制技术，解决了万亿参数MoE模型训练的Loss Spike难题;(3)采用领域专家独立训练+全词表在线蒸馏的后训练范式，规避了多能力融合的性能退化问题。风险提示：大模型迭代节奏不及预期;国产算力软硬件生态适配进度不及预期;大模型行业市场竞争持续加剧;行业政策监管持续趋严
=*=*=*=*=*=
当前为第2/2页
上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页