摩尔线程S5000实现DeepSeek
== 2026/4/24 19:54:10 == 热度 188
据摩尔线程消息,4月24日,该公司携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配,并完成了全量核心算子的深度优化与部署支持。据介绍,DeepSeek-V4-Flash采用混合专家(MoE)架构,总参数量高达284B,激活参数13B,支持百万token上下文长度。其预训练数据超32Ttoken,在最大推理力度模式(Flash-Max)下推理能力逼近Pro版本。摩尔线程表示,凭借独特的原生FP8支持优势,MTT S5000能够更高效承载DeepSeek-V4的前沿精度设计,为模型部署与推理优化提供了坚实的算力底座。作为国内率先原生支持FP8精度的全功能GPU,MTT S5000配置了强大的硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16,FP8能够将数据位宽直接减半,使显存带宽压力降低50%,理论计算吞吐量实现翻倍。为充分发挥MTT S5000在FP8计算上的内核优势,FlagOS对DeepSeek V4模型进行了FP8量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子。针对这两个决定长上下文效率与极致推理性能的关键算子,团队从编译优化与自动调优两个核心方向取得了突破。当前,摩尔线程与FlagOS社区正持续推进拥有1.6T旗舰模型(1.86万亿参数)的DeepSeek-V4-Pro在MTT S5000上的迁移适配工作。摩尔线程表示,未来,公司将继续以MUSA架构与全功能GPU的全栈技术优势,为国产大模型生态提供更高效、更自主可控的算力基石。市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
=*=*=*=*=*=
返回新闻列表
返回网站首页