logo
华为昇腾超节点全系适配DeepSeekV4,支持百万上下文大模型
== 2026/4/24 15:52:54 == 热度 188

4月24日,DeepSeek正式发布V4系列模型预览版并同步开源,华为官方很快就宣布昇腾超节点全系列产品已完成对该系列模型的适配支持。这次适配是双方芯模技术深度协同的结果,也是国产AI算力与大模型生态融合的新进展。DeepSeek V4系列包含两个MoE模型:Pro版本总参数1.6T、激活参数49B,Flash版本总参数284B、激活参数13B,两款均原生支持100万token上下文,较前代128K的上下文长度提升近10倍。系列模型首次新增KV Cache滑窗和压缩算法,Attention计算和访存开销降了不少,可更好支持Agent和代码生成场景。华为昇腾950芯片靠融合kernel和多流并行技术,进一步降低推理环节的计算与访存开销,结合多种量化算法做到高吞吐、低时延的模型部署。公开测试数据显示,8K输入场景下,搭载昇腾950的超节点运行DeepSeek V4-Pro模型,可实现TPOT约20ms时单卡Decode吞吐4700TPS;运行DeepSeek V4-Flash模型,同场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。性能数据就摆在这。昇腾A3超节点系列产品也已完成全面适配,华为同时提供基于昇腾A3超节点的训练参考实现,方便用户快速开展模型微调工作。华为云MaaS模型即服务平台目前已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。DeepSeek官方透露,受限于高端算力供应,目前V4-Pro模型的服务吞吐仍有限,估摸着下半年昇腾950超节点批量上市后,Pro版本的服务价格会大幅下调。除华为昇腾外,寒武纪也已基于vLLM推理框架完成对DeepSeek V4系列模型的Day 0适配。 相关代码已开源至GitHub社区。市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。



=*=*=*=*=*=
返回新闻列表
返回网站首页