logo
寒武纪完成DeepSeek
== 2026/4/24 15:47:54 == 热度 188

4月24日,国产AI芯片厂商寒武纪宣布,已于深度求索最新开源模型DeepSeek-V4系列发布当日完成Day 0适配,适配代码已开源至GitHub社区。这事国内AI圈不少人关注。本次适配覆盖285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本,基于vLLM推理框架完成。针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块做了专项加速;用BangC高性能编程语言,写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,把硬件底层性能完全放了出来。寒武纪已经连续两次成为DeepSeek大模型发布后第一时间出适配的国产芯片,之前它对DeepSeek系列模型做过深入的软硬件协同性能优化,算力利用率水平在业内排得很靠前。两边能合作得这么顺,靠的是寒武纪攒了很久的自研NeuWare软件生态与芯片设计技术,也是它一直在投芯片与算法联合创新的结果。在推理框架优化层面,寒武纪在vLLM里全支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署这些优化技术,调了调策略,在满足延时约束下拿到了最好的词元吞吐能力,端到端推理效率上去了不少。硬件特性也被挖得很透:靠MLU访存与排序加速能力,跑稀疏Attention、Indexer这些结构快了不少;高互联带宽加上低通信延时,把Prefill和Decode性能拉上去一大截。DeepSeek-V4系列模型是4月24日11点正式上线同步开源的,在Agent能力、世界知识和推理性能上,在国内和开源领域都排得很靠前。现在DeepSeek-V4能直接跑在寒武纪芯片上。市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。



=*=*=*=*=*=
返回新闻列表
返回网站首页