查看内容

寒武纪完成DeepSeek
== 2026/4/24 15:47:54 == 热度 188

4月24日，国产AI芯片厂商寒武纪宣布，已于深度求索最新开源模型DeepSeek-V4系列发布当日完成Day 0适配，适配代码已开源至GitHub社区。这事国内AI圈不少人关注。本次适配覆盖285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本，基于vLLM推理框架完成。针对DeepSeek-V4的新结构，寒武纪通过自研高性能融合算子库Torch-MLU-Ops，对Compressor、mHC等模块做了专项加速；用BangC高性能编程语言，写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，把硬件底层性能完全放了出来。寒武纪已经连续两次成为DeepSeek大模型发布后第一时间出适配的国产芯片，之前它对DeepSeek系列模型做过深入的软硬件协同性能优化，算力利用率水平在业内排得很靠前。两边能合作得这么顺，靠的是寒武纪攒了很久的自研NeuWare软件生态与芯片设计技术，也是它一直在投芯片与算法联合创新的结果。在推理框架优化层面，寒武纪在vLLM里全支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署这些优化技术，调了调策略，在满足延时约束下拿到了最好的词元吞吐能力，端到端推理效率上去了不少。硬件特性也被挖得很透：靠MLU访存与排序加速能力，跑稀疏Attention、Indexer这些结构快了不少；高互联带宽加上低通信延时，把Prefill和Decode性能拉上去一大截。DeepSeek-V4系列模型是4月24日11点正式上线同步开源的，在Agent能力、世界知识和推理性能上，在国内和开源领域都排得很靠前。现在DeepSeek-V4能直接跑在寒武纪芯片上。市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

=*=*=*=*=*=
返回新闻列表
返回网站首页