logo
DeepSeek-V4大模型发布在即,野村研报看好:将有效打破“芯片墙”与“内存墙”
== 2026/2/12 22:07:15 == 热度 189
  即梦、千问……国产头部AI公司推出的各种应用争奇斗艳,正成为近期的一道亮丽风景线。而现象级应用层出不穷,背后是国产大模型的日趋成熟。  近日,野村证券发布一份AI主题研报,聚焦DeepSeek即将发布的新一代旗舰大语言模型V4。野村认为,作为去年推出DS-V3/R1并搅动全球AI产业链的玩家,DeepSeek的全新技术布局不仅将推动中国AI产业链创新周期加速,更将通过技术创新,在算法与工程层面缩小中国与全球大模型产业的差距。  野村研报认为,DS-V4的技术突破将有效打破“芯片墙”与“内存墙”的桎梏,赋能本土算力硬件与AI应用双向发展,推动中国开源大模型生态走向成熟。  01  核心底牌:mHC+Engram双技术  野村判断,DS-V4将深度融合DeepSeek近期发布的两篇重磅研究论文中的核心技术——mHC和Engram,这两项技术均针对当前大模型发展的核心瓶颈,从层间信息流动和存算协同两个维度实现创新,在提升模型性能的同时进一步降低训练与推理成本,代表了大模型产业从“规模竞争”向“架构与系统优化”的重要转向。  mHC:重构层间信息流动  当前基于transformer架构的大模型训练,高度依赖“残差连接”实现数百甚至数千层网络的信息传递,但这种简单的信息传递方式在模型层数指数级增长后,已成为训练效率与稳定性的核心瓶颈。  行业曾尝试通过“超连接”实现更复杂的层间通信,但却引发了信号放大、内存访问开销过大、训练失败率高等问题。  DeepSeek提出的mHC(流形约束超连接)机制,核心是在超连接的基础上增加严格的数学约束,通过打造多内部信息流,同时避免信号的放大或破坏。  其核心技术包括三方面:一是双随机矩阵约束,将残差连接矩阵限制为行和列均为1的非负矩阵,有效缓解梯度爆炸问题;二是通过Sinkhorn-Knopp算法将矩阵投影到双随机矩阵流形;三是保持恒等映射,确保深度信号传播的稳定性。  为将mHC理论落地,DeepSeek还在系统工程层面进行了多重优化:通过内核融合减少内核启动开销与内存访问,通过重计算缓解训练中的内存压力,通过流水线并行优化(DualPipe)解决mHC带来的通信延迟问题。  从实验效果来看,DeepSeek在DS-V3 27B参数模型上的测试显示,融入mHC的模型在多个基准测试
=*=*=*=*=*=
当前为第1/5页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页