logo
DeepSeek-V4大模型发布在即,野村研报看好:将有效打破“芯片墙”与“内存墙”
== 2026/2/12 22:07:15 == 热度 190
中全面超越基线模型和普通超连接模型,其中推理类任务(GSM8K、MATH)提升尤为显著——GSM8K(8-shot)准确率从46.7%提升至53.8%,MATH(4-shot)准确率从22.0%提升至26.0%,BBH、DROP等自然语言理解任务的表现也实现5%-7%的提升。  Engram:解耦存算协同,打破大模型“内存墙”  如果说mHC解决的是训练效率问题,Engram(条件记忆模块)则聚焦于训练与推理的内存效率优化,核心是补充MoE架构的不足,通过解耦内存与计算,缓解大模型发展中的“内存墙”痛点,这也是针对中国AI产业硬件短板的关键技术创新。  当前大模型的任务包含两大核心类型:需要深度动态计算的组合推理,以及涉及大量静态文本模式的知识检索。但现有大模型主要依赖MoE等条件计算机制扩展容量,缺乏原生的知识检索机制,只能通过“计算模拟检索”,导致算力与内存的大量浪费,同时挤占了昂贵的高带宽内存(HBM)资源。  Engram作为一款部署在系统动态随机存取存储器(DRAM)中的专用稀疏内存表,本质是现代N元语法嵌入查找系统,能以O(1)的时间检索实体、固定表达式等静态知识,将Transformer底层网络从知识检索中解放,使其更聚焦于动态推理。  这款模块具有三大设计特征:部署在注意力机制和MoE之前,不改变现有Transformer架构的核心组件;仅在部分层部署,避免所有层重复建模静态模式;不修改分词器或嵌入/解嵌入接口,属于低侵入式结构增强模块。  在技术落地层面,Engram通过分词器压缩、多头哈希、上下文感知门控、多分支架构融合四大技术,解决了词汇效率、哈希冲突、一词多义等问题,并实现与MoE架构的高效协同。  而其最大的产业价值在于存算解耦的实际应用:训练阶段,通过模型并行将大尺度嵌入表分片到多个GPU,实现内存容量随加速器数量线性扩展;推理阶段,可将百亿参数的嵌入表完全卸载至更廉价的CPU DRAM,释放GPU的HBM资源用于高优先级计算,且推理吞吐量损失可控制在3%以内,几乎不影响模型性能。  野村研报指出,mHC和Engram的结合,将让DS-V4在保持高性能的同时进一步降低训练与推理成本,同时更适合医疗、法律、金融等知识密集型领域的行业大模型训练,为大模型的垂直场景落地奠定技术基础。此外,DS-V4还可能融入FP4精度计算、缓存优化等其他创新技
=*=*=*=*=*=
当前为第2/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页