“买显存送核心”,AI芯片竞赛进入“内存为王”!智能体大时代,中国AI芯片有何机会?
===2026/3/5 14:30:07===
李明认为:“大模型的参数量与内存需求之间存在着直接的正向关系。在2026年的技术背景下,虽然模型架构(如MoE混合专家模型)和量化技术(Quantization)在不断优化,但‘参数量越大,内存需求越高’依然是AI领域的基本物理定律。除了模型权重需要的静态显存占用以外,大模型运行时需要的KV Cache和激活值等都会额外占用显存。在训练任务中,还需要额外显存来保存梯度和优化器状态等信息。”
但大模型对内存的强劲“渴望”,不仅仅局限于参数的增长。
智能体的快速发展,令AI推理对AI芯片的需求大增。业界普遍认为,未来AI推理对AI芯片的需求将大幅超越AI训练。
PPIO专家表示:“大模型推理场景中,GPU内存主要用于两个方面,一是保存大模型的权重,另一个是推理过程中用于存储中间状态,也就是KV Cache缓存。前者由大模型参数量决定,后者取决于会话的上下文长度。大模型发展至今,参数量已经趋于稳定,不会大幅增加。而会话的上下文长度还在持续增加,特别是Agent(智能体)场景下,1百万Token的上下文长度已成为主流。这样进一步增加对内存的开销,长上下文成为内存需求的主要因素。”
参数、长上下文,这两大因素的作用下,内存的重要性已然超越GPU计算核心。
不仅仅客户需求侧更加看重内存。在成本结构中,内存的成本也大幅高于纯粹的GPU核心。
PPIO专家称:“一张GPU的成本构成主要分成三部分,一是HBM内存,容量越大成本越高;二是GPU核心(逻辑计算芯片);三是先进封装工艺(CoWoS)。高端GPU,由于HBM内存容量更大,其HBM的成本更高,以B200(英伟达GPU)为例,其总生产成本的构成中,HBM内存占比约45%,CoWoS封装及良率损失占比约34%,GPU核心芯片占比只有14%左右。”
即英伟达B200的成本结构中,45%源自向SK海力士、三星、美光等厂商购买HBM,14%源自台积电代工的GPU裸芯,34%源自台积电代工的CoWoS封装及良率损失。
而HBM由多层DRAM(动态随机存取存储器)堆叠而成。HBM需求大增,意味着SK海力士这类厂商将越来越多的DRAM产能用于制造HBM,相应用于消费级的DRAM产能便少了。
PPIO专家表示:“三大存储巨头(三星、SK海力士、美光)已经将70%的产能转移到HBM上,用于消费电子的GDDR产能
=*=*=*=*=*=
当前为第2/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页