查看内容

“买显存送核心”，AI芯片竞赛进入“内存为王”！智能体大时代，中国AI芯片有何机会？
===2026/3/5 14:30:07===

李明认为：“大模型的参数量与内存需求之间存在着直接的正向关系。在2026年的技术背景下，虽然模型架构（如MoE混合专家模型）和量化技术（Quantization）在不断优化，但‘参数量越大，内存需求越高’依然是AI领域的基本物理定律。除了模型权重需要的静态显存占用以外，大模型运行时需要的KV Cache和激活值等都会额外占用显存。在训练任务中，还需要额外显存来保存梯度和优化器状态等信息。” 但大模型对内存的强劲“渴望”，不仅仅局限于参数的增长。智能体的快速发展，令AI推理对AI芯片的需求大增。业界普遍认为，未来AI推理对AI芯片的需求将大幅超越AI训练。 PPIO专家表示：“大模型推理场景中，GPU内存主要用于两个方面，一是保存大模型的权重，另一个是推理过程中用于存储中间状态，也就是KV Cache缓存。前者由大模型参数量决定，后者取决于会话的上下文长度。大模型发展至今，参数量已经趋于稳定，不会大幅增加。而会话的上下文长度还在持续增加，特别是Agent（智能体）场景下，1百万Token的上下文长度已成为主流。这样进一步增加对内存的开销，长上下文成为内存需求的主要因素。” 参数、长上下文，这两大因素的作用下，内存的重要性已然超越GPU计算核心。不仅仅客户需求侧更加看重内存。在成本结构中，内存的成本也大幅高于纯粹的GPU核心。 PPIO专家称：“一张GPU的成本构成主要分成三部分，一是HBM内存，容量越大成本越高；二是GPU核心（逻辑计算芯片）；三是先进封装工艺（CoWoS）。高端GPU，由于HBM内存容量更大，其HBM的成本更高，以B200（英伟达GPU）为例，其总生产成本的构成中，HBM内存占比约45%，CoWoS封装及良率损失占比约34%，GPU核心芯片占比只有14%左右。” 即英伟达B200的成本结构中，45%源自向SK海力士、三星、美光等厂商购买HBM，14%源自台积电代工的GPU裸芯，34%源自台积电代工的CoWoS封装及良率损失。而HBM由多层DRAM（动态随机存取存储器）堆叠而成。HBM需求大增，意味着SK海力士这类厂商将越来越多的DRAM产能用于制造HBM，相应用于消费级的DRAM产能便少了。 PPIO专家表示：“三大存储巨头（三星、SK海力士、美光）已经将70%的产能转移到HBM上，用于消费电子的GDDR产能
=*=*=*=*=*=
当前为第2/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页