查看内容

DeepSeek和国产算力下了好大一盘棋
== 2026/4/27 15:51:15 == 热度 191

两天两次降价，效率成了DeepSeek最深护城河2026年4月的最后一个周末，中国AI产业被一连串消息彻底点燃，而消息背后的主角只有一个，DeepSeek。4月24日，DeepSeek正式发布V4系列预览版，同步开源Pro与Flash两款模型，均支持百万token超长上下文。紧接着的25日与26日，DeepSeek连续两晚出手降价先是V4-Pro限时2.5折，再是全系API输入缓存命中价格永久降至首发价的十分之一。两天两次调价之后，V4-Flash每百万tokens输入缓存命中价格仅为0.02元，V4-Pro为0.025元，创下全球大模型价格新低。这样一场精心策划的闪电战，背后是DeepSeek长达一年的艰难求索。但如果依旧将目光放在价格战的浅层叙事，就低估了DeepSeek此番出手的深意。V4的降价已经无关于烧钱换市场，其更大的意义是底层架构效率革命带来的成本变化。正如高盛Ronald Keung团队在最新研报中所指出的，V4的核心意义在于以更低成本支持更复杂的智能体应用落地，从而打开AI应用规模化的新空间。在DeepSeek-V4的技术报告里，效率是极致的。V4-Pro在100万token上下文场景下，单token推理所需浮点运算量仅为V3.2的27%，KV缓存占用仅为10%；V4-Flash更为激进FLOPs降至10%，KV缓存压缩至7%。这意味着什么？通俗地说，过去跑一条百万字上下文需要三台机器的算力（核心股），现在一台机器就能从容应对，而且内存开销仅是过去的十分之一。效率飞跃背后，有V4在架构层面的三项关键创新：混合注意力机制（CSA/HCA）、流形约束超连接（mHC），以及Muon优化器。其中最核心的突破在于混合注意力CSA（压缩稀疏注意力）沿序列维度压缩KV缓存后执行稀疏注意力计算，每m个token的KV缓存被压缩为一条记录；HCA（重度压缩注意力）则施加更激进的压缩策略，将m'个token的KV缓存合并为单条记录，但仍保留稠密注意力。这套组合拳在几乎不影响模型性能的前提下，将长上下文场景的计算与存储成本砍掉了一个数量级。更精妙的设计体现在细节处：对KV条目采用混合存储格式，旋转位置编码维度保持BF16精度，其余维度使用FP8精度，这一项便将KV缓存容量压缩近半。闪电索引器内部的注意力计算以FP4精度执行，进一步加速长上下文
=*=*=*=*=*=
当前为第1/4页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页