DeepSeek和国产算力下了好大一盘棋
== 2026/4/27 15:51:15 == 热度 191
两天两次降价,效率成了DeepSeek最深护城河2026年4月的最后一个周末,中国AI产业被一连串消息彻底点燃,而消息背后的主角只有一个,DeepSeek。4月24日,DeepSeek正式发布V4系列预览版,同步开源Pro与Flash两款模型,均支持百万token超长上下文。紧接着的25日与26日,DeepSeek连续两晚出手降价先是V4-Pro限时2.5折,再是全系API输入缓存命中价格永久降至首发价的十分之一。两天两次调价之后,V4-Flash每百万tokens输入缓存命中价格仅为0.02元,V4-Pro为0.025元,创下全球大模型价格新低。这样一场精心策划的闪电战,背后是DeepSeek长达一年的艰难求索。但如果依旧将目光放在价格战的浅层叙事,就低估了DeepSeek此番出手的深意。V4的降价已经无关于烧钱换市场,其更大的意义是底层架构效率革命带来的成本变化。正如高盛Ronald Keung团队在最新研报中所指出的,V4的核心意义在于以更低成本支持更复杂的智能体应用落地,从而打开AI应用规模化的新空间。在DeepSeek-V4的技术报告里,效率是极致的。V4-Pro在100万token上下文场景下,单token推理所需浮点运算量仅为V3.2的27%,KV缓存占用仅为10%;V4-Flash更为激进FLOPs降至10%,KV缓存压缩至7%。这意味着什么?通俗地说,过去跑一条百万字上下文需要三台机器的算力(核心股),现在一台机器就能从容应对,而且内存开销仅是过去的十分之一。效率飞跃背后,有V4在架构层面的三项关键创新:混合注意力机制(CSA/HCA)、流形约束超连接(mHC),以及Muon优化器。其中最核心的突破在于混合注意力CSA(压缩稀疏注意力)沿序列维度压缩KV缓存后执行稀疏注意力计算,每m个token的KV缓存被压缩为一条记录;HCA(重度压缩注意力)则施加更激进的压缩策略,将m'个token的KV缓存合并为单条记录,但仍保留稠密注意力。这套组合拳在几乎不影响模型性能的前提下,将长上下文场景的计算与存储成本砍掉了一个数量级。更精妙的设计体现在细节处:对KV条目采用混合存储格式,旋转位置编码维度保持BF16精度,其余维度使用FP8精度,这一项便将KV缓存容量压缩近半。闪电索引器内部的注意力计算以FP4精度执行,进一步加速长上下文
=*=*=*=*=*=
当前为第1/4页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页