字节狂飙、阿里亮剑……大模型混战春节档,没人敢躺
===2026/2/14 20:35:37===
。一旦CL-bench成为行业共识的评估基准,腾讯就握住了下一代模型迭代的方向盘。
创业公司篇:四小龙分化,各有各的“护城河”
如果说大厂的春节档是“入口+模型”双线作战,那么创业公司的牌桌上只剩下纯粹的模型硬仗。
智谱:Agentic Engineering的开路先锋。
2月12日,智谱GLM-5上线即开源。744B参数、SWE-bench 77.8分、全球开源第一、国产芯片全适配 。
但参数不是重点,重点是智谱为这代模型重新定义了角色:不是对话助手,是“系统架构师”。
GLM-5能自主拆解需求、调用工具、调试代码、交付可部署产品。一位开发者用它做出了横版解谜游戏,另一个做出了论文版“抖音”,已提交商店审核 。
智谱赌的是,2026年,大模型必须从“写代码”进化到“写工程”。从GLM-5开始,他们不再和同行比谁更会聊天,而是比谁能真正替代初级工程师。
MiniMax:把Agent做成白菜价。
MiniMax M2.5在同一天发布,走了另一条路。
10B激活参数,SWE-bench 80.2%,超越Claude Opus 4.6。但真正让行业侧目的是它的成本:1万美元理论上可支持4个Agent连续工作一年 。
这是MiniMax一贯的风格,不做最聪明的模型,做最便宜的生产级模型。当别人还在卷榜单分数时,MiniMax已经在算“Agent小时单价”。创始人闫俊杰的逻辑很清晰,Agent规模化部署的最大瓶颈从来不是能力,是成本。M2.5把推理速度做到主流模型2倍,把价格打到几分之一,这是在为Agent经济铺路。
Kimi:Agent集群,把多模态玩出花。
Kimi K2.5赶在2月初发布,是春节档的“早鸟”。
它的亮点是原生多模态架构和Agent集群——模型可以自主创建多个分身智能体,按需组成团队并行工作 。大规模搜索场景下,效率碾压单Agent。
同时上线的Kimi Code已集成VSCode、Cursor,开发者可以直接丢进一张UI设计图,让AI照着写代码 。这是目前国内把“视觉理解→编程执行”链路跑得最顺的产品。
DeepSeek:V4还在憋,但长上下文已封顶。
整个春节档,DeepSeek没有任何官方发布,却在用户端“被更新”了。
网友们发现,DeepSeek的回复风格变了:上下文窗口从12
=*=*=*=*=*=
当前为第3/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页