查看内容

字节狂飙、阿里亮剑……大模型混战春节档，没人敢躺
===2026/2/14 20:35:37===

。一旦CL-bench成为行业共识的评估基准，腾讯就握住了下一代模型迭代的方向盘。创业公司篇：四小龙分化，各有各的“护城河” 如果说大厂的春节档是“入口+模型”双线作战，那么创业公司的牌桌上只剩下纯粹的模型硬仗。智谱：Agentic Engineering的开路先锋。 2月12日，智谱GLM-5上线即开源。744B参数、SWE-bench 77.8分、全球开源第一、国产芯片全适配。但参数不是重点，重点是智谱为这代模型重新定义了角色：不是对话助手，是“系统架构师”。 GLM-5能自主拆解需求、调用工具、调试代码、交付可部署产品。一位开发者用它做出了横版解谜游戏，另一个做出了论文版“抖音”，已提交商店审核。智谱赌的是，2026年，大模型必须从“写代码”进化到“写工程”。从GLM-5开始，他们不再和同行比谁更会聊天，而是比谁能真正替代初级工程师。 MiniMax：把Agent做成白菜价。 MiniMax M2.5在同一天发布，走了另一条路。 10B激活参数，SWE-bench 80.2%，超越Claude Opus 4.6。但真正让行业侧目的是它的成本：1万美元理论上可支持4个Agent连续工作一年。这是MiniMax一贯的风格，不做最聪明的模型，做最便宜的生产级模型。当别人还在卷榜单分数时，MiniMax已经在算“Agent小时单价”。创始人闫俊杰的逻辑很清晰，Agent规模化部署的最大瓶颈从来不是能力，是成本。M2.5把推理速度做到主流模型2倍，把价格打到几分之一，这是在为Agent经济铺路。 Kimi：Agent集群，把多模态玩出花。 Kimi K2.5赶在2月初发布，是春节档的“早鸟”。它的亮点是原生多模态架构和Agent集群——模型可以自主创建多个分身智能体，按需组成团队并行工作。大规模搜索场景下，效率碾压单Agent。同时上线的Kimi Code已集成VSCode、Cursor，开发者可以直接丢进一张UI设计图，让AI照着写代码。这是目前国内把“视觉理解→编程执行”链路跑得最顺的产品。 DeepSeek：V4还在憋，但长上下文已封顶。整个春节档，DeepSeek没有任何官方发布，却在用户端“被更新”了。网友们发现，DeepSeek的回复风格变了：上下文窗口从12
=*=*=*=*=*=
当前为第3/4页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页