logo
中美大模型26Q2展望:Scaling延续,Agent与多模态能力或成最大看点
== 2026/5/1 22:54:10 == 热度 191
索等方面比肩SOTA。M2.5和M2.7模型性价比优势凸显,输出价格为8.4元/百万Token,仅为Opus、Gemini 3 Pro和GPT5等模型的1/10~1/20。此外,M2.7积极探路自进化,模型和Harness有望相互成就,开启Agent自进化时代。5)字节:Seed2.0模型全面升级多模态理解能力,LLM与Agent突破。2026年2月14日,字节跳动发布了基于Seed技术体系迭代的原生全栈多模态通用Agent模型Seed2.0,在视觉推理与感知能力的多项测评中达到SOTA。公司增强模型长尾知识,改善模型在长链路真实世界任务中的表现。模型产品矩阵定位清晰,包含三档通用Agent模型和一款专业Code模型,覆盖全场景需求,成本优势较显著。6)阶跃星辰:Step 3.5 Flash 平衡速度和可靠性,Openclaw 首周调用量第一。Step 3.5 Flash模型采用 MoE 架构,总参数量为196B,每Token仅选择性激活11B参数,以极低参数达到较强大表现。结合三路多Token预测(MTP-3)技术,其生成吞吐量在日常使用中达100-300tok/s。团队还利用SWA混合架构实现256K长上下文以及低计算开销。结合其他(核心股)工程优化,模型部署成本较低,位列OpenClaw调用量首位。7)国产多模态:模型迭代加速,商业化进程有望进入爆发期,同时技术探索逐步延伸至世界模型领域。据快手2025年业绩会,视频生成模型方面,可灵(KLing)凭借快速迭代和海外出圈加速用户渗透,驱动ARR强劲增长,2026年1月已超3亿美元;Seedance参考能力强化,核心聚焦多模态输入下的视频生成可控性;Pixverse在生成速度和角色一致性等关键性能上表现突出,C端用户规模破亿;Vidu商业化层面则聚焦B端合作,服务超过1万的企业/开发者用户。海外模型:谷歌引领多模态领域,语言模型SOTA竞争激烈,英伟达链或存在更大弹性。1)谷歌:Veo 4多模态有望再升级,世界模式Genie 3开放试用。谷歌在多模态内容生成领域持续保持技术领先,Nano Banana 2和Veo 3均取得优秀成绩。下一代模型Veo 4预计将在流畅性、一致性、细节还原度等方面实现显著强化,同时在多模态理解与视频生成时长方面有望取得突破,进一步巩固谷歌前沿地位,持续引领多模态领域。同时,谷歌于202
=*=*=*=*=*=
当前为第3/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页