查看内容

中美大模型26Q2展望：Scaling延续，Agent与多模态能力或成最大看点
== 2026/5/1 22:54:10 == 热度 191

索等方面比肩SOTA。M2.5和M2.7模型性价比优势凸显，输出价格为8.4元/百万Token，仅为Opus、Gemini 3 Pro和GPT5等模型的1/10~1/20。此外，M2.7积极探路自进化，模型和Harness有望相互成就，开启Agent自进化时代。5）字节：Seed2.0模型全面升级多模态理解能力，LLM与Agent突破。2026年2月14日，字节跳动发布了基于Seed技术体系迭代的原生全栈多模态通用Agent模型Seed2.0，在视觉推理与感知能力的多项测评中达到SOTA。公司增强模型长尾知识，改善模型在长链路真实世界任务中的表现。模型产品矩阵定位清晰，包含三档通用Agent模型和一款专业Code模型，覆盖全场景需求，成本优势较显著。6）阶跃星辰：Step 3.5 Flash 平衡速度和可靠性，Openclaw 首周调用量第一。Step 3.5 Flash模型采用 MoE 架构，总参数量为196B，每Token仅选择性激活11B参数，以极低参数达到较强大表现。结合三路多Token预测(MTP-3)技术，其生成吞吐量在日常使用中达100-300tok/s。团队还利用SWA混合架构实现256K长上下文以及低计算开销。结合其他（核心股）工程优化，模型部署成本较低，位列OpenClaw调用量首位。7）国产多模态：模型迭代加速，商业化进程有望进入爆发期，同时技术探索逐步延伸至世界模型领域。据快手2025年业绩会，视频生成模型方面，可灵（KLing）凭借快速迭代和海外出圈加速用户渗透，驱动ARR强劲增长，2026年1月已超3亿美元；Seedance参考能力强化，核心聚焦多模态输入下的视频生成可控性；Pixverse在生成速度和角色一致性等关键性能上表现突出，C端用户规模破亿；Vidu商业化层面则聚焦B端合作，服务超过1万的企业/开发者用户。海外模型：谷歌引领多模态领域，语言模型SOTA竞争激烈，英伟达链或存在更大弹性。1）谷歌：Veo 4多模态有望再升级，世界模式Genie 3开放试用。谷歌在多模态内容生成领域持续保持技术领先，Nano Banana 2和Veo 3均取得优秀成绩。下一代模型Veo 4预计将在流畅性、一致性、细节还原度等方面实现显著强化，同时在多模态理解与视频生成时长方面有望取得突破，进一步巩固谷歌前沿地位，持续引领多模态领域。同时，谷歌于202
=*=*=*=*=*=
当前为第3/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页