查看内容

从“预测下一个词”到“预测下一个物理状态” 智源研究院发布全球首个通用世界基座模型
== 2026/6/12 19:43:46 == 热度 190

当全球人工智能还在为多模态大模型的能力边界争论不休时，中国科研机构已经率先叩响了下一代AI技术的大门。6月12日在北京开幕的2026智源大会上，智源研究院正式发布全球首个通用世界基座模型悟界・Physis-v0.1，标志着人工智能从“预测下一个词元”向“预测下一个物理状态”的范式革命迈出重要一步。这场被誉为“AI内行学术盛会”的大会，不仅集中展示了中国在AI前沿领域的原创性突破，更勾勒出了一条从数字世界迈向物理世界的清晰技术路径。世界模型：AI下一个十年的核心赛道本届智源大会格外引人注目的成果，无疑是悟界・Physis-v0.1的发布。这款全球首款通用世界基座模型，打破了传统AI垂类场景专用的技术瓶颈，以“预测下一物理状态”为核心，实现了物理正确、动作因果可溯、长程一致和通用泛化四项能力。智源研究院院长王仲远指出，现有世界模型技术路线可分为四类：以语言为中心的VLM、VLA模型、以像素为中心的视频生成模型、以三维结构为中心的重建模型，以及以视觉表征为中心的JEPA系列模型。这些模型要么只能理解语言描述的世界，要么只能学习像素或几何结构，无法真正掌握物理世界的运行规律。悟界・Physis-v0.1的突破在于，它以物理隐空间表征替代了传统的像素、帧级预测方案，通过专属物理状态编码器将视频、深度RGB、3D点云、力触反馈等全模态信息统一转化为标准化隐空间物理状态。目前，该模型已支持五十余个复杂物理场景的长程推理，可广泛应用于严肃工业、具身智能、物理仿真和科学研究等领域。事实上，智源研究院是国内最早提出并开展世界模型研究的科研机构。2023年智源大会上，当时担任Meta首席人工智能科学家的杨立昆首次系统阐述了新一代世界模型的概念；2024年，智源作出世界模型是下一代大模型技术路线的预判；2025年发布的悟界・Emu3.5，以纯自回归框架原生实现了文本、图像、视频的统一理解与生成，打破传统多模态技术路线的模态孤岛与架构割裂。多领域突破：从基础研究到产业应用的全链条创新本届智源大会上，智源研究院集中发布了一系列具有国际影响力的原创性成果，覆盖基座大模型、智能体和基础软硬件生态三大领域，展现了中国AI科研的全链条创新能力。在基座大模型方面，除了悟界・Physis-v0.1，智源还推出了全球首个理解与生成统一的多模态神经科学大模型悟
=*=*=*=*=*=
当前为第1/2页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页