查看内容

视频生成≠世界模型：当AI还在生成“天上飞的猪”，物理规律仍是最大短板
== 2026/6/13 10:29:06 == 热度 192

从去年开始，各类终端智能体、办公智能体、科研智能体产品层出不穷，但行业普遍的感受是“概念很美好，实际不好用”，真正能达到用户预期的产品寥寥无几。 “世界模型”是2025年AI行业最炙手可热的关键词之一。从OpenAI发布Sora引发行业对世界模拟的想象，到斯坦福大学教授、空间智能创业公司WorldLabs联合创始人兼CEO李飞飞（Fei-FeiLi）与团队发布新文章提出世界模型技术三分法，再到NVIDIA推出Cosmos系列大模型，大量科研机构与科技企业都在涌入这条赛道，但与此同时，概念滥用、路线分歧、标准缺失的乱象也同步显现。近日，北京智源人工智能研究院院长王仲远在接受包括记者在内媒体采访时，围绕世界模型的技术路线之争、智能体的落地瓶颈、AI与神经科学的跨界融合、国产AI的生态建设等行业核心议题，分享了他的观察与判断。在他看来，人工智能正在经历一场关键的范式变革，从过去十年主导的大语言模型时代，逐步迈向面向物理世界的世界模型时代，而整个行业当下最需要的，不是概念炒作，而是正本清源后的扎实探索。世界模型热下的冷思考：概念泛滥与路线正本清源过去半年，世界模型从一个小众的学术概念迅速变成行业通用名词，但随之而来的是严重的概念误用。不少视频生成模型、3D重建工具、多模态大模型都纷纷贴上“世界模型”的标签，整个行业对世界模型的定义、技术路线、评测标准始终没有形成共识。王仲远认为，世界模型技术路线可包括四类：一是以语言为中心的世界模型，包括大语言模型、视觉语言模型（VLM）、视觉语言行动模型（VLA），本质上是将其他模态映射到语言空间；二是以像素为中心的世界模型，以视频生成为代表，本质是预测下一个画面帧，尽管不是下一个状态预测，但与世界模型是相关的；三是以三维结构为中心的世界模型，比如3D重建；四是以视觉表征为轴心的世界模型。在他看来，目前被广泛当作世界模型代表的视频生成技术，本质上只是像素级的世界模拟，而非真正具备物理状态预测能力的世界基座模型。“视频生成模型可以生成一群猪在天上和飞机一起飞，因为它的训练数据里包含大量科幻电影内容，它的目标从来就不是还原真实物理世界的规律。”王仲远坦言，现在所有类型的世界模型，距离真正能理解、预测、交互真实物理世界的基座模型，都还有非常大的差距，整个世
=*=*=*=*=*=
当前为第1/3页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页