查看内容

深圳具身智能“大脑”公司自变量完成B轮融资，小米战投领投
== 2026/4/23 15:18:45 == 热度 189

型，“可能和做语言模型的公司更接近一些”。“我们做的本质上是一个基础模型的事情。”王潜认为，基础模型的壁垒显著更高。2024年底，自变量发布基于 VLA（视觉-语言-动作）架构的第一代具身基础模型 WALL-A，2025年9月，将同样思路架构下的轻量化模型版本WALL-OSS开源。在应用端，自变量还与58同城合作，将机器人引入家庭清洁场景，参与上门保洁等实际作业。运行于该项目中的WALL-AS（WALL-A迭代版本），为公司带来了大量真实家庭环境数据，也进一步暴露出VLA架构在复杂场景中的能力边界。在此基础上，自变量对原有技术路径进行升级，推出新一代具身智能基础模型WALL-B。WALL-B真正区别于行业其他方案的核心，是采用WUM的架构。WUM是将视觉、语言、动作、物理预测等能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。而与WUM相比，VLA就类似于M1之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢一次信息。视觉学到的丰富信息，传到动作模块时只剩一个模糊的摘要。自变量CTO王昊将其类比为Apple Silicon的统一内存架构。在苹果M1芯片之前的Mac上，CPU、GPU、内存各自独立，数据搬运产生的延迟和损耗成为性能瓶颈；苹果通过统一内存架构让所有处理单元共享同一块内存，性能由此大幅提升。基于WUM架构，WALL-B在技术上呈现出三项区别于现有模型的特征。一是原生多模态能力。WALL-B从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练，实现“多模态进、多模态出”。在此基础上，模型具备一定的“本体感”，能够在不依赖外部传感器的情况下，对自身尺寸及动作范围形成内在感知，用于判断空间通过性及触达能力。二是对物理规律的建模能力。WALL-B可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中，模型可基于上述规律进行推断，例如判断物体可能掉落，并采取相应动作。三是交互中的自适应能力。与现有模型在任务失败后停止执行不同，WALL-B在失败后可调整策略再次尝试，并在成功后对结果进行反馈更新。“得益于这种世界统一模型架构，Wall—B还克服了Transformer架构难以长期记忆内化的问题，所有经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。
=*=*=*=*=*=
当前为第2/3页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页