深圳具身智能“大脑”公司自变量完成B轮融资,小米战投领投
== 2026/4/23 15:18:45 == 热度 189
型,“可能和做语言模型的公司更接近一些”。“我们做的本质上是一个基础模型的事情。”王潜认为,基础模型的壁垒显著更高。2024年底,自变量发布基于 VLA(视觉-语言-动作)架构的第一代具身基础模型 WALL-A,2025年9月,将同样思路架构下的轻量化模型版本WALL-OSS开源。在应用端,自变量还与58同城合作,将机器人引入家庭清洁场景,参与上门保洁等实际作业。运行于该项目中的WALL-AS(WALL-A迭代版本),为公司带来了大量真实家庭环境数据,也进一步暴露出VLA架构在复杂场景中的能力边界。在此基础上,自变量对原有技术路径进行升级,推出新一代具身智能基础模型WALL-B。WALL-B真正区别于行业其他方案的核心,是采用WUM的架构。WUM是将视觉、语言、动作、物理预测等能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。而与WUM相比,VLA就类似于M1之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。自变量CTO王昊将其类比为Apple Silicon的统一内存架构。在苹果M1芯片之前的Mac上,CPU、GPU、内存各自独立,数据搬运产生的延迟和损耗成为性能瓶颈;苹果通过统一内存架构让所有处理单元共享同一块内存,性能由此大幅提升。基于WUM架构,WALL-B在技术上呈现出三项区别于现有模型的特征。一是原生多模态能力。WALL-B从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练,实现“多模态进、多模态出”。在此基础上,模型具备一定的“本体感”,能够在不依赖外部传感器的情况下,对自身尺寸及动作范围形成内在感知,用于判断空间通过性及触达能力。二是对物理规律的建模能力。WALL-B可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中,模型可基于上述规律进行推断,例如判断物体可能掉落,并采取相应动作。三是交互中的自适应能力。与现有模型在任务失败后停止执行不同,WALL-B在失败后可调整策略再次尝试,并在成功后对结果进行反馈更新。“得益于这种世界统一模型架构,Wall—B还克服了Transformer架构难以长期记忆内化的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。
=*=*=*=*=*=
当前为第2/3页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页