logo
机器人“投身”家庭保洁具身智能迈向家庭“终极考场”
== 2026/4/27 8:50:14 == 热度 189
这恰恰是目前全球业界共同的瓶颈。大脑进化关键在于处理“未见场景”用于家庭场景的机器人应当拥有怎样的大脑?“真正的智能机器人难点不在于单一动作的重复,而在于能不能在随机环境下做出全新的没有被训练过的动作。这要求基础模型必须具备高度的泛化性、准确性,能应对足够复杂的任务。”自变量机器人CEO王潜介绍,为此自变量研发了具身智能基础模型Wall-B。纵观全球多数具身智能企业,VLA(视觉-语言-行动)架构是当前具身智能领域的主流方案,其结构清晰:视觉模块负责“看”,语言模块负责“理解”,动作模块负责“做”。三个模块各司其职,数据依次传递。然而这一架构具有天然缺陷:数据在模块之间每传递一次,就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息,传到动作模块时,往往只剩一个模糊的摘要。而且VLA只能“模仿”训练数据中的轨迹,并不理解杯子为什么会掉,也不理解为什么盘子悬在桌边需要推回去。王潜说,Wall-B不是一个只会背标准答案的大脑。“它包括三方面能力:一个是以感知和理解,代替死记硬背标准答案的动作模仿。第二种能力是举一反三,不是每一个动作或场景都需要历史数据或‘老师’教。第三是实时调整的能力,做错动作之后可以马上调整正确,以高效完成任务。”具体而言,Wall-B将视觉、语言、动作、预测四方面的能力统一放在同一个架构里进行训练。这意味着模型不再是“看了再想、想了再做”的串联模式,而是能同时处理多种信息流。因此模型能够对物理世界的重力、惯性、摩擦等规律有更精确的认知和感受——比如它知道一个空纸杯比一个装满水的杯子更容易被碰倒,也知道光滑的地板上刹车需要更长的距离。这种对物理常识的内化,使得模型对数据的处理更加高效准确,而且能够应对从没见过的场景。例如,在一次真实家庭服务中,机器人第一次遇到一个底部带有吸盘的杯垫。它没有经过专门训练,但通过视觉识别和物理推理,意识到需要稍微用力才能拿起杯子。这种“现场推理”能力,正是Wall-B区别于传统VLA模型的关键所在。拿得掉遥控器还要离得开人今年以来,具身智能迈入应用快车道。2026年政府工作报告中,具身智能被明确列为需要培育壮大的未来产业之一。同期,工业和信息化部正式发布的《人形机器人与具身智能标准体系(2026版)》,为行业规范化、规模化发展提供了顶层设计。记者注意到,目前不论工业机器人还是用于商业场景的机器人,大部分依然依赖于遥
=*=*=*=*=*=
当前为第2/3页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页