查看内容

机器人“投身”家庭保洁具身智能迈向家庭“终极考场”
== 2026/4/27 8:50:14 == 热度 189

这恰恰是目前全球业界共同的瓶颈。大脑进化关键在于处理“未见场景”用于家庭场景的机器人应当拥有怎样的大脑？“真正的智能机器人难点不在于单一动作的重复，而在于能不能在随机环境下做出全新的没有被训练过的动作。这要求基础模型必须具备高度的泛化性、准确性，能应对足够复杂的任务。”自变量机器人CEO王潜介绍，为此自变量研发了具身智能基础模型Wall-B。纵观全球多数具身智能企业，VLA（视觉-语言-行动）架构是当前具身智能领域的主流方案，其结构清晰：视觉模块负责“看”，语言模块负责“理解”，动作模块负责“做”。三个模块各司其职，数据依次传递。然而这一架构具有天然缺陷：数据在模块之间每传递一次，就会发生一次信息损耗和延迟。视觉模块“看到”的丰富空间信息，传到动作模块时，往往只剩一个模糊的摘要。而且VLA只能“模仿”训练数据中的轨迹，并不理解杯子为什么会掉，也不理解为什么盘子悬在桌边需要推回去。王潜说，Wall-B不是一个只会背标准答案的大脑。“它包括三方面能力：一个是以感知和理解，代替死记硬背标准答案的动作模仿。第二种能力是举一反三，不是每一个动作或场景都需要历史数据或‘老师’教。第三是实时调整的能力，做错动作之后可以马上调整正确，以高效完成任务。”具体而言，Wall-B将视觉、语言、动作、预测四方面的能力统一放在同一个架构里进行训练。这意味着模型不再是“看了再想、想了再做”的串联模式，而是能同时处理多种信息流。因此模型能够对物理世界的重力、惯性、摩擦等规律有更精确的认知和感受——比如它知道一个空纸杯比一个装满水的杯子更容易被碰倒，也知道光滑的地板上刹车需要更长的距离。这种对物理常识的内化，使得模型对数据的处理更加高效准确，而且能够应对从没见过的场景。例如，在一次真实家庭服务中，机器人第一次遇到一个底部带有吸盘的杯垫。它没有经过专门训练，但通过视觉识别和物理推理，意识到需要稍微用力才能拿起杯子。这种“现场推理”能力，正是Wall-B区别于传统VLA模型的关键所在。拿得掉遥控器还要离得开人今年以来，具身智能迈入应用快车道。2026年政府工作报告中，具身智能被明确列为需要培育壮大的未来产业之一。同期，工业和信息化部正式发布的《人形机器人与具身智能标准体系（2026版）》，为行业规范化、规模化发展提供了顶层设计。记者注意到，目前不论工业机器人还是用于商业场景的机器人，大部分依然依赖于遥
=*=*=*=*=*=
当前为第2/3页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页