科技 | 具身智能机器人走进千家万户，难在哪儿_产业

科技 | 具身智能机器人走进千家万户，难在哪儿

科技日报
作者：
2026年7月2日 11:27

从春晚舞台到马拉松赛场，人形机器人频频出圈，具身智能技术迎来快速迭代风口。

政策利好持续释放。日前，工业和信息化部、国务院国资委联合印发《关于联合开展2026年度人形机器人与具身智能实景实训专项行动的通知》，明确2026年底实现重点产品常态部署、万台级规模落地的目标。

市场预期也不断走高。行业报告预判，2026年有望成为人形机器人“量产元年”，中国具身智能机器人市场规模将突破110亿美元，占全球超三分之一的市场份额。多重红利加持下，具身智能产业步入发展黄金期。

但聚光灯下藏着尴尬：大量人形机器人能流畅完成跑跳、舞蹈、特技等高难度动作，可一旦走进真实家庭场景，不免频频露怯。

从“明星样机”到“量产落地”，具身智能机器人进家门，究竟还要闯几道难关？

听懂与做到之间，“理解”很难

家庭环境是一个相对开放、不断变化的物理环境。同样一张桌子，今天放着水杯，明天可能放着水果、玩具或者药品；老人、小孩、宠物都会不断改变环境状态。

家庭是典型的非结构化环境，不固定的环境、不固定的任务、不固定的家庭成员习惯，正是它区别于标准化工业场景的本质。极佳视界合伙人、研发副总裁叶云对记者这样解释。

这意味着机器人在家庭中，面对的是一个时时变化的开放世界。

中国科学院自动化研究所研究员陈盈盈说，具身智能机器人在“非结构化开放世界”中的泛化能力不足，是其进入家庭场景最大的技术障碍。

她举了一个简单的例子：“桌子边缘放着一个半满的玻璃杯，机器人不仅要识别‘这是杯子’，还应推断出它是易碎的、里面有液体、轻微碰撞就可能掉落。”

叶云也用“那杯水”解释道，对机器人说“把桌上那杯水递给我”，它在语言层面完全能理解。但真要动手，它得知道什么是桌子和杯子，以及杯子在三维空间中的确切位置，该用多大的力握持杯子，水满时移动要平稳，递到人手里时要等对方握住才能松手。

“但这些都不是写在指令里，而是刻在物理世界的规律里。机器人能‘听懂’指令，但距离‘做到’，还需要它对三维空间、物理因果、动力学规律有深刻的‘理解’”。

目前，很多机器人通过训练已经能够认出一个杯子，但认出杯子和“理解什么是杯子、像人一样识别杯子”完全是两回事。仝人智能科技（西安）有限公司创始人、总经理吴易明说，“理解”是最核心的关键词。

“当前行业讨论最多的是模型、算法和参数规模，但机器人想要进入家庭，真正需要突破的，是像人一样理解物理世界、理解空间关系、理解事物共性的能力，这需要智能科学底层理论的突破。”吴易明认为，“只有真正具有了‘理解能力’，像人类一样理解自己与整个物理世界之间的关系，机器人才能服务家庭真实需求，在复杂多变环境中应对各种挑战，乃至像人类一样使用传统工具来服务人类。”

“那么，人类是怎样理解真实世界的？”面对记者的追问，吴易明提到了图式理论（Schema Theory）中“理解”的定义，就是用头脑中已有的图式（结构、框架、认知程序）去解读一个事物。

“我们希望机器人能直接理解真实世界，这首先来源于它对传感信息的获取，以及参照人类认知过程，建构的与其外部世界的映射关系。其中，理解的核心是‘识别’，这种能力让机器人能够举一反三且区分更具体的差异。”

还是以“那杯水”为例。吴易明希望，具有“理解”能力的具身智能，不需要通过认识一万个杯子，只要看到一个新杯子，就能知道它是杯子；在知道它们都是杯子的基础上，还能分辨出哪个是你的杯子，哪个是我的杯子。

“机器人拥有了像人类一样的理解能力，就能理解空间关系、远近关系以及一些最基本的物理常识，例如物体为什么会掉落、为什么会反弹……而这些都是人类成长过程中天然具备的能力，也是机器人真正具备智能的重要基础。”吴易明进一步解释。

“遗憾的是，到目前为止，我们还缺乏一个关于真实世界的动作模型，缺乏一个对时间、空间、物理规律乃至多模态、全模态进行理解、推理、规划、决策的模型。”智源研究院院长王仲远坦言，以语言为主导的基础模型，并不是高效编码三维空间、物理因果与动作信息的架构。

数据与算法之间，“融通”很难

5月31日起，极佳视界研发的第一代家庭通用人形机器人“拾光S1”正式进入武汉光谷之寓社区，开始进行真实家庭场景测试。它已经能在真实家庭里分拣叠放衣物、取放餐具、整理厨房、桌面归位、跨房间取送物品，还能做一些陪伴交互的长程任务。

但从一个社区“跑通”几项任务，到适配千家万户，中间的路还很长。也就是说，具身智能机器人进入家庭面对“千变万化”的情况时，能否真正完成细致而微的任务？

叶云认为，基础瓶颈有两个：一是缺乏规模化的、能够描述物理规律的数据体系；二是缺乏能够高效学习物理规律的算法架构。

先说数据，成本居高不下不容忽视。大语言模型有海量互联网文本“喂”着，但具身智能需要的真实家庭数据“极其稀缺、采集成本极高”。

清华大学副研究员、浙江清华柔性电子技术研究院工业具身智能实训中心主任陈毅豪给记者算了笔账，真实家务场景中的触觉、力控和交互数据极为稀缺，而如果让真机挨个场景去采集，成本高得离谱。“按传统采集速度，攒够训练通用家庭机器人的数据量可能需要上百年。”他说。

安徽科大硅谷片区企业如动科技创始人兼总经理朱宝认为：“物理世界存在机械臂阻力、光照变化、地面扰动等固有随机变量，预训练数据集无法覆盖全部真实工况，导致具身智能机器人在家庭、户外等开放环境中容易行动失灵。”

陈毅豪的团队换了一条路――推出“无本体数据采集”模式：无需机器人到场，由人员穿戴轻量化柔性传感设备完成家务，同步记录动作与触觉数据，再经算法映射为机器人可学习样本。他所在的中心计划以有偿方式面向社会开放采集，预计今年完成60万小时，2027年冲刺150万小时，到2028年建成国家级高质量数据集。

数据采集解决的只是“燃料”问题，但用什么“发动机”来驱动具身智能机器人？这涉及算法架构与技术路线的选择。

当前业界探索具身智能主要有三条技术路径：数据驱动、端到端和认知驱动。吴易明认为，“前两种都推崇规模定律，信奉大力出奇迹，也都通俗易懂、容易出圈，吸引了大量资源加持。但到目前为止，还没有显示度较高的代表性突破和落地应用。”

叶云对技术路线的三层架构是：基于大规模数据预训练实现的世界模拟；基于真机数据、真人数据、仿真合成数据实现的动作对齐；基于真机数据、仿真合成数据的持续强化。他认为，“这几条路径不是非此即彼的单选题，这正是我们提出‘双金字塔’体系的出发点：用世界模型（World Model）把互联网视频、真人数据、仿真合成数据、真机数据全部打通利用起来，理解基础的物理规律，获得动作生成的能力。用在线强化学习，让机器人在真实环境中实现持续的自我进化。”

“数据金字塔”由互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据五层构成；“算法金字塔”由世界模拟、动作对齐、经验强化三层构成。两座“金字塔”相互咬合，让机器人先从海量数据中学会“世界是怎么运转的”，再学会“怎么把事做对”，最后在真实使用中持续强化、越用越聪明。

回到家庭场景最具挑战的“三个不固定”难题，叶云的解决方案是，“不靠为每个家庭场景单独编程，要靠基础模型具备的通用适应能力”。他所在的极佳视界公司，已对世界模型进行了多次迭代。仅在动作对齐层面，其世界动作模型（World Action Model，简称WAM）就能以约十分之一的实验数据量，达到全量数据训练的能力水平。

编辑：甄清岚

[1] [2]

分享到：