练武术、跑马拉松……目前,人形机器人的进化速度让人惊叹。大家不禁好奇,人形机器人技术发展的进度条究竟跑到了什么阶段?什么时候能够走进家门,真正帮我们干活呢?近日,宇树科技的一份上市招股书,从一个侧面折射出行业的发展现状:技术路线尚未突破;除特定场景外,通用机器人的消费级市场尚未形成刚需。那么,为什么一谈到场景落地,便挑战重重呢?
机器人是如何学会各种本领的?在机器人训练学校,会进行各类任务的数据采集,就像是给机器人写一本教科书,教会它们去行为和决策。
穿上机器人的模仿学习设备,控制这个机器人手部一模一样的夹爪,我们就可以完成整套涮火锅的人类示范教学。看起来简单的动作,但其实位置、角度、力度甚至弯腰屈膝的弧度都得精准拿捏。而训练有素的数采员,顺利完成了一系列涮火锅的采集动作。一条条反反复复模拟涮火锅过程的视频被录制出来,一共汇总了共计八个小时的有效数据。工程师将采集过来的真机数据投喂给机器人基座大模型后,机器人就初步具备了行为的执行能力,通过这些精准的数据训练,很快机器人就上手了。
经过了一个礼拜的数据的训练,机器人开始展示涮火锅的技能。前两次抓取没有抓上,终于在第三次尝试成功。
整个过程可以看到,机器人在操作的过程当中不断地试错、调整策略,并进行优化,这就是业内叫作“VLA”的一种多模态具身智能模型。它以视觉观测和自然语言指令为输入,融合感知信息,直接生成控制机器人的动作,通俗地说,就是机器人的“大脑模型”。但机器人走向真实世界的道路上,失败和不完美其实是常态。
机器人走向真实世界
面临“数据匮乏”
在人工智能领域,有一个被自动驾驶和大模型反复验证的规律,叫作Scaling Law,也就是规模法则。它说的是,当模型的规模、算力和数据量在持续增长时,系统能力往往也会随之提升。因此,行业普遍认为,对于尚处萌芽阶段的具身智能技术来说,稀缺的是真实世界的操作数据。机器人想要走入真实世界完成任务,如何突破数据的“规模法则”?
记者在调研中发现,“百万小时”这个数字被从业者反复提及。大家普遍认为,具身智能行业的“ChatGPT时刻”,至少需要百万小时的数据积累才能诞生。但现实是,即便目前行业内的头部玩家,他们手里真正有价值的数据量,也还差着一个数量级。
记者来到深圳南山区的一个机器人数据学习研发团队,他们正在用视频数据进行机器人的训练。
能够将视频数据精准地转换成为机器人的训练数据,依靠的是一套智能算法。它可以让我们脱掉以往的动捕服,仅靠一个视频,就能将人类动作映射到机器人或者机械臂上,将二维的视频算法升维转化为包含了机器臂、末端轨迹、物体轨迹、物体的几何模型等十几种模态的数据集,用于机器人的训练。团队还开发出了头戴式的摄像头,可以在人们干活的同时,为机器人录制训练数据。
枢途科技创始人 卓羽:目前我们已经采集了过万小时的视频,我们能够加工上百万条的数据,同时我们的场景其实也非常多样,能让这些原本一个人工作的视频,似乎没有什么价值的视频,变成真正有价值的、能够为机器人训练去提供认知的具身数据。
为了让这个世界更加可感可知,全行业的数据采集技术也在加速迭代。比如我旁边这个看起来像爪子的设备,它有一个英文名字叫UMI,是一种便携式、可移动的数据采集装备,可以让数据采集轻松地走出实验室,走进真实的物理世界。
你可以把UMI简单理解为一套由手持夹爪和摄像头组成的数据采集方案。有了它,你不需要再费劲地控制机器人了,而是可以在真实的环境里帮助机器人去学会各种动作。
上海交通大学人工智能学院副院长 穹彻智能创始人 卢策吾:任何人工智能,通用人工智能都是群众采数据,不是少数人采。比如说多模态大模型,是互联网上群众帮忙生成数据。无人车,大家开车就帮你记录数据。群众来帮你采数据的根本核心,是不能影响群众的生活,这样才能可能规模化。
我们所处的真实世界千变万化,环境和任务也千差万别。目前具身智能数据的积累仅仅只有两三年的时间,远远无法让行业实现真正的质变。在调研中我们看到,行业正在加速构建机器人数据的金字塔。在数据维度不断拓展、采集方式持续迭代、成本逐步降低,甚至走向大众化采集的过程中,机器人正在一步步为实现自己的“ChatGPT时刻”做着准备。
机器人在特定场景积累干活经验
数据匮乏是机器人走向通用场景的一大制约,而在某个领域勤学苦练,成为专业选手,则是大多数机器人团队目前重点的努力方向。在一些真实的场景中,我们可以看到,机器人边学边干,已经开始上岗了。它们已经在哪些场景落地?又是怎么边学边干的?
在深圳,近期,机器人已经开始与保洁阿姨一起走进家庭,进行清洁服务。它们的主要训练任务是在客厅和餐厅内,配合阿姨进行杂物整理和垃圾收集。
自变量机器人科技(深圳)有限公司工程师 胡博文:比如瓶瓶罐罐、纸团,它会清理到垃圾桶里面。机器人在家庭里面不断地去做任务,它也会通过这些任务来训练自己,通过实践,使它的模型更加优化,算法也会更加的强大,就会把任务做得越来越好。
而超市分拣机器人则需要熟悉超市的物品摆放位置,录入产品信息,同时还要不断训练抓取技巧。
零次方机器人算法负责人 盘国萍:我们首先有一个预训练模型,这个模型,在对应的一些货物上所需要的时间,可能就只需要半个小时去采二十来条数据。
记者:经常说具身智能真正落地还有5到10年,你们怎么看?
零次方机器人品牌负责人 杨威:我们说通用智能,希望一个机器人跟我们人一样,有多维的表现能力,可能需要5到10年。但是对于蓬勃发展,尤其是商业落地场景有更多突破,能够实现商业化落地的闭环,我们预判就是在未来1年到2年,会有一些非常先锋的落地案例。
技术路线多样
具身智能行业标准尚未统一
记者在调研中发现,尽管具身智能行业正在飞速发展,但依然需要不断的技术沉淀。从研发侧来说,技术路线尚未统一;从应用端来说,应用场景刚需仍在摸索。那么,专家们如何看待目前具身智能的发展阶段?具身智能机器人又该如何更好地沉淀,行稳致远呢?
记者来到北京智源研究院,在这里,能看到十多种由不同团队研发的各类机器人数据采集设备。为什么把它们都集中到这里呢?
北京智源人工智能研究院院长 王仲远:具身智能的数据集格式不统一、不标准化,于是大家各搞各的。那么在这个过程中,其实就很难实现真正有效的高质量数据集的累积。高质量的数据不够,又会导致模型的能力没办法实现真正意义上的跃升。所以只有当数据集标准化了,那么这种高质量的数据集才能真正地去为行业里所有的构型的机器人的具身智能模型来提升它的能力。
专家介绍,目前,机器人本体形态各异,就连灵巧手也有两指、三指、五指的不同。这就导致了不同本体采集的数据,无法共享互通。即便很多厂家选择将自己的数据集开源,也很难做到在其他机器人本体上复现。同时机器人“大脑”技术方案尚未定型,解决方案仍在不断迭代。我们可以看到,一些团队机器人的动作在强化学习算法和本体能力的加持下,已经非常可靠,但是依然无法在实际场景落地干活和稳定应用。
复旦大学未来信息创新学院教授 陈涛:目前我认为还处在GPT1第一代爆发前的时刻。因为现在具身智能的路线还没有完全收敛。每一个教授他都有自己的技术信仰,但是也正是因为这种发散,所以这个领域才让我们更值得去投入,才更有它的魅力所在。
挑战虽然存在,但行业也在汇聚越来越多的从业者和开发者。在行业发展方面,相关部委牵头,我国已陆续开始推出人形机器人与具身智能标准体系。在具身智能技术路线尚未成熟的当下,为我们的发展指明了一条逐渐清晰的发展道路。
工信部人形机器人与具身智能标委会副主任委员 江磊:我觉得我们今年发的52项标准,我给它比喻,只能发一个茅草棚,也许到明年有几百项标准,慢慢地把这个茅草棚变成一个房子,未来变成一个别墅,那这个行业就健壮了。
经过调研我们发现,2026年,机器人将会越来越多地走上场景落地之路。尽管今天我们看到了很多炫酷的展示,但实际的应用,依然是一个充满困难与挑战的过程。问题边出现边解决,技术边研发、边迭代、边测试、边应用。我们依然无法准确预判具身机器人技术爆发的奇点在哪里,但是在全行业的共同努力探索下,走着走着,也许答案自然就会浮现。
(总台央视记者 张春玲 吴昊)