智能对话机器人与小朋友互动交流。 (受访者供图)
外滩大会上,机器人熟练地完成炒菜。
□ 本报记者 蔡姝雯 杨频萍
9月11日,2025外滩大会“具身智能:从泛化到行动,重塑产业未来”论坛现场,机器人训练场成为热议话题。随着具身智能从技术概念走向产业实践,作为“人工智能时代新型数据工厂”的机器人训练场,正成为破解数据瓶颈、推动技术落地的关键枢纽,一场覆盖全国的建设热潮已然兴起。
训练场直击:
30个机器人同步“实习”,50秒产生1GB数据
在位于苏州市吴江区的长三角一体化示范区智能机器人训练基地,充满科幻感的场景每天都在上演:1500平方米的两层空间里,30个机器人正在不同工位上“实习”——三楼区域,工作人员头戴VR眼镜、手握手柄,远程操控机器人完成多种任务:有的熟练分拣密集排列的线圈,有的将货架上的饮料瓶整齐装箱,还有的来回穿梭搬运物料……
这其实是在“教”机器人干活。每一位VR操作员身后,都有一位同事专门在电脑前负责协调和记录。他们配合完成一个动作,大概需要40到50秒,而这个过程会产生800MB—1GB的“学习资料”——几乎相当于一部高清电影的大小。
为什么不到1分钟会产生这么大的数据?现场负责人韩超解释,“这绝非普通手机拍摄的视频,除了多路高清画面,计算机会实时记录下机器人自身的‘感觉’数据,每一个关节的转动角度、电机施加的力度、身体的平衡姿态……这些海量传感器数据每秒都在生成,它们是AI学习‘如何用力’‘如何保持平衡’的关键。”
庞大的数据,构成机器人自主操作的“核心教材”。在这个特殊的“学校”里,机器人从零开始学习技能,积累经验,最终目标是实现自主作业,替代人类完成重复性、高精度或危险性的工作。
自6月下旬启动以来,通过每天超过10小时的训练,该训练基地已采集数据超过18万条。首批10万条高质量数据已成功交付给客户,第二批数据也整装待发。
成立3个月来,来自全国各地高校、科研院所机器人公司和AI模型开发商的订单纷至沓来。这些数据用途广泛:除了直接用于训练机器人模型,也可用于二次技术开发、转售,甚至迁移至其他AI模型训练中。
那么,训练出一个有效的机器人模型到底需要多少数据?基地技术人员介绍,这会根据场景复杂度灵活调整。简单任务,比如单一动作执行,可能只需100条、每条30—50秒的数据即可训练出一个可用模型;而面对复杂场景,如包含多个步骤、有高精度要求的工业操作,则可能需要500条甚至上千条数据,每条时长约120秒。
“数据工厂”涌现:
全国布局加速,差异化发展初见成效
近年来,机器人训练场建设热潮在全国范围内蓬勃兴起。
记者从外滩大会了解到,去年9月,位于上海浦东的智元机器人数据采集工厂正式启用,目前已积累百万条数据;今年1月,位于上海张江的国家地方共建人形机器人创新中心训练场“开训”,预计年底完成500万条数据积累;3月,位于北京石景山的人形机器人数据训练中心揭牌,预计年产百万条数据;6月,长三角一体化示范区智能机器人训练中心正式启用,预计年产数据超200万条;同月,面积达1.2万平方米、位于天津的帕西尼具身智能超级数据工厂启动,这是目前全球规模最大的具身智能数据采集与模型训练基地,预计年产近2亿条数据。杭州、广州等地也正在筹备机器人训练场建设。
建设热潮的背后,是智能机器人产业发展的迫切需求。随着具身智能技术从实验室走向产业化,高质量训练数据的短缺,成为制约技术落地的最大瓶颈。传统仿真数据难以复现真实世界的物理复杂性,而单一机构又无法承担海量实物训练成本。专业化、规模化的训练场因此成为产业发展的必然选择。
纵观全国,训练场建设呈现一定的差异化特色:有的以开源为核心,构建开放创新生态;有的专注人形机器人核心能力训练,攻关关键技术;有的侧重跨场景协同训练,服务区域制造业需求……更值得关注的是,训练场建设正在向网络化发展,呈现多区域布局态势。比如国地共建人形机器人创新中心已在江苏常熟、河南郑州布局分中心,构建跨区域训练网络。在今年7月举办的世界人工智能大会(WAIC)上,常熟市与该中心签约共建人形机器人创新中心。常熟分训练场位于常熟“智算未来城”,计划投资约4000万元,规划面积3000平方米。
长三角一体化示范区智能机器人训练中心,由苏州吴江区大数据有限公司、苏州湾集团和乐聚机器人联合运营。乐聚(苏州)机器人科技有限公司总经理王松介绍,目前,乐聚机器人的全国布局初步形成网络化态势,重点覆盖长三角、京津冀和中部地区。其中,苏州中心聚焦工业、商业及特种场景,覆盖汽车制造、物流分拣与电子装配等8大类应用;北京中心侧重智慧家庭、康养服务及5G融合场景。
王松表示,这一布局并非简单复制,而是深度融合区域经济特色。以位于苏州的中心为例,其核心使命是融入长三角制造业生态,通过与企业紧密合作,将落地验证的机器人技术快速推向产线,切实解决招工难、效率瓶颈等痛点,实现“从训练场到生产线”的无缝衔接。
具身智能论坛上,与会者展示了训练场的训练实效:清华大学与比亚迪合作的云边端协同训练系统,在5个装配场景实现策略泛化;国地共建人形机器人创新中心的训练模型已支持青龙机器人完成冲压件上下料等工业任务。随着技术迭代与生态完善,机器人训练场正从研发基础设施升级为产业创新引擎,加速具身智能在制造、养老、服务等领域的规模化落地。
放眼未来图景:
从1.0到2.0,训练场驱动具身智能落地
“作为AI时代的‘新型数据工厂’,机器人训练中心正推动人形机器人研发范式发生根本性变革。”国地共建人形机器人创新中心首席科学家江磊提出,传统机器人研发模式“造机器人—建动力学模型—场景适配小模型”,已被“造机器人—建训练场—集数据—训具身大模型—推应用智能体”这样的“AI+机器人”新范式所取代。
江磊强调,训练场并非单纯的基础设施,而是需要深入研究的关键技术。“目前具身智能的4条路径——智驾、机械臂、腿足式机器人以及芯片,就像4条产业链的射线。无论哪种技术路径,都离不开大数据集,因此训练场非常重要。”
随着具身智能技术的突破与应用需求的持续扩大,机器人训练场建设热潮仍将继续。但专家指出,这一进程并非简单的规模扩张,而是朝着更高效、更开放、更贴近场景的方向迭代升级。
“到2025年年底,我们要搭建起全国规模最大、标准统一的机器人训练数据采集网络。”王松介绍,公司计划在全国各地部署多个训练节点,并沿着“深化”和“拓宽”两个方向推进:一方面深耕工业制造,向精密装配、复杂质检、高危工序替代等更高价值环节深入;另一方面拓展至助老助残、康复训练、家庭服务、电力巡检、农业自动化等民生与经济领域。
尤为重要的是,乐聚将牵头制定全国统一的机器人数据采集与处理标准,实现各训练场数据的格式统一与高质量积累,从而大幅提升机器人学习效率与智能水平。“我们最终的目标,是构建一个覆盖机器人全生命周期应用的庞大数据库与技能模型库,推动人形机器人规模化落地。”王松表示。
尽管发展势头迅猛,训练场建设仍面临多重挑战。清华大学人工智能研究院智能机器人中心主任孙富春指出,当前机器人训练中心仍然存在分散化建设、重复投入等问题,缺乏顶层设计与统一标准。破解“数据瓶颈”需构建融合实场与仿真的训练场景体系,发展快响应、低时延、高精度采集技术,通过增强与物理世界的交互降低训练成本。
江磊对此持相同看法。他指出,当前训练场1.0阶段依赖购买实体机器人、建设实体场地,重资产、高投入的特征使其更适合国家级或省级创新中心承担。建议推进训练场2.0建设,实现“巧练”:既在虚拟环境中模拟训练,也在现实场景中调试验证,两者高效结合。避免重复投入,依托共享训练场和数据资源,促进行业协同发展。
“一定要把真机采集的数据在虚拟训练场中进行对齐,‘虚实融合’实现高保真数字仿真,才能最终完成真机迁移。”江磊表示,“训练场2.0时代即将到来,便携化、场景化的发展方向将大幅降低使用门槛,提升行业普适性。”