一场需要耐心的长期主义竞赛 具身智能业内激辩三大核心问题
创始人
2025-11-22 00:41:19
0

11月20日下午,在智源2025具身开放日上,在多位技术负责人参与的BAAI具身模型会客厅讨论中,关于具身智能未来的共识远少于分歧。

世界模型是不是核心,具身智能是否会收敛到统一架构,语言是否应该退居次要,动作模型如何设计,数据从哪里来⋯⋯每一个问题都仍在探索之中。

但《每日经济新闻》记者注意到,另一种更深层的共识正在形成——具身智能的真正竞争不在概念,而在长期投入、真实落地与数据质量。

未来几十年,当机器人在真实世界中创造价值、积累经验、形成反馈时,或许才能孕育出具身智能的“ChatGPT时刻”。在此之前,这仍是一场需要耐心的长期主义竞赛。

图片来源:主办方供图

世界模型是万能钥匙?

当讨论具身智能的关键路径时,世界模型总是被提及,与世界模型的结合是不是未来具身智能发展的关键?

这个问题随着世界模型概念的模糊化,而在业内产生分歧。

北京大学助理教授、银河通用创始人王鹤认为,“世界模型”一词最早来自强化学习领域,指的是根据当前状态与所采取的动作,预测下一步状态变化的动力学模型。然而,在Sora等视频生成模型出现后,世界模型概念逐渐向用视频生成未来倾斜,这让它与具身智能所需的能力发生了偏移。

王鹤认为,视频生成模型并不能直接作为具身智能的通用解决方案。原因在于,机器人与人的身体差异巨大,即使训练出一个能想象人类如何操作世界的视频模型,也不能保证它对机器人同样有效。即便是当下最像人的人形机器人,其动作空间、灵巧度和执行方式都与人类存在不小差距,看起来像人做事,不等于机器人学会了做事。

但王鹤同时强调,对未来进行预测是具身智能不可缺少的一环,机器人必须能够根据未来目标倒推当前动作,并对环境变化保持前向与后向的推理能力。因此,具身世界模型是必要的,但它必须根植于真实机器人数据,才能有真正属于机器人的世界模型诞生。

智源研究院院长王仲远认可世界模型对具身智能未来发展的重要性。他指出,当下业界对世界模型并无统一定义。“如果世界模型仅仅指视频生成(Video Generation),那显然不够。”真正对具身智能有意义的是能够根据过去的时空状态,准确预测“下一时刻状态”,并据此规划动作的模型,这种预测是基于前序的时空状态和现场环境上下文,进而给出的精准决策。

王仲远举例称,自己回答问题时,要基于前一位嘉宾的发言内容以及现场环境,做出“拿起话筒”这一决策。这才是机器人需要的世界模型,不仅仅是生成几秒钟后的画面,而是要基于对环境的理解,给出一个准确的步骤动作和响应。

具身智能会否收敛到统一架构?

在大语言模型时代,Transformer架构(一种基于自注意力机制的神经网络架构)一统天下。具身智能领域是否会收敛到一个统一的架构?是否会出现属于机器人的“具身Transformer”?

中国科学院大学教授赵东斌给出了一种可能性。他表示,目前Transformer在具身智能领域的应用已经带来了显著的性能提升,例如近期Physical Intelligence发布的π*0.6模型,利用强化学习获取数据链,能够在叠衣服、装盒子等多个任务中实现通用。他认为,随着技术演进,模型架构可能会收敛到单一模型,或者呈现多样化但核心统一的态势。

此外,大部分嘉宾则对于技术路线的收敛持认可态度。在此基础上,如果具身智能最终会收敛到一个统一架构,那么这个“具身Transformer”的技术路径在哪里?

招商局集团AI首席科学家张家兴认为,当下大模型的发展逻辑难以直接迁移到具身智能。“过去三年形成的LLM(Large Language Model,大语言模型)与VLM(Vision-Language Model,视觉语言模型)等结构,是以语言为中心,而语言在人类执行动作时并不参与。”他举例称,人类开车时不会在大脑中不断语言化动作指令,因此语言作为中间层的VLA架构(视觉语言动作模型,Vision-Language-Action),其本质与机器人需要的结构不一致。

张家兴提出,具身智能需要一个完全属于机器人自身的智能结构,而不是从现有VLA体系延展出来的产物。现阶段,他认为真正的具身架构还未出现,业界正在等待一个来自基础大模型领域的突破性创新,类似当年Transformer论文那样。这种创新将有可能弱化语言在模型中的中心地位,让模型以行动和视觉作为驱动核心。

与张家兴的视角类似,清华大学助理教授、星海图联合创始人赵行认为,视觉是世界上最通用的感知传感器,具身智能的基础模型应当遵循生物进化规律:先有运动和视觉,最后才诞生高级语言智慧。因此,理想的模型顺序应该是Action First(动作优先),然后Vision(视觉),最后Language(语言)。

赵行强调了一个关键差异:具身模型是一个闭环系统。语言模型是一问一答的开放系统,而具身模型需要“动作—反馈—再次动作”的实时循环,其核心是持续的环境交互。它必须从世界反馈中修正自己的策略,而不是完成一次思考后给出单一答案。

智元机器人合伙人、首席科学家罗剑岚在此基础上进一步扩展了闭环系统的结构组成。他认为,未来一定会出现闭环一致的“具身Transformer 系统”,但未必是单一模型,而更可能是由视觉(V)、语言(L)、动作(A)等模块共同构成的系统。“VLA 的趋势是对的,但最终形态不会是今天这个样子。”真正的质变可能需要等到具身智能互联网形成,即成千上万台机器人在真实场景中解决具体问题,累积海量数据后,才能催生出真正的统一系统。

在架构探索之外,动作输出端的不成熟也是当下具身智能无法收敛的重要原因。王鹤指出,目前行业在动作输出上尚未收敛,存在大量基于概率匹配的方法,这类方法虽然适合处理连续变量,但为端到端的深度强化学习埋下了隐患,如何对概率模型应用策略更新是尚未解决的问题。

王鹤认为,短期内行业需依赖仿真环境和合成数据来探索动作优先的架构,因为目前全球仅有约一千台人形机器人在运行,数据量远不足以支撑新架构的探索。“长期来看,地球上人形机器人的数量必须保持长期高速增长,只有这样,它们的能力才能同步提升,而反过来,能力的增长又会进一步推动数量增长,最终才能孕育出真正强大的模型。”

自变量创始人、CEO王潜则认为,是否叫Transformer并不重要,Transformer 更像盖楼的钢筋,真正决定楼是什么样子的,是建筑的结构设计。他强调,物理世界充满了语言和图像无法描述的精细摩擦与接触过程,因此必须建立一个独立于虚拟世界的、能够描绘复杂物理过程的基础模型。“可能十年后或者是五年后,可能反而是我们从物理世界中收集到的数据来做出来的多模态模型,反过来吞噬今天的一些基础模型。”

突破跨域数据瓶颈一定要用真实数据吗?

无论是否收敛到一个统一模型,对所有具身企业而言,一个共识正在形成:如果具身智能要走到“ChatGPT时刻”,必须先解决数据问题。

张家兴团队选择“高质量+低成本”的路线,以真实物理世界的探索数据为基础,并通过低成本的人类采集来构建数据金字塔的中间层,试图以最高效的方式夯实数据地基。

赵行则提出了数据采集的三个维度:真实性、多样性和规模化。他强调必须以真实机器人的素材为起点,且不能局限于实验室,必须深入真实场景。罗剑岚同样坚持真实数据路线,他认为,靠遥控操作采集数据只是起步,未来必须依靠大量部署在真实环境中的机器人,在自主交互中产生广泛数据,形成自我反馈和提升的闭环。

王仲远主张利用互联网上的海量视频数据作为基座模型的学习来源,这类似于人类儿童通过看视频认识世界。在此基础上,再通过真机采集的数据进行强化学习和反馈,不断精进能力。

但亦有真实数据之外的探索路径。

王鹤在讨论中提到,全球规模化运行的人形机器人可能仅在千台级,甚至更少,如此小的机器人人口,远不足以支撑一个动作优先的基础模型。

王鹤认为,短期内行业必须依赖模拟环境与合成数据,这会比受限于真实机器数量的方式发展得更快。但长期来看,只有当机器人数量进入指数级增长,数据才可能形成正反馈循环,推动模型与能力共同演进。

加速进化创始人、CEO程昊认为,数据瓶颈的破解是一个螺旋上升的过程。目前极速进化多使用仿真数据以求速度,目标是为了让机器人具备落地能力,从而在真实场景中收集数据。当真实数据遇到瓶颈时,再回退到仿真环境中进行针对性训练。“机器人落地创造价值,价值驱动规模,规模反哺模型。”

在海量数据需求之外,王潜认为,自变量什么数据都在用,只是侧重点不同。互联网数据用于学习通用常识,仿真数据用于导航和探索,而真实的物理接触数据则是核心壁垒。

王潜提到,根本在于所有类型的数据都可以被利用,但真正的挑战在于:处理好任何单一类型的数据都相当困难。这背后涉及大量核心的工程问题,也正是团队日常工作的重点所在,同时这些难题也构成了行业的技术壁垒。

一个清晰的现实浮现出来:具身智能的未来并非由某一种技术突破决定,而是取决于架构创新、真实世界落地、机器人数量增长与高质量动作数据积累是否能同时发生。具身智能的发展路径比语言模型时代更复杂,也更漫长。

每日经济新闻

相关内容

热门资讯

今日重磅消息“,17好友麻将怎... 您好:,17好友麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这...
【第一资讯】“西兵互娱有没有挂... 您好:西兵互娱这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款游戏...
【第一财经】“九九山城麻将有挂... 有 亲,根据资深记者爆料九九山城麻将是可以开挂的,确实有挂(咨询软件无需...
重磅消息“微信麻将究竟有挂吗”... 有 亲,根据资深记者爆料微信麻将是可以开挂的,确实有挂(咨询软件无需打开...
重磅消息“欢乐情怀到底有挂吗”... 您好:欢乐情怀这款游戏可以开挂,确实是有挂的,需要了解加客服微信【9784099】很多玩家在这款游戏...
玩家攻略科普“天府棋牌开挂神器... 您好:天府棋牌这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款游戏...
终于懂了“皖江欢乐麻将有挂吗”... 有 亲,根据资深记者爆料皖江欢乐麻将是可以开挂的,确实有挂(咨询软件无需...
我来教教您“六六顺牛牛究竟有挂... 您好:六六顺牛牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信【9784099】很多玩家在这款游...
【今日要闻】“十胡卡可以开挂吗... 家人们!今天小编来为大家解答十胡卡透视挂怎么安装这个问题咨询软件客服徽4282891的挂在哪里买很多...
【第一资讯】“掼蛋究竟有挂吗”... 有 亲,根据资深记者爆料掼蛋是可以开挂的,确实有挂(咨询软件无需打开直接...