这项由英伟达公司联合香港中文大学、成均馆大学、温州医科大学、新加坡国立大学和瑞金医院共同完成的研究于2025年12月29日发表在arXiv预印本平台(论文编号arXiv:2512.23162v1),有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队的第一作者包括英伟达的何宇凡、郭鹏飞,香港中文大学的许梦雅,以及英伟达的李肇硕等人。
手术机器人就像刚入行的实习医生,需要大量的实际操作经验才能掌握精细的手术技巧。但与人类医生不同的是,手术机器人的"学习"面临着一个巨大的难题:获取足够的训练数据极其困难。每一次手术都需要记录机器人的每个动作细节,包括它们的位置、角度和力度变化,这就像要求实习医生在学习过程中不仅要观察老师的动作,还要精确记录每一个肌肉的收缩角度和力量大小。这种数据收集不仅成本高昂,还受到病人隐私、伦理审查和医院设备限制等诸多约束。
相比之下,互联网上却存在着数量庞大的手术视频资料。这些视频就像一个巨大的"手术技能图书馆",记录了无数医生的操作经验和技巧,但问题是这些视频只有"画面",没有对应的"动作说明书",也就是缺乏机器人控制所需的精确运动参数。这就好比你想学习一道复杂的菜肴,有无数个烹饪视频可以观看,但视频里没有标注具体的火候温度、调料用量和操作时机。
为了解决这个问题,研究团队开发了一个名为SurgWorld的创新系统。这个系统的核心思路非常巧妙:既然无法直接从手术视频中获得机器人的操作指令,那就先训练一个"手术视频生成器",让它学会如何根据文字描述生成逼真的手术场景,然后再训练一个"动作推理器",让它能够从这些生成的视频中反推出可能的机器人操作指令。
这种方法就像培养一个拥有丰富想象力的助手。当你告诉它"用左侧钳子夹起缝合针,然后传递给右侧钳子",它能在脑海中构想出完整的手术场景,包括器械的移动轨迹、组织的反应,甚至光线的变化。接着,另一个专门的"分析师"会观察这个想象出来的场景,推测出实现这个动作序列所需要的具体操作步骤。
研究团队首先精心构建了一个名为SATA的手术动作文本对齐数据集。这个数据集包含了2447个专业标注的视频片段,总计超过30万帧图像,覆盖了8种不同类型的手术程序。他们将复杂的手术操作分解为四个基本动作:抓取缝合针、穿刺组织、拉扯缝线和打结。每个视频片段都配有详细的文字描述,不仅说明了正在执行的动作,还描述了手术器械之间的空间关系、与解剖结构的交互方式,以及器械与组织之间的接触情况。
比如,一个典型的标注可能是这样的:"左侧钳子抓住缝合针的尖端,以平滑控制的轨迹接近目标,然后将针传递给右侧钳子"。这种精细的描述就像为每个手术动作编写了详细的"剧本",不仅包含了"做什么",还包含了"怎么做"和"在什么情况下做"。
基于这个数据集,研究团队构建了SurgWorld模型。这个模型基于英伟达最先进的Cosmos2.5物理AI世界模型进行改进,专门针对手术场景进行了优化。SurgWorld能够理解文字指令,并生成相应的高质量手术视频。这些生成的视频不仅在视觉上逼真,更重要的是在医学上合理,符合真实手术的物理规律和解剖学原理。
为了验证SurgWorld的效果,研究团队设计了一个有趣的测试。他们给模型提供了同一个起始画面,但配以不同的文字指令:一次传递、两次传递、三次传递和穿刺动作。结果令人印象深刻:模型准确地根据不同指令生成了相应的视频序列。特别值得注意的是,两次和三次传递序列代表了模型在训练过程中从未明确见过的复杂组合动作。这表明SurgWorld不仅能记住训练数据,还具备了一定的"创造性推理"能力,能够将学到的基本动作重新组合成新的操作序列。
接下来是更加关键的一步:从生成的视频中推理出机器人的控制指令。研究团队开发了一个逆向动力学模型,这个模型就像一个经验丰富的工程师,能够通过观察机器人的运动轨迹反推出产生这种运动所需的控制指令。该模型采用了与GR00T N1.5类似的架构,通过分析视频中相隔16帧的两个画面,推断出中间所有帧对应的机器人动作参数。
这个逆向推理过程非常精密。机器人的每个时刻的状态都用一个20维的连续向量来表示,包括左右两个器械的三维位置、六维旋转表示和钳子开合角度。这些参数都是相对于内窥镜坐标系定义的,确保了控制指令的视角一致性。就像一个精密的舞谱记录系统,不仅要记录舞者的每个位置,还要记录他们的朝向、姿态和动作幅度。
为了测试这套系统的实际效果,研究团队选择了"缝合针拾取与传递"这个基础但具有代表性的手术任务。这个任务看似简单,但实际上需要精确的双手协调、准确的力度控制和精密的空间定位能力。他们收集了60个成功的人工遥操作演示作为基准,每个演示平均包含217帧图像和相应的动作参数。
实验在一个商用内窥镜手术系统上进行,该系统配备了立体内窥镜和两个铰接式机器人钳子。实验设置就像一个简化版的真实手术环境:在红色橡胶垫上放置缝合针,左臂机器人需要精确抓取针头并将其传递给右臂机器人。虽然这个设置看起来简单,但它包含了真实手术中的核心技术挑战:精确的视觉定位、稳定的抓取控制和流畅的双臂协调。
实验结果令人鼓舞。研究团队比较了三种不同的训练策略:仅使用真实演示数据的基线方法、加入56个合成视频的增强方法,以及加入560个合成视频的大规模增强方法。结果显示,随着合成数据量的增加,机器人策略的性能稳步提升。在轨迹预测精度方面,使用大量合成数据训练的模型显著优于仅用真实数据训练的模型,预测误差在笛卡尔坐标、旋转角度和钳子开合等各个维度都有明显降低。
这个改进效果在不同的真实训练数据量下都保持一致。无论是使用5个、10个还是20个真实演示,加入合成数据都能带来显著的性能提升。这表明SurgWorld生成的合成数据确实包含了有价值的信息,能够有效补充有限的真实训练数据。
为了进一步验证方法的普适性,研究团队还测试了多视角场景下的效果。在真实手术中,医生往往需要多个摄像头提供不同角度的视野。他们发现,即使真实数据包含多个摄像头视角,单视角的合成数据仍然能够改善多视角策略的性能。这个发现特别有价值,因为它表明合成数据学习到的运动规律和协调模式具有跨视角的泛化能力。
研究团队还进行了人体专家评估,邀请三位手术专家对生成的视频进行临床真实性评估。专家们从文本视频对齐度、器械一致性和解剖结构合理性三个维度对视频进行1到3分的评分。结果显示,SurgWorld在所有维度都获得了最高评分,特别是在器械行为的连续性和自然性方面表现突出,生成的视频能够准确执行现实的抓取和针头处理动作,没有明显的视觉伪影。
值得一提的是,这项研究首次将手术世界模型与机器人学习有机结合起来。以往的手术视频生成研究主要关注视觉效果和医学合理性,而这项工作更进一步,将生成的视频作为机器人策略学习的数据来源。这种跨领域的融合为解决手术机器人数据稀缺问题开辟了新的路径。
在技术实现上,SurgWorld采用了参数高效的LoRA微调技术,在保持原有Cosmos2.5模型通用视频生成能力的同时,针对手术场景进行专门优化。这种设计使得模型能够在有限的手术专用数据上快速适应,避免了从零开始训练大规模模型所需的巨大计算资源。同时,研究团队采用了流匹配训练框架,这种方法在概念上更加简洁,在实际应用中也表现出更好的优化稳定性和样本质量。
逆向动力学模型的设计也颇具匠心。该模型基于扩散变换器架构,能够处理高维的动作空间和复杂的时序依赖关系。通过预测相隔16帧图像之间的所有中间动作,模型学会了捕捉手术操作中的细微变化和平滑过渡。这种设计确保了生成的伪动作标签不仅在数值上合理,在时序上也保持了良好的连续性。
研究还展现了良好的泛化能力。团队测试了不同的超参数设置、不同的VLA基础模型,结果都显示出一致的改进趋势。他们尝试了πO.5模型作为替代的策略学习框架,同样观察到合成数据带来的性能提升。这种跨模型的一致性表明,所提出方法的有效性不依赖于特定的模型架构,而是源于合成数据本身的价值。
当然,这项研究也面临一些挑战和限制。目前的方法仍然需要针对特定的机器人平台进行世界模型和逆向动力学模型的微调,这意味着扩展到新的机器人系统时需要额外的数据收集工作。逆向动力学模型推断的伪动作标签虽然在统计上有效,但在精度上仍然无法完全媲美真实的动作记录,可能会引入一定程度的噪音。此外,当前的SATA数据集虽然涵盖了多种手术类型,但相对于整个手术医学领域的复杂性来说仍然有限。
尽管存在这些限制,这项研究的意义不容小觑。它为手术机器人的自主化发展提供了一条全新的技术路线,特别是在数据获取困难的医疗场景中。通过巧妙地利用大量无标签的手术视频资源,结合先进的生成式AI技术,研究团队成功构建了一个能够自我生成训练数据的学习系统。
这种方法的潜在应用前景广阔。随着技术的不断完善,未来的手术机器人可能能够通过"观看"大量手术视频来快速学习新的操作技能,就像人类医生通过观摩前辈的手术来提高自己的技艺一样。这不仅能够大幅降低手术机器人的训练成本,还能够加速新技术的推广普及,让更多医院和患者受益于机器人辅助手术的优势。
从更广阔的角度来看,这项研究代表了AI在医疗领域应用的一个重要里程碑。它展示了如何将计算机视觉、自然语言处理、生成式建模和机器人控制等多个AI子领域的技术有机结合,解决实际的医疗问题。这种跨学科的技术融合为其他医疗AI应用提供了有价值的参考,可能会推动更多创新解决方案的出现。
说到底,SurgWorld系统最大的价值在于它开辟了一条用AI训练AI的新路径。通过让机器人"看视频学手艺",这项研究不仅解决了手术机器人训练数据稀缺的问题,更重要的是展示了AI系统自我改进和持续学习的可能性。随着技术的进一步发展和完善,我们有理由相信,自主手术机器人将在不远的将来成为医疗领域的重要助手,为提高手术精度、减少医疗事故和缓解医生工作负担发挥重要作用。
Q&A
Q1:SurgWorld是什么,它是如何工作的?
A:SurgWorld是英伟达开发的手术机器人训练系统,它的工作原理类似于"看视频学手艺"。系统先通过分析大量手术视频学会生成逼真的手术场景,然后使用逆向推理技术从这些场景中推测出机器人的操作指令。这样就能利用互联网上丰富的手术视频资源来训练机器人,而不需要昂贵的专门数据收集。
Q2:SurgWorld训练出来的手术机器人表现如何?
A:实验结果显示,使用SurgWorld合成数据训练的机器人在轨迹预测精度上显著优于仅用真实数据训练的机器人。在"缝合针拾取与传递"任务中,加入合成数据后机器人的预测误差在各个维度都有明显降低,而且这种改进效果在不同数据量下都保持一致。
Q3:SurgWorld能否应用到所有类型的手术机器人?
A:目前SurgWorld仍需要针对特定机器人平台进行微调,这意味着扩展到新的机器人系统时需要额外的适配工作。不过研究显示该方法具有良好的泛化能力,在不同的基础模型和参数设置下都能带来性能提升,未来有望发展成更通用的解决方案。