【大河财立方 记者 王宇】当前AI生成视频大模型虽蓬勃发展,但普遍存在物体位置偏移、空间逻辑混乱、遮挡错误等问题,时空一致性成为制约行业迈向商业化应用的关键瓶颈。
8月25日,群核科技在首届技术开放日(TechDay)上正式发布其空间大模型最新成果:新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并在现场分享了新模型后续的开源节奏。
大河财立方记者获悉,群核科技AI团队基于SpatialGen探索的AI视频生成解决方案,有望通过新范式解决时空一致性难题。
群核科技发布两款开源模型,构建时空一致性技术新范式
空间智能被看作是AI从二维世界向三维世界进阶的关键突破方向。当前AI仍主要局限于文本、图像等二维交互领域,能够完成写作、绘图等任务,但要实现诸如家务协助等三维空间操作,仍有相当距离。
据介绍,作为业界首个专注于3D室内场景认知与生成的大模型体系,群核空间大模型在真实感全息漫游、结构化可交互以及复杂室内场景处理方面展现出显著优势。
本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。相比于传统大语言模型对物理世界几何与空间关系的理解局限,SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。
SpatialLM 1.5生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,可用于机器人路径规划、避障训练、任务执行等场景,这将有效解决当前机器人训练“缺数据”的难题。
活动现场,群核科技首席科学家周子寒演示了机器人养老场景的应用,当输入“去客厅餐桌拿药”这一指令后,该模型不仅理解了相关的物体对象,还调用工具自动规划出最优行动路径,展示了机器人在复杂家庭环境中执行任务的潜力。
如果说SpatialLM解决的是“理解与交互”问题,那么SpatialGen则专注于“生成与呈现”。作为一款基于扩散模型架构的多视角图像生成模型,SpatialGen可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步生成3D高斯(3DGS)场景并渲染漫游视频。
在群核科技的SpatialGen体验区,记者目睹了人工智能如何将静止的照片“唤醒”。仅凭一张老屋内部照片和一张3D布局草图,SpatialGen便生成了一段可360°漫游的动态空间视频,静止的砖墙、斑驳的家具仿佛被注入生命,生动地呈现在记者眼前。
时空一致性突破将重构多个行业,驱动AI下一波增长
电商、设计、电影等多个行业的AI创作者也来到现场,他们纷纷提出一个共性问题。现有的AI视频创作中,常因视角切换导致物体位置偏移、空间逻辑混乱、光影失真、遮挡错误等问题频发。
据了解,这背后的原因是多数视频生成模型是基于图像或视频数据训练,缺乏对3D空间结构和物理法则的理解和推演能力。
“尽管AI视频生成工具层出不穷,但在关键的人物一致性与时空一致性问题上仍难以满足影视级要求。”知名导演、AIGCer神思远在发言时说,AI在复杂运镜与多视角场景中表现尤为不稳定,其生成的背景常常无法保持时空一致性,导致人物与场景脱节。最终,团队不得不回归传统手绘与3D建模结合的方式,通过人工精修弥补AI的不足,反而增加了前期成本。
虽然目前挑战重重,但神思远认为,AI技术在加速制作流程方面已经有相当大的潜力。如果AI下一步要真正在电影行业开启工业化应用,还需要更加高效、可控的AI解决方案。
“目前,AIGC文生视频与图生视频工具已经初步推动了全民视频创作的潮流,但由于时空一致性问题的制约,其离真正的商业化应用仍有一定距离。”群核科技AI产品总监龙天泽提到,他们正在研发一款基于3D技术的AI视频生成产品,并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线,有望显著弥补当前AIGC视频生成中时空一致性不足的问题。
据悉,本次技术开放日分享的两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。其中,空间生成模型SpatialGen在技术开放日当天已可以在开源网站下载使用,而空间语言模型SpatialLM 1.5未来也将以“SpatialLM-Chat”形式完成开源。
责编:李文玉 | 审校:张翼鹏 | 审核:李震 | 监审:古筝