群核科技发布空间大模型，或解决视频生成时空一致性难题_科技资讯

群核科技发布空间大模型，或解决视频生成时空一致性难题

创始人

2025-08-26 06:20:23

0次

【大河财立方记者王宇】当前AI生成视频大模型虽蓬勃发展，但普遍存在物体位置偏移、空间逻辑混乱、遮挡错误等问题，时空一致性成为制约行业迈向商业化应用的关键瓶颈。

8月25日，群核科技在首届技术开放日（TechDay）上正式发布其空间大模型最新成果：新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen，并在现场分享了新模型后续的开源节奏。

大河财立方记者获悉，群核科技AI团队基于SpatialGen探索的AI视频生成解决方案，有望通过新范式解决时空一致性难题。

群核科技发布两款开源模型，构建时空一致性技术新范式

空间智能被看作是AI从二维世界向三维世界进阶的关键突破方向。当前AI仍主要局限于文本、图像等二维交互领域，能够完成写作、绘图等任务，但要实现诸如家务协助等三维空间操作，仍有相当距离。

据介绍，作为业界首个专注于3D室内场景认知与生成的大模型体系，群核空间大模型在真实感全息漫游、结构化可交互以及复杂室内场景处理方面展现出显著优势。

本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型，支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。相比于传统大语言模型对物理世界几何与空间关系的理解局限，SpatialLM 1.5不仅能理解文本指令，还能输出包含空间结构、物体关系、物理参数的“空间语言”。

SpatialLM 1.5生成的场景富含物理正确的结构化信息，且能快速批量输出大量符合要求的多样化场景，可用于机器人路径规划、避障训练、任务执行等场景，这将有效解决当前机器人训练“缺数据”的难题。

活动现场，群核科技首席科学家周子寒演示了机器人养老场景的应用，当输入“去客厅餐桌拿药”这一指令后，该模型不仅理解了相关的物体对象，还调用工具自动规划出最优行动路径，展示了机器人在复杂家庭环境中执行任务的潜力。

如果说SpatialLM解决的是“理解与交互”问题，那么SpatialGen则专注于“生成与呈现”。作为一款基于扩散模型架构的多视角图像生成模型，SpatialGen可根据文字描述、参考图像和3D空间布局，生成具有时空一致性的多视角图像，并支持进一步生成3D高斯（3DGS）场景并渲染漫游视频。

在群核科技的SpatialGen体验区，记者目睹了人工智能如何将静止的照片“唤醒”。仅凭一张老屋内部照片和一张3D布局草图，SpatialGen便生成了一段可360°漫游的动态空间视频，静止的砖墙、斑驳的家具仿佛被注入生命，生动地呈现在记者眼前。

时空一致性突破将重构多个行业，驱动AI下一波增长

电商、设计、电影等多个行业的AI创作者也来到现场，他们纷纷提出一个共性问题。现有的AI视频创作中，常因视角切换导致物体位置偏移、空间逻辑混乱、光影失真、遮挡错误等问题频发。

据了解，这背后的原因是多数视频生成模型是基于图像或视频数据训练，缺乏对3D空间结构和物理法则的理解和推演能力。

“尽管AI视频生成工具层出不穷，但在关键的人物一致性与时空一致性问题上仍难以满足影视级要求。”知名导演、AIGCer神思远在发言时说，AI在复杂运镜与多视角场景中表现尤为不稳定，其生成的背景常常无法保持时空一致性，导致人物与场景脱节。最终，团队不得不回归传统手绘与3D建模结合的方式，通过人工精修弥补AI的不足，反而增加了前期成本。

虽然目前挑战重重，但神思远认为，AI技术在加速制作流程方面已经有相当大的潜力。如果AI下一步要真正在电影行业开启工业化应用，还需要更加高效、可控的AI解决方案。

“目前，AIGC文生视频与图生视频工具已经初步推动了全民视频创作的潮流，但由于时空一致性问题的制约，其离真正的商业化应用仍有一定距离。”群核科技AI产品总监龙天泽提到，他们正在研发一款基于3D技术的AI视频生成产品，并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线，有望显著弥补当前AIGC视频生成中时空一致性不足的问题。

据悉，本次技术开放日分享的两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。其中，空间生成模型SpatialGen在技术开放日当天已可以在开源网站下载使用，而空间语言模型SpatialLM 1.5未来也将以“SpatialLM-Chat”形式完成开源。

责编:李文玉 | 审校:张翼鹏 | 审核:李震 | 监审:古筝

上一篇：创赛捷科技取得视觉定位数码喷墨打印机专利，提高了加工效率

下一篇：当AI成为广告主的“强制伙伴”：TikTok GMV Max引发的行业震荡与破局思考

群核科技发布空间大模型，或解决视频生成时空一致性难题

相关内容

热门资讯