昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题
创始人
2025-07-31 17:41:02
0

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR 2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。

相关内容

热门资讯

如何看待“还要等上级的安排”这... “还要等上级的安排”这句话常出现在工作或组织情境中。从一方面看,这体现了对上级决策和指导的尊重与服从...
扬州国网取得新型四卷筒同步机械... 金融界2025年8月1日消息,国家知识产权局信息显示,扬州国网电力工具研发制造有限公司取得一项名为“...
第四批690亿元国补10月下达 【大河财立方消息】 8月1日,国家发展改革委就当前经济形势和经济工作举行新闻发布会。国家发展改革委政...
原创 2... 总有一群朋友纠结“手机怎么选”。作为数码博主,我收到最多的私信就是:“地瓜说机,3000元预算买什么...
国家网信办持续深入推进互联网新... 为进一步规范网络传播秩序,提升互联网新闻信息服务辨识度,今年以来,国家网信办深入推进互联网新闻信息服...
银发经济,步步是坑 银发经济,看似充满机遇,实则步步是坑。如今,众多商家纷纷瞄准老年群体,推出各类所谓的“适老产品”。然...
最高法:任何“不缴社保”的约定... 近两年来,社会保险、竞业限制、福利待遇等类型案件量呈上升趋势。今天(8月1日),最高人民法院召开新闻...
未来五天河南热力升级,局部体感... 天气回顾昨天(7月31日)白天到夜里,受台风外围雨带影响,商丘东部和信阳东部等地出现分散性阵雨雷阵雨...
筑巢生态农业取得风选机除尘装置... 金融界2025年8月1日消息,国家知识产权局信息显示,河南省筑巢生态农业有限公司取得一项名为“风选机...
原创 换... 相信大家在手机使用一段时间之后,都会选择更换手机,这是因为,手机使用久了,难免会出现卡顿,电池不耐用...