里通义开源音频生成模型,能模仿音效师为视频配音
创始人
2025-07-02 00:41:46
0

7月1日消息,阿里通义实验室开源了旗下首个音频生成模型ThinkSound,该模型首次将CoT(Chain-of-Thought,思维链)应用到音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的高保真音频。

目前,ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验。

阿里开源音频生成模型ThinkSound

视频生成音频(V2A)技术是多媒体编辑和视频内容创作领域最重要的技术之一,但该技术的发展速度仍存在诸多技术挑战,例如业界现有的V2A技术仍缺乏对视觉对应声学细节的深入理解,导致生成的音频较为通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

为了解决现有视频转音频技术难以捕捉画面中动态细节和时序的难题,通义团队首次将思维链推理引入多模态大模型,可以模仿人类音效师的多阶段创作流程,实现对视觉事件与相应声音之间深度关联的精准建模,例如先分析视觉动态、再推断声学属性,最后按照时间顺序合成与环境相符的音效。不仅如此,该团队还构建了首个带思维链标注的音频数据集AudioCoT,该数据集融合了2531.8小时的多源异构数据,让模型在音频生成与编辑任务时做到“知其然、知其所以然”。

在开源的VGGSound测试集上,ThinkSound的核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升。例如,在openl3空间中Fréchet 距离(FD)上,ThinkSound 相比 MMAudio的43.26 降至34.56(越低越好),接近真实音频分布的相似度提高了20%以上;在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了1.52和1.32的成绩,均为同类模型最佳。

在开源的VGGSound测试集上,ThinkSound多项核心指标位居第一

在MovieGen Audio Bench测试集上,ThinkSound的表现大幅领先Meta推出的音频生成模型Movie Gen Audio,展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。

ThinkSound大幅领先Meta旗下Movie Gen Audio

目前,通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型,全面覆盖语音合成、音频生成、音频理解等场景。

相关内容

热门资讯

基于云边协同的分布式推理网络架... 通信世界网消息(CWW)人工智能(AI)领域正经历深刻变革,核心驱动力之一是DeepSeek等大语言...
原创 一... 虽然睡觉前早就知道,油价会在今天凌晨迎来一波大涨,但在一觉醒来,看到油价大涨了将近2毛每升后,心中还...
苹果智能眼镜新纪元:2027年... 2025年,智能眼镜市场迎来了前所未有的热潮,众多科技巨头纷纷加入战局。其中,Rokid和meta率...
华鲁恒升获得发明专利授权:“分... 证券之星消息,根据天眼查APP数据显示华鲁恒升(600426)新获得一项发明专利授权,专利名为“分级...
天问二号在轨拍摄地月影像图发布 该地球彩色图和月球全色图由天问二号探测器的窄视场导航敏感器于2025年5月30日拍摄,经辐射校正处理...
AI+场景创新③丨智慧课堂赋能... 在教育数字化转型浪潮中,泡桐树小学蜀都分校以“智慧教育”为核心引擎,全面推进“智慧课堂”建设,探索未...
手把手教你私有化部署聊天机器人... 在人工智能浪潮席卷全球的今天,聊天机器人(Chatbot)早已从科幻概念走入日常生活。无论是电商客服...
摩比科技取得滤波器新型调试结构... 金融界2025年7月1日消息,国家知识产权局信息显示,摩比天线技术(深圳)有限公司、摩比通讯技术(吉...
兴晟绿建取得高效集热的光热组件... 金融界2025年7月1日消息,国家知识产权局信息显示,江苏兴晟绿建科技有限公司取得一项名为“一种高效...
维都利新能源取得一种钢壳电池专... 金融界2025年7月1日消息,国家知识产权局信息显示,广东维都利新能源有限公司取得一项名为“一种钢壳...