阿里通义实验室开源音频生成新模型ThinkSound，革新视频转音频技术_科技资讯

阿里通义实验室开源音频生成新模型ThinkSound，革新视频转音频技术

创始人

2025-07-06 00:21:41

0次

阿里通义实验室近期在音频技术领域取得了突破性进展，正式推出了名为ThinkSound的音频生成模型，并宣布将其开源。这一创新之举标志着音频生成技术迈入了一个全新的阶段，特别是将思维链（CoT）技术首次应用于音频生成领域。

据通义语音团队介绍，传统的视频转音频（V2A）技术往往难以精准捕捉视觉与声音之间的时空关联，导致生成的音频与视频中的关键事件存在错位现象。而ThinkSound模型则通过引入结构化推理机制，模拟人类音效师的工作流程，有效解决了这一问题。它首先理解视频的整体画面与场景语义，然后聚焦于具体的声源对象，最终响应用户的编辑指令，逐步生成高保真且与视频同步的音频。

为了训练ThinkSound模型，通义语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。该数据集包含了超过2531小时的高质量样本，涵盖了丰富的场景，并特别设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个核心部分组成：一个多模态大语言模型负责“思考”推理链，而另一个统一音频生成模型则负责“输出”声音。

在多项权威测试中，ThinkSound模型的表现均优于现有的主流方法，这充分证明了其技术的先进性和实用性。目前，该模型已经正式开源，开发者可以在GitHub、Hugging Face以及魔搭社区等平台上获取相关的代码和模型文件。这一举措无疑将为音频生成技术的发展注入新的活力，推动相关领域的研究和应用不断向前迈进。

对于未来，虽然未具体提及拓展计划，但ThinkSound模型在游戏、虚拟现实（VR）/增强现实（AR）等沉浸式场景中的应用前景被广泛看好。随着技术的不断成熟和完善，相信它将为用户带来更加真实、生动的音频体验。

上一篇：新风口！AI动画创作、无人机编队规划、旅拍定制师等新职业崛起

下一篇：高德地图回应男孩骑行身亡案：深感痛惜，导航产品仅供参考

阿里通义实验室开源音频生成新模型ThinkSound，革新视频转音频技术

相关内容

热门资讯