关于ZAKER Skills 合作
量子位 2小时前

4 步出声,单卡 0.24 秒!Noiz AI 联合港科大清华,开源音频生成大模型

" 先来一段蝉鸣,然后吉他声切入。"

对于这样一段看似简单的文字指令,现有的音频大模型不仅" 听不懂 "(搞错顺序或数量),而且" 出得慢 "(生成 10 秒声音,往往需要等待几秒甚至十几秒)。

这成了 AI 音频从 " 玩具 " 走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点,Noiz AI 联合香港科技大学、清华大学等机构,正式推出了支持 Anything-to-Audio 的极速音频生成大模型AudioX-Turbo

AudioX-Turbo 不仅仅是一个能处理多种模态输入的生成器,更是将矛头直指" 极速推理 "" 精准可控 "两大难题。

通过分布匹配蒸馏和对抗蒸馏,AudioX-Turbo 将原本 50-200 步的扩散生成过程暴减至 4 步,模型前向次数骤降约 25 倍;

再配合全新标注的 920 万量级 " 强指令 " 语料,模型终于 " 听懂了时间戳 "。

而且,推理代码、训练代码、模型权重等全部开源。

论文与项目页面:https://zeyuet.github.io/AudioX-Turbo/

项目代码:https://github.com/NoizAI/AudioX-Turbo

核心突破一:用 4 步打败 100 步,单卡 0.24 秒出声

现有的主流音频模型,如 MMAudio,Stable Audio Open,它们多依赖 Diffusion(扩散)或 Flow Matching,通常需要几十到上百步迭代。

AudioX-Turbo 的解法是分布匹配对抗蒸馏

1. 原生多模态骨干打底

全面采用原生适合多模态融合的Multimodal Diffusion Transformer ( MMDiT ) 作为模型骨架,配合 MAF 模块从零训练了 2.7B 参数,确保了极高的音画同频与跨模态控制力。

图 1. 预训练阶段

2. Turbo 蒸馏加速

基于 Flow Matching 框架,引入分布匹配蒸馏(DMD)对抗蒸馏将模型蒸馏至 4 步,同时应用 CFG 蒸馏去掉了 CFG 引入的额外 NFE 开销。

" 简单说,就像把一幅需要涂 100 遍才能完成的画,提炼成只涂 4 遍的模板—— AudioX-Turbo 用蒸馏技术把这个‘模板’提炼出来了。"

图 2. 分布匹配对抗蒸馏

结果惊人,AudioX-Turbo 仅需4 个采样步数就逼近 Teacher 模型 100 步的音质,再得益于扩散判别器,学生模型输出和真实样本的对抗训练,使少步模型在部分性能指标上反超了 100 步教师模型。

单张 RTX 4090 上,生成 10 秒音频仅需0.24 秒(RTF 仅 0.02),打开了实时音频生成的想象空间。

图 3. Audiox-Turbo 对比其它模型的全面评测核心突破二:数据大换血,920 万样本让模型 " 听懂人话 "

之前很多音频模型无法精确控制,根源在于数据里的文本标签太 " 糊 "(比如只有简单的环境音概括)。

为此,Noiz AI 与港科大团队专门打造了超大规模的多模态音频数据集IF-caps-Pro,总规模约920 万

团队搭建了 " 大模型级联标注 " 的方案——

先构建海量高质量视频 - 音频对,然后用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板,再用Qwen2-Audio进行大规模扩写。

喂给模型的数据从 " 模糊的摘要 " 变成了" 带有精确时间轴的剧本 "

图 4. 数据构造流程

与此同时,研究团队意外发现,文本标签写得越细,模型不仅文本生音频效果变好,连带着 " 只看无声视频配音 " 时的对齐度也跟着大幅提升。

霸榜级的实验表现

在经典的 AudioCaps、MusicCaps 等测试集中,4 步的 AudioX-Turbo 模型在核心音质指标上打败或战平了需要 50-200 步的众多基线模型。

而为了评测模型的指令跟随能力,团队构造了专门的 benchmark T2A-bench

测试结果显示,在针对声音类别、数量、时间戳和先后顺序的评测中,AudioX-Turbo 的效果对比其它基线方法呈现出碾压态势(部分指标较基线提升超一倍)。

图 5. AudioX-Turbo 的指令跟随能力总结与传送门

AudioX-Turbo 三大亮点

4 步推理,相比教师模型减少 25 倍计算量,效果更优,RTF 仅 0.02(4090);

920 万强指令数据集,首次实现精确时间戳控制;

Anything-to-Audio:文本、视频、图像全支持,一个模型搞定;

该项目所有训练代码及模型权重,已全部开源。

Noiz AI 与港科大、清华的这项联合工作,证明了音频大模型完全可以打破 " 慢吞吞 " 和 " 不受控 " 的刻板印象。

随着 4 步极速推理的实现,互动剧配音、游戏引擎实时拟音,甚至是AI 直播伴奏,都将变得触手可及。

而这正是 Noiz AI 正在推进的方向——让音效、有声内容制作、实时互动语音,都能实时重建。

论文信息:

论文标题:AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

核心团队:Noiz AI、香港科技大学、清华大学

项目主页:https://zeyuet.github.io/AudioX-Turbo/

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容