APP下载

关于ZAKER

Skills 合作

量子位 2小时前

4 步出声，单卡 0.24 秒！Noiz AI 联合港科大清华，开源音频生成大模型

" 先来一段蝉鸣，然后吉他声切入。"

对于这样一段看似简单的文字指令，现有的音频大模型不仅" 听不懂 "（搞错顺序或数量），而且" 出得慢 "（生成 10 秒声音，往往需要等待几秒甚至十几秒）。

这成了 AI 音频从 " 玩具 " 走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点，Noiz AI 联合香港科技大学、清华大学等机构，正式推出了支持 Anything-to-Audio 的极速音频生成大模型AudioX-Turbo。

AudioX-Turbo 不仅仅是一个能处理多种模态输入的生成器，更是将矛头直指" 极速推理 "与" 精准可控 "两大难题。

通过分布匹配蒸馏和对抗蒸馏，AudioX-Turbo 将原本 50-200 步的扩散生成过程暴减至 4 步，模型前向次数骤降约 25 倍；

再配合全新标注的 920 万量级 " 强指令 " 语料，模型终于 " 听懂了时间戳 "。

而且，推理代码、训练代码、模型权重等全部开源。

论文与项目页面：https://zeyuet.github.io/AudioX-Turbo/

项目代码：https://github.com/NoizAI/AudioX-Turbo

核心突破一：用 4 步打败 100 步，单卡 0.24 秒出声

现有的主流音频模型，如 MMAudio，Stable Audio Open，它们多依赖 Diffusion（扩散）或 Flow Matching，通常需要几十到上百步迭代。

AudioX-Turbo 的解法是分布匹配对抗蒸馏：

1. 原生多模态骨干打底

全面采用原生适合多模态融合的Multimodal Diffusion Transformer ( MMDiT ) 作为模型骨架，配合 MAF 模块从零训练了 2.7B 参数，确保了极高的音画同频与跨模态控制力。

△图 1. 预训练阶段

2. Turbo 蒸馏加速

基于 Flow Matching 框架，引入分布匹配蒸馏（DMD）和对抗蒸馏将模型蒸馏至 4 步，同时应用 CFG 蒸馏去掉了 CFG 引入的额外 NFE 开销。

" 简单说，就像把一幅需要涂 100 遍才能完成的画，提炼成只涂 4 遍的模板—— AudioX-Turbo 用蒸馏技术把这个‘模板’提炼出来了。"

△图 2. 分布匹配对抗蒸馏

结果惊人，AudioX-Turbo 仅需4 个采样步数就逼近 Teacher 模型 100 步的音质，再得益于扩散判别器，学生模型输出和真实样本的对抗训练，使少步模型在部分性能指标上反超了 100 步教师模型。

单张 RTX 4090 上，生成 10 秒音频仅需0.24 秒（RTF 仅 0.02），打开了实时音频生成的想象空间。

△图 3. Audiox-Turbo 对比其它模型的全面评测核心突破二：数据大换血，920 万样本让模型 " 听懂人话 "

之前很多音频模型无法精确控制，根源在于数据里的文本标签太 " 糊 "（比如只有简单的环境音概括）。

为此，Noiz AI 与港科大团队专门打造了超大规模的多模态音频数据集IF-caps-Pro，总规模约920 万。

团队搭建了 " 大模型级联标注 " 的方案——

先构建海量高质量视频 - 音频对，然后用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板，再用Qwen2-Audio进行大规模扩写。

喂给模型的数据从 " 模糊的摘要 " 变成了" 带有精确时间轴的剧本 "。

△图 4. 数据构造流程

与此同时，研究团队意外发现，文本标签写得越细，模型不仅文本生音频效果变好，连带着 " 只看无声视频配音 " 时的对齐度也跟着大幅提升。

霸榜级的实验表现

在经典的 AudioCaps、MusicCaps 等测试集中，4 步的 AudioX-Turbo 模型在核心音质指标上打败或战平了需要 50-200 步的众多基线模型。

而为了评测模型的指令跟随能力，团队构造了专门的 benchmark T2A-bench。

测试结果显示，在针对声音类别、数量、时间戳和先后顺序的评测中，AudioX-Turbo 的效果对比其它基线方法呈现出碾压态势（部分指标较基线提升超一倍）。

△图 5. AudioX-Turbo 的指令跟随能力总结与传送门

AudioX-Turbo 三大亮点

4 步推理，相比教师模型减少 25 倍计算量，效果更优，RTF 仅 0.02（4090）；

920 万强指令数据集，首次实现精确时间戳控制；

Anything-to-Audio：文本、视频、图像全支持，一个模型搞定；

该项目所有训练代码及模型权重，已全部开源。

Noiz AI 与港科大、清华的这项联合工作，证明了音频大模型完全可以打破 " 慢吞吞 " 和 " 不受控 " 的刻板印象。

随着 4 步极速推理的实现，互动剧配音、游戏引擎实时拟音，甚至是AI 直播伴奏，都将变得触手可及。

而这正是 Noiz AI 正在推进的方向——让音效、有声内容制作、实时互动语音，都能实时重建。

论文信息：

论文标题：AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

核心团队：Noiz AI、香港科技大学、清华大学

项目主页：https://zeyuet.github.io/AudioX-Turbo/

* 本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

REDMI K90至尊版本月发：骁龙8E+最强风扇性能挑战骁龙8E5

快科技 45分钟前

蜜雪7.9元早餐败退，古茗乘势而上？

钛媒体 10分钟前

先进封装关键技术重大突破！全球首台310mm PLP ECD量产设备交付

快科技 1小时前

国内唯一发射卫星总数过百的民商火箭！力箭一号成功发射“一箭8星”

快科技 1小时前

在产业链上，重新审视专注的力量

21世纪经济报道 2小时前

AI支付宝要来了，AI服务入口大战再次升级

钛媒体 2小时前

周靖人没走，但阿里AI的决策层正在慢性消耗

钛媒体 2小时前

迅策科技股价大涨，携手三大国产GPU，以“算力+数据”驱动企业AI规模化落地

财联社 2小时前

中科宇航：力箭一号今年发射任务基本已经排满

财联社 2小时前

12个AI猜世界杯，中国技术进入真实赛

21世纪经济报道 3小时前

vivo最强折叠影像 X Fold6搭载大底真2亿主摄：外接增距镜秒变演唱会神器

快科技 4小时前

569元起！爱国者星璨EM系列SFX电源上市：支持ATX 3.1 配备12V-2x6接口

快科技 5小时前

2026款小鹏X9标配驾驶员失能辅助系统：自动靠边停车呼叫救援

快科技 5小时前

说鸿蒙是安卓套壳都是无脑黑！华为朱懂东：替代Windows的鸿蒙PC已1岁表现超预期

快科技 6小时前

MLCC概念再度活跃双星新材8天4板

财联社 6小时前

量子位

觉得文章不错，微信扫描分享好友

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅