当甄嬛传、让子弹飞全都转英文,会怎样?
小红书经常刷到这种视频,然后英语就这么丝滑地经过我的脑子。
现在,AI 就可以搞定!就像这样。
不仅符合原版的音色和情感,还能保证唇形同步。
很好, 以后再不需要看小红书麻烦配音老师来教我英语了(Doge)。
他们发布的 TTS 模型 IndexTTS2,在社区引发不少的关注。
它最大的亮点,就在于在实现时长控制的同时,还能再现符合 Prompt 的情感特征。
它支持两种生成方式。
一种是明确 token 数量,以精准控制时长。
比如原音频是这样:
要求替换成的文本是只有当科技为本地社群创造价值的时候,才真正有意义。
那么控制它的时长分别为原来的 0.75 倍、1 倍(原速)、1.25 倍。效果是这样的。
另一种是无需手动输入,自动生成语音,同时保留输入提示的韵律特征。
比如生气的情感。
指定替换文本:你在我们屋里走路的时候,发现了一条遥远的路,这是不够奇怪的。
此外还支持音频和情绪表达独立控制。
不同的音频提示可以分别作为音色和情绪表达的参考,也可以用描述性的文本也能用来情绪参考,同时保持音色不变。
比如像「我感觉很沮丧」、「巨巨巨巨巨巨难过」、「有点快乐」……这种描述。
「巨巨巨巨巨巨难过」之后,声音就变成了这样。
结果他们使用常见测试集,包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en 和 AIShell-1 test 对 IndexTTS2 模型以及其他代表性模型进行了评估,
可以看到,除了 AIShell-1 test 测试外,其他评测都实现了 SOTA。
在 AIShell-1 测试中,IndexTTS2 在 SS 方面仅落后于 Ground Truth 0.004,在 WER 方面仅比 IndexTTS 差 0.038%。
GPT 潜在表征它在语音的发音和清晰度方面发挥了重要作用,删除它会导致所有数据集上指标下降,
用 MaskGCT 的 S2A 模块(针对离散声标记)替换 S2M 模块,结果发现在表明情感保真度和语音准确度都有所下降,以及合成质量上也有所下降。
这意味着,S2M 模块大大提高了合成语音的保真度和感知自然度。
文本转语音 ( TTS ) 模型通常分为自回归系统和非自回归系统。
虽然自回归系统在语音自然度方面表现出一定优势,但其逐个 token 的生成机制使其难以精确控制合成语音的时长。
这在视频配音等需要严格音视频同步的应用中是一个关键限制。
据介绍,IndexTTS2 是首个将精确时长控制和自然时长生成相结合的自回归零样本 TTS 模型。
文本到语义(T2S)、语义到语音(S2M)和 BigVGANv2 声码器。
最后,BigVGANv2 将旋律谱图转换为目标语音波形。
具体看 T2S 任务,团队将其表述为自回归语音 Token 预测任务。
情感适配器(红色虚线)用于从风格提示中提取情感特征,然后将其作为文本到语义流程的输入,以重建情感。
在第一阶段,团队使用基于 Conformer 的情绪感知器条件器(emo perceiverconditioner),它用于从风格提示中提取情绪嵌入,专门对情绪数据进行训练。
为了将特定情感信息与说话者的相关属性(如口音、节奏)区分开来,团队还引入了梯度反转层。
在训练过程中,风格提示源于真实语音;在推理过程中,风格提示可被情感参考音频所替代,该音频可能来自不同的说话者。
再来看基于流匹配的 S2M 模块,它结合 GPT 潜在表征来提升语音稳定性。
代号 H?
不过话说回来,最近 B 站被曝出正在加速推进视频播客战略。
什么意思呢?
就是用一种「能看」就不用「听」的播客。
与此同时,内部还启动了代号为「代号 H」的 AI 创作工具的同步研发。
没准儿,这个 IndexTTS2 就是他们代号 H 中的一环呢。
参考链接:
https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/
https://arxiv.org/abs/2506.21619
https://arxiv.org/abs/2502.05512
https://index-tts.github.io/index-tts2.github.io/
https://github.com/index-tts/index-tts2.github.io
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见