日前,Meta 方面宣布推出全新语音识别(ASR)模型系列 Omnilingual ASR,并提供从适用低功耗设备的 3 亿参数版本到追求 " 顶级准确度 " 的 70 亿参数版本。据了解,Omnilingual ASR 能够自动识别和转录超过 1600 种口语语言,其中包括 500 种此前从未被 AI 转录过的低资源语言,并号称 " 以空前的规模实现了最先进的质量 "。
对此 Meta 方面指出,近年来 ASR 技术取得了显著进展,在许多高资源语言中已接近完美识别,然而由于当前的 AI 架构对数据需求过高,难以实现通用扩展,因此扩大语言覆盖范围需要耗费大量资源。为解决这一难题,Omnilingual ASR 引入了 2 种架构变体。
据悉,Meta 团队首次将其 wav2vec 2.0 语音编码器扩展到 70 亿参数,从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征,并构建了两种解码器变体,将这些表征映射到字符序列。其中一种依赖传统的连接主义时间分类(CTC)目标,另一种利用了在 LLM 中常见的传统 Transformer 解码器。
这种被称为 LLM-ASR 的方法,在 ASR 性能上实现了阶段性提升,尤其是在长尾语言上。Meta 方面公布的相关信息显示,7B-LLM-ASR 系统在超过 1600 种语言上达到了 SOTA 性能,其中 78% 的语言字符错误率(CER)低于 10。
值得一提的是,Omnilingual ASR 的一个关键创新在于 " 自带语言 "(Bring Your Own Language)设计。具体而言,这一设计通过借鉴大型语言模型的情境学习技术,只需用户提供少量的音频和文本配对样本,即可直接从这些样本中学习新语言,无需重新训练或大量的计算资源。
Meta 方面表示," 虽然零样本转录的性能目前还无法与完全训练的系统相媲美,但它为将新语言纳入数字化服务提供了一条更具可扩展性的途径 "。据该公司预测,理论上这一方法有望将 Omnilingual ASR 的覆盖范围扩展到超过 5400 种语言,远远超越了当前的行业标准。
此外值得一提的是,Omnilingual ASR 以 Apache2.0 许可证形式发布,允许研究人员和开发者自由使用、修改和构建模型,包括用于商业用途。同时 Meta 还发布了全语言自动语音识别语料库(Omnilingual ASR Corpus),这是一个包含 350 种代表性不足语言的大型转录语音数据集。该数据则是以知识共享署名许可协议(CC-BY)发布,旨在帮助全球开发者调整语音识别模型,以满足特定的本地化需求。
【本文图片来自网络】