关于ZAKER 融媒体解决方案 合作 加入

Google 开源 Live Transcribe 的语音引擎,为长篇对话提供字幕

雷锋网 08-18

8 月 18 日,Google 宣布开源 Android 语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在 GitHub 上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe 都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)

Google 于今年 2 月发布了 Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕,与 Android 即将推出的 Live Caption 功能不同,Live Transcribe 是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于 Google Cloud Speech API。Live Transcribe 可以用 70 多种语言和方言标题实时口语。另一个主要区别是 Live Transcribe 可在 18 亿台 Android 设备上使用(当 Live Caption 在今年晚些时候推出时,它只适用于部分 Android Q 设备)。

在云上工作

Google 的 Cloud Speech API 目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,Google 避免了截断的句子或单词,并减少了会话中丢失的文本量。

70 多种语言和方言中挑选自己合适的

为了降低带宽需求和成本,Google 还评估了不同的音频编解码器:FLAC,AMR-WB 和 Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB 可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus 允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。Google 还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现 " 在不影响准确性的情况下,将数据使用量减少 10 倍 "。

为了比 Cloud Speech API 更进一步减少延迟,Live Transcribe 使用自定义 Opus 编码器。编码器恰好提高了比特率,使 " 延迟在视觉上无法区分发送未压缩的音频 "。

Live Transcribe 语音引擎功能

Google 列出了语音引擎的以下功能(不包括说话人识别):

无限流媒体。

支持 70 多种语言。

可以简化网络丢失(在网络和 Wi-Fi 之间切换时)。文字不会丢失,只会延迟。

强大的扩展网络损耗。即使网络已经停电数小时,也会重新连接。当然,没有连接就不能进行语音识别。

可以轻松启用和配置 Opus,AMR-WB 和 FLAC 编码。

包含文本格式库,用于可视化 ASR 置信度、发言人 ID 等。

可离线模型扩展。

内置支持语音检测器,可在延长静音期间用于停止 ASR,以节省资金和数据。

内置支持扬声器识别,可根据扬声器编号标记或着色文本。

字幕会随着对话的深入而调整

该文档指出这些库与生产应用程序 Live Transcribe 中运行的库 " 几乎相同 "。Google 已对其进行了 " 广泛的现场测试和单元测试 ",但测试本身并非开源。但 Google 确实提供了 APK,因此开发者可以在不构建任何代码的情况下试用该库。(雷锋网雷锋网雷锋网)

via:android.comventurebeat

以上内容由"雷锋网"上传发布 查看原文
相关标签 livegoogle开源

觉得文章不错,微信扫描分享好友

扫码分享