声网成立于 2014 年,是全球实时音视频云服务开创者,为人与人和人与智能体的音视频互动提供最佳体验。开发者只需简单调用声网 API,即可在应用内构建诸如对话式 AI、音视频通话、直播等多种实时互动场景。
声网 API 已赋能 AI、社交直播、教育、游戏、IoT、金融、医疗、企业协作等 20 余行业,共计 200 多种场景。2020 年 6 月 26 日,声网母公司 Agora, Inc. 成功登陆纳斯达克,股票代码为 "API"。
02
产品服务介绍
声网推出的对话式 AI 引擎能够支持任意文本大模型快速升级为具备实时语音对话能力的多模态大模型,帮助开发者基于不同的大语言模型构建流畅的语音交互体验。
03
厂商评估
声网在对话式 AI 领域的核心竞争力,源于其在实时互动(RTE)行业长达十年的技术积累。其产品策略不是追求大模型算法本身,而是专注于构建一个高性能、高真实感的 AI 交互 " 中间层 "。
该公司通过优化音频流处理的每一个环节,致力于打造类人化的对话基础体验;同时,通过引入视觉等多模态能力,拓展 AI 的感知边界;其 PaaS 层的定位和开放策略,则使其能灵活地融入更广泛的 AI 生态。
深耕实时互动底层技术,追求 " 类人化 " 的对话基础体验。声网并未将资源投入到大语言模型的研发,而是将其技术优势聚焦于保障对话式 AI 的 " 交互体验 " 本身,旨在让 AI 与人的沟通无限接近真实的人际交流。
这具体体现在对交互体验基础指标的打磨上。首先是响应速度,通过全链路优化将语音对话延迟中位数降至 650 毫秒,有效减少了用户在等待 AI 反馈时的不自然停顿。
其次是对话节奏,其自研的 " 智能打断 " 技术能以低至 340 毫 - 秒的延迟响应用户意图,同时能智能过滤 " 嗯、啊 " 等口头禅,避免错误打断,模拟出自然对话中你来我往的节奏感。
最后是语音信号的精准捕捉,针对复杂声学环境,声网将传统的 3A 算法与 AI 降噪相结合,有效抑制稳态及瞬态噪声;并通过 " 选择性注意力锁定 " 技术过滤背景人声,确保 AI 能准确捕捉和理解目标对话者的语音信息。
从 " 听辨 " 到 " 看见 ",构建多模态感知能力,拓展 AI 交互边界。在解决了语音交互的基础体验之后,声网正推动产品从单一的听觉感知向多模态感知演进,为 AI 赋予更丰富的交互维度。
其近期的产品迭代清晰地体现了这一路径。首先,在听觉感知层面,产品从单纯的声音处理升级为身份识别。新增的声纹识别功能,让 AI 不仅能处理语音内容,还能识别出 " 是谁在说 ",从而在多人对话或公共环境中锁定特定用户,实现了更具专注度和隐私性的交互。
其次,产品增加了视觉感知能力。依托其在音视频采集、编解码及全球传输网络(SD-RTN )上的成熟技术,引擎能够稳定、清晰地处理视频流,赋予 AI 一双 " 眼睛 " 来理解图像,满足如拍照答题、实物识别等更复杂的场景需求。
此外,通过集成第三方服务,为 AI 提供了数字人形象,让抽象的 AI 以具身化的形态出现,增强了交互的亲和力与温度。
坚持 PaaS 层定位与开放中立策略,聚焦核心能力,连接产业生态。声网在对话式 AI 市场的定位清晰,即作为一家平台即服务(PaaS)厂商,为开发者提供底层技术框架,而非一个封闭的端到端解决方案。
这一策略使其保持了高度的开放性和中立性。在模型层,它不绑定任何特定的大模型,支持开发者自由选择和切换包括 ChatGPT、DeepSeek 在内的全球主流 LLM,以及各类语音合成(TTS)供应商。
在能力层,对于数字人渲染这类非自身核心优势的领域,声网选择与商汤科技、HeyGen 等专业厂商合作,通过集成方式为客户提供最优选项。
这种 " 被集成 " 的定位,让声网可以专注于自身最擅长的实时音视频技术,同时使开发者能够像搭积木一样,灵活地将声网的能力与不同厂商的大模型、应用能力结合,构建满足自身业务需求的对话式 AI 应用。
04
典型客户
Robopoet 珞博、豆神 AI、Open AI、MiniMax、智谱
入选证书