关于ZAKER ZAKER智慧云 免费视频剪辑 合作 加入
36氪 08-19

网易智企发力音视频技术业务融合,探索多元化场景下的技术落地

数字经济与实体经济正在加速融合,音视频技术的价值不断凸显,并延展出了应用于各个行业的可能性。

随着直播、游戏、电商、VR 等场景的普及,基于音视频的实时娱乐社交、云协同办公、AI 视频招聘、元宇宙电商等新场景也纷纷涌现。如何令技术更好地为企业所用并获取技术更迭带来的价值增量,成为许多从业者共同关注的问题。

作为一家娱乐社交属性鲜明的互联网企业,近年来,网易旗下多个事业部都在音视频领域进行了大量的研发投入,包括网易智企、网易云音乐、网易传媒、网易伏義等。近日,在网易的音视频技术大会上,网易智企技术 VP 陈功指出,音视频技术如今已经发展到了新的高度,而如何在不同的业务场景下融合及落地,将是未来一段时间内的行业主题。

元宇宙框架下的音视频技术场景

"元宇宙已成为数字新基建的重要组成部分。"

网易伏羲瑶台产品经理张书超表示,技术能力是场景变革的地基,而在产品中聚焦音视频的多元化实践、提高对于音视频内容的理解,则是作为产品技术服务商与用户同在的。这同样是网易对于当下元宇宙需求的理解。

比如,瑶台作为网易旗下的首款元宇宙产品,即是通过音视频等数字化技术打破了时间和空间的限制,构建了一个与现实世界并存的虚拟世界。在底层技术方面,瑶台同时在虚拟场景和虚拟角色两大基础设施方面发力,借助网易伏羲在虚拟角色创建和虚拟角色驱动上的技术实践积淀,包括视觉形象创建、语音形象创建、语音合成等环节,从而为用户带来沉浸化、个性化的虚拟体验。

全民视频时代下,视频理解是 toC 平台的核心技术能力之一。从产品形态来看,这一新兴需求不但涵盖了视频创作、自媒体等内容,同时也在冲击着传统新闻资讯、内容流量入口的呈现方式。在音视频技术能力的支撑下,新闻同样可以具备视频理解的需求,实现对视频信息从点到面的收集及精密的识别计算,最终按需输出视频特征的目的。基于这一 AI 能力,新闻信息的质量和安全性能够得到更好的保障,同时节省人力审核成本、降本增效。

目前,网易的音视频技术已从数据层、算法层、业务层应用于网易新闻,从多模态理解视频类别和标签、多维度内容理解视频封面选取、视觉相似特征、图像和视频增强等方面有效提高了网易新闻的用户使用时长、人均互动 PV 等数值。

此外,在 AI 音乐等细分领域,随着中国数字音乐市场规模快速扩张、音乐人群体迅速扩大,对于低门槛音乐制作工具的技术探索也在持续进行。如今,网易云音乐正在展开 AI 技术驱动下的音乐内容业务,通过 AI 编曲、AI 作词、AI 写歌等智能音乐创作能力,加速国内大众化音乐创作能力的转化。以歌声合成这一功能为例,网易提供的 AI 音乐创作工具支持用户通过输入歌词和旋律来合成演唱干声的过程,从而产生不同的创新效应,如小样本音色定制、AI 辅助音乐创作等。

技术支撑下的高效娱乐社交

音视频技术的不断变革,最显著的作用就是不断提升着在线娱乐社交产业的丰富程度和体验感。视频直播、语音聊天、游戏社交等,已经不再局限于单一平台,而是作为当下常见的娱乐社交场景,发展为模块化的产品技术功能,正在广泛应用于各行各业的企业运营中。

网易智企云信娱乐社交行业产品经理聂夏军指出,网易云信的音视频技术为这些独立却又复杂的娱乐社交场景提供了整体体验上的优化和技术支撑。例如,在语音聊天中消除噪音、在游戏中通过 3D 空间音效技术为用户带来声音方向感、通过智码超清技术在实现更高画质的同时节省更多码率等。此外,网易云信音视频技术面向不同国家的复杂网络和低端机型进行了优化,帮助出海企业适应不同市场对主流设备环境。

即使在相较成熟的互联网与通信技术下,娱乐社交的高速迸发仍然需要大量后备粮草。设备硬件性能的刷新使得音视频内容输出变得越来越趋近于 " 高维 ",而一旦这些内容需要进行商业化和场景融合,所涉及到的技术环节则是牵一发而动全身的。例如,当前视频行业正处于高速增长期,其中超高清视频的份额则日益增长。数据显示,2022 年超高清视频产业市场规模将有望达到 4 万亿。

IDC 中国 - 中国视频云市场规模及预测

根据 IDC 最新发布的《中国视频云市场跟踪(2021 下半年)》研究报告,2021 年下半年中国视频云市场规模达到了 50.4 亿美元,同比增长 32.7%,预计 2026 年市场规模将达到 364 亿美元。音视频正在成为一种不可或缺的社会基础设施。

然而,随着视频分辨率不断提高,视频在网络传输中的带宽成本也越来越大,市场对于能够同时保证分辨率和带宽成本的压缩技术的需求越来越迫切。基于此,网易云信在超高清视频端到端的场景可用性上加大投入,推出的智码超清技术很好地兼顾了上述问题,并在视频超分、编码技术等方面实现了突破。