关于ZAKER 融媒体解决方案 合作 加入

扎根多模态,是新基建中 AI 走向未来的必由之路丨亿欧问答

亿欧网 03-30

近日,由蚂蚁金服牵头制定的 " 生物特征识别多模态融合国际标准 " 正式立项,这一标准的制定,对于多模态领域发展与技术规范产生了重大影响。

为此,笔者与眼神科技、云从、银河水滴等多个企业方,进行了关于多模态领域发展主题的对话。相较于多模态,我们应该先了解单模态。在对话中笔者了解到,对于指纹识别、人脸识别、虹膜识别、指静脉识别等每一种生物识别技术,通过每一种算法用一个传感器去解决一个问题的模式,即为单模态。

后来,随着 AI 发展和信息化的迭代,不同信息从不同方位、不同传感器一拥而入,单一识别技术已经很难满足这样的发展,在这种情况下,多模态技术应场景而生。但多模态并不是单模态的简单叠加或组合替代,而是基于数据融合的算法融合、并依托平台决策为支撑,是单模态生物识别技术的重大突破,也是识别技术的未来发展方向。

目前,多模态技术主要应用于线上娱乐、身份认证、医疗健康、智慧金融、安防、教育、军工、园区等领域。

应用驱动下,多模态成 AI 行业发展新风向

多模态从 2018 年开始成为技术行业的焦点。那时,很多国内大企业,如华为、腾讯、百度、阿里等公司,都开始逐渐把目光瞄向多模态;很多创业公司,如眼神科技、云从、依图、银河水滴等也在思考这个方向性的发展问题。

腾讯 AI Lab 的博士俞栋曾说 "多模态是迈向通用人工智能的重要方向",通用人工智能是弱人工智能时代需要走的一个方向,弱人工智能是 " 见多识广 ",解决的是感知问题。

在眼神科技创始人兼 CEO 周军看来:" 通用人工智能具有几个属性:自学习、增量学习、增强学习,这些内容结合在一块,是强人工智能。从弱人工智能到强人工智能的奇点,截止目前还没有突破。"" 见少知多 "、" 不见而预知 " 的强人工智能时代,这是国际前沿人工智能公司一直努力多年的事情,但是技术遇到了天花板。

据了解,眼神科技从早期就已经完成了指纹识别、人脸识别、虹膜识别技术的研发,形成基础算法,其在面向市场推广中发现,单一技术决策存在局限,并在应用驱动下推出多模态融合生物识别技术。" 多模态融合生物识别可以提升识别精准度,也能在一定程度提升生物识别技术的场景适应性和隐私安全性。" 眼神科技表示。

简单来说,模态就是 " 感官 ",多模态就是将多种感官融合的方式。云从科技解释道:" 如果把‘模态’通俗地理解为感官,那么智能音箱就是一台只具备听觉模态的物联网设备,而加载 AI 分析能力的摄像头可以视为视觉模态的物联网设备,把听觉、视觉甚至更多模态组合到一起,可诞生多模态物联网 "。

与眼神科技、云从科技领域略有不同的步态识别企业银河水滴表示," 多模态技术在我国早已得到广泛应用,如在公共安防领域。另外,指纹和人脸识别等技术的配合使用也比较成熟,目前正在向更深入更广泛的程度迈进,在这个过程中,步态识别技术越来越受到重视 "。

据悉,步态识别是一种新兴的生物特征识别技术,相较于其他识别方式,步态识别的识别距离更远。例如,普通高清摄像机下识别距离最远可达 50 米,属于非受控识别,无需识别对象主动配合。步态识别是由体型、头型、肌肉力量、运动神经灵敏度、走路姿态等共同决定,局部变化并不会影响识别结果。

因此,步态识别技术可以有效弥补其他识别技术的不足,比如识别距离普遍较短、需要主动配合或接触等问题。结合了步态识别的多模态技术将有更广泛的应用前景。

同时,银河水滴也称:"每一种信息的来源都可以称为一种模态。就 AI 而言,步态、人脸、虹膜、指纹、语音等生物特征模态是机器识别的依据,多模态识别即是一种结合以上多种识别技术的解决方案。任何一种识别方式都有一定的不足,多种模式结合可以达到更好的效果"。

新基建下,多模态融合的 AI 行业进入快车道

国家新基建政策的颁布,让 AI 行业拥有了更大的发展空间,加之这次生物特征识别多模态融合标准的立项,更是让 AI 有了更多的想象。

新基建实际上是新时代下,可促进物质、能量、数据更高效的产生和流动,使其朝着能够产生更大价值的地方汇聚,通过这次新冠疫情,已经切身感受到基于 AI 技术下,新基建所带来的社会效应。

云从科技称,新基建下 AI 得到很好应用,而多模态融合是 AI 技术发展必然结果,因为单点技术存在瓶颈,无法很好发挥 AI 的作用,容易导致部分功能和体验感造成缺失

在多模态或 AI 技术闭环的支持下,AI 可以在消费端与生产端更好的服务社会。"AI 是‘头雁’,解决的是问题本身,怎样让能力提高,怎么去解决问题。让 AI 引领技术发展是整个行业,也是云从当前思考的主要问题。" 云从科技补充道。

在消费者端,最能体现更好、更自然交互的是一位 24 小时的个人助理,它能知道用户什么时候想要什么,用户永远能得到自己期望的服务。

在生产者端,人机协同将能扩展人类专家的能力,比如现在医生一天只能诊断 10 个人,未来也许在 AI 的帮助下,通过语音、AI 诊断、视觉辅助、大数据等技术可以一天诊断 1000 个人。

云从科技总结了目前 AI 设备技术闭环的三种形式:1、感知,包括语音识别、语义理解、多轮对话、NLP、语音精准识别等领等;2、认知,包括自然物体识别、人脸识别、肢体动作识别等;3、决策,包括 AI 对热量、红外捕捉信号、空间信号的阅读与理解。

眼神科技则向笔者表示:"新基建的重要领域之一就是 AI,乘着 " 新基建 " 的东风,AI 行业发展将加速进入快车道。从这次新冠疫情中可以看到,AI 在公共安防、疫情防控、远程办公及服务中发挥了重要作用"。

此外,中国基础设施的 " 智能化 " 建设迫在眉睫,智慧城市、智慧安防、智能医疗、智慧社区、智慧教育等基础设施智能化建设进入全面爆发期,将为 AI 拓展更多创新应用场景和市场空间。在眼神科技看来,"在 AI 应用场景不断深耕,以及 5G、大数据、云计算等新兴技术的融合推动下,多模态融合生物识别是 AI 未来发展的必经之路"。

不过,目前 AI 还处于一个初级阶段,更为关注的是更简单层次的交互。比如语音、人脸识别,这些只是感知阶段。而且在信息化时代,每天都会产生海量的视频和图像数据,但这些信息并没有得到很好利用,大量值得挖掘的潜在价值,被使用的也仅是冰山一角。

对此,眼神科技称,"在实战应用场景会有很多不可控的因素,比如遮挡、光照等,这些会影响生物特征识别技术的应用,行业需要针对现有实际问题,对各种识别技术进行不断的研发和优化算法"。

云从科技也表示,"现在 AI 仅处于初步发展阶段,解决的是简单层次的交互,更深层次的多模态融合交互,目前做得还远远不够,有待继续加强"。

以上内容由"亿欧网"上传发布 查看原文

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容