关于ZAKER ZAKER智慧云 免费视频剪辑 合作 加入
36氪 08-17

30 年 AI 技术研究,聊聊「自动驾驶」的瓶颈、机会与未来

文 | 秦明;编辑 | 石亚琼;来源 | 数字时氪(微信:digital36kr)

从 80 年代跨越到 90 年代,相比于知识工程与专家系统,人工神经网络不温不火,很多人认为它并没有什么实用价值。

1992 年 8 月,邓志东进入清华大学从事博士后研究,主要做基于人工神经网络的误差反向传播算法的性能改进,以及强化学习等方面的研究。

他回忆到,那个时候专家系统严重依赖于人工设计、缺乏学习能力等局限还没有被人们完全意识到。计算机的算力与性能也不能支撑大型神经网络模型面向大规模数据集的训练与推断,人工神经网络也几乎不能应用于图像处理与计算机视觉领域。

突破与创新不断出现,也是在 1992 年,李开复设计了支持语音识别的语音助理,即 Siri 的前身;IBM 的 AI" 深蓝 " 机器人于 1997 年第一次战胜了国际象棋冠军卡斯帕罗夫……

自 1994 年留校以来,邓志东做了很多领域的研究,包括自学习控制、移动机器人技术、神经网络、强化学习、复杂网络理论、虚拟现实、计算生物学、无线传感器网络、计算神经科学、自动驾驶技术等。不知不觉中,他已经在人工智能领域探索了 30 个年头。

时代的进步,历史的偶然。上世纪的边缘探索,如今看来已经成为主流并引领未来。

2012 年,以深度神经网络为代表的 AI 技术飞速发展,各大科技巨头纷纷涌入,押注人工智能的未来。2015 年,以深度卷积神经网络为核心的计算机视觉技术拉开感知智能时代的序幕;2019 年,以大模型为代表的自然语言方向让 AI 跨入新的时代。

邓志东告诉 36 氪,每一项技术突破的背后都有一群追求真理的科学家,以及面向落地应用场景的大量尝试性探索。自动驾驶是他近 10 年多的重点研究领域,也是目前最有技术挑战的落地应用场景之一。

核心技术难点之一在于汽车如何去理解复杂的动态驾驶场景(DDS),保证自动驾驶的安全性。

邓志东表示,人类驾驶是建立在认知理解基础之上,依靠可理解的视觉感知和大脑实现决策;相比之下,自动驾驶难以在复杂动态环境中获得人类水平的驾驶知觉、预测与认知判决能力。

也就是说,它难以对道路、路口、停车位以及各种交通参与者复杂变化行为所组成的一幕幕动态场景,做出满足安全性要求的综合性的关联感知、趋势预测与自主判决。

想真正意义上实现自动驾驶,还需不断从基础理论、软硬件与系统、政策、法规、伦理、生态等层面完善与突破。

那么当下自动驾驶技术发展的现状和瓶颈是什么?科学家团队正在解决哪些关键技术问题?市场中大家的共识与分歧是什么?未来还有哪些商业机会?以及产学研过程中有哪些问题要解决?

近期,在第一届专精特新技术创新大会暨科学家创新创业论坛前夕,36 氪数字时氪专访了清华大学人工智能研究院视觉智能研究中心主任邓志东教授,聊了聊上述问题,他结合过往观察给出了心中的看法。

清华大学人工智能研究院视觉智能研究中心主任 邓志东教授

01 谈瓶颈:复杂场景的不可理解性

2009 年初,在国家重点项目的支持下,邓志东开始了自动驾驶技术研究——视听觉信息的认知计算。走过很多弯路,踩了很多坑,这是邓志东对过去的一些描述。

邓志东团队是国内最早使用纯视觉方法进行自动驾驶技术研究的团队之一。他谈到,当时主要是基于摄像头、激光雷达、毫米波雷达等视觉感知设备,进行驾驶场景与目标的感知,同时陆续从硬件、算法、软件、系统集成、路测,甚至车辆改装层面做了大量技术探索。

改装日产奇骏、别克昂克雷,利用长安 CS 35 与 CS 55 全线控车,从自动驾驶原理性、技术性验证到后面的路测实验样车,邓志东至少主持研发了 4 台自动驾驶汽车。

天天做实验,压力巨大,是团队常有的状态。那时团队走遍了北京的东南西北边缘地带(北面的北清路、温泉地区,西面的世博园,南面的良乡,东面的燕郊),也在北京的 5、6 环,以及 G7 高速公路的部分路段进行了闭环测试。

邓志东回忆到,当时国内自动驾驶普遍采用循线方法,为了验证基于视觉自主感知的驾驶效果,团队直到 2014 年,一直没有使用任何厘米级精度的 RTK 差分 GPS 以及高清地图。

刚开始研究时,深度学习还没有发展起来,采用传统的计算机视觉方法,漏检误检会比较多,仅可做到 70%-80% 的准确率,而且程序实现中还加了很多阈值逻辑,通用性与环境适应性不好。邓志东告诉 36 氪,那时候承受了极大的压力,一切都需要摸索中。

如今,基于深度学习的视觉感知方法在性能上有了突破,但与正常成年人类驾驶相比,在感知上仍有很大的差距。

行百里者半九十,自动驾驶是典型的长尾应用场景。相比于人类驾驶平均 10 万公里才会有一次小的事故,目前 L1、L2 级别的自动辅助驾驶对应的路测里程数最低要求在 20 万、100 万公里。

邓志东谈到,目前自动驾驶的难题在于感知的不安全与不可靠性,核心是对复杂场景与目标的不可理解性。过去研究与实践中大多仅孤立考虑单一实体属性,如单个目标本身的检测、分割、跟踪与识别,以及轨迹补全、行为预测等,如今需要关注不同目标实体之间相互关系的学习理解,在时空相互关系中去理解特定的目标。

5 个 9 或 99.999% 的识别率已经是比较好的状态了,但要想真正解决安全性,漏检误检率还是要小于十万分之一或百万分之一,也就是需要 7 个 9 或 8 个 9,利用数据驱动方法很难达到这么高的精度。

邓志东告诉 36 氪,这是乘以 10 万公里仍有 1 次或 0.1 次漏检的客观应用需求。因此继续往深处走,需要的是算力与数据的指数级增长,但关键还是算法颠覆性的创新。

车联网 V2X、车路协同也是市场关注的热点。安全避险是强驱动力,邓志东表示,除非网联或协同能聚焦赋能关键性安全问题的解决,若仅是解决舒适性功能,则可能会额外增加不安全因素,也会造成投入产出的失衡。

总之,当前国内的技术研究与特斯拉的单车智能还是有不少差距,国内企业应该抓一些基础技术问题的突破,一方面需要自上而下加大资本、人力等投入;另一方面市场也要给予初创企业更多的时间。

02 谈突破:多目标关系的语义理解

自动驾驶的发展是深度学习、AI 芯片、标签大数据、场景应用等技术的混合产物,是一种偶然,也是一种必然。

国内最早是在 1992 年,国防科技大学研制的第一辆无人驾驶实验汽车;2016 年之前,我国自动驾驶处于科研主导、产业探索初期;2016 年是一个爆发点,大量资本涌入,科研主导逐渐演变为市场主导,巨头卷入,自动驾驶创新企业迎来蓬勃发展。

那一年,滴滴组建自动驾驶团队,小马智行与 Auto X 也相应成立;随后专注于 RoboTaxi 和商用车应用场景的景驰、Roadstar、文远知行、元戎启行、轻舟智航也相继入局,自动驾驶的风口开启。

如今,伴随着 RoboTaxi 批量商用落地,自动驾驶商业路径呈多元化发展。

市场层面上,目前乘用车量产车型已实现的自动驾驶功能主要集中在 L2 级别,个别车企在推进 L2+、L2++ 级别,但还未有 L3 级别的跃进;在部分商用封闭场景,如港口、矿山以及 RoboTaxi,自动驾驶公司选择从 L4 级别开始发力,寻求跨越式突破。

邓志东谈到,低速 L4 更多的是商业模式的创新。然而是否需要经历 L3 这个过程,行业仍是有争议的,传统车企基于安全性与成本的考量,希望有循序渐进的过程,但由于 L3 相关政策、法规比较难推进,跨界的科技企业期望直接跨越到 L4。

人类驾驶是利用认知指导、在语义理解基础之上完成汽车的动态驾驶任务(DDT)的。

语义本质是一种知识,是人类可理解与可交流的,包含的信息丰富多样。在知识逻辑体系里面,不能违背常识。违背了语义关系,就是违背了常识。在自动驾驶语义环境中,机器要学会去理解自车与道路、他车、行人、信号灯、交通标识之间的关系,需要利用常识去解决长尾问题,并做出最优的预测、决策与规划。

目前,多目标实体相互关系的语义理解是邓志东团队正在突破的课题之一。

具体包括在基于数据驱动的视觉深度学习模型中,如何增加对规则节点的学习,对关系的学习,对知识推理的应用,使得新一代人工智能模型具有可解释性与高鲁棒性。邓志东谈到,团队正尝试将黑箱模型转变为灰箱或白箱,尽管单段模块本身可能是黑箱,但若实现块与块之间的逻辑连接与可解释性,则有非常大的研究与应用价值。

举一反三的少样本与跨模态、跨场景的学习能力也是其中研究的重点。不同于过去二维图像、三维点云等低维原始数据的聚类方法,邓志东团队目前聚焦在高维特征空间上的深度无监督学习与深度自监督学习,力图引入知识及知识推理来解决小样本学习、跨场景学习问题。

他举了一个很形象的例子,比如只给 AI 模型看 5 只不同形态的 " 标签 " 猫,其他类型的猫仅靠机器自动用深度聚类方法寻找标签学习,已经是完全可以做到的,且进展非常大。

邓志东告诉 36 氪,人与人之间、人与环境之间以语义彼此交流,本质是相互间可以理解、不违背常识,自动驾驶应该关注目标的内涵、外延及其与彼此之间的语义交互关系。

当然,数据驱动与知识驱动的结合已成为共识,科学研究过程中既要有数据驱动的黑箱,也需要知识驱动的白箱,两者在逻辑上互相关联,具有可解释性。

03 谈创新:科技成果难以直接转化成产品

2016 年市场开启时,创始玩家多为高校出去创业的学生,邓志东回忆到,电动化首先带来一波冲击,随后传统车企被迫卷入,其次智能化又引起更大的冲击。蔚小理等研发新能源汽车增加智能化也是市场需求,趋势明显。

自动驾驶产业链可分为硬、软与系统等,主要包括车载摄像头、激光雷达、4D 成像毫米波雷达、高精度定位定姿设备、AI 芯片、计算平台、域控制器、执行机构、底盘、AI 超算离线训练平台、5G 移动通信设备、边缘计算、云服务平台、智能路网新基建等,以及高精度地图、操作系统、AI 算法与软件等,涉及感知层、决策层、规控层等。

从玩家角色看,需要汽车制造商、零部件供应商、车载计算平台开发商、自动驾驶解决方案提供商、出行服务供应商等多方市场主体参与。

邓志东告诉 36 氪,国内市场主体目前在自动驾驶的各个细分赛道均有全方位的布局。对于新入局者,除非真有一些 " 杀手锏 " 的东西,要不很难脱颖而出,去分得一杯羹。未来的机会更多还是在产业链上游的关键零部件或下游的模式创新上,这也是价值链的高地。

在专精特新的背景下,科学家创业或成果转化也成为常态。邓志东谈到,对于从事前沿技术突破的科学家,他的后面非常需要一个高效的工程师团队来支撑,也需要企业家来主导成果的二次开发与市场化运作,而这些成果转化要素的整合都需要资本的介入。

尤其自动驾驶领域属于大系统工程,其中不能有任何短板,一个好的源头创新思想必须经过各种各样的试错实验、技术验证和持续的性能迭代。

成立于 1999 年的 Mobileye 是典型的科学家创业企业,创始人 Amnon Shashua 原是以色列希伯来大学的计算机科学教授,创业 8 年,2007 年才推出第一款辅助驾驶产品。2017 年被英特尔收购,如今估值已达 500 亿美元。1992 年成立的 Boston Dynamics ( 波士顿动力 ) 也来自于科学家创业,创始人及 CEO Marc Raibert 曾任 CMU 与 MIT 副教授,都属于那种令投资人既爱又怕的创业者。

邓志东谈到,无论是 Mobileye ,还是像波士顿动力这类成立 30 年仍未盈利的前沿技术公司,中国现实条件下很难存在此类模式的科学家创业企业,原因之一在于从上到下的资本都很难去支持如此长线的投资。

不过,投资人对于高精尖项目的选择性投资,反而更需要科学家对技术底层逻辑与演进的科学视野及判决。

高校是源头创新,源头科技成果并非可以直接转化成商用产品,这是过去存在的严重误区。

邓志东告诉 36 氪,高校的科技成果转化应主要依靠推动与发展发达的资本来融合主导。一般而言,中间包含二次转化,三次转化,市场反馈迭代等,投入其实是非常大的,对此要有清醒的认知。同时,在官产学研用金的大背景下,科学家要去解决真问题,才能够在成果既要落地,学术研究又需要很前沿之间寻求平衡。

04 谈未来:技术成熟后可快速降维应用

邓志东表示,自动驾驶未来突破点在于可解释的 AI 模型与商业模式的创新。

他谈到,目前产业内基本形成以美国为代表的 " 单车智能 " 路线和以中国为代表的 " 单车智能 + 车路协同 " 路线。国内的优势在于可以先做政策试点,通过以点带面,小步快跑,在多样化应用场景下形成独特优势。

政策层面上,截至 2021 年 11 月,全国已有 38 个省 / 市出台了路测管理细则,先后建设了 70 个测试示范区,开放了 5200 多公里测试道路,发放了 1000 余张测试牌照。

另外,2022 年 8 月 1 日,深圳率先实施了《深圳经济特区智能网联汽车管理条例》地方法规;8 月 8 日重庆、武汉 " 双城 " 首次启动了全车无安全员的自动驾驶商业化付费出行服务试点,开始试水全无人、公开道路、商业化收费的规模化 RoboTaxi 出现服务,使中国的自动驾驶商业化运营走在世界前列。

可见,产业政策积极引导,安全监管稳步推进,市场主体主动参与,产业生态正在不断完善,合力支撑正在持续发力,邓志东表示。

在从 L2 自动辅助驾驶迈向 L3+ 自动驾驶过程中,邓志东告诉 36 氪,一对多边云接管将成为一个有效的技术演化路径。按照发展逻辑,安全员从主驾到副座,副座到后座,后座到边云接管的演进过程中,未来再经过持续的技术迭代,边云安全接管员通过数字孪生平行世界的 AI 接管预测,逐步实现一对一,一对十,一对一百的接管照看,并最终过渡到 L4 级别的完全无人驾驶。

一对多边云接管降低了人力成本,实现了可持续发展的盈利闭环与商业模式,当共享无人驾驶汽车可满足一个城市的出行服务需求时,机动车绝对数量将会大大减少,目前很多交通难题都会迎刃而解。

未来,随着自动驾驶技术的成熟,其中涉及的大量共性关键技术可以拿来降维应用,包括高价值的视觉感知技术,这样也能很好地解释为什么特斯拉会积极转到人形机器人的研发。

(完)