关于ZAKER ZAKER智慧云 免费视频剪辑 合作 加入
AutoLab 10-03

FSD 能力解析,下版本能实现安全避障么?

撞上侧卧的大卡车,撞上转弯中的大卡车,撞上异形障碍物,特斯拉 Autopilot 的多场车祸,甚至让特斯拉贴上了 " 杀人 " 的标签。

这些事故的背后都是因为其视觉算法,强依赖物体提供先验约束,所以只能 " 先识别再感知 "。这并不符合人类的驾驶习惯,咱们开车的时候只要知道是障碍物就刹车,不会先去管它到底是个啥障碍物。

安全避障已经成为自动驾驶发展到现阶段需要重点解决的问题。

目前业内主流做法是加激光雷达,通过激光雷达来形成一个可行驶区域。其次还有另辟蹊径的大疆车载,通过双目立体视觉也能实现激光雷达一样的避障能力。

而这一次的特斯拉 AI Day,特斯拉也首次展示出了自己的 " 避障方案 ",就是下方这张长得像 " 我的世界 " 里画出来的图。

这是特斯拉依靠纯视觉(车身 8 颗摄像头)输出的 3D 占据网络,目前大多数科技公司的思路都是通过激光雷达来扫描构建 3D 世界,但实际上特斯拉通过纯视觉做的占据网络比激光雷达还要厉害。

不要看它长得很粗糙,但位置信息的精度很高,而且每个物体都是含有语义信息的,这是激光雷达所无法实现的。

通过这样的视觉占据网络,特斯拉 FSD 才能真正地做到 " 感知万物 ",此前那种只有 " 白名单 " 物体才能被避让的时代将会被改变,下一版的 FSD 有望提升障碍物避让的泛化能力。

想要用纯视觉实现 3D 占据网络,最大的难题在于对海量数据的标注处理,虽然特斯拉依靠百万辆的搭载量,已经获取了数量庞大的数据集。

但是想要对这些数据集做像素级的语义标注,从而训练出占据网络,所需的成本非常高。很显然特斯拉已经解决了这个问题,事实上,特斯拉近些年的主要技术积累都在于如何高效处理数据。

FSD 的护城河:软硬结合的工程能力

马斯克曾在多个场合表示,特斯拉最厉害的是它的工程能力,而通过 此次 AI Day 上关于 FSD 的展示,我们确实感受到了工程能力着实是 FSD 的护城河。

首先是自动标注的工具链,目前特斯拉已经通过 " 特征触发器 " 获得了 50 万个视频片段,如果利用人工标注,而且是含有丰富语义信息的标注,整体的成本是不可行的。

特斯拉很早就放弃了业内惯用的 " 外包标注 ",自己组织了一个上千人的人工标注团队,而且还专门有一个团队负责研发自动化标注工具,硬件上,特斯拉还有 4000 个 GPU 组成的计算集群专门做自动标注。

此前 CVPR 上 AK 大神分享过特斯拉的自动标注,是用视觉生成的 3D 画面 + 时序信息做标注,然后再分别投影到不同机位的 2D 画面中,降低了标注成本。

目前主流的自监督学习都是通过激光雷达是视觉画面做彼此的监督学习,例如用激光雷达的信息做真值,训练视觉的深度估计,或者用视觉的 2D 画面训练激光雷达做语义分割等。

而特斯拉没有激光雷达,只有摄像头,这意味着主流的自监督学习它都行不通。这就像是,别人拿到的习题册尾页是有参考答案的,而特斯拉拿到的习题册没有参考答案,没有参考答案也就没办法倒推答案,没办法 " 自监督学习 "。

因此特斯拉具体是如何实现如此大数量级的精细标注,目前还不得而知,但难度之大也是可想而知的。

除了自监督训练,为了提升训练效率,特斯拉还自建了超算中心 Dojo,并为此自研了训练芯片 D1。按计划,特斯拉将在 2023 年 Q1 完成首批 10 个 Dojo 超级计算机机柜的部署,总算力超过 1.1EFLOPS 的 ExaPOD,自动化标注速度和模型训练速度都大幅提升。

自动驾驶科技公司自研芯片本身就是不可想象的,而特斯拉不仅先后自研了车端推理芯片 FSD Chip,又自研了训练芯片 D1 ,而且 D1 还使用了前沿的 " 晶圆封装技术 ",将 25 个 D1 芯片直接封装在一整个晶圆上面,实现了降本增效。

本次 AI Day 上,Dojo 团队公布了关于超算中心更多的技术细节,例如采用纵向的数据整个结构,提升计算效率的同时解决了电力负荷大以及发热问题。

自研了芯片,选择了独特的封装方案,还自己设计了整个超算中心的软件技术栈及硬件结构,那如此算力的超算中心,成本是不是兜不住?

.

并没有,特斯拉 Dojo 一个训练模组,算力是此前英伟达方案的 6 倍,成本还更低。而且特斯拉也表示,超算中心的运营成本非常高,会考虑向外出售云服务,而且据称服务的收费成本还低于亚马逊的云服务。

这波操作着实有点逆天了,这就相当于一个长跑冠军,顺便去踢个足球,还拿到了足球的世界杯冠军,关键是,他训练花的钱,还比专业足球队集训花的钱少很多。

既要又要还要的产品暴君

这次 AI Day 上,特斯拉还公布了决策的搜索网络,通过同步并行输出结果,并最终选择执行最优的控制参数。

这样的做法就要求计算要快,目前 FSD 每个操作的运行时间在 100 微秒以内,特斯拉接下来的需求是缩短这个时间,同时还要将舒适度等因素也加入到计算中。

据业内专家介绍,目前特斯拉 FSD 感知的推理运行频率在 36Hz,规控的推理运行频率在 30 到 50Hz,业内一般认为运行频率高于 30Hz 就算是实时运算了。

也就是说 FSD 已经能实现对 8 个相机输入的实时运算了,而这还是建立在 FSD 是使用 Transformer 的大模型,参数量是亿级的(目前国内主流模型的参数量是千万级)。

最最令人惊讶的是,这样的大模型,做出这么快的计算速度,还是落地在 2 颗 4 年前设计生产的 FSD Chip 芯片。

用 4 年前设计的芯片,都能把模型匹配得这么好,计算这么快(这么来看特斯拉确实短期内没有做 HW4.0 的紧迫性)。国内的老铁们,做不出来东西就不要怪芯片算力不够了。

模型参数越大,意味着规划出来的路线考虑的环境信息越充分,输出的车辆控制越平滑流畅,越接近人类老司机的开车表现。

而计算频率越高,就意味着车辆对环境变化的反应越及时。虽然现在都可以用算法来预测不同物体可能的运动轨迹,但预测毕竟是 " 算命 ",计算频率上去了,就能及时做出调整,将预测的误差降到最低。

带来的结果就是,能够减少误刹车和漏识别带来的风险,整体体验会更流畅。作为一个做事有逻辑的乐观主义者,他总是会提出一些不违背物理学基本定律,但听起来非常疯狂的设计需求,而且总能实现它,例如 SPEAX 的火箭回收。

记得之前在马斯克的传记中看到有人描述,在特斯拉,如果有人以 " 之前一直是这样做的 " 来回应马斯克的需求,那这个人一定会被开除。

特斯拉能不能有 " 中国故事 "?

不可否认的是,特斯拉确实很强,至少在智能驾驶领域,已经领先了国内车企和科技公司 1 到 2 个身位,但中国企业确实也没有必要沿着特斯拉的路去追赶它。

毫末智行在技术研发的风格上与特斯拉最为相近,在技术理念上也有非常多的相似之处,因此被称为中国版的特斯拉。

例如对比此次特斯拉 AI Day 和不久前的毫末 AI Day , 会发现两家公司都非常重视建立超算中心和训练算法,而且他们实现城市 NOA 的思路都一样,都是用 Transformer 将传感器输入转化成 环境建模,再基于导航地图的信息来做引导,走重感知轻地图路线。

在特斯拉 AI Day 之后,AutoLab 也独家采访了毫末智行技术副总裁艾锐,聊了聊对特斯拉此次公布的 FSD 相关技术方案的看法,以及毫末有哪些可以去借鉴学习的方向。

艾锐认为软硬件结合的工程能力,已经成为了特斯拉 FSD 的护城河,算法已经成为最没有门槛的部分,算法层面大家都能做到,都能复刻,但在效果层面无法实现 FSD 的能力。

这一方面是因为特斯拉已经率先拿到了海量的数据集,另一方面则是特斯拉凭借强大的工程能力,能够将这些数据发挥最大价值。" 大家还在说数据的时候,他们已经在说硬件能力了,目前很少有公司能做到 ",艾锐向 AutoLab 说道 。

目前毫末城市 NOH 也即将通过 WEY 牌摩卡 DHT-PHEV 激光雷达版车型推送,后续长城旗下还会有多款车型搭载毫末的高阶辅助驾驶系统。

背靠长城让毫末拥有了国内能最快获取到海量数据集的潜力,接下来毫末也将面临和特斯拉一样 " 甜蜜的烦恼 ",获取到了丰富的数据集还只是第一步,如果高效利用这些数据才是最有挑战,也是最能拉开智驾能力差异的一环。

目前毫末已经着手自建超算中心,也在自研自监督学习算法和数据处理工具链。在问及毫末是否会特斯拉一样自研训练芯片时,艾锐表示这个需要从性能和成本等因素综合来考虑,自研适配自己算法模型的芯片肯定是最好的,但定制化难度太大,需要和自己的能力和战略方向相匹配。

艾锐表示,要学习特斯拉的精神,但不能学习它的路,沿着它的路走,就只能追赶它,而且事实上和它走一样的路,也很难能追赶上特斯拉,毫末和中国的智能驾驶企业也都会选择一条适合自己的路。

包括毫末在内,中国的厂商在新的传感器架构中都不约而同的加入了激光雷达,相较于纯视觉,激光雷达能够更直接地输出可行驶区域,为辅助驾驶的路径规划供重要的 " 一票否决权 ",避免撞上障碍物。

此外有了激光雷达,点云的信息和摄像头的画面就可以互为真值了,这对做自监督学习提供了很大的帮助。这些都是毫末在探索的方向。

除此之外,毫末也创新性地借用 NLP 的方案来 " 翻译 " 人类司机的驾驶行为,将人类的驾驶行为公式化,数字化,例如去解答一次避让是因为什么?什么类型的场景下,需要做同样的避让?这种帮助机器学习人类驾驶规则的方案,能够在规控上极大提升算法的泛化能力。

虽然特斯拉走出了一条很成功的路,但这条路并不适合其他企业来模仿,我们需要的是一个像特斯拉一样探索更多可能性的技术标杆。

我知道你在看