特斯拉放大招,自动驾驶的GPT时刻就要来了?

今年的特斯拉,真是有点儿流年不利的感觉。

自从开年以来,其业绩就一直不太给力,第一季度的表现实在“惨不忍睹”,车辆交付量才38.68万辆,这可是自2022年第三季度以来头一回落到40万辆以下,同比也是下滑了9%。

更夸张的是特斯拉的股价,已经从23年中最高点的超过293美元,跌到了现在的147美元,直接腰斩。

特斯拉在2023年败给了比亚迪,失去了全球电动车企头把交椅,今年中国车企的降价和车型迭代节奏之快,完全不给它任何喘息的机会。2024年的特斯拉就如同开局红蓝buff都被反了的打野,下滑趋势根本看不到任何尽头。

于是乎,龙哥终于放出了最后的大招,宣布在8月8日推出那个大家期待已久的无人驾驶出租车Robotaxi

500

这样的动作,无疑加大了业界对“自动驾驶”的想象。

而从特斯拉今年的表现来看,龙哥也似乎一直在有意推动着自动驾驶“GPT时刻”的到来。

就拿特斯拉最近更新的FSD V12.3版本来说,这个版本的平均无接管里程大幅提升,从100多英里一下子提升到了386.7英里,等于说你从北京开到青岛,或者从上海开到合肥,中间都不用接手。并且,马斯克要求在试驾中强制加入智驾体验环节,甚至还宣布美国所有特斯拉适用车型免费试用FSD一个月

这些动作,无疑都是在为自动驾驶技术的普及和推广做铺垫。

500

而除了特斯拉之外,华为这样的中国大厂,近期也在自动驾驶方面动作频频。

就在今年大年初三那天,余大嘴在朋友圈晒出了自己从安徽老家一路自驾回深圳的过程,开的是华为的问界M9。这趟行程全程1314公里,得开15个小时。

这一路上,华为智驾的表现那是相当给力,全程基本上都靠车辆自己搞定,人工接管那是到了高速收费站才用得上。

500

自从去年AI大模型兴起后,自动驾驶就像是打了一针强心剂,整个行业都活跃了起来。

除了特斯拉的FSD,国内的毫末智行和长城汽车共同开发自驾大模型DriveGPT,也走上了“自动标注数据”、“用模型生成罕见场景”的路子,同时把对于模糊车道线的识别能力提升到了90%以上。

那么,这一系列新气象,是否说明自动驾驶的“GPT时刻”真的要来了?

安全之槛

特斯拉的FSD(完全自动驾驶系统)虽然放出了要在8月正式运营的风声,想要在市场上走得更远,首先得过“安全”这道坎儿。

根据美国国家公路交通安全管理局(NHTSA)的数据:

自2019年以来,美国涉及特斯拉自动辅助驾驶模式有关的车祸事故,达到736起,这些意外车祸导致了17人死亡。

500

虽然相较于美国每年超过四万人因为交通事故丧生来说,特斯拉辅助驾驶的事故数看起来微不足道,但民众向来对于自动驾驶有着相比人类驾驶和辅助驾驶,更严苛得多的安全要求。

就拿已经在美国部分地区开展自动驾驶出租车业务的Waymo和Cruise为例。

根据加利福尼亚机动车辆部门的记录,从2022年开始,Cruise报告的68起碰撞中,有14起涉及到了伤害。

其中最严重也是最让人耳熟能详的,莫过于去年10月,一名女性行人在旧金山市区街道上,被一辆人类驾驶的轿车撞到了Cruise无人驾驶出租车面前,这时候Cruise的AI出现了明显的误判,先是没有识别出前面躺了一个人,直接碾压了这位女士,然后又误认为碾压的颠簸来自于车辆侧面碰撞,于是选择了靠边停车,把这位女士拖着开了6米。

500

而正是这起事件,导致了Cruise的无人车被停运至今。

同样地,在今年2月初,Waymo旗下一辆Robotaxi撞上了骑自行车的人,造成轻伤,由于Waymo和Cruise并称北美自动驾驶两大巨头,在Cruise拖曳行人事件后,此事无疑是火上浇油,加大了公众对自动驾驶的成见。

在这样滤镜下,自动驾驶的车辆在部分民众眼里几乎成了一种“邪物”,今年2月春节期间,在旧金山唐人街,一群青少年打砸并烧毁了一辆Waymo无人驾驶汽车。

500

这样的情况,不禁让人在心中犯起了嘀咕,那就是:自动驾驶发展到今天,已经足够安全了吗?值得让人类交出控制方向盘的权力了吗?

要回答这个问题,就不能光看表面的事故,而要细究这些事故背后,相应的自动驾驶车辆使用的是哪种技术。

以去年拖曳行人的Cruise为例,虽然它跟Waymo同为自动驾驶巨头,但二者具体的技术,实则是两种不同的流派。

Waymo这一流派的做法,相当于一个拉力赛车手,在赛前先把赛道的路况、景物什么的通过各种传感器(摄像头、雷达等)收集并绘制成一张精细到每个路口、每栋建筑的“路线图”。然后在真正开车时,通过不断对照这张大地图,提前预判接下来可能遇到的情况。

这里姑且称其为“规划派”。

500

而以Cruise为代表的流派,就随性多了,直接将车扔到马路上去“闯荡”。他们不指望提前给车加入什么路线图、规则,而是让它自个儿在街头巷尾到处乱窜,不管遇到什么情况都靠车自己的算法和逻辑去应付。在实战中积累数据,最终的目标,就是让车成为一个随机应变的神行太保。

因此这一派也可以称为“实时派”。

从驾驶风格来说,Cruise的流派更接近于“真人”的水平,但难度也更大。而Waymo的办法虽然安全、稳妥,但它在推广中有一个致命的问题。

500

因为要依赖于高精度地图,所以Waymo这种流派,往往只有在那些事先详细映射了地图和路线的地区,才能有较好的表现。想象一下,你下班打一个出租车,但它的覆盖范围不到你家,于是只能把你送到最近的地铁站。。。

再有就是,万一开着车,路上遇到点突发情况,例如临时交通管制或非典型事件(如大规模集会)什么的,Waymo这类“规划派”,可能就有点懵逼了。

FSD的优势

上述的两种流派,在当今的自动驾驶领域颇具代表性。

例如百度的Apollo项目,走的就是“规划派”的路子,在高精度地图创建、多传感器融合方面比较突出。

而类似特斯拉的FSD、华为的ADS、蔚来的NOP(导航辅助驾驶)技术,则更倾向于“实时派”,强调在复杂的城市环境中进行快速迭代,以增强在各种道路上的表现。

想让车辆变得更像“真人”,具有更强的实时应变力,这本来是一个正确的方向,但Cruise这样的车企,除了在数据规模、软硬件整合方面与特斯拉存在较大差距外,其在技术上与后者的一个关键区分点,就在于是否采取了端到端的,感知决策一体化的路线。

500

所谓端到端,简而言之,指的就是车辆的感知和决策过程,是通过一个单一的神经网络模型来实现的。

打个比方来说,传统的自动驾驶,就跟一个老师傅带着几个徒弟在厨房里做菜一样。每个人分工明确,有专门的切菜的(感知),有专门的炒锅的(规划),有专门的调味的(决策)。谁要是掉了链子,错误就会一环接着一环传下去,整锅菜就全完了。

可端到端的自动驾驶方案就不一样了,跟有了一个中央厨房似的。一台“炒菜机器人”将上述步骤全都包办了。它自个儿能看着食材(感知),想着要做什么菜(决策),一气呵成,从头到尾一条龙服务。

500

上为传统方案,下为端到端方案

过去因为单个AI模型的能力不够强,车企不得不采用前者那种多个网络拼接的方案,中间插入大量人类写定程序进行判断,比如在Cruise在旧金山拖行女性行人的事故中,就可能有类似“如果(if)检测到某某震动,则(then)靠边停车”的指令,也就是由两个小模型分别执行路况识别和找地方停车,由人类程序员来做中间的逻辑判断。

但问题是,人类写死的程序必然会遗漏大量的特殊情况(corner case),就比如一个人突然躺到你车前面了这谁能想到?AI神经网络最大的优势就在于复杂的高维度的判断分类,人类这一越俎代庖的行为势必无法匹配AI的能力,从而导致事故可能性的增加。

而随着大模型的出现,我们终于可以用一个模型来完成自动驾驶的整个过程,最大程度上减少写死的程序,比如最新版的特斯拉FSD把原本的30多万条代码降低到了2000条,从而最大限度降低错误和事故的可能性。

但是,这端到端技术虽然听上去不复杂,但真正能做到的车企,目前仍然是凤毛麟角。这主要是因为,很多车企都没有特斯拉这样得天独厚的条件。

首先,要想让端到端的“大脑”(神经网络)足够可靠,就得先解决数据的质量和多样性问题。

这就相当于,要想车辆像老司机那样,眼睛看到啥,大脑立刻做出反应,那前提就得是这个司机的经验得足够丰富,走过的路要够多。

在这一点上,特斯拉有个庞大的车队在全球各地跑,实时收集数据。这车一卖出去,就成了数据收集器。就目前来看,特斯拉在全球交付了450万辆车,行驶里程超过了50亿公里(2021年),别的车企哪去收集这么多实时数据?

500

而除了经验要够丰富外,这个老司机的“脑子”,也就是FSD背后的硬件系统,也要足够好使,才能让FSD快速地从各种数据中进行学习。

在这方面,特斯拉还自己开发了一套叫做“Dojo”的超级计算机系统,专门用来处理和训练他们海量的驾驶数据。

Dojo的核心单元是由特斯拉自主研发的神经网络训练D1芯片,采用了7纳米工艺制程,拥有500亿个晶体管和354个训练节点。每个Dojo由25颗D1芯片组成,可以提供高达36TB/s的带宽和9PetaFLOPS(9千万亿次)的算力。

500

这使得特斯拉能在很短的时间内训练其神经网络,处理从全球数百万特斯拉车辆收集来的数据。

以上两点,是特斯拉敢于在全球大车企当中第一个发布自动驾驶出租车的底气所在。

端到端时代

虽然追赶特斯拉的FSD是一个不小的挑战,但国内的诸多厂商,都已然开始了类似端到端路线的尝试,可以说,自从FSD问世后,端到端的,感知决策一体化的“实时派”路线,已经成了自动驾驶的一种“大势”。

例如,传统老牌车企转型的代表——长城汽车,在今年4月份的一次直播中,就展示了其无图NOA(导航辅助驾驶:Navigate on Autopilot)的实战表现。

500

在直播中,面对保定狭窄、混乱,突发情况较多的路况,长城的全程智驾系统零失误,没有紧急退出或降级,完成了各种博弈、绕行、避让动作。

而在端到端这一大的方向下,国内的一些车企也开始尝试用纯视觉方案,而不是原先的激光雷达配合视觉方案,来实现自动驾驶了。

因为很多人认为,虽然激光雷达可以提供更加准的距离数据,但是在AI大模型的加持下,一旦便宜的纯视觉方案也能实现近乎完美的自动驾驶,昂贵的激光雷达就会显得多余。

例如,国内的极越在今年的一月份,也展示了自身基于纯视觉+OCC占用网络方案的辅助智驶技术。

这是当时除了特斯拉之外,全球“唯二”的纯视觉智驶方案。

与特斯拉的纯视觉方案类似,极越的纯视觉技术,主要依赖于摄像头采集的视觉图像数据,并通过基于Transformer的BEV(Bird's Eye View,鸟瞰图)进行特征提取,从而获得当前场景中各个目标的信息。

500

另外,极越还采用了跟特斯拉类似的OCC(Occupancy Network,占用网络)技术。

OCC占用网络的思路很朴实无华,把车周围的空间用格子地划分开,然后让感知系统去盯着,哪个格子被啥玩意占了就标记一下。

这种方案的好处,就是不再非得识别出那玩意具体是啥,只要知道自个的路线是不是被堵住了就行。比如前面那格子被个垃圾桶占了,后面那几格子正常,那它就自动绕过去,简单高效。

500

而OCC网络当初的主要目的,就是想替代掉激光雷达那些复杂的测距定位功能。

最有意思的是华为,在自己的亲儿子,起售价47万问界M9上,只搭载了一个激光雷达,而在干儿子,起售价30万的阿维塔11上,搭载了3个激光雷达。

共享经济的“救命稻草”

除了上述提到的长城、极越外,今年还有不少国内车企打算在端到端这条赛道上发力。

例如,小鹏要就计划在2024年内,在全国范围内实现基于端到端模型的智能驾驶,在核心城区的智能驾驶体验上,要对标谷歌旗下自动驾驶公司Waymo;

500

理想也奋起跟进,整合了BEV(鸟瞰图)大模型、MPC(Model Predictive Control,模型预测控制)以及时空联合规划等能力。

同样地,毫末智行也发布了自动驾驶生成式大模型DriveGPT,可以通过将图文和文图的交叉特征做匹配,再将其放到大语言模型中,针对形成于特征空间的搜索(query)特征。

500

总体来说,自动驾驶已经成为了接下里电动车的大势,而端到端又是这大势中的一股主流。

倘若将来端到端自动驾驶,真的带来了颠覆性体验,那其对现在愈发内卷的新能源车市场而言,无异于一剂及时的“解药”。

首先如果开车、停车、找车位,这些费力的操作都几乎不需要人进行了,那用车的体验会变成非常舒服,会有更多的人想要去买车、用车。

更重要的是,省去了“司机”之后,基于无人汽车的共享经济,就大有可为了。

500

因为现在很多人的私家车,实际上都太“闲”了,白天上班的时候,车子就这么虚空放那干等,晚上回家了顶多也就跑一个多钟头,剩下时间又继续放空,这平白无故浪费了大把时光,多可惜!

但自动驾驶可就不同了,这玩意儿就是生来就是为共享而活的。你一开完就放它自个儿去跑,别人预约的时候,它自个儿就能飞奔过去接人。

到了那时,Robotaxi 便可以依靠更高的效率打败目前的出行平台,获得更大的利润空间。

如此一来,共享出行这个新生事物,有可能被 AI +自动驾驶再次颠覆。

500

更重要的是,通过“共享无人车”这种新的体验,过去那些犹豫着要不要买,或者买不起的客户,也得到了一次体验自动驾驶的机会。

而这种新奇的体验带来的正向效应,也将有可能提高智能电动车的市场接受度,从而引领一波新的销量。

这也是马斯克的 Robotaxi 打的如意算盘。

500

毕竟,对最近股价跌成狗的特斯拉来说,继续去卷设计卷配置卷续航卷车型迭代的速度,与中国车企竞争看不到任何的机会。

500

只有通过Robotaxi重新定义智能电动车,特斯拉才有机会夺回优势地位,这也是龙哥为什么那么着急宣布Robotaxi发布时间点的原因。

但Robotaxi带来的机会是客观存在的,它并不独宠特斯拉一家。

国内车企有没有可能在自动驾驶领域后来居上,进一步扩大在新能源汽车产业上的优势呢?

技术合力和另辟蹊径

从技术层面上来看,国内车企要想追赶特斯拉的FSD,难点不仅仅在于数据和算力的“量”方面,更重要的,是如何形成一套从数据采集、处理,到算法研发、软硬件整合的闭环系统

500

传感器、摄像头,以及车载计算芯片,就像是自动驾驶汽车的五官和大脑,负责看、听、感知周围的一切;而软件则是神经系统,负责制定出行驶策略,指挥车辆如何行动。

现在,你说能不能分开来,硬件找一家,软件找另一家,像搭积木那样组合起来?理论上是可以,但实际操作中,如果硬件和软件不是深度集成设计,无法同步迭代更新,就无法发挥最高的效率。

500

所以想和特斯拉一决高下,国内车企就得从系统工程的高度,在数据、算法、硬件都打造出完备的闭环能力,而不是孤军奋战,只专注某一个节点。

幸运的是,中国目前还真存在一些具有这类“闭环基因”的企业。

例如华为就是其中之一。

拥有高质量、大规模的真实驾驶数据,是推动端到端模型性能提升的关键,而能否建立起数据采集、处理、标注、模型训练的完整闭环,则尤为重要。

首先在数据集方面,要想赶上特斯拉数百万辆车的数据,在真实世界里慢慢收集是没指望了,所以华为想了一个狠活——通过大模型,缩短自动驾驶学习周期。

500

这一突破,得益于盘古大模型在数字孪生空间生成复杂的场景样本。

所谓数字孪生,就是在电脑里构建一个虚拟的平行世界,能高度还原现实世界里的各种环境和情况。而华为就用自己搞出来的盘古大模型,在这个数字空间里创造出五花八门的路况场景,为自动驾驶系统提供大量标注好的训练数据。

这样的路子,在国内车企中可谓独树一帜。

500

具体来说,华为的自动驾驶系统ADS2.0,学习训练算力达2.8E FLOPS(每秒百亿次浮点运算),在AI训练集群上每天进行1200万+公里的仿真测试。

在此情况下,ADS2.0用海量的数据,实现了算法和场景策略的持续迭代和优化,模型更新速度每5天完成一次。每一辆搭载ADS 2.0的问界汽车,都能享受到AI持续学习的成果。

500

这点和特斯拉通过OTA升级,加强软硬件融合的情况十分类似。

这样的发展路径,似乎表明了,大模型与自动驾驶的融合,对国内车企而言,既是一种挑战,也是一种机遇。

大模型的出现,让自动驾驶进入了一种更像“人”的阶段,也就是通过大量数据的学习,能够泛化出举一反三的能力,在没有见过的场景,或是罕见状况时,也能通过触类旁通的方式随机应变,而不是根据事先预设的代码和规则,笨拙地根据一个个路况“查缺补漏”。

在这个阶段,大模型与汽车的结合才刚刚开始,而最不可思议的创新,往往正是发生在技术融合的初始阶段。

全部专栏