理想“端到端+VLM”全量推送,把智驾又卷上了新高度
作者 | 德新
编辑 | 王博
上周,理想汽车官宣了一则重磅消息:全新一代双系统智能驾驶解决方案「端到端+VLM」,全量推送。
在智驾技术日新月异,各种版本的早鸟测试层出不穷的当下,「全量推送」4个字,显得弥足珍贵,尤其是这个消息紧接着理想第100万台交付。
这标志着理想汽⻋的智能驾驶,率先进入AI大模型时代,也意味着大规模的车主(超过30万台AD MAX车辆),用上了这个时代最前沿的技术。
端到端的系统,核心是基于优质驾驶数据和大模型,让机器学习像人一样思考、开车。
迈入「端到端+VLM」的阶段之后,理想智驾的场景覆盖率、舒适度和通行效率都有跃级式的提升。
按照30多万的车主规模来计算,这应该也是目前国内规模最大的向用户开放的端到端智驾版本。
理想这次全量推送的版本,基于整车OTA 6.4,智驾软件版本则是E2E-VLM V4.8.6。版本号中的第一个4,代表了是基于400万 clips 视频数据训练的版本。
Elon Musk曾经谈到数据规模对于端到端自动驾驶表现的影响:「用100万个视频训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊艳);到了1000万个,就变得难以置信了。」
而这次推送的400万Clips的版本,刚好跨过了Musk口中所说的令人惊艳的节点。
理想汽车从7月5日发布了第一个「端到端+VLM」的版本,7月30日开启千人内测,8月底开启万人公测。李想曾经在演讲中披露,「最快今年,最慢明年上半年」开启全量推送。
实际上,这次全量推送的日期甚至提前了不少。
这某种程度上也说明,「端到端+VLM」这套方法的能力增长超过预期。
理想汽车智能驾驶研发副总裁郎咸朋曾经说,「表面上端到端是一个大模型替代几个小的模型,实际上它是一个分水岭。从端到端开始,真正标志着用人工智能的方法来做自动驾驶。」
行业首创架构,
「端到端 + VLM」的迭代速度
伴随着「端到端+VLM」的全量推送,理想也公布了一些数据阐述这个新系统进化的速度:比如,从7月5日发布最早的鸟蛋版本开始,理想智驾团队做了30个研发版本的模型迭代。
将近3个半月时间,有30个研发版本迭代,意味着几乎每3天就有一个新版本。
而理想的千人内测和万人公测,采用了AB测试的方法,「模型架构优化」与「更多数据训练」同步进行。
(譬如在100万Clips规模的版本1.1.x版本上迭代1.2.x和2.1.x),同时探索模型架构和数据量增长带来的效果提升。
从实际运行效果来看,理想智驾系统的MPI(平均接管里程)得到了大幅提升,期间用户平均接管里程翻了2.5倍。
理想曾经公布过E2E-VLM 1.0的MPI大概在12公里左右,也就说现在的平均MPI提升到了接近30公里。
目前,理想可用于智驾训练的用户里程数已经超过25亿公里,这个数字到年底将增长到30亿公里;当前有5.39 EFlops的云端训练算力储备,到年底将达到8 EFlops。
这些数据都说明了,目前这套系统的迭代速度和能力增长非常快,并且后续提升的空间依然非常巨大。
高速迭代的智能驾驶也给理想卖车带来了直接的收益:
自5月门店试驾车升级无图NOA功能以来,NOA试驾率翻倍增长;
AD Max定单比例也显著增长;
10月,30万元以上车型AD Max定单占比达到70%。
理想最新智驾,实际体验如何?
在过去几个月里,HiEV大蒜粒车研所的编辑也分别体验了理想「端到端 +VLM」的多个版本,包括8月初的E2E-VLM 1.0,以及10月的4.8.6和5.1。
从最初在北京顺义理想总部附近的路线体验,当时端到端还是初出茅庐,偶有惊喜。
到后续,在海南、上海以及江苏驾驶,可以说现版本的E2E-VLM已经能够应对日常城市驾驶中的绝大部分场景,单次行程的NOA覆盖率基本上能达到90%以上,甚至95%以上。
总体来说,「端到端+VLM」最直观的感受是:
它对于时机和速度的控制变得更加精准;
规划路径的灵活性非常高,不机械;
横纵向的控制更加丝滑。
这尤其体现在一些复杂大路口和博弈场景:
大路口左拐的路径更加合理,并且会根据车流选择通过的时机和路线;
路边右侧有停车时,即使在后方有车流的情况下,绕行的提前量和时机非常灵活,窄路下甚至会稍稍借用对向车道绕行;
甚至高速场景下也有变化,比如下匝道时,不再按之前固定2公里提前向外变道,而是很灵活地选择通行效率更高的点位。
理想独有的系统2 VLM,在整个体验中,感受也很明显:
在通过高速收费站时,是利用VLM来识别收费站的环境,选择ETC车道通过,并且能识别闸机抬杆;
识别丁字路口时,对后方来车会放慢速度,选择通过的时机;
路过学校路段,也会有主动提醒。
这版的车机界面,也非常克制。
因为城区内场景非常密集,要同时兼顾及时准确地告诉用户当前的系统状态,也要避免对用户过多不必要的打扰。
超过30万用户,理想的端到端如何做到「又快又多」?
目前在国内,仅有理想、华为、小鹏三家推送了端到端的智驾方案。
十一期间,华为公布其ADS的用户总量约为27.8万。搭载了端到端智驾的ADS 3.0首批推送给了享界S9、阿维塔12,并陆续向问界M9/7/5开放;小鹏则是从AI天玑5.2.0版本开始搭载端到端智驾,其支持城市NOA的车型主要是P7i/G6/G9/X9的Max版本。
所以按照用户规模来讲,超过30万用户的理想ADMax,应该是目前国内用户推送量最大的端到端智驾系统。
这次端到端推送量大管饱,迭代速度又快,理想一方面非常得益于高度平台化的车型设计。
L9/8/7/6乃至MEGA的智能驾驶系统共用同一套软硬件,从智驾版型来说,理想只有AD Pro和AD Max两个版型,集中力量办大事,这大幅提升了新系统的开发效率。
不同于特斯拉一体化大模型的思路,理想的双系统是一个开创性的方案:
端到端模型是一个实时的系统1,参数规模在3亿左右;
VLM模型运行帧率在3 - 4赫兹,是一个准实时的系统,参数规模在22亿上下。
这套设计,也解决了当前车端算力有限条件下,兼顾了「高上限」和「安全兜底」的难题。
按照理想此前的预估,在1000万级Clips的节点上,其有可能将MPI进一步提升至百公里级的水平。
在更长的周期内,理想汽车的2030愿景是成为全球领先的人工智能企业,其中智能驾驶将是最核心的方向之一。