上海车展,世界模型+VLA,城区智驾进入下半场
作者 | 德新
编辑 | 王博
VLA上车进入倒计时
随着智能电动化的深入,汽车已经变成人们生活中最大号的消费电子产品。随之发生的是,每年的大型国际车展也不再是纯粹的汽车潮流的展示,也是尖端科技的秀场。
在上一周开幕的上海车展上,围绕智能辅助驾驶的先进技术也成为本届最重要的看点。华为、地平线、元戎等智驾公司都带来了新一代技术的展示发布。
在全民智驾普及的浪潮中,全行业正在探寻更加先进、更加安全、更加拟人的技术方案,以Thor为代表的下一代计算平台,以及以世界模型和VLA为代表的新技术架构,正推动我们逼近兑现更高等级智能驾驶的未来。
新架构:
城区辅助驾驶继续向上「捅破天」
本届车展上,智能辅助驾驶技术继续向前推进,特斯拉FSD入华是最直接的推动力;全民智驾对于更高安全性和更优体验的追求,是第二重压力;当然,最终目标是要实现高度自动驾驶。
在未来几个月即将到来的Thor,以及各家在云端计算资源的大规模投入,也解放了生产力,让大模型得以释放更多的潜力。因此尽管已经是智能化下半场,各家的新技术架构层出不穷。
世界模型和VLA是其中最典型的技术代表。
4月22日,华为发布ADS4,最大变化是引入WE-WA架构:WE代表云端世界引擎(World Engine),WA代表了车端的世界行为模型(World Action Model)。
世界引擎的核心能力是用AI生成困难场景,包括极端天气和罕见障碍物等,华为的世界引擎号称能够生成比真实世界密度高1000倍的困难场景,从而解决训练端的数据瓶颈。而世界行为模型,是一个原生多模态的车端大模型,通过视觉、听觉、触觉的输入,直接输出控车轨迹和环境理解。
小鹏汽车也在车展前夕MPV车型X9香港的上市发布会上透露,小鹏已经搭建了10 EFlops的万卡集群,正在训练一个720B参数的超大模型,并称之为「世界基座模型」;同时,基于世界基座模型蒸馏压缩将得到小模型XVLA,小鹏将会以「世界模型 + XVLA +图灵芯片」的方式布局下一代的智驾技术。
无论世界引擎也好,还是世界基座模型,都是来自云端算力和数据规模的突破。
而在车端,本年度典型的L2+智能辅助驾驶芯片将实现从单OrinX(254 Tops)到Thor U(700 Tops)数倍的性能提升,从而带来由当前端到端架构向VLA等更复杂先进架构的演进。
下一代车端模型,
为何走向了VLA?
2024年,从「数据驱动的感知 + 规则/小模型为主的决策规划」,向两段式端到端的变迁可以说是国内智能辅助驾驶圈内最重要的技术潮流。
然而这套范式运行到今天也呈现出非常明显的瓶颈。尤其是对比2月底特斯拉FSD入华之后,特斯拉FSD的安全、拟人程度与国内系统对比有层次领先。不少业界大佬如小鹏汽车CEO何小鹏、地平线副总裁苏箐、元戎启行CEO周光都公开认可了特斯拉FSD技术的先进性。
周光认为,特斯拉FSD V12到V13的进展,就是用了(更先进的)大模型,只是特斯拉再不召开AI Day以及披露其中的技术细节。
元戎启行和理想各自在GTC上公布其VLA模型的研发进展之后,在过去几个月里VLA逐渐成为业界主流玩家们的技术共识,至少在预研的层面。
目前除上述两家外,小米从Wayve招聘了一位主任科学家,专门负责带领VLA团队;国内Tier 1龙头德赛西威的自研智驾团队也在探索VLA;以及小鹏提到的车端模型XVLA,很显然也是一种衍生的VLA模型。
VLA最早是由Google DeepMind在2023年7月提出的用于机器人控制的模型,其以大语言模型为基础,模型在接收摄像头的原始数据和语言指令后,可以直接输出控制信号,完成各种复杂的操作。那为什么现在主流自动驾驶玩家不少都选择VLA?
周光在车展上谈到VLA的几点好处,从模型开发的角度,语言对于模型的「对齐」操作是非常友好的,语言天然是在AI开发中的重要手段;语言同时也是用户对系统建立信任和安全感非常好的手段。
VLA能带来什么样实际体验的好处?元戎认为:
应用VLA之后,系统能够习得特殊车道的驾驶方式;
拥有更长时序的理解能力,不犯基础错误,更擅长处理复杂路况;
也能像人一样的方式思考,有学习和自我优化的能力。
我们在车展期间也体验了元戎最新的软件版本,其针对大量密集的VRU有相当稳定的感知和博弈能力;此前在广州密集的城区,其针对环岛、衔接路等复杂道路结构的识别处理能力,也让人印象深刻。
在车端模型的演进上,之前理想的「端到端+VLM」架构在双OrinX平台遇到的典型问题是,VLM的运行帧率较低,只有几赫兹,难以达到自动驾驶所需的实时性要求;而Thor将带来模型规模和运行帧率的提升。
理想在OrinX上部署的VLM模型参数规模大概在2B左右;而据业内Tier 1 联想车计算在本届车展上透露,目前他们已经在Thor上(只用了一部分算力)就实现了130B模型的部署。相信Thor的到来,将帮助智驾科技公司释放VLA等复杂模型的潜力。
为了加速VLA的开发,元戎在本届车展期间也与火山引擎签署了深度合作,以获得大规模云端算力的支持。
智驾走向L5,要先成为通才
从前融合到无图再到端到端,作为一家拥有强AI背景的智驾科技公司,元戎有多次成功预言重要技术变革的历史战绩;这一次,他们似乎再次引领了业界的技术潮流。
与此同时,元戎今年提出了RoadAGI战略——寻求在汽车之外,打造具备通用移动能力的技术方案,比如用在移动机器人、无人配送小车等。
为什么在这个时点开始做RoadAGI?
周光认为,这一趋势与大语言模型的发展类似,从大语言模型的经验看,模型要先走过通才阶段,才能实现达到专才阶段,「直到 ChatGPT 出来后,大语言模型才变成了一个通才,但它最初是一个大专水平的通才。这之后,随着在推理、数学等垂直能力上的强化,它变成了一个博士级的专才;再下一步是博士级通才。」
元戎在VLA的研发初具成果后,进一步开启了RoadAGI战略,计划打造移动领域的通才模型。
周光打了一个比方,「如果这个通才模型能在自行车、摩托车等不同移动终端上都做到 1000 公里接管一次,这个系统再回去开车,就有可能做到 10 万公里接管一次。」
实际上,今天业界主流的城区辅助驾驶系统接管指标还未能达到百公里级别;如果VLA和RoadAGI,能带来这样数量级的技术突破,其创造的价值将是巨大的。