当前位置 爱咖号首页 独家丨豪赌下一代智能驾驶,理想汽车封闭开发 VLA 模型

独家丨豪赌下一代智能驾驶,理想汽车封闭开发 VLA 模型

汽车像素 456浏览 2025-03-09 IP属地: 未知
理想 i8 将在今年 7 月发布,此后几个月中,理想多款 i 系列纯电车会密集上市。为了迎接它们,理想在准备两件事,一是大规模建设 5C 超充站,二是将智能驾驶的能力再提升一个高度。

文|曹琳
编辑|冒诗阳
汽车像素(ID:autopix)原创

01.理想急攻 VLA
我们独家了解到,理想已在不久前启动了封闭式开发,目标是到今年下半年,突破 VLA (视觉-语言-动作)智驾大模型的落地难关。
VLA 是今年智能驾驶的核心竞赛之一。目前理想汽车、吉利汽车和元戎启行是 VLA 的主要推动者,三家公司都希望成为率先落地 VLA 的一家。
VLA 的落地有其难度。除了模型本身的研发需要时间,硬件的限制无法逾越。现在市面上可采购到的芯片,性能基本都无法支持 VLA 的运行。供应商方案中,英伟达今年即将量产的 Thor 系列,有望能够解决这一问题。
在理想汽车内部,基于哪个芯片来开发未来产品智驾方案的硬件算力平台,曾经历数轮变化。理想最先启动的方案是基于英伟达 Thor-U 来开发,这也是元戎、吉利的方向,随后调整为基于自研芯片做开发。
我们独家了解到,去年底理想自研的芯片项目 “舒马赫” 流片失败,在那之后,虽然自研芯片的项目又重新上路,但理想暂停了基于自研芯片所做的算力平台开发,转而继续用英伟达的 Thor-U MAX 做开发。据时间线推断,现在理想封闭开发的 VLA 模型,大概率也是在英伟达 Thor-U MAX 的基础上做。
智能驾驶每年都会有一轮新的技术竞赛,一次又一次改变第一梯队的座次。2024 年的竞赛是端到端,理想的智能驾驶能力,也是在这一年中崭露头角。
去年 10 月底,理想汽车官宣全量推送端到端 +VLM 大模型,超过 30 万理想 AD MAX 版本车辆的车主,成为首批尝鲜者。11 月 28 日,同样基于端到端 +VLM,理想向 AD Max 版车主全量推送了车位到车位功能,成为行业首个全量推送这一功能的车企。
从实际效果来看,理想的端到端 +VLM 方案的确受到了较高的评价。一位来自主要竞争对手的智驾研发负责人告诉我们,理想全量推送后,该公司立刻找来了一辆测试车,让自家研发人员报名去体验。
但这套方案只是阶段性成果,端到端 +VLM 大模型并不能作为最终的解决方案。
所谓端到端智驾大模型,是指用人工智能模型来取代旧智驾方案中的感知、规划、控制三个模块。智能驾驶系统不再依赖工程师编写的规则工作,而是训练 AI 模型,让它学习人类司机的开车方式。这么做的好处是,智能驾驶的能力上限会更高,进步速度会更快,驾驶方式更接近人类。
但现阶段的大模型有其缺陷,比如决策不可解释,再比如有少量难以预知的场景无法处理等。为了解决种种问题,理想在端到端模型的基础上,增加了一个 VLM(视觉语言)模型。
端到端大模型是智能驾驶的专用模型,决策速度快,可以应对绝大多数的驾驶问题。VLM 是多模态模型,对图像和场景的理解能力更强。现在主流的智能驾驶方案,逐步过渡到以摄像头传递的图像信息为主,因此 VLM 能够提升整套智驾系统对复杂场景的理解能力,从而提升智能驾驶的精准度。
二者的组合可以理解为是,端到端大模型负责开车,VLM 提供意见,为少量复杂场景兜底。这种组合虽然弥补了端到端大模型的不足,却并不能作为智能驾驶的终极解决方案。

元戎启行制作的图解

理想的端到端和 VLM,仍然是相对独立的两个模型。VLM 模型虽然理解能力强,但推理速度慢,无法直接控制车辆,只能起到有限的作用。此外,VLM 模型通常需要本地部署,运行起来大约需要占用整整一颗 Orin-X 芯片的算力。
理想在去年二季度财报的后续会议上对外透露,公司内部已经启动了端到端 VLA 模型的研究。VLA 能够将此前的端到端、VLM 两个模型合二为一。也就是说,在新的模型中,多模态大模型不再作为辅助,而是内化为了端到端智驾大模型的一种能力。

02.智能驾驶接近决战时刻

理想并不是智能驾驶领域的先行者,当技术方向清晰后,理想迅速通过投入大算力和海量的数据,快速验证路径,追上了对手。这种路径适用于车辆保有量大、且驾驶数据可有效回传的车企。但随着时间的推进,落后者的机会窗口逐渐缩窄。
今年 2 月底,特斯拉 FSD V12 开始在国内小范围测试,鲶鱼来了。包括理想在内的一些车企,将 VLA 视作是智能驾驶未来的方向,甚至可能是接近最终解决方案的一套技术路径。
今年 3 月 3 日,吉利汽车整合了旗下大部分智能驾驶方案,发布了统一的 “千里浩瀚”,由低到高分别推出 H1、H3、H5、H7 和 H9 五套智驾方案,在高阶方案上率先落地 VLA,也是吉利的目标。此外,获得了长城汽车投资的智能驾驶方案商元戎启行,也计划在今年推出 VLA。
然而,VLA 的落地一直有问题没有解决,需要研发人员深度交融两个模型的数据,这十分考验研发团队对AI大模型框架的定义能力。
另一个限制在硬件,端到端与 VLM 融合后,车端模型参数会变得更大,同时新模型需要更高效的完成实时推理,理解复杂世界并给出建议,这些都对车端芯片有更高的要求。
现在多数车企高阶智驾的硬件方案,基本都是两颗 Orin-X 芯片,算力 508Tops,不足以支持 VLA。英伟达最新一代车载 AI 芯片 Thor 单片 AI 算力最高是 1000Tops,且性能上对大模型的有更好的支持。包括理想 i8、极氪 EX1E、领克 900 等在内,很多很多车企旗舰车的上市时间集中在了今年下半年。
VLA 并不是今年智驾唯一的赛场,另一个技术路线的代表是华为、小鹏,去年他们同样完成了端到端智驾方案的推送,时间点早于理想。
与理想的方案不同,华为、小鹏去年解决端到端大模型问题的方式,可以描述为 “分段”。以小鹏为例,其智驾模型由神经网络感知网络 XNet、规控大模型 XPlanner 和大语言模型 XBrain 三个部分组成,增加了大模型的可解释性和推理能力。华为、小鹏这条路径上的竞赛,是推进一段式端到端方案的研发。
无论哪一个赛场,头部玩家智驾技术水平的快速迭代,都会导致竞赛的节奏变快,落后的玩家只能面对越来越高的门槛,后发制人的可能性会逐渐变小。




本文为汽车像素(autopix)原创内容
未经授权,请勿转载
文章标签:
新能源
 
相关推荐
汽车像素 125粉丝    63作品 关注 记录智能电动时代的汽车产业潮水、公司兴衰、人潮涌动
推荐作者
苑叔聊车 关注
资深的汽车编辑,阅车无数,有关于选车的问题找我就没错了。
型车志 关注
通过独特的视角,创造有型、有趣的汽车评测视频和故事。
车大拿TV 关注
看车,选车,买车,玩车
明白说车 关注
明明白白了解车,轻轻松松驾驭车!明白说车,坚持原创!
开老表改车 关注
开老表,日常汽车改装工作分享:通风座椅、氛围灯、汽车音响等。
车宇世界 关注
车圈老干部,只做最客观的车评。
旅行体质 关注
我将持续更新我近几年在全世界各地旅行的见闻,有视频有图文!
全部爱咖号