当前位置 爱咖号首页 理想汽车发布下一代自动驾驶架构MindVLA

理想汽车发布下一代自动驾驶架构MindVLA

雷递智驾 243浏览 2025-03-18 IP属地: 未知

雷递智驾 乐天 3月18日

理想汽车自动驾驶技术研发负责人贾鹏今日在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术MindVLA的最新思考和进展。

贾鹏表示:“MindVLA是机器人大模型,它整合了空间智能、语言智能和行为智能,一旦跑通物理世界和数字世界结合的范式后,将有望赋能更多行业。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机,它能听得懂、看得见、找得到。我们希望MindVLA能为汽车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。”

理想汽车发布下一代自动驾驶架构MindVLA

基于端到端+VLM双系统架构的实践,及对前沿技术的敏锐洞察,理想自研VLA模型——MindVLA。VLA是机器人大模型的新范式,其将赋予自动驾驶的3D空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。

MindVLA不是简单地将端到端模型和VLM模型结合在一起,所有模块都是全新设计。3D空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组Action Token(动作词元),Action Token指的是对周围环境和自车驾驶行为的编码,并通过Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

MindVLA六大关键技术 树立新技术范式

理想汽车发布下一代自动驾驶架构MindVLA

MindVLA打破自动驾驶技术框架设计的传统模式,使用能够承载丰富语义,且具备出色多粒度、多尺度3D几何表达能力的3D高斯(3D Gaussian)这一优良的中间表征,充分利用海量数据进行自监督训练,提升下游任务性能。

理想从0开始设计和训练适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。基座模型训练过程中,理想加入大量3D数据,使模型具备3D空间理解和推理能力。

为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM基座模型获得3D空间智能的同时,还需要进一步提升逻辑推理能力。理想训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA实现了模型参数规模与实时推理性能之间的平衡。

MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。

同时Diffusion可以根据外部条件,例如风格指令,动态调整生成结果。

为了解决Diffusion模型效率低的问题,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。面对部分长尾场景,理想建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,提升安全下限。

MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,及未见视角预测能力,构建接近真实世界的仿真环境。源于世界模型的技术积累与充足计算资源的支撑,MindVLA实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。

理想汽车称,过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,提升了场景重建与生成的质量和效率,其中一项工作是将3D GS的训练速度提升至7倍以上。

MindVLA赋能汽车变为专职司机

MindVLA将为用户带来全新的产品形态和产品体验,有MindVLA赋能的汽车是听得懂、看得见、找得到的专职司机。“听得懂”是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。

“看得见”是指MindVLA具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆能够搜寻照片中的位置,并自动找到用户。

“找得到”意味着车辆可以自主地在地库、园区和公共道路上漫游,其中典型应用场景是用户在商场地库找不到车位时,可以跟车辆说:“去找个车位停好”,车辆就会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖MindVLA的空间理解和逻辑推理能力。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源

文章标签:
汽车历史
 
相关推荐
雷递智驾 0粉丝    22作品 关注 雷递智驾是雷递网旗下汽车产业及上下游产业链发展动态的垂直汽车领域账号。
推荐作者
汽车鉴闻 关注
汽车媒体技术编辑 汽车售前售后事儿,用车养车百家通
R视觉 关注
资深汽车摄影师、喜欢用视觉的角度来诠释一台车的魅力。
车轮哥 关注
记录老外在中国的汽车生活。
玩车的史萌 关注
喜欢车兄弟的跟我走
大内密探零零车1 关注
汽车媒体从业14年,记者,中汽联车手,爱卡十年工作经历,超卡
新车部落 关注
与新车部落一起玩转汽车行业!
SCC超跑俱乐部 关注
SCC超跑俱乐部
全部爱咖号