理想汽车的「司机大模型」到底是什么？我们试着听懂了

42号车库 430浏览 2025-05-08 IP属地: 未知

时隔 130 天，理想 AI Talk 昨晚正式回归。面对张小珺的犀利提问，理想汽车创始人、董事长兼 CEO 李想传递出了两大核心内容，第一是详解即将落地的 VLA 大模型到底是什么，第二是谈了谈李想创业的最新思考。

实际上，在 2024 年底的 AI Talk 中，李想已经宣布，理想不是汽车企业，是人工智能企业。在过去几个月时间里，DeepSeek 火遍全球，机器人行业迎来前所未有的热度。定位为人工智能企业的理想汽车，最近几个月的核心成果就是 VLA （视觉-语言-动作）大模型。

最新公布的视频显示，基于 VLA 模型的辅助驾驶系统，驾驶员可以用语音操控车辆，包括走收费站的人工通道、掉头、靠边停车、停在停车场的 C3 区域等等，这都是辅助驾驶从未有过的体验。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

李想说：「VLA 能够解决到全自动驾驶，甚至有机会能够超越人类。」

不过，如今辅助驾驶正处于一个新的十字路口，甚至业内有辅助驾驶应该被叫停的声音。但李想却认为，这就像是黎明前的黑暗，理想就是要去解决行业解决不了的问题，就像是增程解决充电难、电池成本高的问题，5C 解决充电慢、等待时间长的问题一样。

只不过，理想和业内头部的几家企业相同，走进了还无人能做到量产的「无人区」，按李想的话来说：「DeepSeek 没走过，OpenAI 没走过，谷歌、Waymo 也没走过。」

理想汽车的「司机大模型」到底是什么？我们试着听懂了

那么 VLA 究竟是什么，理想为什么会做 VLA，这项技术如何落地，在昨晚的 AI Talk 中，李想作出了非常详细的解读。从本期 AI Talk 中，我们也能清楚地看到理想汽车如何从辅助驾驶的追随者逆袭成为领先者的。

VLA 拉高辅助驾驶能力上限

今年 3 月，理想汽车在 NVIDIA GTC 2025 大会上推出了新一代自动驾驶技术——MindVLA 大模型。当时理想发布了三个视频展示了 MindVLA 的三大功能：

用语音说找星巴克，车辆可以自己去找，期间还能用语音控制车辆的速度和左转右转方向。

在地面拍照给 MindVLA，车辆从地库出发，自主通过闸机，利用视觉感知判断接人的地点，甚至车主直接坐上了副驾驶座。

地下车库让 MindVLA 漫游，自主找车位，如果遇到「死胡同」，还能自己倒车。

昨晚的 AI Talk 第二季上，李想再度放出了 VLA 模型的另外几项功能，在辅助驾驶状态下，驾驶员说出的驾驶指令，车辆全都能很好地执行。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

当真正体验到这些功能的时候，李想本人并没有觉得是个 Aha Moment（惊喜时刻），反倒觉得辅助驾驶很像人，这是个正常的表现。但我相信，我们作为普通用户第一次看到 VLA 的测试视频的时候，还是会惊讶于它的表现。

很明显，VLA 能够再度拉高辅助驾驶的能力上限。与此同时，VLA 也已被认为是 2025 年辅助驾驶发展的标志性技术突破。

VLA 的突破有多大，李想将辅助驾驶拆解成了三个发展阶段，用自然界中不同的物种进行了形象的比喻：

第一阶段，昆虫动物智能。对应规则算法 + 高精地图的辅助驾驶时代，类似蚂蚁的行动和完成任务的方式。

第二阶段，哺乳动物智能。也就是端到端 + VLM 时代。大模型学习人类的驾驶行为（类似马戏团的动物），但对物理世界的理解并不充分，难以解决从未遇到过的问题。VLM 也只能起到辅助作用。

第三阶段，人类智能。VLA 阶段可以实现类似人类观察世界的方式，同时 VLA 拥有自己的脑系统，进一步理解物理世界，还具备语言和思维链系统，也就是 VLA 的司机大模型。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

从目前的「端到端 + VLM」双模型，到 VLA 将空间智能、语言智能、行为智能统一到一个模型中，VLA 究竟是什么，它仅仅是把端到端和 VLM 合二为一了吗？

李想认为，在辅助驾驶领域， VLA 是一个司机大模型，是个像人类的司机一样去工作的一个模型。对于用户来说，VLA 的目标就是成为「司机 Agent（智能体）」，正如此前视频中展示的，车辆成为能与用户沟通、理解用户意图的智能体。

从技术上来讲，VLA 相对此前的端到端 + VLM 架构，所有模块都通过了全新的设计。其中，3D 空间编码器通过语言模型，和逻辑推理结合在一起后，给出合理的驾驶决策，并输出一组 action token（动作词元）。这个 action token 指的是对周围环境和自车驾驶行为的编码，并通过 diffusion（扩散模型）进一步优化出最佳的驾驶轨迹，整个推理过程都要发生在车端，并且要做到实时运行。

有了 VLA 的技术路径，接下来就是量产落地。李想谈到：「DeepSeek 一开源，我们就加速了 9 个月的时间（做出 VLA）。」

而李想原本的计划，是在今年年底做出一个满足需求的 VLA 模型。

李想回忆，去年 9 月，ChatGPT o1 发布的前几天，他曾经和 DeepSeek 创始人梁文锋有过一次谈话。一方面，他认为梁文锋非常自律，另一方面，梁文锋是一个会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。

也正是 DeepSeek 给理想汽车带来的巨大收益和帮助，让李想决定开源整车操作系统星环 OS。「说白了，纯粹是感谢 DeepSeek。」李想说道。

理想走的是无人区

今年 2 月 5 日，春节假期后的第一个工作日，李想汽车内部开了一个 AI 相关的例会。李想当时在会上说道，DeepSeek 更像是 Linux 的推出，而理想则是要去追逐「安卓」时刻。

李想希望，理想汽车的 VLA 模型就是要把 vision（视觉）做强，把 action（动作）也做好，同时借助 language（语言）。在整个汽车/交通领域中，VLA 是个更重要的大模型，这就是理想的机会所在。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

李想的策略是，一方面拥抱 DeepSeek，另一方面也要做自己的基座模型。这是因为在训练 VLA 的过程中，辅助驾驶所需的 vision、language 和其他行业都不相同，同时要把 V 和 L 组合在一起。这无论是对于 OpenAI 还是 DeepSeek 来说都没有这样的数据，也没有这样的场景和需求，因此理想必须自己做。

为了训练基座模型，理想今年采购的训练卡比预期多买了 3 倍。

目前，理想汽车为「理想同学」训练了 300B 参数的模型，VLA 模型中 VL 的部分，则是个 32B 参数的模型。

有了基座模型之后，才完成了 VLA 模型训练的第一步，也就是预训练。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

VLA 训练的第二步是后训练，变成 VLA（司机大模型）。此时要把 action 放进训练模型中。这其实仍然是一种模仿学习，就像是去驾校学开车。李想介绍：「这个时候大概模型规模就会从 3.2B 大概扩大到接近 4B。」

理想汽车的「司机大模型」到底是什么？我们试着听懂了

这时候，VLA 就能直接从视觉感知，到理解，直至最后的动作输出。李想特别提到，不会做长思维链，一般是两步到三步，否则长时延会无法满足安全性。另外，当 action 完成后，VLA 还会根据性能做 4 - 8 秒的扩散模型（difussion），预测轨迹和环境。

VLA 训练的第三步则是做强化的训练，这一阶段就比较像人到社会上开车了。强化分成两个部分，第一个部分先做 RLHF（基于人类反馈的强化学习学习），带有人类反馈。第二个部分是纯粹的 RL（强化学习），拿 RL 模型放到理想的世界模型中做训练。这一步骤的目的是让车开得比人类更好。在训练指标上，理想会通过 G 值来判断辅助驾驶的舒适性，同时做碰撞的反馈，还有交通规则的反馈。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

当这三个步骤完成了以后，VLA 能够跑在车端的模型其实就产生了。

最后，理想还要搭建一个司机 Agent（智能体），实现车内驾驶员用自然语言「教」辅助驾驶系统应该如何开车。

理想汽车的「司机大模型」到底是什么？我们试着听懂了

训练 VLA 的复杂过程中，李想也无法回答究竟哪个步骤最困难。李想说道：「我觉得没有办法预测。因为这些东西我们前面没有任何人走过这条路。DeepSeek 也没走过这条路，然后 OpenAI 也没有走过这条路，谷歌、Waymo 也没有走过这条路。我们其实走的是一个无人区。」

不过，除了理想汽车之外，如今 VLA 这个无人区也有了不止一个玩家加入，共同角逐 VLA 量产。

无法跳过端到端实现 VLA

谈到 VLA 的终极指标，李想认为要把 VLA 模型和司机 Agent 放在一起看。其中，VLA 的判断标准和人类驾驶水平相同，大致可以分为三方面：开车能力强不强（模型强不强）、是否职业，以及是否安全。另一方面，通过 Agent 和记忆来构建信任与理解的关系。

最终 VLA 和司机 Agent 共同作用，才是能够给用户使用的产品。

甚至李想认为，VLA 能够解决到全自动驾驶，它就是现阶段能力最强的架构，它最接近人类，甚至有机会超越人类驾驶能力。只不过，VLA 是否是最高效的方案，还需要打一个问号。

既然 VLA 这么强，是不是意味着跳过去年的端到端，一步到位 VLA 才是正确路径呢？

李想并不这样认为。根据理想汽车自身的经验，跳过端到端实现 VLA 根本不可行。实际上，算到端是 VLA 的基础。「我说不太好听的话，就是没有办法直接吃第十个包子。虽然可能大家觉得第十个包子吃饱了，但前面每个包子其实都跳不过去。」李想说道，「不是胆大大于一切，我看不到什么捷径。包括今天很多企业做端到端都很吃力，因为在规则算法时候都没做好。」

李想押注 VLA 其实还有个重要原因，那就是他认为 VLA 最先落地的领域就是交通场景。一方面，车辆行驶环境虽然复杂，但规则是清楚的。车只能开在有路的地方，不可能是天上，也不可能是水里。另一方面，车只有三个自由度（前后、左右、旋转），而机器人「上来就是 40 个自由度」，挑战就更大了。还有一方面，车内的舒适度，G 值可以体现；是否违反交规，有明确的规则；是否碰撞，同样有明确的指标，李想认为在这几个指标之下，辅助驾驶会越开越好。

此外，安全是辅助驾驶永恒的话题。这方面，理想去年年底成立了一个 100 多人的「超级对齐」团队，专门解决模型安全问题。

在做到了 1,000 万 Clips （视频片段）之后，偶尔会发现因为模型能力太强，导致给车内人员不安全感。比如，辅助驾驶系统可能在交通拥堵中加塞，李想分析，它可能学到了一些不该学的司机的行为。

理想汽车的「司机大模型」到底是什么？我们试着听懂了