大模型没有标准答案，世界模型才是终极方案

Myautotime 0浏览 2024-11-19 IP属地: 山东

从诸多大佬的表态来看，端到端+大模型可能就是自动驾驶技术路线的终局。

不过，正如各家的端到端千姿百态一样，大模型也没有标准答案。

兵无常势，水无常形。

在真实世界中，技术也是高度可重构的，随着时间的推移、新技术的出现，未来在不断改进，不断进化。

自2022年年底OpenAI发布大语言模型ChatGPT以后，生成式AI大模型逐渐演化出了两大分支：语言模型和世界模型。

大模型没有标准答案，世界模型才是终极方案

语言模型继续在数字世界深耕，从单一的文本模态走向包含图片、视频在内的多模态，使其具备了文生图、看图说话、图生图、文生视频的能力，比较典型的代表有今年2月份发布的Sora和4月份发布的GPT4-o。

大模型没有标准答案，世界模型才是终极方案

世界模型则从数字世界走向物理世界，从一维形式的数字智能走向三维形式的空间智能。

根据出生于北京、大成于美国的AI教母李飞飞的表述，空间智能指的是AI在三维空间和时间中以三维方式感知、推理和行动，并与现实世界进行交互。

大模型没有标准答案，世界模型才是终极方案

两者的区别在于，大语言模型的基础是通过文本序列对世界进行一维表示。

具备图像理解和视频理解能力的多模态语言模型不过是将其它模态的数据进行Token化，然后硬塞进文本这个一维的序列表示中。

空间智能则是把三维当成了表达的核心。

大模型没有标准答案，世界模型才是终极方案

换个角度思考一下它们的区别：语言本质上来说是一种纯粹生成的信号，世界上原本没有语言，说的人多了，也就成了语言。

不过，既然是纯粹生成，当然可以信口胡说，从而无视这个世界的物理规律。

但是，世界模型旨在理解并掌握物理规律，遵循物理规律跟物理世界产生交互，物理规律不可欺，自盘古开天辟地以来，3D世界及其物理规律就一直存在在那里。

大模型没有标准答案，世界模型才是终极方案

从这种划分来看，在自动驾驶大模型的赛道上，小鹏汽车的全域大语言模型和理想汽车的视觉语言模型都是在文本之上叠加了图片和视频模态的语言模型，而蔚来汽车和特斯拉的世界模型则属于空间智能这一阵营。

树欲静而风不止。

智能电动汽车行业的玩家们除了要在产品、技术、渠道层面展开竞争，营销层面的拉高踩低、明吹暗讽也是一直暗流涌动。

在7月31日的智能驾驶系统发布会上，何小鹏暗怼理想汽车数据为王的观点。

何小鹏表示：如果有厂商说他们数据多，所以能力强，千万不要相信他。

因为在新的端到端范式之下，很多数据需要重新标注。

即便有了自动标注工具的帮助，数据标注也是一项非常非常繁重的工作，2022年夏天，马斯克在接受车友访谈时表示，特斯拉大约有1500名人类标注师！

大模型没有标准答案，世界模型才是终极方案

不过，这并不意味着姿势不对，起来重睡，端到端来了，之前积累的很多精标BEV+OCC数据通通作废。

而是说，在规则+算法为主的分模块时代，车企的主要精力放在了增强感知能力上。

到了端到端时代，需要在BEV和占用空间之外做进一步的标注，比如与规划决策密切相关的自车和其它交通参与者的位姿、速度、加速度，这一类数据标注需要重新补齐，以构建预测与规划数据集。

大模型没有标准答案，世界模型才是终极方案

端到端+大模型之后，大模型引入了新的数据标注需求。

在基于语言模型的自动驾驶大模型中，其输入是当前驾驶场景的图片，其输出是各类交通参与者、道路拓扑、交通信号标识的语义信息，这种模型不具备自回归特性，进行有监督学习，其训练需要海量的数据标注工作。

大模型没有标准答案，世界模型才是终极方案

在基于世界模型的自动驾驶大模型中，其输入是当前摄像头数据，输出是下一个时间步长后的摄像头数据，这类自回归模型和GPT大语言模型依靠过去的Token预测下一个Token非常类似，其训练过程是无需数据标注的无监督学习。

无监督学习和有监督学习的核心区别就是不需要进行数据标注。

也就是说，世界模型可以从此告别劳动密集型的人工智能，应对比海量更海量的数据驱动新范式。

据说东北老铁在干仗前会先吼一句你瞅啥？湖南人则是人狠话不多，先干了再说。

语言模型就像东北大哥，先是一声吼，然后再决定出手不出手，只给出对当前驾驶场景的理解，输入给决策神经网络做参考，自己并不直接输出最终的决策结果-车辆的行驶轨迹。

世界模型就像湖南老表，相当干脆利索，直接出手给出车辆的行驶轨迹。

大模型没有标准答案，世界模型才是终极方案

从理想汽车展示的VLM的能力可以看出，它给出的都是车道选择、是否减速这些中间层面的建议，并不直接给出车辆最终的行驶轨迹。

蔚来汽车的世界模型则是推演万千平行世界，从中选择最优解，在0.1秒之内生成216种可能的行驶轨迹，选择出最优的行驶轨迹，行驶轨迹可以直接给到下游的执行模块，控制车辆的驾驶行为。

大模型没有标准答案，世界模型才是终极方案

直接给出行驶轨迹是世界模型的第1个优势，第2个优势则在于它可以通过海量的无监督学习训练出对驾驶场景的深度理解能力，实现了从感知到认知的能力跃升。

大模型没有标准答案，世界模型才是终极方案

BEV+OCC的感知能力对安全、舒适、高效的完全自动驾驶是不够的。

一个很明显的例子就是，BEV和OCC不清楚当前的光照条件如何，天气情况怎么样，而光照和天气恰恰是可以影响自动驾驶车辆行驶的关键要素。

大模型没有标准答案，世界模型才是终极方案

世界模型显然具备比BEV+OCC更加细力度的场景理解能力。

因为它的本质是建立对当下空间的深度理解能力，然后基于物理规律和当前世界，对未来时刻的世界做想象推演，为了准确推演下一时刻的世界，世界模型必须建立对当前世界的深度理解能力。

大模型没有标准答案，世界模型才是终极方案

这种能力是通过对海量数据的无监督训练学习得来的，拿一个15-30秒的视频片段Clips，划分好时间刻度，将下一时刻的传感器数据作为世界模型的真值进行训练，通过一次又一次的刷题，世界模型就具备了场景的深度理解能力。

从世界模型的能力来看，它会消耗比语言模型更加多的算力，也许这才是采用4颗Orin的蔚来选择世界模型、采用两颗Orin的理想和小鹏选择语言模型的真正原因。

随着算力的升级，理想和小鹏从语言模型过渡到世界模型将会是一个大概率事件。

文章标签：: 新能源行业资讯

微信

微博 QQ QQ空间

点赞收藏

相关推荐

受够了延迟交付？年底现车交付+行业最高现金补贴昊铂帮你终结购车焦虑

不知从何时开始，买车变得像是投资期货了。千百年来一手交钱一手交货的老规矩，现在也不好使了。不少车友看到宣传一时心动，激情下单之后却陷入了“购车无现车，变相无补贴”的陷阱，让买新车这

方向对了关注

2024-12-09 919浏览 评论
日系三强11销量：仅丰田增长，本田、日产还得加把劲

进入12月份后，各品牌相继公布自家的最新销量，可谓“几家欢喜几家愁”。日前，《车壹圈》获取了日系三强销量情况，数据显示：11月份丰田在华销量为16.3万辆，同比增长29.3%，也是

车壹圈关注

2024-12-09 1336浏览 评论
定位高于迈巴赫！梅赛德斯-AMG PureSpeed正式发布，能比91

日前，我们通过梅赛德斯—奔驰官方渠道了解到，梅赛德斯-AMG PureSpeed正式发布，作为Mythos series系列的首款量产车型，新车定位将高于迈巴赫，采用了诸多创新设计

车视风云关注

2024-12-09 838浏览 评论
中国车企的欧洲动作，进退随缘？

10月底，欧盟正式宣布对华电动车加征关税，但到了11月，态度又有所松动。德国大众汽车工人罢工、唐唯实辞任Stellantis CEO、号称“欧洲宁德时代”的北方伏特申请破产....

车业杂谈关注

2024-12-09 1173浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

爱车佼佼者关注

2024-12-09 948浏览 评论
极越07Passion版，27.99万值不值？

极越07Passion版，27.99万值不值？

车界慢慢弹关注

2024-12-09 1144浏览 评论
长安启源C798官图发布，分享一下我们在官图上找到的深度信息

长安启源C798官图发布，分享一下我们在官图上找到的深度信息

街拍酷车关注

2024-12-09 1274浏览 评论
追着特斯拉打，小米YU7直接“生吃”Model Y！

等了一天，小米SUV终于来了！工信部在昨晚八点多的时候，公布了第六十九批《新能源汽车车型目录》，而小米SUV赫然在列。咱们就说，工信部的小伙伴都要加班的吗（手动狗头）？几乎是同一时

吴佩频道关注

2024-12-11 3954浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

懂车侦探关注

2024-12-09 928浏览 评论
全闽乐购•汽车嘉年华福建九地市商超联展漳州站圆满落幕

在漳州碧湖万达，汽车嘉年华不仅便利广大车迷和消费者到场参与，还为朋友们提供了一个购物与购车的双重选择。

FJTV我为车狂关注

2024-12-10 4548浏览 评论
丰田两大“热门”MPV，赛那和格瑞维亚，到底该怎么选？

随着国内汽车市场家庭观念的加深，MPV市场不再是别克GL8一家独大，不少新兴的MPV车型开始在市场里站稳脚跟。尤其是来自丰田的赛那和格瑞维亚，在今年10月份双双交出8千台以上的销量

车域无疆关注

2024-12-09 1133浏览 评论
HUAWEI ADS 3.0加持，问界新M7智驾能力领跑同级

随着智能驾驶技术的迅猛发展，越来越多的消费者开始关注车辆的安全性和驾驶体验，特别是在智能驾驶和主动安全功能方面的提升。在这个背景下，问界新M7系列凭借着全面升级的HUAWEI AD

分秒汽车关注

2024-12-09 1321浏览 评论
周钘出任MG品牌事业部总经理

12月9日消息，上汽乘用车正式任命周钘担任MG品牌事业部总经理一职。原MG品牌事业部总经理陆家俊另有任命。周钘在汽车行业深耕多年，长期服务于上汽通用五菱，在品牌塑造、产品开发、市场营销、渠道拓展等多个核心岗位得到历练。加入MG之前，周钘的职位是上汽通用五菱品牌与传播总经理。 ......

汽车商业评论关注

2024-12-09 1205浏览 评论
长安启源C798官宣外观，聊聊定位和品控，针对家庭用户的又一抢眼选择

长安启源C798官宣外观，聊聊定位和品控，针对家庭用户的又一抢眼选择

驾核报告关注

2024-12-09 1207浏览 评论
阿维塔第二款轿车要来了，07同级别，依旧有华为智驾

汽车公告板关注

2024-12-10 3234浏览 评论
对比逍客选谁好？新款大众T-ROC探歌上市，部分配置有降价！

日前，我们通过一汽-大众官方渠道了解到，新款大众T-ROC探歌正式上市，新车此次共推3个配置，指导价区间为15.89万-17.87万元，新车顶配车型指导价下降0.12万元，并对部分

试车范关注

2024-12-09 910浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

玩车研习社关注

2024-12-09 878浏览 评论
等一天小米SUV没来，长安、阿维塔、奇瑞、五菱却来了一波新车！

1、长安启源C798这是对着理想L6来打吗？近日，长安启源发布了全新车型C798的官图，有望于年底正式发布；从设计来看，新车采用了全新的设计风格，前脸是贯穿式灯带和分体式大灯；车身

吴佩频道关注

2024-12-11 3832浏览 评论
不用等固态电池，增混电池就可以“杀死”纯燃油车

优视汽车关注

2024-12-09 2224浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

车市新观察关注

2024-12-09 855浏览 评论
已无数据