在前一篇文章《开炒VLA,“端到端”过气了?》里,我们了解到一个新的概念“世界模型”。按照目前行业的理解,“端到端”的尽头,就是世界模型。
因为,自动驾驶光有端到端还不够。端到端的“黑盒子”特性,导致上限提高的同时拉低下限,存在“跷跷板效应”。无穷无尽的Corner Case,写不完的代码。就像我那篇文章说的,《“端到端”求L4,无异缘木求鱼》。
那么,如何解决这些问题?世界模型闪亮登场了。
开始喽
粗略统计一下,目前已经大约有超过10个车企和自动驾驶公司提出了世界模型。这里面,包括特斯拉、英伟达、蔚小理华、地绝元魔,以及一些内部在推进此事的企业。
那么,我们要问,什么是世界模型?它是如何生成的?又是如何运行的?
追溯一下,“World Models”(世界模型)最早出现在机器学习领域。
2018年,机器学习顶会NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑Mental Model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程。其中,最核心的能力——反事实推理(Counterfactual reasoning),是一种人类天然具备的能力。
另外,PLAM掌上电脑创始人杰夫·霍金斯的《千脑智能》中,也介绍了人工智能领域中非常重要的“世界模型”概念。
时间到了2024年2月16日,著名的Open AI公司发布了震惊全世界的“文生视频”大模型Sora,它可以根据文本自动生成一段60秒的视频。这成为世界模型的一个具象体现。
而在人工智能领域,包括李飞飞的World Labs,谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型,根据前一秒的导航信息实时生成下一秒的轨迹。
如今,业内的共识是,一旦这个技术成熟,自动驾驶将迎来真正的爆发。
虽然,国内汽车行业现在还在“卷”从“两段式”的端到端到“一段式”的端到端,但是,按照博世智能驾控中国区总裁吴永桥的说法,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图正逐渐成为业内共识。这是一条车端到云端的路。
而且,梳理一下自动驾驶技术的发展路线,就会发现一个非常有意思的事情。
所谓“功夫在诗外”,这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶,而是人工智能。这里面,从BEV+Transformer,占用网络OCC,到端到端,世界模型。就像那句话,“自动驾驶本质上是人工智能的一个具身智能体现。”
世界模型仿佛打开了一个全新的窗口和世界,这里面包括探路者特斯拉。
2023年,特斯拉自动驾驶负责人在CVPR上介绍了“通用世界模型”。该模型可以通过过往的视频片段和行动提示,生成“可能的未来”全新视频。
Wayve也在2023 年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频,能够生成分钟级的视频以及多种合理的未来场景,帮助自动驾驶模型的训练和仿真。
2024年GTC大会上,英伟达也展示了世界模型领域的新进展:The Next Wave of AI: Physical AI。
而国内车企里面,蔚来比较领先。2023年NIO Day上,蔚来公布其正在自研世界模型。一年后7月27日的科技日上,蔚来智驾负责人任少卿发布中国首个智能驾驶世界模型NWM,释放出更多技术细节。
NWM模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。
11月底,商汤绝影举办了自己的第一个AI DAY,亮出名为“开悟”的世界模型,可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’头部格局,已经是过去式了。”
世界模型有这么厉害?
世界模型怎么做?
小马智行CTO楼天城给了世界模型极高的评价,“世界模型是最重要的事情,没有之一。”
那么,自动驾驶领域,世界模型如何发挥作用?按照地平线的解释,世界模型的作用有两个:
一是通过生成式大模型生成带有预测性质的视频数据,实现Corner Case多样化训练;
二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
而构建世界模型的办法也有两个:一个是凭空想象,“无中生有”;另一个,是根据现有信息完善信息,比如输入文本、图片、视频,生成更多更丰富的视频。
作为自动驾驶的“大杀招”,世界模型解决了两大难题,一个是3D重建的高成本、低效率,另一个就是仿真无法“还原”真实数据的问题。可以说,世界模型包含了仿真的部分内容,但是又完全高于仿真。
这也产生了一个疑问,世界模型是应该凌驾于真实数据之上,还是仅仅作为真实数据的补充?
小马智行CTO楼天城认为,依靠现有的真实数据只能让智驾系统无限接近人,只有世界模型数据才能构建出更复杂的世界,最终让训练出来的系统超越人。换句话说,就是“自动驾驶的安全必须高于人类才有意义”。
所以,必须要有高于人类驾驶行为的世界模型数据训练出来的系统,才能优于人类。按照这个表述,世界模型应该凌驾于真实数据之上。
不过,这样一来,世界模型好坏的评估就很难有个量化的准确办法。只能大致看世界模型的几项能力:准确性,多样性,可控性和泛化能力。
目前的现状,是没有标准解,八仙过海、各显神通。
比如,地平线提出了世界模型的两个长远价值:一是更准确的世界理解,帮助减少智驾系统的代码量、延迟、网络负载、错误率等。二是泛化能力,世界模型可以形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。
按照地平线的实践,其提出的“交互式博弈”,核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿,它必须要学会主动理解数据。这时候世界模型就承担了“系统教练”的角色,指导系统到底该怎么开。
而商汤绝影的“开悟”世界模型,基于商汤20 EFLOPS的云端算力,可以做到“(视频生成)时间最长为150秒、分辨率可达1080P、视角可以实现11V”。也即是,通过“实车道路采集+世界模型生成”双轮驱动,实现Corner Case数据生成。
商汤绝影认为这个难度很大,行业普遍都是生成1V或6V视角的视频,开悟直接干到11V,而且同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。
至于特斯拉和元戎启行的思路,则是用一套系统覆盖两种商业模型,辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限,这种逻辑下世界模型更像是现实世界数据的补充。
按照圆周智行的说法,目前的一个行业共识,是自动驾驶实现的一个大前提不仅仅是像人,而是要超越人。因之,真实世界的数据只能是无限接近人,而要超越人,世界模型是目前通往自动驾驶的唯一解。
那么,用“造数据”的方式来创建一个“美丽新世界”,这个“唯一解”你同意吗?
智美双修新典范!秦L EV「花漾出行」概念刷新中级车价值标准
苏醒了,领克900的“猎杀时刻”!限时售价仅28.99万起
领克900能否抢夺理想L9、问界M9用户?家庭大六座标准重新定义!
长安马自达EZ-60盲订破万台,所以卖多少钱合适?
比亚迪获2025年一季度新能源客车出口销量冠军!
即日起至5月31日,秦L EV推出限时置换补贴政策,至高可享10000元厂家补贴,力度空前!作为这届年轻人最带感的智美中级车,秦L EV拥有全系e平台3.0 Evo、全系“天神之眼C”智能驾驶辅助三目版、全系后驱等六大越级产品力,智能、操控等方面全面领先同级车型,官方指导价仅11......
我也有三电机!领克900上海车展实拍,要改写大型SUV市场格局?
置换最高省3万!秦L EV天神三件套限量抢购
领克900上市:天地门的排面,旋转座椅的福祉
五一齐“放价” 哈弗二代大狗与你玩转户外泛越野
说到MPV,大家传统印象是油耗高、第三排鸡肋、隔音短板、智能滞后等痛点,这些都影响着全家出行的体验。作为MPV专家的广汽传祺,传祺M8宗师超级混动版以 全场景价值重构 为核心,通过技术创新与场景化设计,精准破解 MPV 用车难题,重新定义豪华 MPV 的价值标准。
承担日产“越野化”战略使命,郑州日产开启国际化进程
移动花艺工作室来了!秦L EV用前备箱生态重塑出行想象力
又获奖啦,比亚迪再获国际双奖!
比亚迪再获国际双奖!让世界看到“中国制造”的蓬勃力量
“新E代弯道王”MAZDA EZ-6掀桌子,补贴后9.98万开卷
比亚迪再获国际双奖,让世界看见“中国造”的崛起
奥迪E5 Sportback首发:没有四环标,但比奥迪更“奥迪”?
方程豹登陆2025上海车展,583家族首次集结亮相
要给你那“叫好不叫座”的心头好车叫个屈吗?