当前位置 爱咖号首页 自动驾驶,世界模型是唯一解?

自动驾驶,世界模型是唯一解?

汽车公社 2203浏览 2024-12-27 IP属地: 未知

在前一篇文章《开炒VLA,“端到端”过气了?》里,我们了解到一个新的概念“世界模型”。按照目前行业的理解,“端到端”的尽头,就是世界模型。



因为,自动驾驶光有端到端还不够。端到端的“黑盒子”特性,导致上限提高的同时拉低下限,存在“跷跷板效应”。无穷无尽的Corner Case,写不完的代码。就像我那篇文章说的,《“端到端”求L4,无异缘木求鱼》。


那么,如何解决这些问题?世界模型闪亮登场了。


开始喽


粗略统计一下,目前已经大约有超过10个车企和自动驾驶公司提出了世界模型。这里面,包括特斯拉、英伟达、蔚小理华、地绝元魔,以及一些内部在推进此事的企业。


那么,我们要问,什么是世界模型?它是如何生成的?又是如何运行的?



追溯一下,“World Models”(世界模型)最早出现在机器学习领域。


2018年,机器学习顶会NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑Mental Model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程。其中,最核心的能力——反事实推理(Counterfactual reasoning),是一种人类天然具备的能力。


另外,PLAM掌上电脑创始人杰夫·霍金斯的《千脑智能》中,也介绍了人工智能领域中非常重要的“世界模型”概念。


时间到了2024年2月16日,著名的Open AI公司发布了震惊全世界的“文生视频”大模型Sora,它可以根据文本自动生成一段60秒的视频。这成为世界模型的一个具象体现。


而在人工智能领域,包括李飞飞的World Labs,谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型,根据前一秒的导航信息实时生成下一秒的轨迹。



如今,业内的共识是,一旦这个技术成熟,自动驾驶将迎来真正的爆发。


虽然,国内汽车行业现在还在“卷”从“两段式”的端到端到“一段式”的端到端,但是,按照博世智能驾控中国区总裁吴永桥的说法,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图正逐渐成为业内共识。这是一条车端到云端的路。


而且,梳理一下自动驾驶技术的发展路线,就会发现一个非常有意思的事情。


所谓“功夫在诗外”,这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶,而是人工智能。这里面,从BEV+Transformer,占用网络OCC,到端到端,世界模型。就像那句话,“自动驾驶本质上是人工智能的一个具身智能体现。”


世界模型仿佛打开了一个全新的窗口和世界,这里面包括探路者特斯拉。



2023年,特斯拉自动驾驶负责人在CVPR上介绍了“通用世界模型”。该模型可以通过过往的视频片段和行动提示,生成“可能的未来”全新视频。


Wayve也在2023 年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频,能够生成分钟级的视频以及多种合理的未来场景,帮助自动驾驶模型的训练和仿真。


2024年GTC大会上,英伟达也展示了世界模型领域的新进展:The Next Wave of AI: Physical AI。


而国内车企里面,蔚来比较领先。2023年NIO Day上,蔚来公布其正在自研世界模型。一年后7月27日的科技日上,蔚来智驾负责人任少卿发布中国首个智能驾驶世界模型NWM,释放出更多技术细节。


NWM模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。



11月底,商汤绝影举办了自己的第一个AI DAY,亮出名为“开悟”的世界模型,可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’头部格局,已经是过去式了。”


世界模型有这么厉害?


世界模型怎么做?


小马智行CTO楼天城给了世界模型极高的评价,“世界模型是最重要的事情,没有之一。”


那么,自动驾驶领域,世界模型如何发挥作用?按照地平线的解释,世界模型的作用有两个:



一是通过生成式大模型生成带有预测性质的视频数据,实现Corner Case多样化训练;

二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。


而构建世界模型的办法也有两个:一个是凭空想象,“无中生有”;另一个,是根据现有信息完善信息,比如输入文本、图片、视频,生成更多更丰富的视频。


作为自动驾驶的“大杀招”,世界模型解决了两大难题,一个是3D重建的高成本、低效率,另一个就是仿真无法“还原”真实数据的问题。可以说,世界模型包含了仿真的部分内容,但是又完全高于仿真。


这也产生了一个疑问,世界模型是应该凌驾于真实数据之上,还是仅仅作为真实数据的补充?



小马智行CTO楼天城认为,依靠现有的真实数据只能让智驾系统无限接近人,只有世界模型数据才能构建出更复杂的世界,最终让训练出来的系统超越人。换句话说,就是“自动驾驶的安全必须高于人类才有意义”。


所以,必须要有高于人类驾驶行为的世界模型数据训练出来的系统,才能优于人类。按照这个表述,世界模型应该凌驾于真实数据之上。


不过,这样一来,世界模型好坏的评估就很难有个量化的准确办法。只能大致看世界模型的几项能力:准确性,多样性,可控性和泛化能力。


目前的现状,是没有标准解,八仙过海、各显神通。



比如,地平线提出了世界模型的两个长远价值:一是更准确的世界理解,帮助减少智驾系统的代码量、延迟、网络负载、错误率等。二是泛化能力,世界模型可以形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。


按照地平线的实践,其提出的“交互式博弈”,核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿,它必须要学会主动理解数据。这时候世界模型就承担了“系统教练”的角色,指导系统到底该怎么开。


而商汤绝影的“开悟”世界模型,基于商汤20 EFLOPS的云端算力,可以做到“(视频生成)时间最长为150秒、分辨率可达1080P、视角可以实现11V”。也即是,通过“实车道路采集+世界模型生成”双轮驱动,实现Corner Case数据生成。



商汤绝影认为这个难度很大,行业普遍都是生成1V或6V视角的视频,开悟直接干到11V,而且同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。


至于特斯拉和元戎启行的思路,则是用一套系统覆盖两种商业模型,辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限,这种逻辑下世界模型更像是现实世界数据的补充。


按照圆周智行的说法,目前的一个行业共识,是自动驾驶实现的一个大前提不仅仅是像人,而是要超越人。因之,真实世界的数据只能是无限接近人,而要超越人,世界模型是目前通往自动驾驶的唯一解。



那么,用“造数据”的方式来创建一个“美丽新世界”,这个“唯一解”你同意吗?

文章标签:
新能源
 
相关推荐
汽车公社 0粉丝    572作品 关注 速度 态度 深度
推荐作者
汽车鉴闻 关注
汽车媒体技术编辑 汽车售前售后事儿,用车养车百家通
车轮哥 关注
记录老外在中国的汽车生活。
汽车匠人 关注
寻求在互联网时代用匠心精神
未来车事 关注
孤独与世界与诗
Soul车 关注
资讯类自媒体
车宇世界 关注
车圈老干部,只做最客观的车评。
靓车大咖会 关注
了解最新汽车资讯,汽车养护知识
全部爱咖号