北京2023年4月24日 /美通社/ -- 近日,在全球权威的自动驾驶nuScenes竞赛最新评测中,浪潮信息算法团队所提交的"IEI-BEVFusion++"算法模型在关键性指标nuScenes Detection Score(NDS)得到77.6%的高分,创造了3D目标检测全赛道迄今最高成绩。继去年以"DABNet4D"登顶纯视觉3D目标检测榜单后,该算法团队在面向融合感知自动驾驶领域再一次实现突破。
nuScenes数据集是目前自动驾驶领域中最流行的公开数据集之一,数据采集自波士顿和新加坡的实际自动驾驶场景,是第一个集成摄像头、激光雷达和毫米波雷达等多种传感器,实现360度全传感器覆盖的数据集。nuScenes数据集提供了二维、三维物体标注、点云分割、高精地图等丰富的标注信息,包含1000个场景,拥有140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框,其数据标注量比KITTI数据集高出7倍以上。
犹如人类的眼睛为大脑提供了70%以上的信息,在自动驾驶领域,作为感知系统的主流模式架构,Lidar与Camera融合的3D多模态架构则为实现高鲁棒、高精度的3D目标检测提供了至关重要的信息输入,为业内提供更具通识性的解决方案。此次创nuScenes榜单成绩新高的"IEI-BEVFusion++"算法模型正是应用了3D多模态融合架构的思路,将Lidar与Camera形成有效的交互融合。
Lidar与Camera的多模态交互融合,面临巨大挑战
3D目标检测作为自动驾驶至关重要的核心任务,面向强大的环境感知,自动驾驶车辆通过广泛车载传感器的信息输入,实现精准的目标检测。以Lidar为例,它可以有效精准地捕捉空间信息,点云数据所具备的天然3D优势,最大程度地提升了检测目标的测距精度、速度及方向;而Camera的优势则在于,它具备丰富的纹理信息,强大的语义及图像上下文理解能力使得它可以有效地识别行人、交通指示牌等具象化的路面信息。因此,Lidar与Camera融合的3D多模态架构将深度信息与纹理信息形成有效的交互融合,为更精准的3D目标检测提供了一种全新思路。
然而,将两种截然不同的模态几何和语义特征在一个表示空间内相结合,这是一个巨大的挑战。 一方面,预估检测目标的深度信息是提升3D目标检测精度的关键,现有模态的融合通常关注于点云雷达及Camera虚拟点间的交互,但由于点云雷达远比Camera数据稀疏得多,传统的融合方式无法解决固有模态间的深度信息差距。另一方面,在跨模态的融合交互中,点云雷达涉及体素的精细划分及大量的3D卷积计算,图像则由于多摄像头、高分辨率,复杂的特征提取网络,两者计算复杂且耗时长。因此,不同形态的数据整合也为多模态融合模型的训练速度和检测精度带来了新一层算力压力。
NDS 77.6%, 多模态融合模型"IEI-BEVFusion++"刷新全赛道记录
IEI-BEVFusion++多模态融合模型,通过更有效的多模态训练架构、更精细的特征提取网络、更强大的数据预处理能力,实现Lidar与Camera的高效特征提取与融合优化。激光雷达点云特征为Camera数据提供检测目标的精确3D信息,Camera发挥其纹理轮廓及语义理解优势,进一步精细化点云区域特征,形成Liar与Camera的数据最大化互补,大幅优化了模型的检测精度。
基于Lidar与Camera的多模态融合模型架构,实现了三大核心技术突破:
IEI-BEVFusion++ 多模态融合模型架构图
a) 首先,基于更有效的多模态训练架构,使得mAP(全类平均正确率,mean Average Precision)平均提升2%+
Transformer的多模态数据融合架构,通过引入基于Camera数据的BEV检测头,辅助融合模型训练,在不增加过多计算量的同时,进一步增强语义信息特征,使得mAP(全类平均正确率,mean Average Precision)平均提升2%+。
b) 其次,精细的特征提取网络,大幅提升目标的3D检测能力
一方面,采用多尺度Lidar的特征融合技术,进一步增强其特征提取的感受野,提升其对于检测目标,尤其是大目标的表征能力;另一方面,Lidar信息可直接辅助优化Camera的深度预测,采取级联深度辅助策略,大幅提升图像的3D检测能力。
c) 同时,强大的数据预处理能力,实现模型精度与训练速度双突破
创新设计Lidar与Camera同步贴图,替代了业内传统的cbgs(类平衡分组和采样)技术。一方面增强了样本的均衡性与多样性,另一方面保证了不同模态间的数据协调、同步,在提升目标定位检测精度的同时,保障目标速度、方位、缩放等相关指标的提升,训练速度更是较业内基准提升了4.5倍。
基于BEV融合算法的创新,"IEI-BEVFusion++"算法模型成功登顶3D目标检测任务(nuScenes detection task)全赛道榜单,将关键性指标NDS提升至77.6%。未来,浪潮信息算法团队将践行多角度切入,发挥算法、算力融合的全栈解决方案能力,推动自动驾驶领域的技术创新发展。
备注:文内所涉术语解释如下
1) BEV:Bird's Eye View,是指将特征信息转化至鸟瞰视角
2) 多模态融合:也称多源信息融合或多传感器融合,是指综合两个或多个模态的信息进行预测的过程
3) 鲁棒(Robust): 是指系统在一定的参数摄动下,维持其它某些性能的特性
不知从何时开始,买车变得像是投资期货了。千百年来一手交钱一手交货的老规矩,现在也不好使了。不少车友看到宣传一时心动,激情下单之后却陷入了“购车无现车,变相无补贴”的陷阱,让买新车这
进入12月份后,各品牌相继公布自家的最新销量,可谓“几家欢喜几家愁”。日前,《车壹圈》获取了日系三强销量情况,数据显示:11月份丰田在华销量为16.3万辆,同比增长29.3%,也是
日前,我们通过梅赛德斯—奔驰官方渠道了解到,梅赛德斯-AMG PureSpeed正式发布,作为Mythos series系列的首款量产车型,新车定位将高于迈巴赫,采用了诸多创新设计
10月底,欧盟正式宣布对华电动车加征关税,但到了11月,态度又有所松动。德国大众汽车工人罢工、唐唯实辞任Stellantis CEO、号称“欧洲宁德时代”的北方伏特申请破产....
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
极越07Passion版,27.99万值不值?
长安启源C798官图发布,分享一下我们在官图上找到的深度信息
等了一天,小米SUV终于来了!工信部在昨晚八点多的时候,公布了第六十九批《新能源汽车车型目录》,而小米SUV赫然在列。咱们就说,工信部的小伙伴都要加班的吗(手动狗头)?几乎是同一时
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
在漳州碧湖万达,汽车嘉年华不仅便利广大车迷和消费者到场参与,还为朋友们提供了一个购物与购车的双重选择。
随着国内汽车市场家庭观念的加深,MPV市场不再是别克GL8一家独大,不少新兴的MPV车型开始在市场里站稳脚跟。尤其是来自丰田的赛那和格瑞维亚,在今年10月份双双交出8千台以上的销量
随着智能驾驶技术的迅猛发展,越来越多的消费者开始关注车辆的安全性和驾驶体验,特别是在智能驾驶和主动安全功能方面的提升。在这个背景下,问界新M7系列凭借着全面升级的HUAWEI AD
12月9日消息,上汽乘用车正式任命周钘担任MG品牌事业部总经理一职。原MG品牌事业部总经理陆家俊另有任命。 周钘在汽车行业深耕多年,长期服务于上汽通用五菱,在品牌塑造、产品开发、市场营销、渠道拓展等多个核心岗位得到历练。 加入MG之前,周钘的职位是上汽通用五菱品牌与传播总经理。 ......
长安启源C798官宣外观,聊聊定位和品控,针对家庭用户的又一抢眼选择
日前,我们通过一汽-大众官方渠道了解到,新款大众T-ROC探歌正式上市,新车此次共推3个配置,指导价区间为15.89万-17.87万元,新车顶配车型指导价下降0.12万元,并对部分
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
1、长安启源C798这是对着理想L6来打吗?近日,长安启源发布了全新车型C798的官图,有望于年底正式发布;从设计来看,新车采用了全新的设计风格,前脸是贯穿式灯带和分体式大灯;车身
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间