AI应用大咖说：多相机的时空融合模型架构算法优化

车闻天下 0浏览 2022-12-23 IP属地: 四川

北京2022年12月23日 /美通社/ -- 随着人工智能技术的广泛应用，智能驾驶系统正在成为汽车的标配。而作为识别周边环境的“火眼金睛”，“感知”模块是智能驾驶系统安全、高效运行的核心，而视觉感知更是其中无比重要的一环。浪潮信息AI团队长期关注AI算法在自动驾驶中的应用，并致力于用软硬件的算法和技术创新推动行业的进步，做出创新性的成绩。最近，浪潮信息在自动驾驶感知权威数据集 NuScenes 评测中，自研算法 DABNet4D 获得 0. 624 的NDS精度，位列Camera-only榜单第一名。

近日，浪潮信息人工智能与高性能应用软件部自动驾驶AI研究员赵云博士，在题为《探索自动驾驶纯视觉感知精度新突破 -- 多相机的时空融合模型架构算法优化》的自动驾驶线上研讨会上，向我们揭开了这一自动驾驶感知算法的神秘面纱。

多相机多任务融合模型优势

自动驾驶汽车完成自动驾驶出行任务，离不开感知、决策、控制三大要素。其中感知系统是车辆和环境交互的纽带，相当于无人汽车的眼睛。根据所用的传感器以及传感器数量和种类等，自动驾驶感知算法可以简单的分为单传感器（单任务和多任务）模型、（同类和不同类）传感器融合模型等四类，并各有其优缺点。

自动驾驶感知的关键是3D目标检测任务，又分为基于相机、Lidar的3D目标检测，以及相机、Lidar、Radar融合等技术。尽管目前对于3D目标检测已经有不少的研究，但是在实际应用中仍然有许多的问题，其难点主要在于：

遮挡，遮挡分为两种情况，目标物体相互遮挡和目标物体被背景遮挡
截断，部分物体被图片截断，在图片中只能显示部分物体
小目标，相对输入图片大小，目标物体所占像素点极少
缺失深度信息，2D图片相对于激光数据存在信息稠密、成本低的优势，但是也存在缺失深度信息的缺点
现有方式大都依赖于物体表面纹理或结构特征，容易造成混淆。

目前，基于相机的方法与基于Lidar的方法准确度差距正在缩小，而随着Lidar成本降低，融合技术在成本和准确度的平衡上存在优势。

基于多相机多任务融合模型的3D目标检测技术正是在成本优势与日益增长的准确度两相促进下得到越来越多的认可。目前，多相机多任务融合模型主要遵循特征提取、特征编码、统一BEV、特征解码和检测头五大部分。

其中，统一BEV 就是鸟瞰图，亦即将图像特征统一投射到BEV视角下，用以表示车周围环境。“统一BEV”的工作可以分为两大类，一种基于几何视觉的变换，也就是基于相机的物理原理，优势在于模型确定，难度在深度估计；另一种是基于神经网络的变换。

浪潮DABNet4D算法三大创新突破

据赵云介绍，浪潮DABNet4D算法遵循上述框架，采用基于几何视觉的变换方法，设计了端到端的模块化整体架构，通过将环视图检测统一到BEV空间，为后续的工作提供了很好的模板。

DABNet4D模型被划分为四个部分，Image-view Encoder，View-transformer，BEV-Encoder，Detection Head。其中Image-view Encoder为图像编码模块将原始图像转换为高层特征表示。 View-Transformer模块负责将图像特征转换到BEV坐标中，主要包括三个模块：深度预测模块、特征转换模块和多帧特征融合模块。BEV-Encoder & Heads主要是对融合BEV特征进行编码；Heads用来完成最终的3D目标检测任务。

AI应用大咖说：多相机的时空融合模型架构算法优化

创新突破一数据样本增强

为平衡不同种类的样本数量，浪潮信息AI团队创新研发了基于3D的图像贴图技术。主要是通过从整个训练数据集中根据每个样本的3D真值标签，提取样本数据构建样本数据库。训练过程中，通过在样本数据库中采样获取备选样本集合，按照真值深度值从远至近贴图，并将对应的Lidar数据进行粘贴。

创新突破二深度信息优化

基于图像的3D目标检测，由于摄像头拍摄的照片和视频是将原有3D空间直接投射至2D平面中，所以会丢失深度信息，由此所面临的核心问题为如何精确地估计图像中物体的深度。针对此问题，浪潮信息AI团队进行了两方面的改进工作：一是建立更复杂的深度估计网络，通过设计更深、更多参数的深度神经网络，以增大深度估计网络的预测能力和感受野；二是采用两层级联深度估计网络结构，第一层估计网络估计的深度作为特征，输入到第二层级联网络中。除了进行网络创新设计优化，在训练阶段也采用深度监督、深度补全、损失函数等优化方法。

创新突破三四维时空融合

对于自动驾驶车辆而言，它所处的环境更像是一个动态变化的三维空间。为进一步引入车辆所处的动态中的历史，通过引入时间信息进行时序融合，提升velocity预测的精度，实现对暂时被遮挡的物体更好的跟踪效果。对此，浪潮信息AI团队做了以下几点创新：1、更精细的时空对齐操作，使前后帧特征结合的更精确。根据不同时刻车辆的位姿以及车辆、相机、Lidar坐标系的转换关系，获取不同时刻相机与指定Lidar的坐标系的转换关系，进一步减少由于采集车辆自身运动对多帧BEV特征对齐带来的影响；2、从sweep数据帧随机选取作为前一帧与当前帧进行匹配，大幅地增强数据的多样性；3、不同时序帧同步进行数据样本贴图增强，使得速度、转向等预测更精准。

致胜NuScenes自动驾驶评测

本次浪潮DABNet4D算法所登顶的自动驾驶NuScenes榜单，其数据集包含波士顿和新加坡两大城市收集的大约15小时的驾驶数据，覆盖了城市、住宅区、郊区、工业区各个场景，也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。数据采集传感器包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU，具备360°的视野感知能力。

NuScenes数据集提供二维、三维物体标注、点云分割、高精地图等丰富的标注信息。目前，基于NuScenes数据集的评测任务主要包括3D目标检测（3D object Detection）、3D目标跟踪（3D object Tracking）、预测轨迹（prediction trajectories）、激光雷达分割(Lidar Segmentation)、全景分割和跟踪（lidar Panoptic segmentation and tracking）。其中3D目标检测任务备受研究者关注，自从NuScenes挑战赛公开以来至今，已提交220余次结果。

浪潮DABNet4D算法在训练与评测过程中使用的底层硬件支撑是浪潮NF5488A5 AI服务器。开发过程中，模型在训练集上进行单次训练运行 20 个 epochs（without CBGS），需要耗费约360 个 GPU 小时。

而为了满足此类算法超高的AI算力需求，浪潮信息提供集群解决方案，采用 Spine-Leaf 的结构进行节点扩展，集成超 2000 GPU 卡集群，达到 90% 的扩展性。同时，该评测也是在 AIStation 的平台基础上进行开发，有效加速了浪潮DABNet4D算法的开发与训练。

自动驾驶技术发展撬动AI算力需求爆发

自动驾驶技术感知路线之争一直是行业关注的焦点，虽然特斯拉纯视觉方案在业内独领风骚，但多传感融合方案被业内视为实现自动驾驶安全冗余的关键手段。

为了更好的衡量3D检测效果，其评价指标已经从原来的2D的AP已经逐渐变为AP-3D和AP-BEV。在数据集的选择上也从KITTI逐渐变为更大和更多样的NuScenes数据集。

未来，基于LiDAR、相机等多源感知融合算法将有力地提升模型的检测精度，同时，Occupancy network、Nerf等先进算法模型也会逐步应用于自动驾驶感知模型的开发与训练中。

自动驾驶数据量急剧增大、自动驾驶感知模型复杂度逐步提升，以及模型更新频率逐渐加快，都将推动自动驾驶的蓬勃发展，也必然带来更大的模型训练算力需求。

【更多研讨会精彩瞬间，请访问“视频号-浪潮数据中心业务-12月9日直播回放】

文章标签：: 行业资讯

微信

微博 QQ QQ空间

点赞收藏

相关推荐

受够了延迟交付？年底现车交付+行业最高现金补贴昊铂帮你终结购车焦虑

不知从何时开始，买车变得像是投资期货了。千百年来一手交钱一手交货的老规矩，现在也不好使了。不少车友看到宣传一时心动，激情下单之后却陷入了“购车无现车，变相无补贴”的陷阱，让买新车这

方向对了关注

2024-12-09 919浏览 评论
日系三强11销量：仅丰田增长，本田、日产还得加把劲

进入12月份后，各品牌相继公布自家的最新销量，可谓“几家欢喜几家愁”。日前，《车壹圈》获取了日系三强销量情况，数据显示：11月份丰田在华销量为16.3万辆，同比增长29.3%，也是

车壹圈关注

2024-12-09 1336浏览 评论
定位高于迈巴赫！梅赛德斯-AMG PureSpeed正式发布，能比91

日前，我们通过梅赛德斯—奔驰官方渠道了解到，梅赛德斯-AMG PureSpeed正式发布，作为Mythos series系列的首款量产车型，新车定位将高于迈巴赫，采用了诸多创新设计

关注

2024-12-09 838浏览 评论
中国车企的欧洲动作，进退随缘？

10月底，欧盟正式宣布对华电动车加征关税，但到了11月，态度又有所松动。德国大众汽车工人罢工、唐唯实辞任Stellantis CEO、号称“欧洲宁德时代”的北方伏特申请破产....

车业杂谈关注

2024-12-09 1173浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

爱车佼佼者关注

2024-12-09 948浏览 评论
极越07Passion版，27.99万值不值？

极越07Passion版，27.99万值不值？

车界慢慢弹关注

2024-12-09 1144浏览 评论
长安启源C798官图发布，分享一下我们在官图上找到的深度信息

长安启源C798官图发布，分享一下我们在官图上找到的深度信息

街拍酷车关注

2024-12-09 1274浏览 评论
追着特斯拉打，小米YU7直接“生吃”Model Y！

等了一天，小米SUV终于来了！工信部在昨晚八点多的时候，公布了第六十九批《新能源汽车车型目录》，而小米SUV赫然在列。咱们就说，工信部的小伙伴都要加班的吗（手动狗头）？几乎是同一时

吴佩频道关注

2024-12-11 3954浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

懂车侦探关注

2024-12-09 928浏览 评论
全闽乐购•汽车嘉年华福建九地市商超联展漳州站圆满落幕

在漳州碧湖万达，汽车嘉年华不仅便利广大车迷和消费者到场参与，还为朋友们提供了一个购物与购车的双重选择。

FJTV我为车狂关注

2024-12-10 4548浏览 评论
丰田两大“热门”MPV，赛那和格瑞维亚，到底该怎么选？

随着国内汽车市场家庭观念的加深，MPV市场不再是别克GL8一家独大，不少新兴的MPV车型开始在市场里站稳脚跟。尤其是来自丰田的赛那和格瑞维亚，在今年10月份双双交出8千台以上的销量

车域无疆关注

2024-12-09 1133浏览 评论
HUAWEI ADS 3.0加持，问界新M7智驾能力领跑同级

随着智能驾驶技术的迅猛发展，越来越多的消费者开始关注车辆的安全性和驾驶体验，特别是在智能驾驶和主动安全功能方面的提升。在这个背景下，问界新M7系列凭借着全面升级的HUAWEI AD

分秒汽车关注

2024-12-09 1321浏览 评论
周钘出任MG品牌事业部总经理

12月9日消息，上汽乘用车正式任命周钘担任MG品牌事业部总经理一职。原MG品牌事业部总经理陆家俊另有任命。周钘在汽车行业深耕多年，长期服务于上汽通用五菱，在品牌塑造、产品开发、市场营销、渠道拓展等多个核心岗位得到历练。加入MG之前，周钘的职位是上汽通用五菱品牌与传播总经理。 ......

汽车商业评论关注

2024-12-09 1205浏览 评论
长安启源C798官宣外观，聊聊定位和品控，针对家庭用户的又一抢眼选择

长安启源C798官宣外观，聊聊定位和品控，针对家庭用户的又一抢眼选择

驾核报告关注

2024-12-09 1207浏览 评论
阿维塔第二款轿车要来了，07同级别，依旧有华为智驾

汽车公告板关注

2024-12-10 3234浏览 评论
对比逍客选谁好？新款大众T-ROC探歌上市，部分配置有降价！

日前，我们通过一汽-大众官方渠道了解到，新款大众T-ROC探歌正式上市，新车此次共推3个配置，指导价区间为15.89万-17.87万元，新车顶配车型指导价下降0.12万元，并对部分

试车范关注

2024-12-09 910浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

玩车研习社关注

2024-12-09 878浏览 评论
等一天小米SUV没来，长安、阿维塔、奇瑞、五菱却来了一波新车！

1、长安启源C798这是对着理想L6来打吗？近日，长安启源发布了全新车型C798的官图，有望于年底正式发布；从设计来看，新车采用了全新的设计风格，前脸是贯穿式灯带和分体式大灯；车身

吴佩频道关注

2024-12-11 3832浏览 评论
不用等固态电池，增混电池就可以“杀死”纯燃油车

优视汽车关注

2024-12-09 2224浏览 评论
长安启源2.0时代来袭，C798高级感扑面而来

继第一波悬念图引发广泛热议后，12月9日，长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图，这次的图片信息量更大，让这款内部代号C798新车瞬间

车市新观察关注

2024-12-09 855浏览 评论
已无数据