【3D目标检测】MONODISTILL: LEARNING SPATIAL FEATURES FORMONOCULAR 3D OBJECT DETECTION
创始人
2024-06-01 11:45:26
0

目录

  • 概述
  • 细节
    • 背景
    • 网络结构
    • 教师网络/学生网络
    • 蒸馏
      • 特征空间的场景级蒸馏
      • 特征空间的对象级蒸馏
      • 结果空间的对象级蒸馏
      • 进一步优化
    • 损失函数
    • 讨论

概述

【2022】【MONODISTILL】
研究的问题:

  • 核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络
  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

解决的方法:

  • 基于点密度的点级损失平衡,包括几何目标点云对齐损失以及射线追踪损失
  • 给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

很多算法如图a延续2D目标检测的思路,直接从图像特征中得到3D检测框,但是由于图像本身缺少空间信息(深度信息),网络的性能不佳,因此很多学者尝试引入深度图增强空间信息。
一种思路如图b是将深度图和图像同时作为输入;另一种思路如图c是将深度图转换成点云,然后借助先进的基于点云的检测算法实现检测(【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation);前两种都是采用离线的深度估计网络,最近一种思路如图d是采用深度估计子网络实现深度的估计,然后借助深度估计结果将2D特征上升到3D空间实现检测(【3D目标检测】Categorical Depth Distribution Network for Monocular 3D Object Detection)
但是,这些基于深度图的方法不可避免的都会带来巨大的时间开销(深度估计是很耗时的)。
本文中如图e,作者受到知识蒸馏方法的启发(作者认为知识蒸馏能够实现空间线索的迁移),提出了一个从点云中获取空间信息的知识蒸馏方法。直接从教师网络中学习深度信息,并不集成深度估计模块,不增加额外开销的同时提升网络的性能,实现速度和效率的权衡。
在这里插入图片描述

核心问题:怎么对齐?因为基于图像特征是2D 的而点云特征是3D的。作者将点云投影到图像平面上(这个就是以往深度图的监督信号了),然后使用CNN获取2D深度特征,然后就可以和图像特做蒸馏了,将空间信息传递过去。

网络结构

整体包含三个部分,分别是教师网络、学生网络以及中间的一些分支。其中教师网络和学生网络采用相同的结构,中间的分支是为了让学生网络从教师网络中获取知识。
在这里插入图片描述

教师网络/学生网络

两者用的网络结构是一致的,都是这篇文章(【3D目标检测】Delving into Localization Errors for Monocular 3D Object Detection)中采用的网络结构,作者说他进一步使用估计的深度不确定性归一化了每个预测对象的置信度。

核心的区别就是输入,学生网络的输入就是图像,教师网络的输入是图像化的点云。具体的图像化过程是:将点云投影到图像坐标系下,得到稀疏的深度图,然后使用interpolation算法得到稠密的深度图,然后将稠密的深度图作为教师网络的输入。
在这里插入图片描述

蒸馏

作者采用了三种互补的蒸馏方案,分别是特征空间的场景级蒸馏,特征空间的对象级蒸馏以及结果空间的对象级蒸馏。

特征空间的场景级蒸馏

作者认为让学生网络直接学习教师网络的特征表示是次优的,毕竟深度图和图像这两种数据是有差异的。因此作者让学生网络学习教师网络高级别语义特征的亲和图,而不是高级别语义特征本身。具体来说,首先在教师网络和学生网络中,生成编码特征对相似度的亲和图,然后通过L1范数强迫学生网络的亲和图尽可能接近教师网络的亲和图。
L1范数:其中k是特征向量的个数,Ai,jA_{i,j}Ai,j​是亲和图中的亲和度
在这里插入图片描述
亲和图中亲和度计算:其中fif_ifi​表示第i个特征向量
在这里插入图片描述
通过公式可以发现,计算的复杂度和特征向量的个数有关,所以作者将特征分组,将每个组当成亲和图,在每个组内计算亲和度,然后要求教师网络和学生网络每组的亲和图尽可能接近。

特征空间的对象级蒸馏

上面讲到让学生网络直接学习教师网络的特征表示是次优的,因此使用了亲和图,但我们也可以同时使用这两种方式。
但这会导致一些问题,因为特征图中存在大量的噪声(背景区域),从这些区域中提取知识可能会使网络偏离正确的优化方向,因此为了使知识蒸馏更加集中,有必要限制蒸馏区域。具体做法就是使用2D边界框对特征做了一个mask,然后用一个L2范数强迫学生网络的特征和教师网络的特征接近。
在这里插入图片描述

结果空间的对象级蒸馏

和平常的蒸馏网络一样,使用教师网络的预测作为学生网络的软标签。值得注意的是,这里只包含对于前景的预测,而在作者的基准模型中,前景指的就是目标关键点。并且,由于教师网络中对于关键点的预测足够准确,作者将关键点周围2D边界框大小的区域做了高斯掩码,强迫学生网络对于mask区域正样本的预测与教师网络接近。(这个操作和基准模型中的操作思想类似啊)
在这里插入图片描述

进一步优化

  • 特征空间中的蒸馏操作只在特征提取网络最后三个block进行。具体原因还是因为深度图和图像的细粒度特征差距还是比较大的。
  • 特征空间中的蒸馏操作引入了注意力机制。

损失函数

学生网络的损失主要是两部分,一部分是基准模型采用的损失,另一部分是蒸馏损失。
教师网络只有基准模型的损失,不包含蒸馏损失。
在这里插入图片描述

讨论

学生模型到底学到了什么?为了解决这个问题,作者的做法和基准模型中探究3D检测重要因素的做法相同。将预测结果分组为定位、尺寸、方向和分类,然后将自己某一组的结果用基准模型的结果替换,这样就可以发现到底作者的改进引起的是哪一组的提升。
实验结果图可以从下往上看,f表示作者模型的评估结果,e就是把作者预测的置信度替换成基准模型的置信度,然后得到的评估结果,a是所有预测都用基准模型的预测结果替换。可以发现b和c的吊点最严重,也就是蒸馏导致位置和尺寸预测的提升,也就是学生网络学到了空间信息。
在这里插入图片描述

教师网络的性能对结果是否有影响?作者将教师网络的输入从稠密深度图换成了稀疏深度图,教师网络的性能大幅下降,但是学生网络都能从中受益,只是收益稍微有点下降,也就是,本文提出的方法,学生网络更多的是学习空间信息,与教师网络的性能没有直接关系。

相关内容

热门资讯

公司中秋晚会主持词 关于公司中秋晚会主持词  主持词分为会议主持词、晚会主持词、活动主持词、婚庆主持词等。在当今不断发展...
小学生职位竞选词 小学生职位竞选词  个人觉得竞选中队长,你已经很清楚中队长需要做的事情了,那么就从每一个任务来发展一...
在结婚典礼上的精彩幽默主持词 在结婚典礼上的精彩幽默主持词各位来宾:大家好!奉新郎新娘之命,我来主持今天的婚礼。为什么新郎新娘一定...
婚礼主持人搞笑台词 婚礼主持人搞笑台词  各位来宾:  大家好!奉新郎新娘之命,我来主持今天的婚礼,婚礼主持人搞笑台词。...
幼儿园运动会主持稿 幼儿园运动会主持稿  篇一:幼儿园运动会主持词  踏着春天的脚步,踩着春风的节拍,春天已经来到我们中...
小学庆元旦活动主持词 小学庆元旦活动主持词  利用在中国拥有几千年文化的诗词能够有效提高主持词的感染力。在当今社会生活中,...
爵士舞蹈串词主持词   爵士舞即美国现代舞,是一种急促又富动感的节奏型舞蹈,是属于一种外放性的舞蹈,不像古典芭蕾舞或现代...
幼儿园元旦节目主持词   齐x:亲爱的爸爸妈妈  周x:亲爱的爷爷奶奶  王x:亲爱的老师  李x:亲爱的小朋友们  合:...
运动会运动员赞美词 运动会运动员赞美词1.赞运动员是我们的目标,是我们的信念,在清凉的初秋,在喧嚣的田径场上,。你们点燃...
黄梅戏晚会的主持词 黄梅戏晚会的主持词  戏迷欢庆四一八 黄梅又添新奇葩  ——喜迎418暨欢庆黄梅戏艺术团成立的晚会台...
学校秋季运动会开幕主持词 学校秋季运动会开幕主持词(精选6篇)  主持词要注意活动对象,针对活动对象写相应的主持词。在当今社会...
庆祝五四文艺晚会主持稿 庆祝五四文艺晚会主持稿  男:尊敬的各位领导、来宾  女:电视机前的观众朋友们  合:大家好  男:...
最新品鉴会主持词 最新品鉴会主持词  鉴会现在开始!  女:各位领导,各位嘉宾  男:女士们、先生们  合:大家下午好...
端午节晚会主持词 精选端午节晚会主持词(通用8篇)  根据活动对象的不同,需要设置不同的主持词。时代不断在进步,很多场...
论坛一周年庆典晚会主持词 论坛一周年庆典晚会主持词  主持词是由主持人于节目进行过程中串联节目的串联词。如今的各种演出活动和集...
最新研讨会主持词 最新研讨会主持词(通用11篇)  主持词分为会议主持词、晚会主持词、活动主持词、婚庆主持词等。在现在...
重阳节的主持词 重阳节的主持词  主持词分为会议主持词、晚会主持词、活动主持词、婚庆主持词等。在人们越来越多的参与各...
记者节活动主持词 记者节活动主持词(精选7篇)  主持词没有固定的格式,他的最大特点就是富有个性。在现今人们越来越重视...
高校运动会开幕式精彩致辞 高校运动会开幕式精彩致辞  在平平淡淡的学习、工作、生活中,大家肯定对各类致辞都很熟悉吧,致辞具有思...