【2022】【MONODISTILL】
研究的问题:
解决的方法:
很多算法如图a
延续2D目标检测的思路,直接从图像特征中得到3D检测框,但是由于图像本身缺少空间信息(深度信息),网络的性能不佳,因此很多学者尝试引入深度图增强空间信息。
一种思路如图b
是将深度图和图像同时作为输入;另一种思路如图c
是将深度图转换成点云,然后借助先进的基于点云的检测算法实现检测(【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation);前两种都是采用离线的深度估计网络,最近一种思路如图d
是采用深度估计子网络实现深度的估计,然后借助深度估计结果将2D特征上升到3D空间实现检测(【3D目标检测】Categorical Depth Distribution Network for Monocular 3D Object Detection)
但是
,这些基于深度图的方法不可避免的都会带来巨大的时间开销(深度估计是很耗时的)。
本文中如图e
,作者受到知识蒸馏方法的启发(作者认为知识蒸馏能够实现空间线索的迁移),提出了一个从点云中获取空间信息的知识蒸馏方法。直接从教师网络中学习深度信息,并不集成深度估计模块,不增加额外开销的同时提升网络的性能,实现速度和效率的权衡。
核心问题:
怎么对齐?因为基于图像特征是2D 的而点云特征是3D的。作者
将点云投影到图像平面上(这个就是以往深度图的监督信号了),然后使用CNN获取2D深度特征,然后就可以和图像特做蒸馏了,将空间信息传递过去。
整体包含三个部分,分别是教师网络、学生网络以及中间的一些分支。其中教师网络和学生网络采用相同的结构,中间的分支是为了让学生网络从教师网络中获取知识。
两者用的网络结构是一致
的,都是这篇文章(【3D目标检测】Delving into Localization Errors for Monocular 3D Object Detection)中采用的网络结构,作者说他进一步使用估计的深度不确定性归一化了每个预测对象的置信度。
核心的区别
就是输入,学生网络的输入就是图像,教师网络的输入是图像化的点云。具体的图像化过程是
:将点云投影到图像坐标系下,得到稀疏的深度图,然后使用interpolation算法得到稠密的深度图,然后将稠密的深度图作为教师网络的输入。
作者采用了三种互补的蒸馏方案,分别是特征空间的场景级蒸馏,特征空间的对象级蒸馏以及结果空间的对象级蒸馏。
作者认为让学生网络直接学习教师网络的特征表示是次优的,毕竟深度图和图像这两种数据是有差异的。因此作者让学生网络学习教师网络高级别语义特征的亲和图,而不是高级别语义特征本身。具体来说
,首先在教师网络和学生网络中,生成编码特征对相似度的亲和图,然后通过L1范数强迫学生网络的亲和图尽可能接近教师网络的亲和图。
L1范数:其中k是特征向量的个数,Ai,jA_{i,j}Ai,j是亲和图中的亲和度
亲和图中亲和度计算:其中fif_ifi表示第i个特征向量
通过公式可以发现,计算的复杂度和特征向量的个数有关,所以作者将特征分组,将每个组当成亲和图,在每个组内计算亲和度,然后要求教师网络和学生网络每组的亲和图尽可能接近。
上面讲到让学生网络直接学习教师网络的特征表示是次优的,因此使用了亲和图,但我们也可以同时使用这两种方式。
但这会导致一些问题
,因为特征图中存在大量的噪声(背景区域),从这些区域中提取知识可能会使网络偏离正确的优化方向,因此为了使知识蒸馏更加集中,有必要限制蒸馏区域。具体做法
就是使用2D边界框对特征做了一个mask,然后用一个L2范数强迫学生网络的特征和教师网络的特征接近。
和平常的蒸馏网络一样,使用教师网络的预测作为学生网络的软标签。值得注意的是,这里只包含对于前景的预测,而在作者的基准模型中,前景指的就是目标关键点。并且,由于教师网络中对于关键点的预测足够准确,作者将关键点周围2D边界框大小的区域做了高斯掩码,强迫学生网络对于mask区域正样本的预测与教师网络接近。(这个操作和基准模型中的操作思想类似啊)
学生网络的损失主要是两部分,一部分是基准模型采用的损失,另一部分是蒸馏损失。
教师网络只有基准模型的损失,不包含蒸馏损失。
学生模型到底学到了什么?
为了解决这个问题,作者的做法和基准模型中探究3D检测重要因素的做法相同。将预测结果分组为定位、尺寸、方向和分类,然后将自己某一组的结果用基准模型的结果替换,这样就可以发现到底作者的改进引起的是哪一组的提升。
实验结果图可以从下往上看,f表示作者模型的评估结果,e就是把作者预测的置信度替换成基准模型的置信度,然后得到的评估结果,a是所有预测都用基准模型的预测结果替换。可以发现b和c的吊点最严重,也就是蒸馏导致位置和尺寸预测的提升,也就是学生网络学到了空间信息。
教师网络的性能对结果是否有影响?
作者将教师网络的输入从稠密深度图换成了稀疏深度图,教师网络的性能大幅下降,但是学生网络都能从中受益,只是收益稍微有点下降,也就是,本文提出的方法,学生网络更多的是学习空间信息,与教师网络的性能没有直接关系。