概述

【2022】【MONODISTILL】
研究的问题:

核心问题：如何以2D检测框对应的目标点云作为监督信号进行弱监督学习，训练一个单目3D目标检测网络
模型产生预测框之后，如何设计损失衡量预测边界框与目标点云之间的距离。
如何从点云中获取相关参数的监督信号

解决的方法：

基于点密度的点级损失平衡，包括几何目标点云对齐损失以及射线追踪损失
给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

很多算法如图a延续2D目标检测的思路，直接从图像特征中得到3D检测框，但是由于图像本身缺少空间信息（深度信息），网络的性能不佳，因此很多学者尝试引入深度图增强空间信息。
一种思路如图b是将深度图和图像同时作为输入；另一种思路如图c是将深度图转换成点云，然后借助先进的基于点云的检测算法实现检测（【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation）；前两种都是采用离线的深度估计网络，最近一种思路如图d是采用深度估计子网络实现深度的估计，然后借助深度估计结果将2D特征上升到3D空间实现检测（【3D目标检测】Categorical Depth Distribution Network for Monocular 3D Object Detection）
但是，这些基于深度图的方法不可避免的都会带来巨大的时间开销（深度估计是很耗时的）。
本文中如图e，作者受到知识蒸馏方法的启发（作者认为知识蒸馏能够实现空间线索的迁移），提出了一个从点云中获取空间信息的知识蒸馏方法。直接从教师网络中学习深度信息，并不集成深度估计模块，不增加额外开销的同时提升网络的性能，实现速度和效率的权衡。
在这里插入图片描述

核心问题：怎么对齐？因为基于图像特征是2D 的而点云特征是3D的。作者将点云投影到图像平面上（这个就是以往深度图的监督信号了），然后使用CNN获取2D深度特征，然后就可以和图像特做蒸馏了，将空间信息传递过去。

网络结构

整体包含三个部分，分别是教师网络、学生网络以及中间的一些分支。其中教师网络和学生网络采用相同的结构，中间的分支是为了让学生网络从教师网络中获取知识。
在这里插入图片描述

教师网络/学生网络

两者用的网络结构是一致的，都是这篇文章（【3D目标检测】Delving into Localization Errors for Monocular 3D Object Detection）中采用的网络结构，作者说他进一步使用估计的深度不确定性归一化了每个预测对象的置信度。

核心的区别就是输入，学生网络的输入就是图像，教师网络的输入是图像化的点云。具体的图像化过程是：将点云投影到图像坐标系下，得到稀疏的深度图，然后使用interpolation算法得到稠密的深度图，然后将稠密的深度图作为教师网络的输入。
在这里插入图片描述

蒸馏

作者采用了三种互补的蒸馏方案，分别是特征空间的场景级蒸馏，特征空间的对象级蒸馏以及结果空间的对象级蒸馏。

特征空间的场景级蒸馏

作者认为让学生网络直接学习教师网络的特征表示是次优的，毕竟深度图和图像这两种数据是有差异的。因此作者让学生网络学习教师网络高级别语义特征的亲和图，而不是高级别语义特征本身。具体来说,首先在教师网络和学生网络中，生成编码特征对相似度的亲和图，然后通过L1范数强迫学生网络的亲和图尽可能接近教师网络的亲和图。
L1范数：其中k是特征向量的个数，Ai,jA_{i,j}Ai,j是亲和图中的亲和度
在这里插入图片描述
亲和图中亲和度计算：其中fif_ifi表示第i个特征向量

通过公式可以发现，计算的复杂度和特征向量的个数有关，所以作者将特征分组，将每个组当成亲和图，在每个组内计算亲和度，然后要求教师网络和学生网络每组的亲和图尽可能接近。

特征空间的对象级蒸馏

上面讲到让学生网络直接学习教师网络的特征表示是次优的，因此使用了亲和图，但我们也可以同时使用这两种方式。
但这会导致一些问题，因为特征图中存在大量的噪声（背景区域），从这些区域中提取知识可能会使网络偏离正确的优化方向，因此为了使知识蒸馏更加集中，有必要限制蒸馏区域。具体做法就是使用2D边界框对特征做了一个mask，然后用一个L2范数强迫学生网络的特征和教师网络的特征接近。
在这里插入图片描述

结果空间的对象级蒸馏

和平常的蒸馏网络一样，使用教师网络的预测作为学生网络的软标签。值得注意的是，这里只包含对于前景的预测，而在作者的基准模型中，前景指的就是目标关键点。并且，由于教师网络中对于关键点的预测足够准确，作者将关键点周围2D边界框大小的区域做了高斯掩码，强迫学生网络对于mask区域正样本的预测与教师网络接近。（这个操作和基准模型中的操作思想类似啊）
在这里插入图片描述

进一步优化

特征空间中的蒸馏操作只在特征提取网络最后三个block进行。具体原因还是因为深度图和图像的细粒度特征差距还是比较大的。
特征空间中的蒸馏操作引入了注意力机制。

损失函数

学生网络的损失主要是两部分，一部分是基准模型采用的损失，另一部分是蒸馏损失。
教师网络只有基准模型的损失，不包含蒸馏损失。
在这里插入图片描述

讨论

学生模型到底学到了什么？为了解决这个问题，作者的做法和基准模型中探究3D检测重要因素的做法相同。将预测结果分组为定位、尺寸、方向和分类，然后将自己某一组的结果用基准模型的结果替换，这样就可以发现到底作者的改进引起的是哪一组的提升。
实验结果图可以从下往上看，f表示作者模型的评估结果，e就是把作者预测的置信度替换成基准模型的置信度，然后得到的评估结果，a是所有预测都用基准模型的预测结果替换。可以发现b和c的吊点最严重，也就是蒸馏导致位置和尺寸预测的提升，也就是学生网络学到了空间信息。
在这里插入图片描述