【3D目标检测】MONODISTILL: LEARNING SPATIAL FEATURES FORMONOCULAR 3D OBJECT DETECTION
创始人
2024-06-01 11:45:26
0

目录

  • 概述
  • 细节
    • 背景
    • 网络结构
    • 教师网络/学生网络
    • 蒸馏
      • 特征空间的场景级蒸馏
      • 特征空间的对象级蒸馏
      • 结果空间的对象级蒸馏
      • 进一步优化
    • 损失函数
    • 讨论

概述

【2022】【MONODISTILL】
研究的问题:

  • 核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络
  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

解决的方法:

  • 基于点密度的点级损失平衡,包括几何目标点云对齐损失以及射线追踪损失
  • 给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

很多算法如图a延续2D目标检测的思路,直接从图像特征中得到3D检测框,但是由于图像本身缺少空间信息(深度信息),网络的性能不佳,因此很多学者尝试引入深度图增强空间信息。
一种思路如图b是将深度图和图像同时作为输入;另一种思路如图c是将深度图转换成点云,然后借助先进的基于点云的检测算法实现检测(【3D目标检测】Pseudo-LiDAR from Visual Depth Estimation);前两种都是采用离线的深度估计网络,最近一种思路如图d是采用深度估计子网络实现深度的估计,然后借助深度估计结果将2D特征上升到3D空间实现检测(【3D目标检测】Categorical Depth Distribution Network for Monocular 3D Object Detection)
但是,这些基于深度图的方法不可避免的都会带来巨大的时间开销(深度估计是很耗时的)。
本文中如图e,作者受到知识蒸馏方法的启发(作者认为知识蒸馏能够实现空间线索的迁移),提出了一个从点云中获取空间信息的知识蒸馏方法。直接从教师网络中学习深度信息,并不集成深度估计模块,不增加额外开销的同时提升网络的性能,实现速度和效率的权衡。
在这里插入图片描述

核心问题:怎么对齐?因为基于图像特征是2D 的而点云特征是3D的。作者将点云投影到图像平面上(这个就是以往深度图的监督信号了),然后使用CNN获取2D深度特征,然后就可以和图像特做蒸馏了,将空间信息传递过去。

网络结构

整体包含三个部分,分别是教师网络、学生网络以及中间的一些分支。其中教师网络和学生网络采用相同的结构,中间的分支是为了让学生网络从教师网络中获取知识。
在这里插入图片描述

教师网络/学生网络

两者用的网络结构是一致的,都是这篇文章(【3D目标检测】Delving into Localization Errors for Monocular 3D Object Detection)中采用的网络结构,作者说他进一步使用估计的深度不确定性归一化了每个预测对象的置信度。

核心的区别就是输入,学生网络的输入就是图像,教师网络的输入是图像化的点云。具体的图像化过程是:将点云投影到图像坐标系下,得到稀疏的深度图,然后使用interpolation算法得到稠密的深度图,然后将稠密的深度图作为教师网络的输入。
在这里插入图片描述

蒸馏

作者采用了三种互补的蒸馏方案,分别是特征空间的场景级蒸馏,特征空间的对象级蒸馏以及结果空间的对象级蒸馏。

特征空间的场景级蒸馏

作者认为让学生网络直接学习教师网络的特征表示是次优的,毕竟深度图和图像这两种数据是有差异的。因此作者让学生网络学习教师网络高级别语义特征的亲和图,而不是高级别语义特征本身。具体来说,首先在教师网络和学生网络中,生成编码特征对相似度的亲和图,然后通过L1范数强迫学生网络的亲和图尽可能接近教师网络的亲和图。
L1范数:其中k是特征向量的个数,Ai,jA_{i,j}Ai,j​是亲和图中的亲和度
在这里插入图片描述
亲和图中亲和度计算:其中fif_ifi​表示第i个特征向量
在这里插入图片描述
通过公式可以发现,计算的复杂度和特征向量的个数有关,所以作者将特征分组,将每个组当成亲和图,在每个组内计算亲和度,然后要求教师网络和学生网络每组的亲和图尽可能接近。

特征空间的对象级蒸馏

上面讲到让学生网络直接学习教师网络的特征表示是次优的,因此使用了亲和图,但我们也可以同时使用这两种方式。
但这会导致一些问题,因为特征图中存在大量的噪声(背景区域),从这些区域中提取知识可能会使网络偏离正确的优化方向,因此为了使知识蒸馏更加集中,有必要限制蒸馏区域。具体做法就是使用2D边界框对特征做了一个mask,然后用一个L2范数强迫学生网络的特征和教师网络的特征接近。
在这里插入图片描述

结果空间的对象级蒸馏

和平常的蒸馏网络一样,使用教师网络的预测作为学生网络的软标签。值得注意的是,这里只包含对于前景的预测,而在作者的基准模型中,前景指的就是目标关键点。并且,由于教师网络中对于关键点的预测足够准确,作者将关键点周围2D边界框大小的区域做了高斯掩码,强迫学生网络对于mask区域正样本的预测与教师网络接近。(这个操作和基准模型中的操作思想类似啊)
在这里插入图片描述

进一步优化

  • 特征空间中的蒸馏操作只在特征提取网络最后三个block进行。具体原因还是因为深度图和图像的细粒度特征差距还是比较大的。
  • 特征空间中的蒸馏操作引入了注意力机制。

损失函数

学生网络的损失主要是两部分,一部分是基准模型采用的损失,另一部分是蒸馏损失。
教师网络只有基准模型的损失,不包含蒸馏损失。
在这里插入图片描述

讨论

学生模型到底学到了什么?为了解决这个问题,作者的做法和基准模型中探究3D检测重要因素的做法相同。将预测结果分组为定位、尺寸、方向和分类,然后将自己某一组的结果用基准模型的结果替换,这样就可以发现到底作者的改进引起的是哪一组的提升。
实验结果图可以从下往上看,f表示作者模型的评估结果,e就是把作者预测的置信度替换成基准模型的置信度,然后得到的评估结果,a是所有预测都用基准模型的预测结果替换。可以发现b和c的吊点最严重,也就是蒸馏导致位置和尺寸预测的提升,也就是学生网络学到了空间信息。
在这里插入图片描述

教师网络的性能对结果是否有影响?作者将教师网络的输入从稠密深度图换成了稀疏深度图,教师网络的性能大幅下降,但是学生网络都能从中受益,只是收益稍微有点下降,也就是,本文提出的方法,学生网络更多的是学习空间信息,与教师网络的性能没有直接关系。

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...