本文的输入数据仅仅是单目图像,在方法上是融合了伪点云(Pseudo-LiDAR)的深度信息表示方法与Frustum PointNets的检测方法。
乍一看文章和伪点云原论文Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for AD
一模一样,但是会更具体一点,也就是本文只关注单目图像,同时解决了一些伪点云存在的问题。
ps:
作者提到了其他设备的一些弊端:深度相机能捕捉的范围很有限;双目相机工作的流程很麻烦,需要校准与同步;激光雷达就不用说了,很贵 哈哈哈哈哈。相比之下,单目相机既便宜又方便安装,能捕捉的范围也大,核心问题就是没有深度信息。
伪点云和点云的差别:
主要原因:
单目深度估计效果不好。
造成影响:
作者给出的解决:
基本的假设是:
不准确的3D边界框对应的2D投影与2D候选框的IOU是不够大的,而我们要是能够使得这个指标足够大,就能够提升3D边界框与3D gt box的3D IOU。
具体做法:
我们将预测的边界框的7个参数转换成对应3D空间中的8个角点,使用相机的投影矩阵转换成2D当中的8个点(类似于相机成像的原理),接着得到这8个点的最小包围矩形框(用4个参数x,y,w,h表示)。同理,2D实例分割的结果也能被转换为最小的包围矩形框(用4个参数x,y,w,h表示),我们的目标是这两个矩形框尽可能的接近。训练的过程中
就是使用smooth L1损失处理这四个参数,测试的时候
做了一步后处理优化,但是作者没细讲,或者我没看懂害。
上一篇: 古代寓言故事