复旦、穆萨的CVPR2022最差小学生学术论文奖科学研究了什么？这是Sivaganga的阐释_百万个冷知识

机器之心发布

作者：奈迈什晟（上海交通大学博士生、穆萨Marcellin综合性通讯员）

距离 CVPR 2022 数十家大奖公布没过多久，来自上海交通大学博士生、穆萨Marcellin综合性通讯员奈迈什晟为他们阐释最差小学生学术论文奖。

责任编辑阐释他们获得 CVPR 2022 最差小学生学术论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。学术论文科学研究的难题是如前所述宣传册影像估算球体在 3D 空间中的体位。

原有方式中，如前所述 PnP 欧几里得强化的体位估算方式往往通过广度互联网抽取 2D-3D 关连点，然而因为体位最强化韦尔恩逆向传播时存在不容微的难题，难以避免以体位数值作为经济损失对互联网进行平衡的端到端体能训练，此时 2D-3D 关连点倚赖其他全权经济损失的监督，这对于体位估算来说不是最差的体能训练最终目标。为解决而此难题，他们从理论出发，提出了 EPro-PnP 组件，其输入体位的泊松分布而非单个的体位最强化解，从而将不容微的最强化体位代替为了可微的泊松，实现了平衡的端到端体能训练。EPro-PnP 适用性强，适用于各类年度计划和数据，能用于改进原有的如前所述 PnP 的体位估算方式，也能借助于其稳定性体能训练崭新的互联网。从更通常的意义来说，EPro-PnP 其本质是将常见的分类 softmax 带进到了连续域，理论上能推广至体能训练通常的冗余了强化层的模型。

学术论文镜像：https://arxiv.org/abs/2203.13254标识符镜像：https://github.com/tjiiv-cprg/EPro-PnP

一、序言

他们科学研究的是 3D 听觉中的一个经典之作难题：如前所述宣传册 RGB 影像功能定位其中的 3D 球体。具体来说，取值一张含有 3D 球体二维的影像，他们的最终目标是确定球体极坐标到照相机极坐标的质点转换。而此质点转换被称为球体的体位，记为 y，其包含两部分：1）位置（position）量纲，需用 3x1 的偏转矢量 t 则表示，2）朝著（orientation）量纲，需用 3x3 的转动行列式 R 则表示。

针对而此难题，原有方式能分为显式和显式两类。显式方式也可称之为间接体位预估，即使用THF1神经互联网（FFN）间接输入球体体位的各个量纲，通常是：1）预估球体的广度，2）找寻球体圆心在影像上的 2D 二维位置，3）预估球体的朝著（朝著的具体处理方式可能比较复杂）。利用标有球体真实体位的影像数据，能设计经济损失函数间接监督体位预估结果，轻松地实现互联网的端到端体能训练。然而，这样的互联网缺乏可解释性，在规模较小的数据集上易于过拟合。在 3D 最终目标检测任务中，显式方式占据主流，尤其是对于规模较大的数据集（例如 nuScenes）。

显式方式则是如前所述欧几里得强化的体位估算方式，最典型的代表是如前所述 PnP 的体位估算方式。这类方式中，首先需要在影像极坐标中找寻 N 个 2D 点（第 i 点 2D 坐标记为

），同时在球体极坐标中找寻与之相关连的 N 个 3D 点（第 i 点 3D 坐标记为

），有时还需要获取各对点的关连权重（第 i 对点的关连权重记为

）。根据透视二维约束，这 N 对 2D-3D 加权关连点显式地定义了球体的最强化体位。具体来说，他们能找寻使重二维数值最小的球体体位

：

其中

，则表示加权重二维数值，是体位的

函数。

则表示含有内参的照相机二维函数，

则表示元素乘积。PnP 方式常见于球体欧几里得形状已知的 6 自由度体位估算任务中。

如前所述 PnP 的方式也需要THF1互联网去预估 2D-3D 关连点集

。相比于间接体位预估，而此广度学习结合传统欧几里得听觉算法的模型有非常好的可解释性，其泛化性能较为平衡，但在以往的工作中模型的体能训练方式存在缺陷。很多方式通过构建全权经济损失函数，去监督 X 而此中间结果，这对于体位来说不是最强化的最终目标。例如，已知球体形状的前提下，能预先选取出球体的 3D 关键点，然后体能训练互联网去找寻对应的 2D 二维点位置。这也意味着全权经济损失只能学习 X 中的部分变量，因此不够灵活。如果他们不知道体能训练集中球体的形状，需要从零开始学习 X 中的全部内容该怎么办？

显示和显式方式的优势互补，如果能够通过监督 PnP 输入的体位结果，端到端地体能训练互联网去学习关连点集 X ，则能将二者优势结合。为实现而此最终目标，一些近期科学研究利用隐函数求导实现了 PnP 层的逆向传播。然而，PnP 中的 argmin 函数在某些点是不连续不容微的，使得逆向传播并不平衡，间接体能训练难以收敛。

二、EPro-PnP 方式介绍

1、EPro-PnP 组件

为了实现平衡的端到端体能训练，他们提出了端到端概率 PnP（end-to-end probabilistic PnP），即 EPro-PnP。其基本思想是将显式体位视作一个概率分布，则其泊松

对于 X 是可微的。首先如前所述重二维数值定义体位的似然函数：

若使用无信息先验，则体位的后验泊松为似然函数的归一化结果：

能注意到，以上公式与常用的分类 softmax 公式

分接近，其实 EPro-PnP 的其本质就是将softmax从离散阈搬到了连续阈，把求和

换成了积分

。

2、KL 散度经济损失

在体能训练模型的过程中，已知球体真实体位

，则能定义最终目标体位分布

。此时能计算 KL 散度

作为体能训练互联网所用的经济损失函数（因

固定，也能理解为交叉熵经济损失函数）。在最终目标

趋近于 Dirac 函数的情况下，如前所述 KL 散度的经济损失函数能简化为以下形式：

如对其求导则有：

可见，该经济损失函数由两项构成，第一项（记为

）试图降低体位真值

的重二维数值，第二项（记为

）试图增大预估体位

各处的重二维数值。二者方向相反，效果如下图（左）所示。作为类比，右边就是他们在体能训练分类互联网时常用的分类交叉熵经济损失。

3、蒙特卡洛体位经济损失

需要注意到，KL 经济损失中的第二项

中含有积分，而此积分没有解析解，因此必须通过数值方式进行近似。综合考虑适用性，精确度和计算效率，他们采用蒙特卡洛方式，通过采样来模拟体位分布。

具体来说，他们采用了一种重要性采样算法——Adaptive Multiple Importance Sampling（AMIS），计算出K个带有权重

的体位样本

，他们将而此过程称之为蒙特卡洛 PnP：

据此，第二项

能近似为关于权重

的函数，且

能逆向传播：

体位采样的可视化效果如下图所示：

4、针对 PnP 求解器的导数正则化

尽管蒙特卡洛 PnP 经济损失能用于体能训练互联网得到高质量的体位分布，但在推理阶段，还是需要通过 PnP 强化求解器来得到最强化体位解

。常用的高斯 - 牛顿及其衍生算法通过迭代强化求解

，其迭代增量是由代价函数

的一阶和二阶导数决定的。为使 PnP 的解

更接近真值

，能对代价函数的导数进行正则化。设计正则化经济损失函数如下：

其中，

为高斯 - 牛顿迭代增量，与代价函数的一阶和二阶导数有关，且能逆向传播，

则表示距离度量，对于位置使用 smooth L1，对于朝著使用 cosine similarity。在

不一致时，该经济损失函数促使迭代增量

指向实际真值。

三、如前所述 EPro-PnP 的体位估算互联网

他们在 6 自由度体位估算和 3D 最终目标检测两个子任务上分别使用了不同的互联网。其中，对于 6 自由度体位估算，在 ICCV 2019 的 CDPN 互联网的基础上稍加修改并用 EPro-PnP 体能训练，用来进行 ablation studies；对于 3D 最终目标检测，在 ICCVW 2021 的 FCOS3D 基础上设计了崭新的变形关连（deformable correspondence）检测头，以证明 EPro-PnP 能体能训练互联网在没有球体形状知识的情况下间接学出所有 2D-3D 点和关连权重，从而展现 EPro-PnP 在应用方面的稳定性。

1、用于 6 自由度体位估算的稠密关连互联网

互联网结构如上图所示，只是在原版 CDPN 的基础上修改了输入层。原版 CDPN 使用已经检测到的球体 2D 框裁剪出区域影像，输入到 ResNet34 backbone 中。原版 CDPN 将位置与朝著解耦为两个分支，位置分支使用间接预估的显式方式，而朝著分支使用稠密关连和 PnP 的显式方式。为了科学研究 EPro-PnP，改动后的互联网只保留了稠密关连分支，其输入为 3 通道的 3D 坐标图，以及 2 通道关连权重，其中关连权重经过了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是对权重

进行归一化，使其具有类似 attention map 的性质，能关注相对重要的区域，实验证明权重归一化也是平衡收敛的关键。Global weight scaling 反映了体位分布

的集中程度。该互联网仅需 EPro-PnP 的蒙特卡洛体位经济损失就能体能训练，此外能增加导数正则化，以及在球体形状已知的情况下增加额外的 3D 坐标回归经济损失。

2、用于 3D 最终目标检测的变形关连互联网

互联网结构如上图所示。总体来说是如前所述 FCOS3D 检测器，参考 deformable DETR 设计的互联网结构。在 FCOS3D 的基础上，保留其 centerness 和 classification 层，而将其原有的体位预估层代替为 object embedding 和 reference point 层，用于生成 object query。参考 deformable DETR，他们通过预估相对于 reference point 的偏移量得到 2D 采样位置（也就得到了

）。采样后的 feature 经由 attention 操作聚合为 object feature，用于预估球体级别的结果（3D score，weight scale，3D box size 等）。此外，采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输入各点所对应的的 3D 坐标

和关连权重

。所预估的

全部可由 EPro-PnP 的蒙特卡洛体位经济损失体能训练得到，不需要额外正则化就能收敛并有较高的精度。在此基础上，能增加导数正则化经济损失和辅助经济损失进一步提升精度。

四、实验结果

1、6 自由度体位估算任务

使用 LineMOD 数据集实验，并严格与 CDPN baseline 进行比对，主要结果如上。可见，增加 EPro-PnP 经济损失进行端到端体能训练，精度显著提升（+12.70）。继续增加导数正则化经济损失，精度进一步提升。在此基础上，使用原版 CDPN 的体能训练结果初始化并增加 epoch（保持总 epoch 数与原版 CDPN 的完整三阶段体能训练一致）能使精度进一步提升，其中预体能训练 CDPN 的优势部分来源于 CDPN 体能训练时有额外的 mask 监督。

上图是 EPro-PnP 与各种领先方式的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA，并且 EPro-PnP 的架构简洁，完全如前所述 PnP 进行体位估算，不需要额外进行显式广度估算或体位精修，因此在效率上也有优势。

2、3D 最终目标检测任务

3、可视化分析

上图显示了用 EPro-PnP 体能训练的稠密关连互联网的预估结果。其中，关连权重图

对影像中的重要区域进行了高光，类似于 attention 机制。由经济损失函数分析可知，高光区域对应的是重二维不确定性较低以及对体位变动较为敏感的区域。

3D 最终目标检测的结果如上图所示。其中左上视图显示了变形关连互联网采样出的 2D 点位置，红色则表示

水平 X 量纲较高的带你，绿色则表示

垂直 Y 量纲较高的点。绿色点通常位于球体上下两端，其主要作用是通过球体高度来推算球体的距离，而此特性并非人为指定，完全是自由体能训练的结果。右图显示了俯视图上的检测结果，其中蓝色云图则表示球体圆心位置的分布密度，反映了球体功能定位的不确定性。通常远处的球体功能定位不确定性大于近处的球体。

EPro-PnP 的另一重要优势在于，能够通过预估复杂的多峰分布来则表示朝著的模糊性。如上图所示，Barrier 由于球体本身转动对称，朝著经常出现相差 180° 的两个峰值；Cone 本身没有特定的朝著，因此预估结果在各个方向均有分布；Pedestrian 虽不完全转动对称，但因影像不清晰，不易判断正面和背面，有时也会出现两个峰值。而此概率特性使得 EPro-PnP 对于对称球体不需要在经济损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不容微的最强化体位转变为可微的体位泊松，使得如前所述 PnP 欧几里得强化的体位估算互联网可实现平衡且灵活的端到端体能训练。EPro-PnP 可应用于通常的 3D 球体体位估算难题，即使在未知 3D 球体欧几里得形状的情况下，也能通过端到端体能训练学习得到球体的 2D-3D 关连点。因此，EPro-PnP 拓宽了互联网设计的可能性，例如他们提出的变形关连互联网，这在以往是不容能体能训练的。此外，EPro-PnP 也能间接被用于改进原有的如前所述 PnP 的体位估算方式，通过端到端体能训练释放原有互联网的潜力，提升体位估算精度。从更通常的意义来说，EPro-PnP 其本质是将常见的分类 softmax 带进到了连续域，不仅需用于其他如前所述欧几里得强化的 3D 听觉难题，理论上还能推广至体能训练通常的冗余了强化层的模型。