从arXiv中选择

作者: Abdullah Rashwan、Agastya Kalra、Pascal Poupart机器的心编译机器的心编辑部

这是一个“矩阵网”,参数少,效果好,训练快,内存消耗量低。 将这样的架构加载到目标检测上,嗯,超越SOTA检测器不是梦。

论文链接: https://arxiv.org/abs/1908.04646

研究者在这篇论文中提出了矩阵网络(xnet )。 这是一个用于目标检测的深层次架构。 研究人员利用xNet加强了基于关键点的目标检测,在MS COCO数据集上获得了47.8的mAP。 这比其他任何步-shot探测器都有效,参数量减半。 重要的是,与效果第二好的体系结构相比,xNets的培训速度快了三倍。

如下图所示,很明显,xNet的参数效率超过了其他模型。 其中,FSAF是基于锚的检测器中效果最好的,超过了经典的RetinaNet。 在基于关键点的目标探测器中,18年提出的CornerNet是“开山之作”,今年据此提出了CenterNet。 这些厉害的单镜头探测器看起来没有xNet那么有效。

高通量筛选方法优缺点(云振宇 中国标准化研究院)-冯金伟博客园

图MSCOCO测试集中的进一步检测体系结构的模型大小(参数量) vs准确率)平均精度)。 利用MatrixNet主干网,本文作者提出的模型在参数量相似时,将发挥超过所有其他单刀结构的性能。

本论文通过在基于关键点的目标检测中使用xNet来构成KP-xNet。 关于其结构将在后面叙述,这里主要关注其性能。 其实基于关键点的目标检测最近也是一个热点,用几个关键点来确定边框确实非常简洁优雅。

以前在COCO数据集上可以获得47.0的mAP的CenterNet性能最好,但KP-xNet是一半的参数量、1/3的迭代次数、1/2的GPU存储器,可以得到额外的5.7% mAP的效果。

高通量筛选方法优缺点(云振宇 中国标准化研究院)-冯金伟博客园

表1 :本文提出的体系结构和其他体系结构在MSCOCO数据集上的实验比较结果。 如图所示,以ResNext-101-X为中心的最终模型KP-xnet(multiscale ) mAP的值最高,比原始的Cornernet ) multiscale )架构高5.7%。

目标检测需要什么样的体系结构

目标检测体系结构可以分为一级检测体系结构和二级检测体系结构两种。 在两阶段的测试中,使用候选区域网络寻找一定数量的候选目标,使用第二个网络预测各候选目标的得分,并修正边界框。

单步检测架构也可以分为两类:基于锚点的检测架构和基于关键点的检测架构。

基于锚点的发现体系结构包含许多锚点框,用于预测每个模板的偏移和类别。 其中最有名的是RetinaNet。 基于密钥的发现体系结构可以预测左上角和右下角的热图,并通过特征嵌入进行组合。 CornerNet是基于密钥的发现中非常经典的体系结构。 检测不同尺度的目标是目标检测任务的一大挑战。 特色金字塔网络(FPN )是多尺度体系结构领域取得的最大进展之一。 FPN提供了处理各种大小目标的优雅方法,但没有为具有不同宽高比的目标提供任何解决方案。

为了解决这个问题。 研究人员引进了新的CNN架构——矩阵网络。 该体系结构能够同时解决目标尺度和长宽比不同的问题。 如下图2所示,xNet有几个矩阵层,每个矩阵层都处理特定的大小和纵横比目标。 xNet将不同大小和纵横比的目标分配给每个层,以确保目标大小在分配的层上基本一致。 这样,正方形输出卷积内核就可以从各种纵横比和大小的目标中收集信息。 和FPN一样,xNet可以应用于不同的主干网。

高通量筛选方法优缺点(云振宇 中国标准化研究院)-冯金伟博客园

图2(a )是原始的FPN架构,该架构根据尺度分配不同的输出层。 (b )是矩阵网络架构,该架构将5个FPN层视为矩阵中的对角层,通过对这些层进行下采样来填充矩阵的剩余部分。

矩阵网络是什么

如图2所示,矩阵网(xnets )使用层次矩阵对不同大小和纵横比的目标进行建模,其中的各个条目I、j表示一个层l_i、j,在矩阵左上角的层l_1、1中进行宽度下降采样对角层是大小不同的四边形层,相当于一个FPN,非对角层是四边形层。 这是xNets特有的。

层 l_1,1 是最大的层,每向右一步,层宽度减半,而每向下一步高度减半。例如,层 l_3,4 是层 l_3,3 宽度的一半。对角层建模宽高比接近方形的目标,而非对角层建模宽高比不接近方形的目标。接近矩阵右上角或左下角的层建模宽高比极高或极低的目标。这类目标非常罕见,所以可以对它们进行剪枝以提升效率。

1. 层生成

生成矩阵层是影响模型参数数量的关键步骤。参数越多,模型的表达能力越强,但优化也越困难,所以研究者尽可能少地采用新参数。

2. 层范围

矩阵中的每层都对一定宽度和高度的目标进行建模,所以研究者需要限定矩阵中每层宽度和高度的范围,并且范围需要反映矩阵层特征向量的感受野。

3.Matrix Nets 的优点

Matrix Nets 的主要优点是:它可以让方形卷积核准确地收集不同宽高比的信息。因此基于这个特点,MatrixNets 可作为任何目标检测的主架构,包括基于锚点或关键点的一步或两步检测器。

Matrix Nets 怎样用于基于关键点的检测

CornerNet 提出来就是为了替代基于锚点的检测器,它利用一对角——左上角和右下角——来预测边界框。对于每个角来说,CornerNet 可预测热图、偏移量和嵌入。

下图 3 为研究者提出的基于关键点的目标检测架构 KP-xNet,它包含 4 个步骤。(a-b) 步骤使用了 xNet 主干;(c) 步骤使用了共享输出子网络,而针对每个矩阵层,他们预测了左上角和右下角的热图和偏移量,并在目标层内对它们进行中心点预测;(d) 步骤利用中心点预测匹配同一层中的角,然后将所有层的输出与 soft 非极大值抑制结合,从而得到最终输出。

高通量筛选方法优缺点(云振宇 中国标准化研究院)-冯金伟博客园

图 3:KP-xNet 架构