一种基于RPN优化的预选框提取网络

（华东交通大学信息工程学院，江西南昌330000）

摘要：为了全面提高RPN网络提取预选框的召回率(recall)，提出一种全新优化RPN网络的算法，首先，使用深层网络特征图训练一个RPN网络，称之为深层RPN，其次，使用浅层网络特征图训练一个RPN网络，称之为浅层RPN，最后，通过弱化的非极大值(soft-NMS)算法将深层RPN和浅层RPN输出的预选框进行融合，从而，全面提高预选框的抓取潜在目标的能力。基于PASCALVOC数据集的训练和测试实验表明，该优化后的预选框提取网络比RPN提取预选框的召回率提高7%。

关键词：召回率；RPN；预选框；特征图

随着卷积神经网络[1]统领整个目标检测领域，以FasterR-CNN[2]为代表的“two-stage”目标检测算法大放异彩，其中，提取预选框尤为重要，SelectiveSearch[3]通过图片区域颜色、纹理和大小的相似性进行区域迭代合并，提取最终区域的外切矩形框就是需要的预选框。EdgeBoxes[4]通过结构化方法检测图片中目标的可能边缘，集合某种策略将边缘合成若干个区域，通过区域的某种相似性，计算出预选框。上述两种算法利用输入图片自身的属性，能有效地提取预选框，但是需要消耗大量时间，于是，利用卷积神经网络的提取预选框算法RPN应运而生，通过两个1×1的卷积神经网络，分别输出整张图片中预选框的坐标和预测分数，该方法能在极短的时间内提取预选框，为实现实时目标检测做出巨大贡献。

一般而言，基于基础卷积神经网络第四层输出的特征图训练RPN网络，但是该特征图相较输入图片进行了16倍降采样，造成大量小尺寸目标的特征图消失，极大影响了提取预选框的召回率，从而造成整个目标检测算法的准确率降低，针对该问题，本文提出使用更浅层特征图来训练RPN，减少潜在目标丢失（尤其小尺寸目标）的可能性，将浅层RPN和深层RPN输出的结果通过弱化的非极大值抑制算法融合，并且，在此过程中，提出一个语义增强网络，用于增强浅层RPN分类性能不足的问题，最终，大幅提高预选框网络的召回率。

1.基于RPN优化的预选框提取网络

虽然RenS等人的RPN提取预选框算法相较传统的算法速度大幅提升，并且能更有效抓取潜在目标，但是由于基础网络大幅降采样，造成大量小尺寸目标的特征图消失。本文提出一种基于RPN优化的提取预选框算法，基于基础网络第四层输出的特征图训练一个深层RPN，基于基础网络第三层输出的特征图训练一个语义增强的浅层RPN，最后两个RPN输出的预选框通过soft-NMS[6]算法融合。

1.1语义增强网络

在试验中发现直接将基础网络第三层输出的特征图训练一个浅层RPN，会造成该RPN的分类能力极差，为了提高浅层RPN的分类能力，本文提出一个语义增强网络，能有效提高浅层网络输出特征图的语义。

1.2损失函数

本文分别需要训练深层RPN和浅层RPN，采用分步训练的方案，先分别单独训练好两个RPN，最后将其模型参数进行合并即可，且训练深层RPN和浅层RPN使用相同的损失函数，损失函数如下。

(1)

上式中i表示第i个anchor，pi是第i个anchor为目标的预测概率，若该anchor是目标则pi为1，反之则pi为0，ti为一个四维向量，为预选框的参数化坐标，ti*表示正样本anchor相关联的参数化坐标，Lcls表示二分类交叉损失函数，Lreg是用于预选框坐标回归的smoothL1损失函数。

2.实验结果及分析

为了验证优化算法的有效性，采用NVIDIAGTX1070TiGPU、IntelCorei7-7700KCPU、16GDDR4ROM和Ubuntu16.04系统的工作站，基于PASCALVOC数据集进行训练和测试，将其与国内外先进的预选框提取算法进行比较，以下是几种算法实验比较结果。

图3召回率与IoU折线图，左图：选取测分数最高的50个预选框；中图：选取预测分数最高的100个预选框；右图：选取预测分数最高的200个预选框

由图3的结果表明，本文的预选框(DualRPN)算法表现最佳，尤其，针对左图，选取预测分数最高的50个预选框，设置IoU阈值为0.5，进行评估发现，本文提出的预选框算法实现94.4%的召回率，比RPN高10.4%，比SelectiveSearch高41.4%，比Edgeboxes高38.4%。对于中图和右图，评估预测分数最高的100个预选框，随着IoU阈值增加，发现本文基于RPN优化的提取预选框(红色曲线)算法始终比RPN、SelectiveSearch和Edgeboxes有更加优秀的预选框提取效果。

3.结论

本文基于RPN提出一种新的预选框提取算法，采用基础网络第四层输出的特征图训练一个RPN网路，称之为深层RPN；利用基础网络第三层输出的特征图训练另外一个RPN网络，为了解决第三层特征图语义信息不足的问题，提出一个由3个3×3×512卷积模块组合而成的语义增强网络，用于增强第三层特征图语义；采用弱化的非极大值抑制(soft-NMS)算法融合来自两个RPN网络的预选框。最后，基于PASCALVOC数据集，通过统计不同IoU阈值下各预选框算法的召回率实验表明，本文提出的基于RPN的优化算法能较大幅度提高提取预选框能力，能更加有效地抓取图像中的潜在目标。

参考文献

[1]LecunYL,BottouL,BengioY,etal.Gradient-BasedLearningAppliedtoDocumentRecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.

[2]RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]InternationalConferenceonNeuralInformationProcessingSystems.2015

标签：算法论文; 网络论文; 特征论文;

一种基于RPN优化的预选框提取网络

猜你喜欢