(华东交通大学信息工程学院,江西南昌330000)
摘要:为了全面提高RPN网络提取预选框的召回率(recall),提出一种全新优化RPN网络的算法,首先,使用深层网络特征图训练一个RPN网络,称之为深层RPN,其次,使用浅层网络特征图训练一个RPN网络,称之为浅层RPN,最后,通过弱化的非极大值(soft-NMS)算法将深层RPN和浅层RPN输出的预选框进行融合,从而,全面提高预选框的抓取潜在目标的能力。基于PASCALVOC数据集的训练和测试实验表明,该优化后的预选框提取网络比RPN提取预选框的召回率提高7%。
关键词:召回率;RPN;预选框;特征图
随着卷积神经网络[1]统领整个目标检测领域,以FasterR-CNN[2]为代表的“two-stage”目标检测算法大放异彩,其中,提取预选框尤为重要,SelectiveSearch[3]通过图片区域颜色、纹理和大小的相似性进行区域迭代合并,提取最终区域的外切矩形框就是需要的预选框。EdgeBoxes[4]通过结构化方法检测图片中目标的可能边缘,集合某种策略将边缘合成若干个区域,通过区域的某种相似性,计算出预选框。上述两种算法利用输入图片自身的属性,能有效地提取预选框,但是需要消耗大量时间,于是,利用卷积神经网络的提取预选框算法RPN应运而生,通过两个1×1的卷积神经网络,分别输出整张图片中预选框的坐标和预测分数,该方法能在极短的时间内提取预选框,为实现实时目标检测做出巨大贡献。
一般而言,基于基础卷积神经网络第四层输出的特征图训练RPN网络,但是该特征图相较输入图片进行了16倍降采样,造成大量小尺寸目标的特征图消失,极大影响了提取预选框的召回率,从而造成整个目标检测算法的准确率降低,针对该问题,本文提出使用更浅层特征图来训练RPN,减少潜在目标丢失(尤其小尺寸目标)的可能性,将浅层RPN和深层RPN输出的结果通过弱化的非极大值抑制算法融合,并且,在此过程中,提出一个语义增强网络,用于增强浅层RPN分类性能不足的问题,最终,大幅提高预选框网络的召回率。
1.基于RPN优化的预选框提取网络
虽然RenS等人的RPN提取预选框算法相较传统的算法速度大幅提升,并且能更有效抓取潜在目标,但是由于基础网络大幅降采样,造成大量小尺寸目标的特征图消失。本文提出一种基于RPN优化的提取预选框算法,基于基础网络第四层输出的特征图训练一个深层RPN,基于基础网络第三层输出的特征图训练一个语义增强的浅层RPN,最后两个RPN输出的预选框通过soft-NMS[6]算法融合。
1.1语义增强网络
在试验中发现直接将基础网络第三层输出的特征图训练一个浅层RPN,会造成该RPN的分类能力极差,为了提高浅层RPN的分类能力,本文提出一个语义增强网络,能有效提高浅层网络输出特征图的语义。
1.2损失函数
本文分别需要训练深层RPN和浅层RPN,采用分步训练的方案,先分别单独训练好两个RPN,最后将其模型参数进行合并即可,且训练深层RPN和浅层RPN使用相同的损失函数,损失函数如下。
(1)
上式中i表示第i个anchor,pi是第i个anchor为目标的预测概率,若该anchor是目标则pi为1,反之则pi为0,ti为一个四维向量,为预选框的参数化坐标,ti*表示正样本anchor相关联的参数化坐标,Lcls表示二分类交叉损失函数,Lreg是用于预选框坐标回归的smoothL1损失函数。
2.实验结果及分析
为了验证优化算法的有效性,采用NVIDIAGTX1070TiGPU、IntelCorei7-7700KCPU、16GDDR4ROM和Ubuntu16.04系统的工作站,基于PASCALVOC数据集进行训练和测试,将其与国内外先进的预选框提取算法进行比较,以下是几种算法实验比较结果。
图3召回率与IoU折线图,左图:选取测分数最高的50个预选框;中图:选取预测分数最高的100个预选框;右图:选取预测分数最高的200个预选框
由图3的结果表明,本文的预选框(DualRPN)算法表现最佳,尤其,针对左图,选取预测分数最高的50个预选框,设置IoU阈值为0.5,进行评估发现,本文提出的预选框算法实现94.4%的召回率,比RPN高10.4%,比SelectiveSearch高41.4%,比Edgeboxes高38.4%。对于中图和右图,评估预测分数最高的100个预选框,随着IoU阈值增加,发现本文基于RPN优化的提取预选框(红色曲线)算法始终比RPN、SelectiveSearch和Edgeboxes有更加优秀的预选框提取效果。
3.结论
本文基于RPN提出一种新的预选框提取算法,采用基础网络第四层输出的特征图训练一个RPN网路,称之为深层RPN;利用基础网络第三层输出的特征图训练另外一个RPN网络,为了解决第三层特征图语义信息不足的问题,提出一个由3个3×3×512卷积模块组合而成的语义增强网络,用于增强第三层特征图语义;采用弱化的非极大值抑制(soft-NMS)算法融合来自两个RPN网络的预选框。最后,基于PASCALVOC数据集,通过统计不同IoU阈值下各预选框算法的召回率实验表明,本文提出的基于RPN的优化算法能较大幅度提高提取预选框能力,能更加有效地抓取图像中的潜在目标。
参考文献
[1]LecunYL,BottouL,BengioY,etal.Gradient-BasedLearningAppliedtoDocumentRecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[2]RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]InternationalConferenceonNeuralInformationProcessingSystems.2015