导读:本文包含了文本检测论文开题报告文献综述及选题提纲参考文献,主要关键词:图像文本检测,网络社交平台,笔画宽度变换,文本区域检测
文本检测论文文献综述
乔平安,刘佩龙[1](2019)在《基于SWT法网络社交平台图像文本检测》一文中研究指出网络社交平台图像包含丰富的文本信息,而文本检测是提取这些文本信息的基础。针对网络社交平台图像的特点,提出一种基于笔画宽度变换(Stroke Width Transform)的检测图像文本的方法。该方法首先预处理输入的图像,接着按照分布规则检测图像文本区域,然后根据形态规则和笔画特征规则筛除非文本区域,最后输出检测的文本区域结果。仿真实验结果表明,该方法能够准确检测网络社交平台图像文本区域,效率较好。(本文来源于《现代电子技术》期刊2019年20期)
牛作东,李捍东[2](2019)在《引入注意力机制的自然场景文本检测算法研究》一文中研究指出随着深度学习、神经网络的兴起与发展,对于图像中的目标检测已经取得了巨大的进展。但是自然场景下的文本信息具有多样的形式和复杂的特点,通用的目标检测算法无法取得理想的效果,因此自然场景下的文本检测在计算机视觉以及机器学习领域仍然是一项具有挑战性的问题和未来的热点研究方向。根据当前学术界针对自然场景下的文本检测问题所提出的算法和思路,在EAST算法的主干网络PVANet的基础上通过引入注意力机制模块,使得提取文本目标特征时更加关注有用信息和抑制无用信息,从而有效改善原算法在预测长文本方向信息时视野不足的问题。实验结果显示,该方法在没有损失检测效率的同时提高了原算法的检测精度,并在一定程度上优于当前针对自然场景下的文本检测算法。(本文来源于《计算机应用与软件》期刊2019年09期)
方承志,樊梦雅[3](2019)在《基于改进型卷积神经网络和行特征的文本检测》一文中研究指出针对现有的自然场景文本检测算法准确率尚未理想的问题,提出了一种基于改进型卷积神经网络和行特征的文本检测方法.首先,采用增强的最大稳定极值区域(MSER)提取图像的连通分量,并应用剪枝方法来获取孤立的连通区域;其次,应用改进型卷积神经网络(CNN)对非字符区域进行消除,获得候选字符区域;然后,提出基于行特征构建多方向候选文本行的算法,用于检测任意定向和弯曲的场景文本;最后,应用C4.5决策树算法对候选文本行进行分类.该算法在ICDAR2013、ICDAR2015和MSER-TD500数据集上进行实验,实验结果表明,该算法能显着提高自然场景文本检测的准确率和召回率,且适用于任意方向、语言和字体的文本.(本文来源于《微电子学与计算机》期刊2019年08期)
周鹏飞[4](2019)在《自然场景图像中的文本检测与识别技术研究》一文中研究指出自然场景图像中的文本含有丰富而准确的高层语义信息,这些语义信息对于盲人障碍导航系统、智能城市交通管理系统、汽车的无人驾驶系统、即时翻译系统都具有指导意义。因此,对自然场景图像中文本进行定位和识别具有极大的研究价值。本文针对自然场景下的文本定位与识别进行了深入研究,具体的工作如下:1.传统MSER算法对光照敏感且在单一的灰度通道上进行文本候选区域提取时会出现文本漏检情况。针对此问题,本文提出了一种基于多通道光照均衡化的MSER算法。首先,分别在R、G、B通道下对图片做光照均衡化处理;然后,在对应通道下用MSER检测算子提取文本字符的MSER区域;最后,合并每个通道的MSER区域作为字符候选区域。经过实验验证,改进后的算法针对光照不均匀或不同复杂背景上的图片,都能检测到相对完整的字符区域,提高了算法的召回率。2.传统MSER算法对于复杂背景的场景文本检测时会出现误检情况。针对此问题,本文提出一种基于多特征融合的伪字符区域过滤算法。首先,对字符候选区域分别提取HOG特征、LBP特征、CNN特征;然后,将这叁种特征进行串形融合;最后,利用SVM训练一个字符判别器来过滤伪字符区域。经实验验证,此算法能剔除掉更多的伪字符区域,提高了算法的准确率。3.滑动卷积字符模型是基于字符分类的识别,只关注字符的深度特征,而忽略了文本行中字符与字符之间的上下文关系,这使得算法的识别精度会大打折扣。针对此问题,本文深入研究了滑动卷积字符模型,在其基础上引入双向LSTM网络来进行场景文本识别。首先,去掉滑动卷积字符模型中的分类层;然后,使用CNN滑动窗口来提取输入图像的序列特征,将输出的序列特征输入到设计好双向LSTM网络中提取每个字符的上下文特征;最后,用CTC转录机制将LSTM的输出预测转录为实际的字符串。通过与其它算法对比,本文算法在识别精度上有显着的提升。(本文来源于《西安理工大学》期刊2019-06-30)
李东勤,徐勇,周万怀[5](2019)在《自然场景图像中的文本检测及定位算法研究——基于边缘信息与笔画特征》一文中研究指出鉴于自然场景图像中的文本具有较强的边缘信息,而汉字大多包含横竖笔画,提出了基于边缘信息与笔画特征的文本检测及定位方法。通过提取自然场景图像的边缘特征,运用数学形态学方法实现对断裂笔画的有效连接,从而形成候选文本区域;再利用文本的笔画特征,实现文本与背景的分离;最后通过自定义规则,将相邻的候选文本块进行合并,同时去除不符合条件的候选文本块。测试结果显示,该方法的查全率为90.4%,误检率为15.6%。(本文来源于《重庆科技学院学报(自然科学版)》期刊2019年03期)
杨超杰[6](2019)在《基于深度学习的文本检测与识别技术研究》一文中研究指出近些年随着社交网络的发展,处理日益增长的各种视觉信息已经成为了一个无法避免的需求。在这些视觉信息中有很多是复杂场景下的图片,如招牌图片、商铺图片、交通标志等自然场景下的图片,也有试卷、报纸等印刷体的图片。复杂场景下的图片由于背景复杂、字体多样、语种未知、版面格式不统一、光照等因素影响,文本检测与识别的难度大大增加。但理解复杂场景中的文本信息对于人机交互、自动驾驶、增强现实等都有很多现实意义。本课题是对不同的文本检测与识别技术进行研究,分别是传统OCR的多阶段的文本检测与识别技术和端到端的文本检测与识别技术,然后针对两种各有优缺点的技术分别应用于两个不同的复杂场景,两个应用场景具体为多学科试卷图文混排的场景和自然场景中语种未知的场景。将传统OCR的多阶段的文本检测与识别技术应用于多学科试卷图文混排的复杂场景下,关键在于多粒度的版面分析。该系统是按照传统的OCR方法步骤来进行的,按照文本检测、文本分割、字符识别叁个步骤依次进行。首先采用均值滤波和Hough变换来对图像进行预处理,然后使用Faster RCNN算法来进行粗粒度分类。接着使用Mask RCNN算法来进行小题的细粒度分类。最后只需要识别公式与中文两种字符,依照不同类型分别调用现有的识别API。本系统对于多学科试卷的复杂版面都有通用性,而且对于试卷中的题号、题型信息都进行了分析,后续可直接生成相应的试卷结构。试卷中印刷体中文的识别率为99%,达到了实用标准。将端到端的文本检测与识别应用于自然场景中语种未知的复杂场景下,关键在于多语种的文本。该系统是将文本检测、文本识别放入到一个统一的框架下处理,之后再进行语种的判定。该系统采用了FPN作为整个端到端系统的骨干,通过FPN构建检测器。采用locality-aware NMS来删除高度冗余的候选框,将筛选出的候选框用于估计空间转换层的参数,并利用空间变换器来标准化图像以进行缩放和旋转,之后便输入全卷积的识别模块来输出最终的识别结果。系统的文本检测的AP为52.67%,端到端的文本识别的N.E.D为0.3190,语种判定的AP为25.41%。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
刘业鑫[7](2019)在《基于CNN的任意分布的场景文本检测与识别方法研究》一文中研究指出对自然场景中的文本区域进行检测,是计算机视觉方面的一个重要应用,同时也为许多应用提供了一部分技术支持,如对视觉障碍者的计算机辅助系统、城市环境中的机器人导航系统、自动驾驶系统等等。目前对扫描文档的检测已经可以满足各种应用场景,但对于自然场景中的文本检测和识别,由于文本只占图像的一小部分,而且自然场景的背景较复杂,自然场景中的文本也有各种颜色、尺寸、形状的区别,同时还有光照、遮挡等因素的影响,因此是一项具有挑战意义的课题。目前针对自然场景文本的检测方法,大多是基于通用目标检测方法,并针对文本的特点进行了相应的改进。本文通过图像处理、模式分类、深度学习、序列处理等方法,对自然场景中的文本检测与识别的方法进行了如下研究,主要分为叁个部分:(1)基于文字轮廓的自然场景文本检测方法,本文所提出的候选区域提取方法相较之前的提取方法,采用了基于多通道的弱约束的MSER方法,能够得到更多的候选区域。并在后续的识别工作中提出了将高置信度文本区域与低置信度文本区域相融合的方法,来进一步过滤非文本区域,并自然的将字符区域进行分组,结合成最终所需的文本行区域。定量的实验结果表明,该方法的检测速度优于其他基于笔划宽度等手工特征的检测方法,且由于提取到了大量的候选区域,其召回率也高于其他方法。(2)基于逐个像素的任意分布的自然场景文本检测方法,采用完全基于深度学习的方法对自然场景文本区域进行提取,提出了一个新的全卷积神经网络进行文本检测,采用基于文本中心线加文本宽度的方法,能够对各种文本区域,包含倾斜文本、弯曲文本区域进行检测。与其他方法相比,其检测结果基本优于以往在相同数据集上的结果,且能够更加精确的描述自然场景中的文本区域。(3)字符识别方法,采用了基于卷积神经网络和循环神经网络融合的网络结构,通过卷积神经网络提取二维图像的序列特征,然后将序列特征输入到循环神经网络中来得出对应位置的对应字符概率。该方法与之前的基于分割然后用神经网络进行字符分类的方法,减少了许多预处理和后处理操作,在速度上有所提升,同时对于自然场景中的文本识别,在精度提升十分明显。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
王大千[8](2019)在《基于深度学习的自然场景中文本检测方法研究》一文中研究指出自然场景中的文字信息具有明确的语义,有助于对自然场景内容的理解和分析。近几年,自然场景中的文本检测和识别作为计算机视觉领域中的重要研究方向,引起了国内外学者和研究机构的广泛关注,其成果可以广泛应用于场景分类、机动车自动驾驶、机器人视觉等领域。其中,自然场景中的文本区域检测和定位的结果会直接影响下一步文字识别的准确率。现有的文本检测技术大多都是根据文字自身结构特点进行人工的特征提取,然后再结合机器学习的方法来检测文本区域。由于自然场景非常复杂,而且自然场景中的文字具有多样性,因此,这种人工特征通常只适用于特定条件下的场景,整体的检测准确率较低。随着深度神经网络的发展和成熟,很多学者和研究机构设计了不同的文本检测网络模型来实现端到端的文本定位。与前面的传统方法相比,检测性能有了大幅提升,但是特征学习阶段较耗时。因此,本文深入研究了自然场景中文本的传统特征及深度网络特征的提取方法,将传统特征与深度网络特征融合,用传统特征去指导深度网络特征的提取,以提高深度网络提取特征的速度。本学位论文的主要研究内容如下:首先,根据带有复杂背景的实际自然场景图像中文本所具有的多语言、多方向、多尺度、多形态的特点,查找并收集数据集,构成包含中英韩等多语言、文字排列多方向、大小不一、背景复杂的文本图像数据库。其次,研究传统图像提取算法对文本与背景之间产生的差异,利用不同的文本结构特征提取文字区域。研究显着性检测算法对场景文本图像的有效性,分析视觉关注模型对文本目标的检测效果。融合不同的传统特征提取方法找到最凸显文本区域的文本区域候选。然后采用机器学习方法,利用其强大的分类能力判断文本与非文本区域,提高检测准确率。最后,将传统方法与深度学习方法相结合,得到更好的文本特征从而增强文本特征表示,减少神经网络产生的冗余信息。同时利用传统特征融合得到的文本概要图与拥有强大特征提取能力的卷积神经网络,并利用深度检测网络端到端的处理方式,对文本区域进行精确定位。本文提出的两种自然场景文本检测方法在一定程度上提高了自然场景文本检测性能。通过实验证明,本文提出的多尺度MSER结合ITTI模型的方法与其他传统方法相比,综合性能指标提升1到5个百分点,并可以处理文字多尺度等情况。提出的结合传统特征与Advanced EAST模型的文本定位方法,在自然场景图像中存在的文字多方向、多语言等条件下能够进行准确定位。该方法结合了两类方法的优势,因此能有效提取文本区域显着特征,同时也降低了网络训练时间。实验结果在多种数据集上进行了测试,证明了本文方法对不同场景文本具有较好的鲁棒性。(本文来源于《延边大学》期刊2019-05-18)
张艾萱[9](2019)在《基于深度学习的自然场景文本检测算法研究》一文中研究指出智能机器人对外部环境的感知依赖对场景的理解,文字是场景内容中不可或缺的一部分,自然场景文本检测己成为智能机器人领域的一个重要研究方向。在物体检测任务中,现存的Faster R-CNN算法在准确率和速度方面具有优势,但在面对文本多变性,外界因素干扰条件下,不能实现准确检测。而且,基于深度学习的文本检测算法需要使用较大的数据集对网络进行训练,而在一些特殊场景无法提供大量训练数据的情况下,该类算法性能受限。如何实现基于小数据集的自然场景文本准确检测是目前需要解决的工程问题。论文针对这类现实需求,开展基于深度学习的自然场景文本检测算法研究。提出基于特征金字塔的多尺度文本特征提取网络,实现了在训练集数量极少的情况下对自然场景中复杂多变的文本特征进行准确全面的表达。特征金字塔结构的引入使深层特征的语义信息与浅层特征的位置信息得到融合,解决了文本大小与多样性影响检测结果的难题,并确保检测过程小文本不被丢失,提高了文本检测准确率。根据文本的特殊性对Faster R-CN-N目标检测算法进行改进。使用多尺度文本特征提取网络完成文本的特征提取,修改初始Anchors的大小及比例设定值,使生成的候选框更符合文本的尺寸规律,根据文本的特性对模型的训练方法进行研究,探索合适的初始候选框生成个数以及对前景和背景分类的阈值等参数。建立系统运行环境,通过TensorFlow深度学习框架实现算法,在尺度较大且包含训练图片数量非常少的数据集上对网络进行训练,通过计算评价指标对模型进行评估,结果表明得到的模型可以有效地完成文本检测工作。与普通卷积神经网络模型进行特征提取的对比实验验证了多尺度文本特征提取网络的有效性。与主流文本检测算法在同一训练集上的对比实验验证了文本检测模型的合理性及可行性。论文研究探索了该类问题的有效解决方法,其成果对于智能机器人自然场景文本检测具有工程应用价值。(本文来源于《北方工业大学》期刊2019-05-14)
张哲,汪毓铎[10](2019)在《结合边缘检测与CNN分类场景文本检测的研究》一文中研究指出由于背景复杂性、尺寸变化性当前场景文本图像的不均匀照明等问题,提出边缘检测和卷积神经网络(CNN)模型分类器结合的场景文本检测定位方法。该方法对所获取的场景图像执行预处理,例如灰度处理和二值处理,对预处理后的图像执行边缘检测,获得候选的字符区域,将其输入CNN模型中进行分类筛选,从而实现文本字符的检测提取。实验结果表明,该方法具有较好的场景文本字符区域提取能力。(本文来源于《现代计算机》期刊2019年13期)
文本检测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着深度学习、神经网络的兴起与发展,对于图像中的目标检测已经取得了巨大的进展。但是自然场景下的文本信息具有多样的形式和复杂的特点,通用的目标检测算法无法取得理想的效果,因此自然场景下的文本检测在计算机视觉以及机器学习领域仍然是一项具有挑战性的问题和未来的热点研究方向。根据当前学术界针对自然场景下的文本检测问题所提出的算法和思路,在EAST算法的主干网络PVANet的基础上通过引入注意力机制模块,使得提取文本目标特征时更加关注有用信息和抑制无用信息,从而有效改善原算法在预测长文本方向信息时视野不足的问题。实验结果显示,该方法在没有损失检测效率的同时提高了原算法的检测精度,并在一定程度上优于当前针对自然场景下的文本检测算法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本检测论文参考文献
[1].乔平安,刘佩龙.基于SWT法网络社交平台图像文本检测[J].现代电子技术.2019
[2].牛作东,李捍东.引入注意力机制的自然场景文本检测算法研究[J].计算机应用与软件.2019
[3].方承志,樊梦雅.基于改进型卷积神经网络和行特征的文本检测[J].微电子学与计算机.2019
[4].周鹏飞.自然场景图像中的文本检测与识别技术研究[D].西安理工大学.2019
[5].李东勤,徐勇,周万怀.自然场景图像中的文本检测及定位算法研究——基于边缘信息与笔画特征[J].重庆科技学院学报(自然科学版).2019
[6].杨超杰.基于深度学习的文本检测与识别技术研究[D].哈尔滨工业大学.2019
[7].刘业鑫.基于CNN的任意分布的场景文本检测与识别方法研究[D].哈尔滨工业大学.2019
[8].王大千.基于深度学习的自然场景中文本检测方法研究[D].延边大学.2019
[9].张艾萱.基于深度学习的自然场景文本检测算法研究[D].北方工业大学.2019
[10].张哲,汪毓铎.结合边缘检测与CNN分类场景文本检测的研究[J].现代计算机.2019