导读:本文包含了表格识别论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:表格,汉字,切分,单元格,印刷体,字符,卷积。
表格识别论文文献综述
毛尚伟,张志清,汤槟,郑成坤,翟波[1](2019)在《基于Transfer-crf神经网络的电子表格智能识别算法》一文中研究指出电子表格是一种使用非常广泛的数据存储和分析工具,但其数据结构形式多样、结构复杂。为了快速准确地识别电子表格结构,提出了基于深度学习序列标注模型的电子表格结构自动识别方法。首先,确定待识别的电子表格数据结构;其次,采用中国国家统计局数据对模型进行训练;最后,将本文提出的算法与基于条件随机场序列标注的电子表格结构识别方法进行实验对比。实验结果表明:提出的算法在多个评估指标上都取得了较好的结果。(本文来源于《重庆理工大学学报(自然科学)》期刊2019年10期)
杨靖民[2](2019)在《复杂表格文档图像的模板识别与提取》一文中研究指出随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为叁步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为叁步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。(本文来源于《北京邮电大学》期刊2019-06-06)
李若月,钱强,张瀚文,方利堃[3](2019)在《基于深度学习的手写表格识别系统研究与实现》一文中研究指出为了对非固定样式的手写表格文档进行批量识别处理,实现自动录入功能,首先通过空表识别生成单元格信息,分析版面结构;其次对图片进行去噪、倾斜校正、二值化等处理,对手写内容进行分割;最后搭建识别手写字符的卷积神经网络。实验结果表明,最终实现的识别系统能对不同格式的手写表格进行识别并生成数据格式文件。基于空表识别得到单元格信息的手写表格识别系统能对不同样式的表格进行批量识别处理,且通过CNN搭建识别模型,手写汉字也能被识别,使系统通用性更好,便于应用扩展。(本文来源于《软件导刊》期刊2019年05期)
李华桥[4](2019)在《基于特征的表格内容识别的研究》一文中研究指出光学字符识别(OCR)是以扫描仪等光学仪器得到的电子版文档作为处理对象,并对其信息进行分割和识别的一种技术。表格是一种格式简明、规范,信息高度集中的体现形式,便于人们快速准确地了解文档的内容,在生活中得到广泛应用。但是表格内容繁多,人工录入表格信息不仅耗费时间,而且容易出现差错。通过OCR技术实现表格内容的识别,不仅能提高工作的效率,而且大大降低了信息录入的错误率。本文主要针对表格内容的识别方法进行研究,包括印章的识别和表格文档的识别。本文基于印章的特征提出了通过映射将印章图像识别转为文字识别的方法。印章具有一系列显着的特征,如大多数印章的文字以圆心为中心呈环形分布,印章的颜色深浅和文字方向受人为因素的影响较大等,这些都增加了特征提取的难度,从而导致印章的识别效果不佳。本文首先对印章进行定位,并通过Gamma矫正增强印章的对比度使印章的纹理更加清晰;然后利用傅里叶变换将印章提取出来,再把印章从圆形映射成长方形;最后通过LeNet网络模型将印章图像识别转为文字识别。在对印章的识别效果的测试中,本文使用3 755个常用汉字,分别以五种字体经过数据增强生成印章数据集,并进行模型训练。实验结果表明,本文所提出的方法的印章文字识别正确率达到96.6%。本文基于表格框架的特征提出了通过交叉点类型及其关系定位表格单元格的方法。首先采用Hough变换提取出表格图像中的表格框架,然后使用细化算法对表格框架进行细化;其次,根据表格框架中的交叉点类型及各交叉点之间的关系,将表格中的各个单元格提取出来;最后,对于每个单元格的文本,本文使用Tesseract进行识别,并将识别的结果写回表格框架,从而达到对表格复现的目的。在对表格内印刷体文字的识别中,本文使用Tesseract官方的印刷体中文字库,并结合了借助jTessBoxEditor生成的本地字库,对表格的各个单元格文本分别进行识别,正确率达到87.4%。(本文来源于《北京交通大学》期刊2019-05-01)
姚鹏威[5](2019)在《基于数字图像处理的表格识别》一文中研究指出表格以各种各样的形式存储着生活、生产及社会各个方面的信息,随着计算机技术和信息化的快速发展,将纸质表格自动转换成可编辑的电子表格成为了现代社会的迫切需求。电子表格便于信息的管理、检索和交换,因此得到了越来越广泛的应用。而目前大量的信息数据仍以纸质表格的形式存在,把纸质表格转化为电子表格成了使用部门很棘手的难题。因为简单的使用办公软件绘制电子表格并进行人工录入文字内容不仅效率低下而且容易出错,如何快速准确地把纸质表格转化为电子表格成了相关领域的研究热点。本文在大量查阅资料的基础上,对纸质表格自动转化为可编辑的电子表格进行了深入的研究。纸质表格到可编辑电子表格的自动转换包括表格线信息识别、文字信息识别及表格绘制和文字填充。表格线信息识别与表格绘制。采用轮廓检测和BRISK特征点检测相结合的方法完成表格图像的倾斜校正;通过形态学处理的方法分离表格图像内的横线和竖线并对其进行修复和细化;利用Shi-Tomasi角点检测的方法提取表格线的端点坐标,对提取的坐标点采取从上到下从左到右的顺序进行排列,并通过数据修正使横竖线端点对齐,利用修正后的端点坐标在Word中完成表格的绘制。文字信息识别。文字信息识别包括文字定位和文字识别,文字定位的主要思想是单元格的切分,即将原图中每个单元格提取出来,并记录单元格矩形框的左上角坐标,使用修正后的表格线端点坐标绘制空表格,对绘制的空表格进行轮廓检测提取每个单元格矩形轮廓,以每个单元格的矩形区域为感兴趣区域对原图进行分割,并记录每个矩形框的左上角坐标。文字识别是对分割后每个单元格的文字进行识别,采用Tesseract-OCR进行文字信息的识别,将识别结果与提取的文字区域的左上角坐标相对应,用于后续的表格文字填充。文字填充。将提取的文字区域的矩形框的左上角坐标分别与表格横线和竖线的端点坐标进行比较,若两者的绝对差值小于设定阈值,则将文字填充到相应的单元格中,完成表格的文字填充。本文的表格识别系统由硬件系统和软件系统两部分组成。硬件系统是将纸质表格转换成表格图像,软件系统是提取表格图像内的表格线信息与文字信息,并利用提取到的信息在Word中完成表格重构。(本文来源于《郑州大学》期刊2019-05-01)
张远[6](2018)在《印刷体文档表格识别技术研究》一文中研究指出书籍报刊等印刷体文档图像的识别是模式识别领域的一个重要分支。文档图像中的字符识别较为成熟,市场上已经出现较多的商业产品。但是文档图像中表格的识别目前还不太成熟,尤其当表格线在扭曲变形等情况时,现有产品识别的鲁棒性较差。本文分析了国内外文档表格识别的研究与产品现状,对文档图像预处理、闭合方形表格的识别、印刷体汉字的识别技术展开研究,最终实现一种高鲁棒性的表格识别方法。本文完成的主要工作如下:1.研究文档图像的预处理技术,使用了局部阈值的Sauvola算法进行文档图像二值化;由于文档图像中表格线的存在,使用Hough变换方法进行文档图像的倾斜校正;应用基于连通域的自底而上的版面分析方法,将文档的版面块分割为文字、表格、图画等区域。2.本文使用改进的有向单连通链法提取表格线,在传统方法的基础上,对连通链起点和终点位置的确定进行了修正,提高了连通链提取的准确性;利用最小二乘法将有向单连通链拟合抽象为表格线段。3.在提取的表格线段的基础上,根据水平和竖直方向线段之间的关系得到表格的特征点集合;根据特征点之间的连接以及坐标关系,得到表格的表格单元集合;分析Latex排版系统表格绘制模块的语法特点,将表格架构信息表述为Latex字符串。4.对文本膨胀后使用连通域分析的方法进行文本行分割,随后竖直投影进行文本行的字符分割;设计卷积神经网络对印刷体汉字数据集进行训练,得到汉字字符的分类器。在以上研究的基础上,基于QT和OpenCV,设计了印刷体文档表格识别软件系统。经实验验证,本系统能极好的识别高质量表格,对扭曲、模糊的低质量表格的识别率达到74%,高于现有部分OCR软件。(本文来源于《湖南大学》期刊2018-04-01)
郭佳[7](2018)在《基于图像的表格识别算法与自动录入系统》一文中研究指出随着近年来测试试验任务不断增多,许多企业为了更好地管理试验任务和数据开始使用电子方式对其进行管理,然而,大量已完成的试验数据仍以纸质表格的形式存储,需要大量人力资源将试验数据录入到系统中。为了减少低效率的人工录入,论文研究基于图像的表格识别算法,并实现表格数据的自动录入。论文设计了一种对试验表格图像进行表格线检测和单元格定位的通用算法;并对特定试验表格集的试验数据进行手写数字语言库训练,提高了试验数据的识别效率;实现了基于Web的表格图像数据自动录入,用于电力绝缘子试验数据管理,具有基于图像的试验数据定位、识别和自动录入功能。论文的主要工作如下:(1)研究表格线检测与单元格定位算法。研究图像预处理算法,对扫描或拍照得到的原始表格图像进行预处理,图像校正,然后使用基于参数自适应动态调整的Hough变换算法和二次单元格定位方法对处理后的表格图像进行表格线检测和单元格定位。(2)研究表格内容识别方法。针对特定试验表格数据集,获取试验数据图像样本,对训练集进行手写数字语言库训练,应用Tesseract-OCR对单元格内容进行识别。通过试验对比,证明针对特定数据集训练手写数字语言库能够提高试验数据的识别准确率。其正确率稳定在92%以上,在少量人工干预的情况下,可以满足企业级应用要求。(3)自动录入系统实现。基于图像的表格识别算法设计了一套基于Web的试验数据自动录入系统,并将其应用于电力绝缘子试验数据管理。输入拍照或扫描所得的相应试验表格图像,对其进行表格线检测与单元格定位提取,然后对单元格内试验数据进行识别,自动录入识别结果至系统相应试验表格中。(本文来源于《北京邮电大学》期刊2018-03-15)
赵思远,许志伟,刘利民,霍达,党燕[8](2018)在《基于拓扑模型的高效表格识别机制研究》一文中研究指出随着信息化的发展,用于信息存储的表格在人们的日常生活和工作中扮演着越来越重要的角色,它的形式多样,用途广泛。仅仅依靠现有技术识别表格内容无法有效体现表格本身半结构化的特点,可能丢失表格各部分信息之间的关联。同时表格结构及形式多种多样,如果方法不当,包括表格边框在内的其它信息反而会成为表格内容识别的干扰因素。本文通过强化反映表格结构的拓扑模型的作用,综合应用现有图像识别技术构建了高效的表格识别机制,能高效自适应识别海量异构表格。基于这一识别机制,本文设计并实现了相应的移动应用,在实际应用中验证了表格识别机制的有效性。(本文来源于《内蒙古工业大学学报(自然科学版)》期刊2018年01期)
邝振,崔喆[9](2017)在《社区选举系统选票中的表格识别算法》一文中研究指出针对社区选举系统识别选票图像中的表格采用的同步道方法,造成选票设计复杂,需在系统中定义较多关于信息块位置信息的参数,和在印刷过程中出现表格位置偏差无法识别选票的问题,提出了先利用投影法确定表格中横纵直线的坐标,然后构造表格特征点矩阵来描述表格结构的表格识别算法。实验结果表明,与采用同步道识别表格的方法相比,只需要在系统中指定信息块的相对位置信息,该算法即可通过识别出的选票表格中横纵直线坐标和构造的表格特征点矩阵准确并方便地提取出信息块的图像进行下一步的识别,简化了选票设计,降低了对选票印刷的要求,对表格位置出现偏差的选票也能够进行正常识别,进一步提升了选举系统的可操作性和容错性。(本文来源于《计算机应用》期刊2017年S2期)
兰鹏生[10](2017)在《基于数据颜色特殊性的加分表格识别系统研究》一文中研究指出目前,许多的手写表格信息更需要录入、存储在计算机中。在教育系统中,处理试卷加分表格过程中,存在着以下问题:(1)不恰当的使用人力资源,造成人力资源的浪费。教育系统内的工作人员很大部分是高学历、高素质的尖端科研人员,却在做着这种单调而重复的工作,无疑对社会及国家造成了大量的人力资源的浪费。(2)大量的小题加分计算会造成人员的疲劳、计算的失误、效率低下。长时间的批改试卷已经产生了精神上和生理上的疲劳,这种情况下再进行加分计算容易产生失误且效率较低。本文考虑应用表格图像识别技术来解决教育工作者在试卷表格的加分过程中存在的问题。为了解决以上存在的问题,本文考虑从两个方面进行表格图像的识别。一方面是表格线单元格的检测,一方面是表格内数据识别。首先,查阅大量的相关文献,了解了表格识别相关技术,分析了表格识别相关技术的国内外的研究现状,并进行了评述。其次,本文以试卷加分表格为识别对象,针对该表格进行了特征分析,确定了根据数据颜色的特殊性,进行表格识别的基本思路。第叁,本文应用预处理对图像进行预处理,应用直线检测的方法进行表格线的检测,获得表格单元格位置情况。第四,根据颜色特殊性直接对图像中表格内数据进行提取,实现数据图片的切分并获得的单个数字图片。由于数据提取的特殊性,数据间的边界模糊、区分不明确。本文提出了数字区域扩散边界界定法,实现每个单元格数据的切分。利用滴水算法将两位数数据字符切分,实现单个数字图片的获得。应用OCR技术对单数字进行识别并计算单元格数据。最后,根据单元格位置情况,提出识别数据与单元格排序关联算法对识别的表格数据按顺存储。本文利用Microsoft Visual Studio开发平台,利用EmguCV图片处理库,实现试卷加分表格识别系统原型的开发,并计算出总成绩。验证出本文提出的针对具有特殊颜色表格识别的相关方法具有一定的可行性;本系统的开发具有一定的使用价值。(本文来源于《昆明理工大学》期刊2017-03-01)
表格识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为叁步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为叁步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
表格识别论文参考文献
[1].毛尚伟,张志清,汤槟,郑成坤,翟波.基于Transfer-crf神经网络的电子表格智能识别算法[J].重庆理工大学学报(自然科学).2019
[2].杨靖民.复杂表格文档图像的模板识别与提取[D].北京邮电大学.2019
[3].李若月,钱强,张瀚文,方利堃.基于深度学习的手写表格识别系统研究与实现[J].软件导刊.2019
[4].李华桥.基于特征的表格内容识别的研究[D].北京交通大学.2019
[5].姚鹏威.基于数字图像处理的表格识别[D].郑州大学.2019
[6].张远.印刷体文档表格识别技术研究[D].湖南大学.2018
[7].郭佳.基于图像的表格识别算法与自动录入系统[D].北京邮电大学.2018
[8].赵思远,许志伟,刘利民,霍达,党燕.基于拓扑模型的高效表格识别机制研究[J].内蒙古工业大学学报(自然科学版).2018
[9].邝振,崔喆.社区选举系统选票中的表格识别算法[J].计算机应用.2017
[10].兰鹏生.基于数据颜色特殊性的加分表格识别系统研究[D].昆明理工大学.2017