导读:本文包含了文本页面分析论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:页面,微结构,链表,模式,基线,上下文,文本。
文本页面分析论文文献综述
陈波[1](2007)在《文本页面中数学表达式的定位及分析》一文中研究指出电子文档具有容易修改、检索和传输等优点,从而基于移动办公终端的文档实时电子化变得越来越频繁。文档的电子化必须经过页面分割和字符识别,页面内通常含有多种元素如字符、图片、表格和数学表达式等,其中数学表达式的分析、识别和重组是文档电子化的难点。因此研究高效的分析算法十分必要,本文的工作主要体现在以下几个方面:鉴于文本页面各文本元区域的前景像素存在自相关性,本文提出了基于微结构的页面分割算法来切分文本页面。首先采用快速扫描算法将前景像素归类并形成微结构集,利用微结构的相关性分类出页面含有的图元、表格元等;改变合并规则合并分类后的字符元得到字符区,选取字符区域的最大者结合最小二乘法检测字符区的倾斜角度来校正页面;最后利用微结构并结合水平投影将校正后的页面切割为文本行。数学表达式的二维结构特性使数学表达式行与普通文本行存在很大差异,本文利用这些差异将独立表达式行与普通文本行区分开来;接着采用连通体搜索方法搜索分类后的文本行,判断搜索得到的连通体与该文本行上下基线的关系确定内嵌表达式所在位置,结合最大投影间隔法切分出内嵌表达式,最后借助微结构和投影法分析数学表达式结构。实验结果表明,本文提出的算法是有效的,并具有较好的稳定性、适应性。此外,将文本元逐个分类和分解会增加识别的成功率,更加有利于字符的识别。(本文来源于《苏州大学》期刊2007-05-01)
李艳玲,王加俊[2](2005)在《基于模式链分析的文本页面图像的分割与分类》一文中研究指出为了能对复杂版式的文本图像(如包含镶嵌在文字中的形状不规则的图片区)的页面进行图文分割与分类,提出了一种新的基于模式链分析的文本页面分割与分类算法。该算法首先使用外接矩形框出图像中的所有黑像素,并且存入矩形框链表中,再组合所有相邻的矩形进而形成模式,最后依据各模式的统计特征分类,输出文字区和图片区两类图像。另外,对大图片模式周围个别不确定的模式,本文采用了上下文分类的算法进行再次分类。实验结果表明,该算法不仅运算速度快,而且能够对复杂版式的页面图像进行正确的图文分割和分类。(本文来源于《中国图象图形学报》期刊2005年06期)
文本页面分析论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了能对复杂版式的文本图像(如包含镶嵌在文字中的形状不规则的图片区)的页面进行图文分割与分类,提出了一种新的基于模式链分析的文本页面分割与分类算法。该算法首先使用外接矩形框出图像中的所有黑像素,并且存入矩形框链表中,再组合所有相邻的矩形进而形成模式,最后依据各模式的统计特征分类,输出文字区和图片区两类图像。另外,对大图片模式周围个别不确定的模式,本文采用了上下文分类的算法进行再次分类。实验结果表明,该算法不仅运算速度快,而且能够对复杂版式的页面图像进行正确的图文分割和分类。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本页面分析论文参考文献
[1].陈波.文本页面中数学表达式的定位及分析[D].苏州大学.2007
[2].李艳玲,王加俊.基于模式链分析的文本页面图像的分割与分类[J].中国图象图形学报.2005