导读:本文包含了文本提取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,向量,区域,极值,语义,中文,语料库。
文本提取论文文献综述
张敏,桂志鹏,成晓强,曹军,吴华意[1](2019)在《一种WMS领域主题文本提取及元数据扩展方法》一文中研究指出由于网络地图服务(Web map service,WMS)元数据缺乏显式的领域主题描述机制,用户很难准确、全面地发现目标领域的地图数据资源。提出了一种面向地理信息资源检索的WMS领域主题文本提取及元数据扩展方法。首先,设计了一种非监督文本分类算法,利用地球与环境术语集语义网(semantic Web of Earth and environmental terminology,SWEET)和大型英语词汇语义网WordNet,综合计算WMS元数据能力文档中地学术语、通识型词汇与领域主题的语义相关度,为WMS及其图层提取多标签主题。然后,基于ISO191152003地理信息元数据标准,为WMS元数据组织模型扩展领域主题。实验结果表明,所提出的WMS元数据主题分类算法取得了较高的查准率和查全率,且相较于朴素贝叶斯、线性支持向量机(support vector machine,SVM)和逻辑回归等方法,整体上有较大的优势。该方法有望应用于当前的地理信息门户和目录服务,辅助用户快速、准确地定位目标领域的地图服务资源。(本文来源于《武汉大学学报(信息科学版)》期刊2019年11期)
肖珂,戴舜,何云华,孙利民[2](2019)在《基于城市监控的自然场景图像的中文文本提取方法》一文中研究指出智慧城市的首要任务是城市场景监控及其信息分析,场景图像中文本信息的识别是一种直观且高效的场景信息分析手段,但目前场景图像的中文文本提取由于图像光照和模糊、中文字符结构复杂等因素,未能达到很好的效果.为解决这一问题,提出一种边缘增强的最大稳定极值区域(maximally stable extremal regions, MSER)检测方法,可在光照和模糊影响的条件下提取MSER,通过几何特征约束条件高效地过滤明显的非MSER,得到高质量的候选MSER.之后使用提出的中心聚合方法对分割成多个MSER的候选中文文本域进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析,并运用机器学习选出正确的中文文本.实验结果表明:该算法能够更有效地提取出自然场景图像中的中文文本.(本文来源于《计算机研究与发展》期刊2019年07期)
赵振国[3](2019)在《基于Python的网络语料获取和文本提取方法探索》一文中研究指出语料库语言学,在一定程度上,随着计算机科学的发展而发展。Python语言因其语法简单、接近自然语言、拥有数以万计的第叁方类库,近些年发展迅速,同时深受各领域学者喜爱。Python语言的第叁方类库Requests通过几行代码就可获取网页文本信息,同时第叁方库BeautifulSoup也仅需数行代码就可从海量文本信息中提取指定信息。使用Python构建语料库,可以明显提高语料库建库效率。本文结合实例,详述基于Python的快速获取语料和文本提取过程。(本文来源于《教育现代化》期刊2019年14期)
杨俊,赵林[4](2018)在《基于多特征检测与支持向量回归的图像文本提取算法》一文中研究指出为解决复杂背景中难以有效提取场景文本的问题,提出了一种基于多特征检测与支持向量回归的图像文本提取方案。为有效区分文本与非文本边缘,基于图像边缘,提取场景中叁个文本特征。将得到的叁个文本特征进行多尺度融合,利用文本融合特征检测候选文本边界,有助于检测不同大小的文本,提高对不同类型的图像退化的鲁棒性。对于每个检测到的候选文本边界,根据邻域窗口中的像素来估计每个像素的局部阈值,利用局部阈值自适应分割提取候选字符。引入支持向量回归模型对文本像素与图像背景精确分离,消除非文本边界,提取真实字符和单词。实验表明:与当前文章提取技术相比,所提方法具有更好的鲁棒性,能适用各种变化的复杂场景文本提取,具有更优的PrecisionRecall曲线与F测量值。(本文来源于《光学技术》期刊2018年05期)
贾彦茹,张连堂,周丽宴[5](2018)在《过渡映射耦合改进的阈值分割的文本提取方法》一文中研究指出针对文本提取技术难以准确定位文本区域的问题,提出一种场景文本检测与提取方法。根据文本与其相邻背景之间的瞬态颜色差异,基于像素强度的变化,构建过渡映射,生成一个过渡图;通过计算过渡像素与其周围纹理的一致性,确定候选文本区域;利用LBP算子计算过渡像素附近的强度变化,得到文本区域,利用像素投影优化文本区域,精确定位文本区域的边界;在过渡像素中添加一个约束,利用改进的阈值分割方法,从文本区域中准确提取文本字符串。实验结果表明,与当前场景文本提取技术相比,在复杂视频场景中,所提算法具有更高的文本提取精度与鲁棒性。(本文来源于《计算机工程与设计》期刊2018年08期)
刘世豪,马焰忠[6](2018)在《基于语义的视频文本提取方法综述》一文中研究指出随着信息技术的研发和广泛性应用,提取视频文本成为逐渐成为人们信息资源的一种途径,借助于视频文本,人们对信息资源的把握更加生动化、直观化和可操作化,在一定程度上极大化地满足了人们对信息资源的多元化需求。因视频文本过于专业化,人们比较倾向于语义的视频文本提取方法,针对语义的视频文本提取方法进行深化研究,有助于人们更加快捷便利提取视频文本。(本文来源于《电脑迷》期刊2018年06期)
戴舜[7](2018)在《自然场景下文本提取方法的研究》一文中研究指出自然场景图像中文本的提取为当前一种具有重要研究价值的图像处理技术,图像中文本的提取有利于对图像分析和理解,并契合于当下热门的机器视觉应用在工农业、交通和安全等行业的发展。而这个研究仍然需要完善,主要由于场景和文本的多样性,使得自然场景图像中中文文本的提取依然为一项具有挑战性的研究任务。本文在近年来大量的文本检测和提取的研究方法的基础上,对自然场景图像中的中文文本提取技术进行了研究,提出了两种针对中文的文本提取算法。基于边缘增强的最大稳定极值区域(Maximally Stable Extremal Regions,MSER)的文本提取算法。首先通过边缘增强的MSER检测算法得到候选MSER,再使用长短轴、面积、空洞数目等约束条件高效地过滤明显的非MSER,对候选文本进行初步验证。由于图像中的中文文本往往会被分割成多个MSER,本文提出的中心聚合方法对MSER进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析运用机器学习选出正确的中文文本。基于迭代自组织数据分析聚类算法的文本提取算法。首先,使用改进的NiBlack算法从图像中初步的分割出前景,再以Lab空间颜色信息和笔画宽度信息为特征使用聚类算法对图像进行分割。之后提取连通分量并使用几何特征的约束对所得到的连通分量进行过滤。对于过滤后的连通分量进行中文聚合,使分散的笔画形成候选中文文本。为了进一步验证文本,根据文本集群存在的规则将候选文本连接成行,其中拒绝笔画特征和空间特征不满足约束的候选文本。通过分析文本行级特征,运用SVM进行分类,得到正确的文本行及对应的正确文本。最后,利用建立的针对中文文本的自然场景图像的数据集进行实验,其中图像包涵了真实环境下各种不同的场景和不同的条件。实验结果表明,本文提出的方法能有效的提取场景图像中的文本信息,并具有令人满意的准确率和召回率。(本文来源于《北方工业大学》期刊2018-05-29)
雷绮仑[8](2018)在《多方向自然场景文本提取方法研究》一文中研究指出文字所具有的直观表达能力使其成为促进人类文明进步的重要信息载体之一。日常生活中随处可见的文字标识携带着与周围环境密切相关的抽象语义信息,在众多的实际应用场景中发挥着十分重要的作用。随着配备有拍摄功能的移动设备的普及和互联网技术的快速发展,为了使得机器能够模拟人类与环境进行交互,对周边捕获得到的图像内容进行理解、检索成为了亟待解决的问题,而自然场景文本的提取是其中一个重要环节。由于受到诸如复杂的环境、不同的语言、变化的光线以及图像的退化等不确定因素的影响,自然场景文本提取问题仍然面临着巨大的挑战。目前,大多数解决自然场景文本提取问题的方法均选择从单个字符的检测出发,然后基于空间或词典限制,将初始的字符检测结果聚合成单词。但自然场景中大量存在诸如弯曲文本、点阵文本、低分辨率文本以及与字符结构相似的背景等单个字符检测算法无法应对的问题,导致该类方法在实际操作过程中实现难度较高,对于变化因素较多的情况稳定性不强。本文针对自然场景文本提取任务中的难点部分进行了深入剖析,重点研究了基于文本目标独特性的区域建议方法。受到文本识别系统中传统文字提取技术转变为通用目标建议方法以及显着性对于图像分析起到关键作用的启发,本文选择基于文本目标自身特点以及全卷积网络预测得到的文本显着图相结合的区域聚合方法,对MSER产生的过分割区域进行过滤与融合,高效地生成文本区域建议的层次结构。通过在多种类别数据集上进行不同配置组合的测试以及与其他方法的对比,如复杂场景,多语言类别场景等,证明了该方法能够在背景环境较为复杂的情况下保证较高的检测召回率。针对自然场景中文本排列方向并不单一的问题,本文提出了结合文本区域建议与卷积神经网络的解决思路。以文本建议方法生成的高质量候选区域为基础,根据文本目标的几何特征设置多尺度归一化池化,并将不同卷积层提取到的特征进行融合,最后在区域类别判定和文本框坐标回归的多任务过程后,使用倾斜抑制方法过滤冗余输出,得到文本提取结果。通过多个类别的测试实验结果可以证明,该方法对与自然场景下多方向排列的文本提取问题具备一定的鲁棒性和有效性。(本文来源于《重庆大学》期刊2018-04-01)
蒋梦迪,程江华,陈明辉,库锡树[9](2017)在《视频和图像文本提取方法综述》一文中研究指出文本提取在视频和图像中具有重要的应用价值。近年来,大数据时代带来了海量信息检索的迫切需求,大量视频和图像中文本的提取方法涌现出来。回顾了视频和图像中文本提取的算法,从文本提取流程出发,将其分为文本区域检测定位和文本分割两大步骤。在每个步骤中,分析并比较了现有算法的使用范围及相对优缺点,讨论了图像公用数据库,列举了近些年来图像中文本提取的重要应用,指出了当前研究中存在的问题,展望了视频和场景图像文本提取方法的发展趋势。(本文来源于《计算机科学》期刊2017年S2期)
韦佳佳[10](2017)在《基于HTML5语义化标签的Web文本提取技术》一文中研究指出本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。(本文来源于《贵阳学院学报(自然科学版)》期刊2017年03期)
文本提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
智慧城市的首要任务是城市场景监控及其信息分析,场景图像中文本信息的识别是一种直观且高效的场景信息分析手段,但目前场景图像的中文文本提取由于图像光照和模糊、中文字符结构复杂等因素,未能达到很好的效果.为解决这一问题,提出一种边缘增强的最大稳定极值区域(maximally stable extremal regions, MSER)检测方法,可在光照和模糊影响的条件下提取MSER,通过几何特征约束条件高效地过滤明显的非MSER,得到高质量的候选MSER.之后使用提出的中心聚合方法对分割成多个MSER的候选中文文本域进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析,并运用机器学习选出正确的中文文本.实验结果表明:该算法能够更有效地提取出自然场景图像中的中文文本.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本提取论文参考文献
[1].张敏,桂志鹏,成晓强,曹军,吴华意.一种WMS领域主题文本提取及元数据扩展方法[J].武汉大学学报(信息科学版).2019
[2].肖珂,戴舜,何云华,孙利民.基于城市监控的自然场景图像的中文文本提取方法[J].计算机研究与发展.2019
[3].赵振国.基于Python的网络语料获取和文本提取方法探索[J].教育现代化.2019
[4].杨俊,赵林.基于多特征检测与支持向量回归的图像文本提取算法[J].光学技术.2018
[5].贾彦茹,张连堂,周丽宴.过渡映射耦合改进的阈值分割的文本提取方法[J].计算机工程与设计.2018
[6].刘世豪,马焰忠.基于语义的视频文本提取方法综述[J].电脑迷.2018
[7].戴舜.自然场景下文本提取方法的研究[D].北方工业大学.2018
[8].雷绮仑.多方向自然场景文本提取方法研究[D].重庆大学.2018
[9].蒋梦迪,程江华,陈明辉,库锡树.视频和图像文本提取方法综述[J].计算机科学.2017
[10].韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报(自然科学版).2017