文本识别论文_曹哲超,王轶骏,薛质

导读:本文包含了文本识别论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,特征,虚假,语料库,手写体,舆情,倾向性。

文本识别论文文献综述

曹哲超,王轶骏,薛质[1](2019)在《基于页面标签和文本特征的暗网重要站点识别》一文中研究指出暗网因具有匿名、匿踪等特点,已然成为不法分子的聚集地。近年来,暗网中各种数据泄露事件频出,而这些事件大多来源于市场和论坛。因此,准确识别暗网市场、论坛等重要站点,对于暗网情报的快速获取意义重大,并为进一步监控暗网动态奠定了基础。因此,设计实现了一套暗网空间资源采集系统,用于收集暗网页面资源,并结合验证码/登录页面检测和页面文本特征检测两种方式识别暗网重要站点。实验证明,该检测方法具有良好的分类性能,平均准确率可达96.47%。(本文来源于《通信技术》期刊2019年12期)

李楠,方丽,张逸飞[2](2019)在《学术文本结构功能深度学习识别方法的多学科对比分析》一文中研究指出[目的/意义]学术文本的结构功能识别可视为多类别文本自动分类问题,借助深度学习技术能够获得良好的自动识别性能,然而目前缺少其在不同学科适用性的对比研究。[方法/过程]选择医学、图情、数据、出版、经济5个学科方向5种期刊的6 452篇结构式摘要为基础语料,设计并实现了基于Magpie深度学习组件的学术文本结构功能识别实验,通过对比分析同一分类模型在不同学科领域实验语料上的性能表现及其影响因素,揭示机器学习方法的学科适用性规律。[结果/结论]实验结果显示,学科差异性对于机器学习效果有显着的影响,其中医学领域学术文本的结构功能识别效率明显高于其他学科,常见的学术文本功能结构框架中"方法"和"结果"的机器学习识别效果更佳。(本文来源于《现代情报》期刊2019年12期)

张加惠,陈致远,赵峰,安志勇,谢青松[3](2019)在《基于深层融合的股票文本主题识别》一文中研究指出股票市场在资本市场中占据着重要地位,是经济的晴雨表。专家对股票的评论是投资者进行投资决策的重要依据。因此,如何快速有效地捕获众多专家股评的主题信息,成为股票研究领域的热点。然而目前大多数股票文本主题识别算法,其特征选择方法及分类模式多采用单一的标准。一般而言,单一的标准只能从某个侧面反映文本主题的识别效果,无法全面捕获目标的主体特征。事实上,不同的特征选择标准及分类器模型从不同侧面去理解文本,捕获的特征信息具有较强的互补性。为了提高股票文本主题识别的准确性,文章从信息融合的角度对股票文本进行了多层面融合:1)特征选择层,对多种特征选择方法进行加权融合,使其能够全面表征股票文本的特点;2)决策层,基于SVM-score,对多个分类器进行决策层融合,使其能够提高文本识别的准确性。基于实测数据的实验表明:相比单一模式的文本主题识别方法,文章提出的多层融合算法的识别精度明显更高。(本文来源于《计算机科学》期刊2019年S2期)

张娜娜,王裴岩,张桂平[4](2019)在《面向工艺操作说明文本的命名实体深度学习识别方法》一文中研究指出针对工艺操作说明文本中的命名实体,提出一种基于BiLSTM-CRF模型与词典、规则相结合的识别方法,旨在识别图纸编号、参考标准、零件和零件号等11种实体。基于BiLSTM-CRF模型,使用BERT模型预训练的向量,对相关命名实体进行初始识别;针对工艺操作说明文本中零件和零件号表达方式复杂多样的问题,使用基于词典和规则的方法对此类实体的标注结果进行校正。实验结果表明,该方法在工艺操作说明文本中能较好地完成命名实体识别任务,在测试语料上F1值达到94.03%,比基线提升了4.14%。(本文来源于《计算机应用与软件》期刊2019年11期)

杨显华,丁春利[5](2019)在《基于迁移学习的语言文本识别分类研究与实现》一文中研究指出本文提出通过迁移学习手段,应用中文语言处理模型,进行模型抽取和重新拟合实现对少数民族语言的识别和归类。在中文文本自动化归类处理中,通过现有的学习模型积累了大量的高准确率中文语言处理模型,但模型是基于中文文本训练得到,在中文测试集可以得到很好的效果,在应用到其他语言上时,将出现过度拟合的现象。为解决小样本情况下,少数民族语言自动化分类问题。(本文来源于《电子技术与软件工程》期刊2019年20期)

陈芬,高小欢,彭玥,何源,薛春香[6](2019)在《融合文本倾向性分析的微博意见领袖识别》一文中研究指出【目的】融合外部特征与帖文本身的内容,引入文本倾向性分析表征网民对博主的支持度,识别网络意见领袖。【方法】构建意见领袖识别模型,在潜在意见领袖提取的基础上,引入文本倾向性分析,通过Word2Vec算法识别网络中的情感新词、提高微博评论情感倾向性分析的准确性,分别计算博主评论中正面、中立和负面叁种情感倾向所占的比例,去除负面情感占比过重的"伪意见领袖"。【结果】与改进的PageRank算法对比,本文意见领袖识别模型进一步优化了意见领袖的排序结果,与原始微博数据更为一致。【局限】研究语料来源于"官员殴打护士"话题,具有一定的领域局限性。【结论】模型最终识别出叁种典型的网络意见领袖,涵盖突发事件发展的全过程。(本文来源于《数据分析与知识发现》期刊2019年11期)

吴佳芬,马费成[7](2019)在《产品虚假评论文本识别方法研究述评》一文中研究指出【目的】对产品虚假评论文本识别方法研究现状进行述评。【文献范围】以"Review Spam"、"虚假评论"等为主题词在WoS、CNKI、EI等8个数据库中进行文献检索,经过文献主题筛选、质量评估和参考文献追溯等步骤获得代表性文献90篇。【方法】采用系统性文献综述过程对虚假评论文本识别方法研究的关键内容进行提取、归纳和分类,总结并对比分析各类虚假特征的表征力和识别方法性能。【结果】虚假特征设计和识别方法设计是虚假评论文本识别的关键步骤,大规模标注评论数据的获取是当前研究的难点。【局限】仅以虚假评论文本识别方法作为探讨核心,未探讨虚假评论者及虚假评论者群体识别方法。【结论】分析并指出现有研究在数据集获取、虚假特征设计和识别方法设计叁个方面存在的问题,并对虚假评论文本识别未来研究提出建议。(本文来源于《数据分析与知识发现》期刊2019年09期)

闫俊伢,马尚才[8](2019)在《基于文本聚类的网络微博舆情话题识别与追踪技术研究》一文中研究指出为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。(本文来源于《重庆理工大学学报(自然科学)》期刊2019年09期)

王珺[9](2019)在《基于文本特征识别的电子档案自动归类系统研究》一文中研究指出传统归类方法采用自动标引主题词变换成分类号实现自动分类,该方法分类过程复杂,应用性差。因此,提出一种基于文本特征识别的电子档案自动归类系统。该系统采用电子档案语料库模块根据使用者需求挖掘语料,实现语料库构建、查询、清除和维护等操作;通过电子档案排版模块,基于内容映射的方式排版电子档案;在此基础上采用有限自动机选择法和组合特征选择法选取文本内特征词,识别电子档案文本特征后,通过SVM分类器和类别识别器两次归类过程,判断电子档案最终类别归属。封闭性归类测试和开放性归类测试结果表明,该系统的平均查全率和精度都高于95%,且不同信噪比环境下,系统平均中断概率为0.17%,低于对比系统。(本文来源于《现代电子技术》期刊2019年18期)

王馨悦,董兰芳[10](2019)在《Attention机制在脱机中文手写体文本行识别中的应用》一文中研究指出脱机中文手写体识别技术可以将人工书写在纸上的汉字转换为电子文档中可编辑的中文格式.由于每个人的书写习惯不同,所以手写体随意性较大、字符之间可能存在粘连,给字符分割增加了难度.为了避免单个字符的分割,本文采用基于Attention的方法实现脱机中文手写体文本行的识别.该方法基于encoder-decoder框架,首先用CNN提取特征,然后通过BLSTM进行编码,最后将BLSTM的输出结果再结合Attention,输入到LSTM进行解码.该方法在针对具有语义信息的CASIA-HWDB2. 0-2. 2数据集上字符准确率达到了95. 76%,比传统的encoder-decoder框架提升了12. 83%.(本文来源于《小型微型计算机系统》期刊2019年09期)

文本识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

[目的/意义]学术文本的结构功能识别可视为多类别文本自动分类问题,借助深度学习技术能够获得良好的自动识别性能,然而目前缺少其在不同学科适用性的对比研究。[方法/过程]选择医学、图情、数据、出版、经济5个学科方向5种期刊的6 452篇结构式摘要为基础语料,设计并实现了基于Magpie深度学习组件的学术文本结构功能识别实验,通过对比分析同一分类模型在不同学科领域实验语料上的性能表现及其影响因素,揭示机器学习方法的学科适用性规律。[结果/结论]实验结果显示,学科差异性对于机器学习效果有显着的影响,其中医学领域学术文本的结构功能识别效率明显高于其他学科,常见的学术文本功能结构框架中"方法"和"结果"的机器学习识别效果更佳。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本识别论文参考文献

[1].曹哲超,王轶骏,薛质.基于页面标签和文本特征的暗网重要站点识别[J].通信技术.2019

[2].李楠,方丽,张逸飞.学术文本结构功能深度学习识别方法的多学科对比分析[J].现代情报.2019

[3].张加惠,陈致远,赵峰,安志勇,谢青松.基于深层融合的股票文本主题识别[J].计算机科学.2019

[4].张娜娜,王裴岩,张桂平.面向工艺操作说明文本的命名实体深度学习识别方法[J].计算机应用与软件.2019

[5].杨显华,丁春利.基于迁移学习的语言文本识别分类研究与实现[J].电子技术与软件工程.2019

[6].陈芬,高小欢,彭玥,何源,薛春香.融合文本倾向性分析的微博意见领袖识别[J].数据分析与知识发现.2019

[7].吴佳芬,马费成.产品虚假评论文本识别方法研究述评[J].数据分析与知识发现.2019

[8].闫俊伢,马尚才.基于文本聚类的网络微博舆情话题识别与追踪技术研究[J].重庆理工大学学报(自然科学).2019

[9].王珺.基于文本特征识别的电子档案自动归类系统研究[J].现代电子技术.2019

[10].王馨悦,董兰芳.Attention机制在脱机中文手写体文本行识别中的应用[J].小型微型计算机系统.2019

论文知识图

场景文本示例图迭加文本示例图理中,难点数字化影像模型的物理解释叁分类情况下基于SVM的故障诊断原理一3刀日-文件结构示例

标签:;  ;  ;  ;  ;  ;  ;  

文本识别论文_曹哲超,王轶骏,薛质
下载Doc文档

猜你喜欢