一、基于Boost和信任函数的多文本分类器组合模型(论文文献综述)
盛武平[1](2021)在《基于机器学习的自动文本分类研究》文中指出文本分类是自然语言处理技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。依靠人工进行文本分类,不仅耗时长且效率低下,利用计算机技术进行自动文本分类已成为热门研究方向。本文在研究自然语言处理技术和机器学习理论的基础上,对基于机器学习的自动文本分类方法进行了深入探讨,主要工作与取得的成果包括:第一,提出了基于权重预处理的TF-IDF-MP关键词提取算法。通过分析TF-IDF算法在进行特征词语选取及文本分类时的局限性,在TF-IDF算法中引入均值化词频与特征词位置权重因子等参数,具体根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,采用改进后的Sigmoid函数调整特征词权值大小,并根据标注好词性的特征词将文章第一段和最后一段出现的名词的位置权重因子设为1.2,对TF-IDF算法进行改进,提取文档关键词。第二,提出了一种基于Bi LSTM-Att-CNN网络的文本分类模型。该模型基于第三章提出模型分词后去除停用词的实验数据,利用Bi LSTM获取文本全局特征,更好地挖掘词语上下文语义依赖,又利用卷积神经网络提取更深层次的局部特征,并在Bi LSTM的隐藏层添加Attention机制,根据特征词包含的语义信息和对文本分类的影响程度,分配不同的权重值提高文本分类准确率。最后,上述两种方法基于搜狗新闻数据集进行关键词提取和文本分类实验,均取得了较为理想的结果。
李兴钰[2](2021)在《基于文本识别的铁路设备故障信息分类算法研究》文中进行了进一步梳理铁路作为我国交通运输的中坚力量,在国民经济发展和民生中扮演着重要的角色。而安全又是铁路系统有序、平稳运行的前提。随着铁路行业技术日新月异的发展,各种新的设备不断投入到铁路运行中,但是也衍生出新的问题,如:哪些种类的铁路设备故障率较高、如何对不同铁路设备故障进行结构化的描述,如何使用铁路设备故障描述来挖掘其内部的规律。针对上述问题,需要找到一种铁路设备惯性故障文本分类方法,来对海量的铁路故障文本信息进行识别和分类。本文首先对故障文本的源头出发,在文本向量化之前对分词词库进行拓展,从在国家铁路总公司、中铁检验认证中心有限公司等权威网站获取到铁路系统相关的设备名称和质量标准及各站点名称,生成对铁路设备领域的专用词库。结合有铁路专用词库的jieba分词对设备故障描述进行分词和去停词处理,使生成的故障分词文本更加贴近人工处理的效果。在得到分词模型后,采用word2vec算法将分词模型向量化处理,得到可以表征故障文本的词向量;之后通过LDA算法对生成的文本向量特征提取,为后续分类算法的研究提供了数据源。之后对处理后的数据集分别建立决策树、KNN、支持向量机、梯度提升决策树等单一的分类算法模型,并且利用模型的整体正确率、召回率、F1值等指标作为分类效果的评估标准。然后根据集成分类器的集成规则将各单分类器作为stacking集成学习的基分类器,元分类器上使用决策树。由于本文所使用的数据集存在较强的不平衡性,所以使用Borderline-SMOTE算法对数据集中的少数类进行扩充,基于基分类器对于少数类的分类准确率对整体分类准确率的比重,对基分类器进行加权,建立加权stacking集成学习的铁路故障文本分类模型。本文的研究结果证明,针对铁路故障文本信息,建立铁路领域专用分词词库可以有效的表征原文本的语义,其余弦相关度的和皮尔逊相关系数都可以达到近0.9。通过对实验结果的分析,发现采用加权stacking集成学习模型可以有效的提高对于少数类的准确率,不仅相较于单分类器综合性能有着大幅度的提升,相比于传统stacking模型也有各项评估指标的改善。
王嘉玮[3](2021)在《基于D-S证据理论的道路交通事故判决方法研究》文中研究指明随着道路交通的快速发展,交通事故频发,对于交通事故快速处理、准确判决,能够有效减小事故影响,减轻社会负担。在道路交通事故判决中,通常以交警、法官等专业人士做出的责任划分作为判决依据。为了进一步提高判决的准确率,解决事故责任认定书中语言描述不够规范和准确的问题,需要将多位专业人士的判决结果进行统一决策。同时,考虑到专业人士做出的判决结果具有很大的不确定性,需要利用数据融合的方法对不确定的信息进行确定性地表达和处理。本文将结合证据理论,针对道路交通事故判决中存在的问题展开研究,并取得了如下成果:(1)针对道路交通事故判决中证据冲突的问题,提出了一种基于证据源冲突的道路交通事故判决方法。在道路交通事故判决中,决策的证据来自专家根据自身经验给出的责任认定,不同专家给出的证据之间可能会有较大的冲突,为消除冲突证据对结果的影响,提出基于证据源冲突的数据融合方法。根据证据之间的冲突程度定义证据可靠性以及折扣因子,并利用Shafer折扣法对原始证据进行折扣,获得修正后的证据。同时为了解决多位专家判决结果的融合问题,利用Dempster组合公式,根据公式本身的结合律特性进行迭代融合,使得多证据源的高维证据体能够以较小的复杂度进行融合。(2)针对道路交通事故判决中判决书的模糊性问题,提出了一种基于信度构建的道路交通事故判决方法。为了提高分类的效率,利用文本分类器代替专家作为证据源对事故判决文书进行责任划分,同时为数据融合提供原始证据。为了解决分类器结果与信度不一致的问题,通过信度构建的方式进行基本概率分配。从分类器的输出结果中获得不确定信息,并根据结果的类型分别进行信度构建。对软分类器提出一种基于信息熵的信度构建方式,对硬分类器提出一种基于分类器准确性的信度构建方式。经过信度构建后的分类结果,就可以利用证据理论,进行统一决策。在道路交通事故中,常用的判决依据是判决文书,因此选择文本分类器作为子分类器,并对利用判决文书分类过程中词向量的生成方式进行研究。论文在最后对所取得的研究成果进行总结,并对道路交通事故判决方法的发展前景进行展望。正文中共包括图12幅,表13个,参考文献52篇。
李学亮[4](2021)在《基于深度学习及知识图谱的垂直领域问答研究》文中指出自动问答的目的是让机器理解人们提出的问题,并以自然语言的形式给出准确的答案,这项技术需要机器存储大量的背景知识。近年来,知识图谱技术的飞速发展,使得基于知识图谱的问答系统得到更多的研究。自动问答的研究领域可以划分为开放领域和垂直领域,本文主要针对医疗垂直领域进行研究。但研究中存在实际场景标注数据不足、机器在各个垂直领域对用户问题理解有偏差问题,因此,本文研究主要解决以上问题。首先,为解决训练模型标注数据不足的问题,本文基于自然语言建模和文本增强算法的最新进展,提出了一种融合面向表示和面向原文的文本增强方法,并利用反向翻译的技术提高增强后文本的多样性。在多个中英文数据集上分不同场景验证了本文提出的文本增强算法的有效性。然后,针对机器对用户问题理解有偏差的问题,本文通过对用户问题进行意图识别的方法来解决。基于已有的意图识别方法,本文提出了利用胶囊网络进行改进的算法。该改进算法具备胶囊网络的优势,解决了原来算法中在池化阶段导致一些特征丢失的问题。而且该算法将信息分层分组,以解决更复杂的问题。该算法在训练过程采用动态路由算法,从而增加了重要特征的权重,能够发现更多的隐藏特征,进而提高了意图识别的性能。最后,本文构建了医疗领域的知识图谱,并基于前文对文本增强和意图识别的研究,实现了医疗垂直领域的自动问答系统,验证了本文所提算法在实际场景中的可行性。此外,本文所提算法也可迁移到其他垂直领域。
舒琦赟[5](2020)在《基于类别重组与模型融合的文本分类算法改进研究》文中指出多类别文本分类是自然语言处理任务中的一项基础任务,文本分类算法效果的提升,也会使自然语言处理领域诸多其他任务的处理效果得到提升。目前在学术界诞生了种类众多、性质各异的文本分类算法,但由于这些算法各有各的优势与不足,在实际使用中往往需要使用多种算法进行某种形式的融合,进而实现优势互补,以满足工程中对于分类算法的需求。文本分类任务中,由于人工构建的分类体系往往受服务需求方与数据标注人员的主观因素影响较大,导致分类体系中的不同类别对于文本分类算法来说可分性参差不齐。在目前的单模型机器学习分类方法中,线性分类方法的训练和分类都极为快速,适合用于大规模文本数据的训练与分类,但分类效果不够理想;而神经网络类分类方法虽然训练代价较大,但分类效果比较理想。若将线性分类方法与非线性分类方法进行融合,让线性分类处理线性可分性较高的若干类别的分类,非线性分类处理线性可分性较差的若干类别的分类,预计将得到较好的分类精度和训练速度。基于以上背景,采用模型融合的方法提升分类器的整体性能是一个合理的选择。由此本文提出基于类别重组与模型融合的文本分类方法。本文主要工作如下:(1)设计实现了一种类别重组算法。类别重组算法将使用线性分类器进行分类时互相之间误分类率较高的若干类别合并为一个新的类别,而误分类率较低的若干类别保持不变。将上述思路应用于原始类别体系,得到重组后的新的类别体系,且新类别之间将是适合于进行线性分类的。本文在新类别体系下训练与测试本文使用到的线性分类器,得到了比在原始类别体系下所训练的模型更好的分类效果。(2)设计实现了一种分类模型融合方法。基于模型融合策略,将线性与非线性模型进行融合,线性分类算法负责类别重组后所得类别体系下的分类,而神经网络分类方法负责类别重组后所得新类别内部的分类。对于每一个重组得到的新类别,将对应一个非线性模型,并使用此非线性模型对新类别中的多个类进行分类。经过实验验证,此方法能够以接近于线性分类模型的训练代价下,得到比线性分类模型更好的分类效果,进而对文本分类模型整体性能做出了一定的改进。(3)设计实现了一个分类系统。结合上面工作成果,设计实现一个分类系统,在实际工程中初步得到应用。
袁帅[6](2020)在《基于舆情系统的食品安全信息情感倾向性研究》文中进行了进一步梳理随着互联网技术的快速发展,文本数据每天都在呈爆炸式增长,这些数据包含了用户在微博、微信、论坛等社交媒体平台所发表的动态信息、各大新闻媒体门户网站的新闻内容、各个电商网站下商品的评论信息、用户往来沟通的帖子邮件等,这些文本数据看似复杂,实则蕴含着大量有用信息,包含了公众的观点以及情感倾向。近来年,针对文本情感分析的研究逐渐增多,这些研究可以帮助企业了解用户对某一商品或服务的情感态度,还可以针对某些热点舆情事件,为相关单位制定一些政策提供决策支持,及时疏导负面情绪等。本文主要从跟人们生活息息相关的食品安全信息出发,以“非洲猪瘟”为例,借助中国吉林网舆情系统中公众关于“非洲猪瘟”事件的原创型评论数据,采用机器学习的方法对其进行情感倾向性分析。主要研究内容如下:(1)情感分析理论概况情感分析作为自然语言处理的一个重要研究领域,需要了解与学习其中的相关理论知识,包括自然语言处理的方法,情感分析的概念、目标,在不同的应用场景下,情感分析所需要的完成的任务,以及根据所处理的文本粒度不同,情感倾向性分析可以划分三个级别等。(2)关键技术研究中文文本情感分析的首要任务,需要对文本进行预处理,包括:中文分词、去停用词等。然后,通过文本表示模型,把经过预处理后的文本表示成能够被计算机识别的内部结构,使计算机可以使用文本表示模型进行数值运算。最后,经过预处理之后的特征词汇较多,特征集会非常大,需要进行特征选择,其目的是寻找最优特征子集,降低计算复杂度减少运行时间,提高模型准确率。(3)基于机器学习的分类器实验对比分析本文使用基于机器学习的情感分析方法,为了验证该方法能否深层次的挖掘语义特征对情感分析结果的影响,创新性地使用词袋模型、TF-IDF、基于神经网络的Word2vec三种特征选择与表示方法,结合朴素贝叶斯、支持向量机、逻辑回归算法,采用“3×3”方式设计了9组组合方式,分别构建文本分类器,并使用准确率、召回率、F1值以及ROC曲线对每个分类器进行性能评估,通过实验对比,得出最优文本分类器对数据进行情感分类。(4)“非洲猪瘟”的应用实例食品安全信息为本文研究的出发点,数据来源于中国吉林网舆情系统,以“非洲猪瘟”为应用实例,进行情感倾向性研究。由于这类数据中的公众情感主要是负面情绪,正面情绪偏少,本文创新性地提出以“负面情感强度”为主的情感值计算策略,构建基于时序的情感倾向走势图。另外,每个时间段中公众对“非洲猪瘟”事件的讨论点或者关注点有所差异,绘制了基于时段的热点词统计信息,非常直观的挖掘出公众情绪中的实体信息。通过以上研究,能够对社会负面情感的疏导和培养正向情感偏好起到一定的指导作用。
朱衍丞[7](2020)在《基于自动化增量学习的文本分类研究》文中认为在公安业务的实际需求中,往往需要对网络上的文本信息进行筛选,也就是进行文本分类。在文本分类任务中,分类效果的好坏依赖于训练样本的数量和质量,要想获得一个有效的分类器,往往需要耗费大量的人力来对文本进行标记,同时,在很多情况下,我们所需要进行分类的文本往往是针对某一特定事件或人物的,这样的文本所占比例较低,往往很难收集到足够的训练样本。要想解决以上问题,就需要一个可以自动化增量学习的分类器。一般而言,分类器的实现有传统机器学习方法和神经网络方法。传统机器学习方法往往是基于统计学上的词语共现频率进行分类,该方法对样本数量依赖小,可以实现文本的简单分类;神经网络方法则是在语义理解的基础上进行分类,该方法对样本数量依赖大,但可以实现复杂的文本分类。针对这两种方法,本文设计了一个支持自动化增量学习的分类器系统,该系统采取了一定的策略,充分发挥了这两种方法的优势,在该系统中,首先使用少量的标记样本对多种分类器进行训练,在使用分类器进行文本分类的过程中,基于一定的规则,使用传统机器学习方法对分类结果进行筛选,生成带有一定噪声的标记样本,对分类器进行再训练,以此实现自动化增量学习的过程。经过实验证明,在新闻文本上进行若干次的增量训练后,分类器的准确度较之前提高5%-10%左右。
樊梦雅[8](2019)在《自然场景图像中的文本检测算法研究》文中进行了进一步梳理文字作为高层语义信息是人类思想和感情表达的重要载体,包含非常有价值的信息,对于人们的日常生活是不可或缺的。随着互联网的发展以及智能手机、数码相机等移动终端的普及,海量的图像不断涌现出来,尤其是自然场景中的图像,其中的文本信息不仅是对场景的重要补充,也是场景理解非常重要的线索。因此,自然场景图像中的文本检测已经成为了近年的研究热点之一,其应用十分广泛,例如人机交互,图像搜索,工业自动化和车牌识别等等。对于传统的光学字符识别技术,已经有了相当成熟的解决方案,在处理文档文本方面取得了令人瞩目的成果。但是,由于文本的多样性、背景的复杂性以及其他外界因素的干扰,自然场景图像中的文本检测依然面临着诸多挑战。针对现有的自然场景文本检测算法准确率尚未理想的问题,从连通分量的提取与剪枝、连通区域的分类和多方向候选文本行的形成与分类三个方面进行算法的改进,提出了一种基于行特征和改进型卷积神经网络的文本检测算法。本文的主要工作和贡献具体如下:(1)采用增强的最大稳定极值区域得到连通分量,可以分割因模糊而相连的字符像素,以及字符连通域的孔洞。采用结合平滑度的剪枝操作将重复嵌套的最大稳定极值区域剪枝,得到孤立的连通区域,便于后续的连通分量分类。(2)在对连通区域进行分类时,对传统的卷积神经网络算法进行改进。为了平衡准确率、召回率、时间复杂度、卷积层数以及阈值之间的关系,经过大量的实验对比,确定了最佳的卷积层数和阈值。采用了对特征学习能力更强的四层卷积,足以提取字符和背景的深层特征,显着提高文本检测的准确率,同时不会增加太多计算量。降低了阈值,大大提高了文本检测的召回率,同时准确率也不会降低太多,因为四层卷积增加的准确率足以弥补此时准确率下降的不足。(3)在多方向候选文本行的形成过程中,提出了基于行特征的字符合并方法,操作简单,效果却十分惊人。在多方向候选文本行的分类过程中,提出了基于C4.5决策树的分类算法,利用机器学习算法分类具有更强的鲁棒性,进一步对候选文本行分类,得到最终的文本行。本文从以上三个方面对文本检测算法进行改进。所提算法在ICDAR2013、ICDAR2015和MSER-TD500数据集上分别进行实验,实验结果表明:本文提出的文本检测算法在处理模糊、透视变形、极端光照等不利因素影响的多方向文本图像均能取得较为理想的检测效果,该算法能显着提高自然场景文本检测的准确率和召回率,且适用于任意方向、语言和字体的文本。因此,本文算法具有良好的文本检测性能和更强的鲁棒性。
李心雨[9](2020)在《细粒度的新闻文本分类方法》文中指出近年来,互联网上充斥着越来越多的信息,各种媒体每天在网络上发布大量的新闻。在金融领域当中,由于人们对于企业信誉等更加看重,会更加关注网络当中的相关新闻。同时,大量金融新闻的广告性、总结性较强,不具有价值性,这类新闻的存在增添了人们在获取相关资讯过程中的时间成本。此外,对含有潜在价值的金融新闻进行分析往往可以迅速获得信息的升值价值,有效鉴别该类新闻可以避免专业分析人员接触大量不具有分析意义的新闻文本,从而大量节约该过程当中的人工分析成本。因此,如何从大量的新闻数据当中有效鉴别含有潜在价值的金融新闻拥有重要的研究意义。本文当中,我们通过文本分类方法鉴别含有潜在价值的金融新闻。与传统文本分类问题不同的是,待分类的文本具有较长的文本长度,且不同类别之间数据具有比较大的相似性,因而是一个细粒度的长文本分类问题。对于自然语言处理当中的文本分类任务,研究重点一般在于文本表示建模方法当中。现有的文本建模方法一般在较短文本上能够取得比较好的建模效果,对于长文本的建模尝试相对较少。本文提出,在细粒度新闻文本分类问题的长文本建模过程当中,层次化地建模长文本能够更好地获取文本特征。为此,本文基于预训练语言模型,BERT(Bidirectional Embedding Representation from Transformers),构建了层次化的长文本建模框架,并且在该框架之上加入了不同的篇章编码器,构建了两个具体的长文本分类器。我们在不同的数据集上进行实验,两个长文本分类模型在两个新闻分类数据集上均获得了优于当前已有模型的分类性能,说明了我们提出的长文本建模方法的有效性。根据当前任务的细粒度分类特性,我们为文本分类任务构建辅助的文本匹配任务,进行多任务学习,从而提升基础模型的分类性能。在构建文本匹配任务数据集的过程当中,我们从当前分类结果的混淆情况出发,设计算法进行负样例的定量构建,控制易混淆类别之间的文本构成更多的文本匹配负样本。我们在不同的细粒度文本分类数据集上进行了实验,实验结果表明,这种经过设计的辅助学习任务能够很好地帮助我们在多个基础模型之上提升细粒度分类任务的分类性能。我们在多任务学习之后继续进行了目标任务微调的实验,并在多数基础模型上取得了更优的分类性能。
司凯[10](2019)在《基于监督学习的领域词典自动化构建技术研究与实现》文中提出近些年来,科技高速发展,人们的交流方式也发生了翻天覆地的变化,每天都有数以百多万计的电子文件在互联网上流传,各个学科的文献也大批量的出现,接踵而至的是大批新的领域词汇,领域词汇充分体现和承载了如今社会已知学科领域所涵盖的核心知识。词汇的不断变化可以在不同程度的层面上反映出一个学科领域的时间空间上发展变化历程,因此领域词汇能让我们很容易的了解甚至理解一个学科领域的发展现状、未来趋势等,这对我们更好的认识领域知识有着重要的理论和现实意义。因此,设计出更好的领域词典构建方法迫在眉睫。本文重点研究基于监督学习的领域词典构建技术。主要工作如下:(1)本文先详细介绍了领域词典构建相关技术并对其总结,在此基础上,针对传统领域词典构建方法存在准确率低的问题,本文提出了一种基于监督学习的领域词典构建方法,首先对文本进行一些数据处理,用于保证关键词提取的准确性,然后进行词的特征提取,接着使用lightGBM训练一个分类器用于提取文章关键词,最后根据本文提出的一些规则进行领域词典构建。(2)为了验证本文方法的准确性和可行性,本文设计了两组实验。第一组实验是对比textRank关键词提取算法,实验结果表明本文提出的方法准确可行;第二组是使用本文的领域词典进行文档识别,实验结果表明本文文档识别准确率较高;综合以上两个实验证明本文提出的方法准确可行。(3)本文在上述方法之上,实现了领域词典构建系统,该系统具有领域词典扩充、领域文档识别的功能。经过验证该系统提取的领域词典准确率高,而且可以对领域词典进行不断更新。
二、基于Boost和信任函数的多文本分类器组合模型(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于Boost和信任函数的多文本分类器组合模型(论文提纲范文)
(1)基于机器学习的自动文本分类研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 文本分类预处理 |
1.2.2 文本表示与特征提取 |
1.2.3 文本分类器 |
1.3 论文的主要研究内容 |
1.4 论文的组织 |
第二章 文本分类相关技术 |
2.1 文本分类预处理 |
2.1.1 文本分词 |
2.1.2 去除停用词 |
2.2 文本表示 |
2.2.1 布尔模型 |
2.2.2 向量空间模型 |
2.2.3 主题模型 |
2.2.4 词嵌入模型 |
2.3 特征提取 |
2.3.1 频率统计 |
2.3.2 互信息 |
2.3.3 信息增益 |
2.3.4 卡方分布 |
2.4 文本分类器 |
2.4.1 朴素贝叶斯 |
2.4.2 KNN |
2.4.3 支持向量机 |
2.5 本章小结 |
第三章 基于TF-IDF-MP算法的关键词提取研究 |
3.1 TF-IDF算法 |
3.1.1 词频 |
3.1.2 逆文档频率 |
3.2 TF-IDF-MP算法 |
3.2.1 均值化词频 |
3.2.2 特征词位置加权 |
3.2.3 均值化词频-特征词位置加权 |
3.3 基于TF-IDF-MP算法的新闻关键词提取应用研究 |
3.3.1 实验方案设计 |
3.3.2 评价指标 |
3.3.3 实验结果和分析 |
3.4 本章小结 |
第四章 基于BILSTM-ATT-CNN模型的文本分类方法 |
4.1 词向量 |
4.2 深度学习模型 |
4.2.1 BiLSTM模型 |
4.2.2 注意力机制 |
4.2.3 卷积神经网络模型 |
4.2.4 BiLSTM-Att模型 |
4.2.5 BiLSTM-Att-CNN特征融合模型 |
4.3 基于BiLSTM-Att-CNN模型的文本分类应用研究 |
4.3.1 实验设计 |
4.3.2 实验结果和分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
个人简历 |
致谢 |
(2)基于文本识别的铁路设备故障信息分类算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 论文的研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容 |
第二章 铁路设备故障文本数据处理 |
2.1 铁路设备故障文本数据特性 |
2.2 铁路设备故障数据预处理 |
2.2.1 铁路设备故障数据的词库获取补充 |
2.2.2 铁路设备故障数据分词及去停词 |
2.3 铁路设备故障文本向量化 |
2.3.1 词向量概述 |
2.3.2 基于word2vec的铁路设备故障文本词向量模型 |
2.3.3 生成铁路设备故障文本词向量的模型参数 |
2.3.4 铁路设备故障文本词向量模型的训练结果 |
2.4 铁路设备故障文本词向量评价标准 |
2.4.1 外在评价标准 |
2.4.2 内在评价标准 |
2.5 基于LDA算法的铁路设备故障文本特征提取 |
2.6 本章小结 |
第三章 基于铁路设备故障文本的分类器集成研究 |
3.1 分类器的评价指标 |
3.2 基于铁路设备故障文本的单分类器算法 |
3.2.1 支持向量机算法 |
3.2.2 决策树算法 |
3.2.3 梯度提升决策树 |
3.2.4 KNN算法 |
3.3 基于铁路设备故障文本的多分类器集成技术 |
3.3.1 多分类器集成规则 |
3.3.2 多分类器的集成方式 |
3.3.3 基于铁路设备故障文本的多分类器的集成结构 |
3.4 基于铁路设备故障文本的分类器验证 |
3.5 本章小结 |
第四章 基于加权stacking算法的铁路设备故障文本分类研究 |
4.1 基于传统stacking算法的铁路设备故障文本模型 |
4.1.1 传统Stacking多分类器集成的设计 |
4.1.2 基于传统stacking算法的铁路设备故障文本分类模型验证 |
4.2 基于加权stacking算法的铁路设备故障文本模型 |
4.2.1 基于改进stacking算法的铁路设备故障文本分类模型设计 |
4.2.2 基于加权stacking算法的铁路设备故障文本分类模型验证 |
4.3 本章小结 |
第五章 铁路设备故障文本分类模型实验分析 |
5.1 铁路设备故障文本数据预处理实验 |
5.1.1 实验设计及目的 |
5.1.2 基于铁路设备故障文本数据预处理的语义相关度实验 |
5.1.3 基于铁路设备故障文本数据预处理结果的分类实验 |
5.2 基于加权stacking算法的铁路设备故障文本分类模型实验及分析 |
5.2.1 实验设计及目的 |
5.2.2 基于加权stacking算法的铁路设备故障文本分类模型评估 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间的研究成果及发表的学术论文 |
(3)基于D-S证据理论的道路交通事故判决方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 道路交通事故判决研究现状 |
1.2.2 数据融合研究现状 |
1.2.3 证据理论研究现状 |
1.2.4 文本分类研究现状 |
1.3 主要研究内容 |
1.4 论文结构 |
2 相关理论综述 |
2.1 D-S证据理论基础 |
2.1.1 证据理论的基本定义 |
2.1.2 证据组合 |
2.1.3 信度再分配 |
2.1.4 证据决策 |
2.1.5 证据冲突 |
2.2 文本分类技术概述 |
2.2.1 文本预处理 |
2.2.2 词向量生成方法 |
2.2.3 常见文本分类算法 |
2.3 本章小结 |
3 基于证据源冲突的道路交通事故判决方法 |
3.1 基于Shafer公式的证据折扣算法 |
3.2 Dempster组合公式的迭代融合 |
3.3 基于证据源冲突的道路交通事故判决方法 |
3.4 仿真结果及分析 |
3.4.1 悖论问题 |
3.4.2 冲突处理对比 |
3.4.3 收敛能力 |
3.5 本章小结 |
4 基于信度构建的道路交通事故判决方法 |
4.1 分类器信度构建 |
4.1.1 信息熵表示 |
4.1.2 基于信息熵的信度构建方法 |
4.1.3 基于准确率的信度构建 |
4.2 道路交通事故文书的词向量生成方法 |
4.2.1 加权word2vec算法 |
4.2.2 句子向量生成 |
4.3 基于信度构建的道路交通事故判决方法 |
4.3.1 文本预处理层 |
4.3.2 词嵌入层 |
4.3.3 分类器层 |
4.3.4 信度构建层 |
4.3.5 融合层 |
4.4 仿真结果及分析 |
4.4.1 词向量生成算法对比 |
4.4.2 基于信息熵的信度构建算法仿真 |
4.4.3 基于信度构建的道路交通事故判决算法仿真 |
4.5 本章小结 |
5 总结和展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(4)基于深度学习及知识图谱的垂直领域问答研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 知识图谱的研究现状 |
1.2.2 问答系统的研究现状 |
1.3 主要的研究内容 |
1.4 论文的组织结构 |
第二章 相关技术介绍 |
2.1 文本表示 |
2.2 文本分类 |
2.2.1 SVM |
2.2.2 LSTM |
2.2.3 GRU |
2.2.4 CNN |
2.3 文本增强 |
2.3.1 mixup |
2.3.2 EDA |
2.4 意图识别 |
2.5 本章总结 |
第三章 基于混合方法的文本增强算法研究 |
3.1 引言 |
3.2 文本增强算法 |
3.2.1 LAMBADA算法 |
3.2.2 CBERT算法 |
3.3 基于混合方法的文本增强算法设计 |
3.3.1 算法原理 |
3.3.2 算法流程 |
3.3.3 算法分析 |
3.4 仿真实验与分析 |
3.4.1 实验数据及设置 |
3.4.2 实验结果 |
3.4.3 分析 |
3.5 本章总结 |
第四章 融合胶囊网络的意图识别算法 |
4.1 引言 |
4.2 胶囊网络 |
4.3 融合胶囊网络意图识别算法设计 |
4.3.1 输入嵌入模块 |
4.3.2 编码序列 |
4.3.3 特征提取 |
4.3.4 意图识别 |
4.4 实验 |
4.4.1 数据 |
4.4.2 评价指标 |
4.4.3 参数设置 |
4.4.4 结果分析 |
4.5 本章总结 |
第五章 垂直领域问答系统搭建 |
5.1 引言 |
5.2 整体架构设计 |
5.2.1 基础数据的爬取 |
5.2.2 知识抽取与融合 |
5.2.3 知识存储 |
5.3 系统设计与实现 |
5.3.1 知识图谱构建 |
5.3.2 自动问答实现 |
5.4 本章总结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 不足与展望 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(5)基于类别重组与模型融合的文本分类算法改进研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 本课题的研究进展 |
1.3.1 单模型文本分类算法 |
1.3.2 基于集成学习与模型融合的文本分类方法 |
1.4 本文贡献 |
1.5 本文主要研究内容 |
第2章 国内外相关工作与研究现状 |
2.1 文本分类概念与介绍 |
2.2 文本分类评测方法 |
2.3 主要文本分类技术 |
2.3.1 词向量与文本语义表示 |
2.3.2 线性文本分类方法 |
2.3.3 非线性文本分类方法 |
2.4 小结 |
第3章 基于类别重组方法的线性分类改进 |
3.1 相关介绍 |
3.2 线性分类过程与类别重组方法 |
3.2.1 线性分类结果的利用 |
3.2.2 基于类别重组方法改进的线性分类算法 |
3.3 算法实验 |
3.3.1 数据准备 |
3.3.2 实验设置 |
3.3.3 实验结果 |
3.4 小结 |
第4章 基于模型融合方法的线性分类改进 |
4.1 相关介绍 |
4.2 基于模型融合的分类算法 |
4.2.1 线性与非线性模型的融合 |
4.2.2 模型结构 |
4.3 模型实验 |
4.3.1 数据准备 |
4.3.2 实验与对照实验设置 |
4.3.3 实验结果 |
第5章 分类系统的设计与实现 |
5.1 相关介绍 |
5.2 系统总体框架 |
5.3 系统功能模块 |
5.3.1 文本预处理模块 |
5.3.2 类别重组模块 |
5.3.3 分类器训练模块 |
5.3.4 接口服务模块 |
5.4 系统功能展示 |
5.5 小结 |
第6章 结论与展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(6)基于舆情系统的食品安全信息情感倾向性研究(论文提纲范文)
摘要 |
Abstract |
第一章 前言 |
1.1 研究背景 |
1.2 研究意义 |
1.3 相关研究现状 |
1.4 主要研究内容 |
1.5 本文组织结构安排 |
第二章 相关理论介绍 |
2.1 自然语言处理简介 |
2.2 情感分析 |
2.2.1 情感分析概要 |
2.2.2 情感分析主要目标和任务 |
2.2.3 情感分析应用 |
2.3 面向不同文本粒度的情感倾向分析 |
2.4 本章小结 |
第三章 情感倾向性分析关键技术研究 |
3.1 文本预处理 |
1. 中文分词 |
2. 词性标注 |
3. 去停用词 |
3.2 文本表示模型 |
3.2.1 词袋模型 |
3.2.2 主题模型 |
3.2.3 词嵌入模型 |
3.3 Word2vec词向量模型 |
3.4 文本特征选择 |
3.5 本章小结 |
第四章 多方位情感分析方法 |
4.1 情感分析的基本方法 |
4.1.1 词法分析的情感分析方法 |
4.1.2 机器学习的情感分析方法 |
4.2 分类评价指标 |
4.3 实验训练数据及环境 |
4.4 基于词袋模型多维度表示分类器对比 |
4.4.1 实验流程 |
4.4.2 实验结果 |
4.5 基于TF-IDF多维度表示分类器对比 |
4.5.1 实验流程 |
4.5.2 实验结果 |
4.6 基于Word2vec多维词向量表示分类器 |
4.6.1 实验流程 |
4.6.2 实验结果 |
4.7 分类器对比结果汇总 |
4.8 本章小结 |
第五章 “非洲猪瘟”的应用实例 |
5.1 数据介绍 |
5.1.1 数据来源 |
5.1.2 数据对象类型 |
5.2 基于时序的情感倾向走势 |
5.2.1 实验流程 |
5.2.2 实验结果 |
5.3 基于时段的热点词统计 |
5.3.1 实验流程 |
5.3.2 实验结果 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
作者简介 |
攻读学位期间取得的研究成果 |
致谢 |
(7)基于自动化增量学习的文本分类研究(论文提纲范文)
摘要 |
abstract |
引言 |
1 绪论 |
1.1 文本分类研究的历史进程 |
1.1.1 国内外研究现状 |
1.1.2 神经网络在NLP领域的发展历史 |
1.2 文本分类研究中的主要问题 |
1.2.1 中文文本分词问题 |
1.2.2 文本表示问题 |
1.3 研究价值和创新点 |
1.4 研究内容 |
1.5 论文结构 |
2 文本分类基础 |
2.1 文本预处理 |
2.1.1 分词方法及工具 |
2.1.2 去除停用词 |
2.2 分类器选择 |
2.3 分类结果评估标准 |
2.4 本章小结 |
3 传统机器学习方法的改进与实现 |
3.1 特征选择 |
3.1.1 TF-IDF方法 |
3.1.2 CHI方法 |
3.1.3 ECE方法 |
3.2 特征提取 |
3.3 KNN分类器 |
3.3.1 算法概述 |
3.3.2 文本表示 |
3.3.3 实验结果及分析 |
3.4 Na?ve Bayes分类器 |
3.4.1 算法概述 |
3.4.2 算法的改进与实现 |
3.4.3 实验结果及分析 |
3.5 SVM分类器 |
3.5.1 算法概述 |
3.5.2 核函数概述及选择 |
3.5.3 多分类策略与选择 |
3.5.4 算法的改进与实现 |
3.5.5 文本表示 |
3.5.6 实验结果及分析 |
3.6 本章小结 |
4 神经网络方法分析与实现 |
4.1 LSTM分类器 |
4.1.1 算法概述 |
4.1.2 分类器的实现及结果分析 |
4.2 BERT分类器 |
4.2.1 算法概述 |
4.2.2 分类器的实现及结果分析 |
4.3 本章小结 |
5 系统设计 |
5.1 系统结构及设计 |
5.2 系统搭建 |
5.2.1 网络爬虫搭建 |
5.2.2 消息中间件搭建 |
5.2.3 文本分类器布置 |
5.2.4 数据存储实现 |
5.3 文本数据选择 |
5.4 实验结果及分析 |
5.5 本章小结 |
结论 |
参考文献 |
在学研究成果 |
致谢 |
(8)自然场景图像中的文本检测算法研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究发展及现状 |
1.3 研究难点 |
1.4 本文主要工作及论文结构 |
第二章 常用文本检测方法综述 |
2.1 传统的文本检测方法 |
2.1.1 基于滑动窗口的方法 |
2.1.2 基于连通分量的方法 |
2.1.3 混合方法 |
2.2 基于深度学习的文本检测方法 |
2.3 本章小结 |
第三章 基于MSER的连通区域提取与剪枝 |
3.1 引言 |
3.2 最大稳定极值区域 |
3.2.1 最大稳定极值区域的定义 |
3.2.2 最大稳定极值区域的性质 |
3.3 增强的MSER的连通分量提取 |
3.4 嵌套的MSER的剪枝算法 |
3.5 实验结果与分析 |
3.6 本章小结 |
第四章 基于改进型CNN的连通分量分类 |
4.1 引言 |
4.2 改进型CNN系统框架 |
4.3 卷积神经网络 |
4.3.1 卷积神经网络概念 |
4.3.2 卷积神经网络结构 |
4.4 改进型CNN的分类器 |
4.5 实验结果与分析 |
4.6 本章小结 |
第五章 多方向候选文本行的形成与分类 |
5.1 引言 |
5.2 基于行特征的多方向候选文本行的形成 |
5.3 C4.5 决策树算法 |
5.3.1 ID3 算法 |
5.3.2 C4.5 算法 |
5.4 基于C4.5 决策树的候选文本行的分类 |
5.5 实验结果与分析 |
5.5.1 数据库与评价标准 |
5.5.2 实验结果分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 后续研究展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
致谢 |
(9)细粒度的新闻文本分类方法(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题来源 |
1.2 课题研究的背景及意义 |
1.3 国内外相关技术研究现状分析 |
1.3.1 基于传统机器学习的文本分类 |
1.3.2 基于深度学习的文本分类 |
1.3.3 基于多任务学习的文本分类 |
1.4 本文主要研究内容 |
1.5 论文的组织与结构 |
第2章 新闻文本分类方法简介 |
2.1 引言 |
2.2 目标类别新闻鉴别的整体流程 |
2.3 基于深度学习的文本分类方法 |
2.3.1 基于深度学习的文本分类框架 |
2.3.2 基于深度学习的文本分类模型 |
2.3.3 基于预训练语言模型的文本分类方法 |
2.3.4 基于深度学习的文本分类器 |
2.4 基于多任务学习的文本分类方法 |
2.4.1 多任务学习的基本概念 |
2.4.2 多任务学习下的两种学习模式 |
2.4.3 多任务学习在文本分类当中的应用 |
2.5 本章小结 |
第3章 层次化文本表示的长文本分类 |
3.1 引言 |
3.2 层次化的长文本表示方法 |
3.2.1 嵌入层的设计方法 |
3.2.2 基于BERT的句子编码方法 |
3.2.3 篇章编码方法 |
3.2.4 篇章分类方法 |
3.3 数据集介绍 |
3.3.1 细粒度新闻文本分类数据集 |
3.3.2 公开数据集简介 |
3.4 评价指标介绍 |
3.5 实验与结果分析 |
3.5.1 实验环境与配置 |
3.5.2 实验结果 |
3.5.3 实验分析 |
3.6 本章小结 |
第4章 基于多任务学习的细粒度文本分类 |
4.1 引言 |
4.2 基于多任务学习的文本分类方法 |
4.2.1 辅助学习任务的构建 |
4.2.2 多任务学习的文本分类实现方法 |
4.3 实验结果与分析 |
4.3.1 基于多任务学习的实验结果 |
4.3.2 加入目标任务微调之后的实验结果 |
4.3.3 IMDb数据集上多任务学习实验结果 |
4.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(10)基于监督学习的领域词典自动化构建技术研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 本文的主要工作及章节安排 |
第2章 相关理论知识和算法介绍 |
2.1 领域关键词提取算法分类 |
2.2 数据预处理相关技术介绍 |
2.2.1 分词算法介绍 |
2.2.2 词性标注 |
2.3 关键词抽取常用特征 |
2.4 特征降维 |
2.5 常用文本分类算法 |
2.5.1 朴素贝叶斯 |
2.5.2 支持向量机 |
2.5.3 逻辑回归 |
2.6 本章小结 |
第3章 一种有监督的领域词典构建算法 |
3.1 数据预处理 |
3.1.1 分词和词性标注 |
3.1.2 停用词过滤 |
3.2 候选关键词选取 |
3.3 特征选取 |
3.4 基于lightGBM的关键词提取算法 |
3.4.1 lightGBM算法 |
3.4.2 基于lightGBM的关键词提取具体步骤 |
3.5 领域词典构建 |
3.6 领域词典扩充 |
3.7 本章小结 |
第4章 原型系统设计与实现 |
4.1 系统设计 |
4.2 数据的采集和语料的标注 |
4.2.1 语料的采集 |
4.2.2 语料的标注 |
4.3 原型系统的实现 |
4.3.1 在线系统的实现 |
4.3.2 离线系统的实现 |
4.4 实验环境和实验分析 |
4.4.1 测试环境 |
4.4.2 针对关键词提取的评测 |
4.4.3 针对领域词典构建的评测 |
4.5 本章小结 |
结论 |
一、主要工作总结 |
二、未来工作展望 |
参考文献 |
附录A 攻读学位期间完成的学术论文 |
附录B 攻读学位期间获得的专利和着作 |
附录C 攻读学位期间参与的项目列表 |
致谢 |
四、基于Boost和信任函数的多文本分类器组合模型(论文参考文献)
- [1]基于机器学习的自动文本分类研究[D]. 盛武平. 华东交通大学, 2021(02)
- [2]基于文本识别的铁路设备故障信息分类算法研究[D]. 李兴钰. 石家庄铁道大学, 2021(01)
- [3]基于D-S证据理论的道路交通事故判决方法研究[D]. 王嘉玮. 北京交通大学, 2021(02)
- [4]基于深度学习及知识图谱的垂直领域问答研究[D]. 李学亮. 北京邮电大学, 2021(01)
- [5]基于类别重组与模型融合的文本分类算法改进研究[D]. 舒琦赟. 中国科学院大学(中国科学院人工智能学院), 2020(01)
- [6]基于舆情系统的食品安全信息情感倾向性研究[D]. 袁帅. 吉林农业大学, 2020(03)
- [7]基于自动化增量学习的文本分类研究[D]. 朱衍丞. 中国人民公安大学, 2020(12)
- [8]自然场景图像中的文本检测算法研究[D]. 樊梦雅. 南京邮电大学, 2019(02)
- [9]细粒度的新闻文本分类方法[D]. 李心雨. 哈尔滨工业大学, 2020(02)
- [10]基于监督学习的领域词典自动化构建技术研究与实现[D]. 司凯. 湖南大学, 2019(07)