数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能

数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能

张利军[1]2003年在《数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能》文中研究说明文本分类就是自动地将自然语言文本文档根据其内容分类到预定义好的类别中去。随着在线文本文档数量的快速增长,文本分类已经成为处理和组织文本数据的一种关键技术。文本分类技术可以用来对新闻分类,可以从互联网上发现有用信息,还可以用在搜索引擎中提高搜索效率。 朴素贝叶斯分类器由于其简单性及计算的有效性,一直在文本分类领域中占有很重要的地位。但是由于传统的朴素贝叶斯分类器以单个的单词作为特征,并且认为任意两个单词之间的出现与否是互不相关的,即单词之间是相互独立的,在现实世界中这种假设显然是不成立的,这在一定程度上影响了分类器的性能,如果能够减轻或消除这一假设的影响,就可以提高分类器的性能。 为了减轻朴素贝叶斯假设对分类器性能的影响,我们提出了关联特征的概念,关联特征是多个同时在一个文档中频繁出现的单词的集合。关联特征不但能够比单个的单词更好地描述一个概念,而且能够描述它所包含的单个单词(称之为原始特征)不能描述的概念。 在Apriori算法的基础上,我们提出了一种挖掘关联特征的算法ATM(Association Terms Mining),用来在训练文档集上挖掘频繁的关联特征。为了压缩特征空间,提高分类效率和性能,同时提出了对关联特征进行剪枝的冗余剔除算法和利用信息增益进行筛选的特征筛选算法,并以关联特征作为分类特征实现了我们的文本分类系统NBAT。 在Reuters21578文档集中10个类别上的测试结果表明,关联特征能够提高朴素贝叶斯文本分类器的性能。使用关联特征比不使用关联特征在Support=0.1时,宏平均BEP提高了6.9%,而宏平均F_1提高了12.2%。 在本文的结尾,指出了NBAT的主要不足,即挖掘效率低,当特征空间较大,或设置的支持度阈值比较低时,难以挖掘出所需要的关联特征,并提出了可能的解决方法。最后展望了以后的研究工作的几个方向。

王雷[2]2011年在《基于支持向量机的文本分类器设计与实现》文中研究指明伴随着互联网的普及和电子商务应用的广泛深入,人们在享受网上冲浪的同时,也陷入了信息过载的困境,用户在大量的信息中难以找到自己需要的信息,商家也难以掌握网络上对自家商品的评论信息。由此,文本分类系统应运而生。文本分类器是文本分类系统的一个重要组成部分,具有良好的发展和应用前景,逐渐成为一个重要的研究内容。基于支持向量机的文本分类器是目前的研究重点,在很多方面较其他的分类器显示出突出的优势。但是基于SVM的文本分类器的还不够成熟,仍然存在一些问题,如系统的扩展性问题、使用的简易性和时间因素问题等。本文主要是对基于支持向量机的文本分类器的研究。本文首先通过查阅文献,总结了现有的文本分类器的特点,然后介绍了支持向量机和文本分类的基本理论,对文本分类器有了清晰的认识,最后是文本分类器的设计与实现部分。文本分类器主要包括叁个部分:1、文本缩减经过分词和句法分析得到的文本信息做一些简单的缩减处理,则在进行文本训练和文本预测的时候能够改善结果。对文本数据进行缩减的目的在于:①避免一些特征范围过大而另一些特征范围过小。②避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。2、文本训练文本训练的主要目的就是构造文本分类器。训练过程是通过学习给定的文本分类体系相关的信息,使用特征权重算法计算出的特征项权重来构造出文本分类器,这样文本分类器就具有了区分既定类别的功能,也就建立起了分类模型。3、文本预测文本预测的关键就是构建的文本分类器必须是分类准确的。现在有很多文本分类器,在不同领域取得了很好的效果。如何更加客观的评价—个分类器的性能,是值得研究的方向之一。另外,本文还在最后通过实验对文本分类器的分类效果进行了评测和比较。

万剑[3]2012年在《文本数据挖掘中基于云模型的特征选择方法研究》文中进行了进一步梳理随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途径。但是,面对浩瀚如烟的海量网络数据,如何快速准确地定位到自己感兴趣的内容,成为了我们需要解决的问题。文本数据挖掘是利用计算机通过某种手段从文本数据中获得有价值信息的一项技术。其中,文本分类和文本聚类是这项计算机处理技术中非常重要的两种方法。研究发现,用于分类和聚类中传统的特征选择方法无法考察特征词词频在文本集合中的分布,因而这些方法不能精确地衡量特征词的类别区分能力。为了弥补这点不足,本文将云模型理论引入文本特征选择中,所做的工作主要有以下几个方面。第一、对文本分类和聚类技术进行了较为详细地阐述。对其中传统的特征选择方法做了深入地研究和探讨,详细地对比和分析了它们的区别和存在的不足。第二、在文本分类中,利用云模型理论分别从关联度和区分度两个方面来衡量特征词的重要程度。本文将特征词映射成分类词云滴,用关联云来描述词云滴在单个类别中的分布,用区分云描述词云滴在多个类别中的分布,进而构建关联云过滤器和区分云过滤器进行特征选择。实验采用朴素贝叶斯和SVM这两种分类器来验证这种方法的有效性。第叁、在文本聚类中,利用云模型理论将特征词映射成聚类词云滴,并将词云滴跃升聚类文档云。构造聚类文档云过滤器在无类别标识的文档中选择有区分能力的特征词。实验采用K-means聚类算法验证了聚类云特征的有效性。总体而言,本文基于云模型理论中不确定性思想,并结合不确定性概念中的模糊性和随机性对文本数据挖掘中的特征选择进行了初步的研究。在分类和聚类两个方面取得了一定的成效。

廉彬[4]2017年在《基于文献的阿尔兹海默症因果分析》文中研究表明随着互联网的广泛应用和普及,逐步进入了大数据时代。并且由此发展了各种各样的基于大数据的分析方法。本文尝试通过文献数据处理技术,通过文献的分类和特征提取,获取关于AD的一些深度的因果分析结论,包括病理学,生理学,行为学,社会学等各个方面。本文对于近12万条关于AD的文献摘要(主要是发表在各种医学杂志上的论文),以及3万多条关于AD病人的数据,进行文献分类和特征关联,并在此基础上建立贝叶斯因果图,通过因果分析,找出影响AD的主要原因,为临床试验提供必要的数据支持。本文尝试一种基于文献的疾病分析技术,应用统计因果分析模式,从文献数据中挖掘因果关系。同时在文献分类中,提出了改进的朴素贝叶斯文献分类方法,建立了兼顾单词独立性假设和单词联合分布的折中方案。进而通过文献分析结果,为数据建模和因果计算建立了新的约束条件,从而减少了数据属性过多对于分析结果的干扰。由于医学研究更加强调因果关系而不是关联关系,这个问题一直是横亘于数据分析师和临床医生之间的难题。本文通过因果分析技术,从纯粹的数据中挖掘因果关系。在构建贝叶斯网络的基础上,提出了一个实用的线性回归方程模式,可以方便地计算变量之间的直接因果影响程度,显示了单纯从文献数据角度进行统计因果分析的优点和技术特色。

参考文献:

[1]. 数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D]. 张利军. 西北工业大学. 2003

[2]. 基于支持向量机的文本分类器设计与实现[D]. 王雷. 东北财经大学. 2011

[3]. 文本数据挖掘中基于云模型的特征选择方法研究[D]. 万剑. 华中师范大学. 2012

[4]. 基于文献的阿尔兹海默症因果分析[D]. 廉彬. 合肥工业大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能
下载Doc文档

猜你喜欢