刘钢[1]2003年在《基于神经网络的文本分类系统NNTCS的设计和实现》文中进行了进一步梳理文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。 本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,同时阐述了典型文本分类系统的核心技术和系统结构,对文本分类的应用范围进行了描述。然后着重介绍了一个基于神经网络的文本自动分类系统NNTCS,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。 在NNTCS中,第一步是对中文文档进行汉语分词,从文档中抽出特征词,并且统计各特征词的词频。 系统使用神经网络作为分类器,特征词的词频组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文档集进行网络训练,误差反馈算法对网络进行权值调整,得到固定的权值作为分类知识存储。而在文本分类的时候,输入待分类文档的特征向量,运行固定权值的网络,得到的输出值与阈值比较确定类别。 系统中引入了信息检索中的常用技术——潜在语义索引,把原始向量空间转换到抽象的k维语义空间,实现原始向量空间的降维,提高网络训练速度和性能。 神经网络在一般的模式识别中很常用,但是在文本分类中较少采用,主要原因是向量空间太庞大,网络性能受限制,而引入潜在语义索引对空间降维可以避免这种缺陷,两者相得益彰。 训练过程中结合遗传算法,优化神经网络的初始权值。遗传算法有全局搜索的特点,可以避免神经网络局部收敛的问题,充分发挥遗传算法和神经网络各自的优势。 最后对NNTCS进行了开放性测试,实验表明NNTCS对文本分类具有较高的平均查全率和平均精度。
李琼琼[2]2009年在《网络文本自动分类器的设计与实现》文中研究说明随着国际互联网技术的飞速发展,在网络环境中出现了海量、半结构化的、异构的、动态的信息资源,并且这些信息资源的大部分都是以文本形式出现的。为便于从这些浩如烟海的中文文档中挖掘出有价值的信息,需要对已收集的大量文档进行有效的组织与分类。本文在分析文本挖掘和文本分类的研究现状和存在问题的基础上,主要研究了一个基于神经网络的文本自动分类系统,重点对其实现方法,如特征提取、空间降维、层次分类和分类器训练等技术进行了详细阐述。主要的研究工作包括:(1)介绍了数据挖掘和文本挖掘的基础理论和相关知识,对当前文本分类的研究背景、现状和存在问题进行了分析。(2)对当前文本分类领域中的关键技术:文本预处理、分词技术、文本的表示、权重计算、特征提取、层次分类和降维技术,进行了详细的分析和讨论。(3)提出了一种基于神经网络的文本自动分类系统,在文本分类过程中,利用神经网络作为分类器,同时系统还引入了潜在语义索引技术,来实现原始向量空间的降维,以提高分类速度和性能。
王雅玡[3]2008年在《基于朴素贝叶斯和BP神经网络的中文文本分类问题研究》文中进行了进一步梳理随着数据库技术和网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。这些信息大都是文本数据,想从其中迅速有效地获得所需信息是非常困难的事情。这些海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为此,中文文本自动分类被研究者提出并进行了应用研究,研究中文文本分类具有重要的理论意义和实际应用价值:自动分类在速度和效率上要大大优于人工分类,它能节省大量的人力、物力和资金;自动文本分类可以提高中文信息搜索的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供帮助。现今,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文围绕文本分类技术展开了讨论,首先介绍了选题的研究的背景和意义,概述了国内外文本分类技术的研究现状,而后对文本分类的技术进行了详细的阐述,介绍了文本分类的一般过程。本文对文本表示、文本分词、特征选择、特征降维、分类算法和分类评估标准等文本分类领域所用到的技术进行了介绍并提出了一定的思考和见解。(1)介绍了现有语料库的问题和本系统的语料库的建立和维护,分析了文本的基本结构特点及文本中对分类过程有贡献的信息成分,对中文分词的常用方法和本文所用到的中科院计算所的ICTCLAS分词系统的框架结构和各部分作了描述。采用改进的CHI方法作为本文特征选择方法,并对此作了阐述。(2)在现有的文本向量特征权重的表示方法基础上,提出了一种改进的TF-IDF方法,使得特征词在不同长度的文档中的重要程度不同,从而体现了特征的区分能力并对该方法的正确性加以证明。(3)介绍了朴素贝叶斯分类方法,并给出了朴素贝叶斯分类算法。介绍了神经网络的基本特点,给出了一种改进的BP神经网络方法进行文本分类的思想,该方法使用VC维来确定隐层神经元个数,从而改进了BP隐层神经元只能由经验给出的问题。与传统单隐层的BP网络相比,本文使用含有2个隐藏层的BP神经网络,从而降低了网络误差。同时对该方法进行了算法描述和算法分析。(4)在以上研究的基础上,运用Visual C#2005和MS Access2000开发工具进行了部分实现工作,构建了一个中文文本分类系统CTCS (Chinese Text Classification System).文本分类作为数据挖掘的一项技术,随着数据库技术的发展,越来越得到研究者的重视,并进行应用研究。目前,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文首先对数据挖掘和文本挖掘作了概述,其中包括数据挖掘和文本挖掘的现状和文本分类的研究现状。在文本与处理阶段,总结了中文文本分词的主要特点和方法,包括主要的分词的常用方法,未登录词识别,并给出了中文分词目前的成果以及现有分词方法的局限等内容。其次,对文本的特征表示和特征选择的方法作了研究,包括中文文本表示的常用方法和特征选择的常用方法,对文档频率,互信息,信息增效益,卡方方法,文本证据权,交叉熵和优势率等方法作了介绍和比较。而后对主成分分析,潜在语义索引,非负矩阵分解,词汇聚类等特征提取和降维的方法作了介绍并指出了各个方法的优点和缺点。再次,研究了中文文本分类的常用的分类方法。包括贝叶斯分类方法,KNN分类方法,决策树分类方法,粗糙集分类方法,SVM分类方法以及遗传算法和神经网络分类方法等各种分类方法的特点和不足作了总结,并介绍了分类性能的评定方法。在文章的最后对文本分类的未来发展方向给出了一个展望。
王根生, 黄学坚[4]2019年在《基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型》文中进行了进一步梳理针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络叁者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明叁者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果.
参考文献:
[1]. 基于神经网络的文本分类系统NNTCS的设计和实现[D]. 刘钢. 中国科学院研究生院(软件研究所). 2003
[2]. 网络文本自动分类器的设计与实现[D]. 李琼琼. 电子科技大学. 2009
[3]. 基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D]. 王雅玡. 云南师范大学. 2008
[4]. 基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生, 黄学坚. 小型微型计算机系统. 2019
标签:计算机软件及计算机应用论文; 文本分类论文; 神经网络论文; 文本分析论文; 自然语言处理论文; 分词论文; 分类器论文; 数据挖掘论文; 贝叶斯论文;