导读:本文包含了文档自动分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:向量,文档,分词,中文,语义,方法,模型。
文档自动分类论文文献综述
徐迪[1](2015)在《基于概率主题模型的文档自动分类》一文中研究指出近年来,随着因特网的高速发展,各种原始信息和数据如雨后春笋般的出现并大量充斥着网络,这种海量的原始数据和信息包括图片信息和数据,文本信息和数据、声音信息和数据、视频信息和数据等等。如何在难以估量的文档中获得和掌握最有效的、最关键的、最有用的信息和数据始终是信息处理的一大目标[1][2][3][4][5]。其中对文档进行准确、高效的分类是解决这个问题非常重要的部分。本人通过研究目前文档分类的现状以及中文分词的方法,设计出两种基于概率主题模型实现文档分类的方法,并将开发成软件。可以分别针对有监督的和没有监督的情况,实现了中文文档分类。对于监督的文档时,设计实现了基于概率主题模型的文档分类方法。根据一定量已经区分好的训练文档,计算每类文档的主题分布概率分布。通过比较新文档和训练文档集概率主题分布的接近程度,从而确定新文档所属分类。对于无监督无监督的文档不包含已分类文档库的情况。设计实现了基于模糊KMeans的概率主题的文档分类方法。首先在文档库中提取关键词,并抽取一定数量的文档,利用这些关键词和文档抽取出主题,计算被抽取出的文档的主题分布,然后将剩余文档根据主题分布的接近程度与这些文档进行聚类。完成第一次聚类后,将重新确定主题和主题分布,并再次根据主题分布对文档来进行第二次、第叁次聚类,直到不再发生变化,分类完成。此外,中文分词是处理中文文档的基础,我们也将实现通过一些共享的词库,完成文档的中文分词。软件采用C#语言制作开发,界面良好,运行速度较快,可以兼顾中文分词,分词排序,两种文档分类,批量处理以及导入导出等功能。(本文来源于《宁波大学》期刊2015-04-12)
于北瑜[2](2014)在《浅析基于核方法的XML文档自动分类》一文中研究指出XML文档,作为新数据形式,将文本内容信息和结构信息综合起来,是目前进行研究的一个热点。支持向量机方法为了对分类器具体的构造问题进行解决,利用核函数做了空间映射,同时将分类的最优超平面构造出来,这一方法对于文本自动分类有着明显的优点。本文首先介绍了向量模型,其次,对基于支持向量机的XML文档自动分类进行阐述。(本文来源于《电子世界》期刊2014年12期)
李海蓉[3](2012)在《基于语义模板的文档自动分类模型研究》一文中研究指出简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。(本文来源于《情报科学》期刊2012年06期)
杨建武[4](2011)在《基于核方法的XML文档自动分类》一文中研究指出支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果.(本文来源于《计算机学报》期刊2011年02期)
宁浪[5](2009)在《改进空间向量模型及其在文档自动分类系统中的应用》一文中研究指出文档自动分类作为信息处理技术的关键技术之一,具有重要的理论和应用价值。目前文档自动分类在信息处理方面的应用大致有:搜索引擎技术、邮件分类、电子会议、信息过滤等很多方面。现有文档自动分类技术的特征提取环节,在文档不规范性、算法的局限性等诸多原因的制约下,特征向量中没有体现文档的语义信息。为了降低这种现象对文档自动分类准确度的影响,提高文档自动分类的召回率和准确率,很多的研究人员在这个方面做了大量工作,取得了很多的成果。本论文主要研究了文档自动分类各个环节的算法原理,简要的阐述了文档自动分类的发展、应用和现状,详细地描述了空间向量模型的原理与实现方法,重点地论述了改进后的空间向量模型在文档自动分类系统中的应用,将段落向量、词距向量与传统的空间向量模型相结合应用到文档的特征提取当中。另外,重点论述了一种改进的中文分词算法在文档自动分类系统中的应用,将概率统计模型和词语查找树模型应用到中文分词中。试验结果表明,改进后的向量空间模型显着的提高了文档自动分类的准确率和召回率,既能完整的体现文档含义,又能加入文档的语义信息,有利于分类的进一步处理。改进后中文分词算法效果明显,进一步提高了向量空间模型表示文档的质量。(本文来源于《西南交通大学》期刊2009-04-01)
李毅[6](2009)在《基于关键词的Web文档自动分类算法研究》一文中研究指出随着网络的发展,电子文档大量涌现,Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势,使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视,在网络信息检索中尤其突出。传统的Web文档分类主要利用文档之间特征词的余弦相似度计算实现的,由于文档中的特征词过大,缺少对Web结构的分析,同时对文档不进行语义分析,从而导致Web文档分类的质量不高。为了克服传统方法的缺点,本文在利用文档结构的分析和TF-IDF的计算提取关键词的基础上,提出了一种基于语义关系的Web文档自动分类方法,以网络中的Web文档为处理对象,通过中文分词从web文档中抽取候选关键词,然后对文档结构的分析和候选关键词的TF-IDF计算提取关键词,利用《知网》中的语义关系层次结构图,使用改进的概念重要度计算参数,对文档间候选关键词进行语义相似度计算,构建出拓扑结构图,通过本文提出的聚类算法进行合理的优化分割合并操作,最终归纳实现Web文档的分类。本文中关键词的提取方法能很好的表达了文档的主旨内容,提高向量空间模型表示文章内容的准确性,同时实现了Web文档聚类的降维,利用了文档间同义词关系的词语,增强了文档之间的相似度,更加提高Web文档分类的效率。(本文来源于《合肥工业大学》期刊2009-04-01)
张小刚,杨凯,冉天保[7](2008)在《中文WEB文档自动分类系统的设计与实现》一文中研究指出中文WEB文档自动分类是中文自动信息检索的核心技术之一。中文WEB文档的分类涉及到文档的自动抓取、信息加工和提取、自动分类等,本文实现一个开放式的中文WEB文档自动分类系统,并在系统模块中应用了几个改进算法,主要解决目前信息检索中涉及中文分词搜索时所遇到的一些问题。(本文来源于《微计算机信息》期刊2008年30期)
郭少友[8](2008)在《自动分类中的文档表示及其改善方法研究》一文中研究指出文档表示(Document Representation)是对文档的主题内容进行揭示、描述的结果,根据文档的内容得到其文档表示是对文档进行自动分类的前提。对自动分类领域中常用的文档表示方法——向量表示法、语言模型表示法和图型表示法等进行了总结,并对四种改善文档表示效果的方法,即同义词扩展、共现信息的应用、句法信息的应用、语义信息的应用等进行了讨论。(本文来源于《信息技术》期刊2008年08期)
张楠[9](2007)在《基于Web的中文文档自动分类的研究与实现》一文中研究指出因特网上的信息日益丰富,己经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文Web文档进行自动整理归类,以提高用户对信息检索的体验,同时它是搜索引擎、信息过滤、信息检索、文本数据库、数字化图书馆等领域的核心技术。文本分类通常是指在给定分类体系的情况下,根据文本的属性(内容)自动确定其所属类别的过程。一般情况下,文本分类需要有训练集的支持。所谓的训练集是指一个文本的集合,由一组已经完成分类(即给定类别标号)的文本组成。而且根据分类体系的设定,每一个类别都应含有一定数量的训练文本。分类器通过某种学习方法完成训练后才可以用于分类未知文本。文本分类技术可以为信息的组织管理提供有效的支持,更好的满足信息检索的需求。该技术的好坏直接影响到搜索效率的高低。本文主要对文本自动分类中的特征提取以及文本分类算法等几个核心技术进行了深入的研究。提出了一种结合多线程技术实现的并行开放的文本自动分类解决方案。将各种文本分类算法集成为一种可选择单一运行,可并行同时运行的机制。并且可对各算法给出一个开放性的接口进行管理。可添加新的文本分类算法,也可以删去过时的文本分类算法。特征提取方法也采取了类似的办法。这样的做法大大提高了文本分类系统的兼容性及准确性。并且在最后实现了一个完整的文本自动分类系统以检测本论文提出的文本分类算法的效率。(本文来源于《哈尔滨理工大学》期刊2007-03-01)
田甜[10](2006)在《文档自动分类的方法探讨》一文中研究指出介绍了国内外自动分类研究的发展概况、自动归类与自动聚类的几种常用方法模型,并对其应用实例进行了分析。(本文来源于《情报杂志》期刊2006年02期)
文档自动分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
XML文档,作为新数据形式,将文本内容信息和结构信息综合起来,是目前进行研究的一个热点。支持向量机方法为了对分类器具体的构造问题进行解决,利用核函数做了空间映射,同时将分类的最优超平面构造出来,这一方法对于文本自动分类有着明显的优点。本文首先介绍了向量模型,其次,对基于支持向量机的XML文档自动分类进行阐述。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文档自动分类论文参考文献
[1].徐迪.基于概率主题模型的文档自动分类[D].宁波大学.2015
[2].于北瑜.浅析基于核方法的XML文档自动分类[J].电子世界.2014
[3].李海蓉.基于语义模板的文档自动分类模型研究[J].情报科学.2012
[4].杨建武.基于核方法的XML文档自动分类[J].计算机学报.2011
[5].宁浪.改进空间向量模型及其在文档自动分类系统中的应用[D].西南交通大学.2009
[6].李毅.基于关键词的Web文档自动分类算法研究[D].合肥工业大学.2009
[7].张小刚,杨凯,冉天保.中文WEB文档自动分类系统的设计与实现[J].微计算机信息.2008
[8].郭少友.自动分类中的文档表示及其改善方法研究[J].信息技术.2008
[9].张楠.基于Web的中文文档自动分类的研究与实现[D].哈尔滨理工大学.2007
[10].田甜.文档自动分类的方法探讨[J].情报杂志.2006