可扩展的文本分类系统的核心API的设计与实现

可扩展的文本分类系统的核心API的设计与实现

翟静[1]2003年在《可扩展的文本分类系统的核心API的设计与实现》文中研究表明数据挖掘是当前数据库学科理论研究的焦点与前沿,是一个多学科交叉领域,而文本挖掘与文本分类是数据挖掘极具应用前景的分支。中文的文本挖掘由于汉语语言本身的特点有其需要解决的特殊问题。 由于相关应用的需求,本文作者负责设计了一个Java平台上的文本挖掘系统TextMiner的核心模块,为高负荷的中文文本分类提供了合理的核心框架与大量可利用的实现方法。本文的贡献主要体现在: (1) 总结了TextMiner核心模块使用的面向对象的分析和设计方法,核心API编程的观念,将如何从设计的角度完善一个软件系统的可扩展性、灵活性和可插入性的方案进行了剖析,对面向对象的设计模式的实际应用做了实例性的阐述。 (2) 展示了将文本挖掘与分类应用的各个关键性过程进行合理软件建模的方法。所建立的统一的软件模型克服了现存类似系统缺乏数据重用性的弱点。由于TextMiner采用了基于XML的对象绑定于数据交换,中间数据的可重用性得到进一步提高。 (3) TextMiner为文本的合理预处理提出了“过滤器链”的方法,为训练数据的重用提出了“挖掘域”的概念,为大储存容量的对象的序列化和恢复提出了“半装配”与“反半装配”的实现方式,为特征选择过程提出了“包含式”和“排他式”两种宏观机制等等。(4)(5)这些富于开创性的设计和实现为类似的大数据处理的面向对象系统提供了经验。由于中文文本处理面对的文档个体数据量大、噪声多、语义歧义充斥,几xtMiner选择了较为合理的数据结构,如哈希存储、双向索引和适当的冗余存储方案用于处理时间性能的改善。本文对这些解决方案做了概括的介绍。本文展示了多种常用的文本预处理、特征选择与与分类方法的理论基础与实现。在本文的结束部分,就实际应用对这些实现的选择,文章作了定性的分析。 本文的组织如下:第一章简要介绍了数据挖掘这一新兴学科的理论基础与应用范围,并介绍了作中文挖掘工作的必要性,特别是中文分类应用带来的挑战。面对这一系列特殊困难和特殊问题,文章对Tex也石ner的概貌和它的核心模块规划作了简介。第二章一方面从文本分类系统的宏观角度出发,介绍了Tex廿吐iner的主体结构,一方面从软件设计的角度出发,举例介绍了Tex翻iner核心模块所使用的主要设计模式和部分具独创性的解决方案。第叁章细化到每一个主要的软件模块,结合文本分类的部分理论阐述它们在飞x廿妊iner中的实现。第四章则对各种具体实现的结合利用作了分析,对Tex廿以iner和其他系统进行松藕合的可能性作了分析,并对未完成的工作进行了展望。

潘振鹏[2]2013年在《基于Hadoop的文本分类系统的设计与实现》文中认为随着互联网技术的快速发展以及互联网的普及,网络上的数据呈指数幂级增长。由于在这些海量数据中,类似于Web文本结构化或半结构化的数据居多,因此,如何快速的在网络上查找用户需要的有效数据,成为一项急迫需要解决的问题。为了提高用户查找效率和准确率,对这些结构化或半结构化文本数据有效的整理分类是至关重要的。由于计算机硬件的发展速度远远赶不上客户需求和数据增长的速度,因此,虽然文本分类技术已经发展到一定的成熟阶段,但是面对海量数据时,面临着如何在现在有的硬件基础上实现海量数据高并发处理,以及快速响应的挑战。因此本文的研究目的,在于设计和实现了一种处理海量数据的文本分类系统。在面临海量数据呈指数幂级增长和分类需求迫切,以及云计算兴起和分类技术相对成熟的背景下,提出了一种基于Hadoop文本分类设计与实现的方法。首先,对当前成熟的文本预处理、特征词选择、文本向量化、分类算法等,进行了研究,并设计了文本分类系统流程图。其次,对Hadoop系统框架进行了研究,然后建立配置Hadoop集群系统。最后,基于Hadoop分布式框架,采用MapReduce编程模型,进行特征词选择、训练文本向量化、文本分类测试等处理。该Hadoop分类技术降低了对硬件的要求,节约成本,满足了海量数据高并发处理的需求,提高了数据处理速度和效率,具有较大的实际应用价值。

李丽娜[3]2015年在《基于BIM的建设项目文本信息集成管理研究》文中研究说明建设项目在其全生命期内会产生大量半结构化、非结构化的工程信息,且很大比例的非结构化信息以文本文档的格式存在。由于建筑行业具有产业结构分散、多专业综合等特点,文本文档信息表现出数量庞大、来源及储存分散等特性。目前各建设阶段的信息管理相互分离,各部门间信息交互困难且易造成信息传递过程中的漏斗效应,信息协同性差、利用价值低。随着建筑信息模型(building information modeling,BM)在建筑业的使用日趋成熟,传统的信息表达方式开始向基于共享模型储存项目信息的方式转变。BIM技术基于特定项目创建模型、覆盖项目全生命期,而项目文本信息产生于项目生命期内且通常依附于各建筑对象而存在,因此本文提出依靠BM创建的共享模型整合分散的建设项目文本信息,从而实现项目文本信息的高效管理。本文在对建筑信息模型BIM和工业基础类IFC(Industry Foundation Class)的相关理论进行分析的基础上,结合建设项目信息的特点、文本信息管理中存在的问题以及其原因,深入分析了基于BM进行文本信息管理的价值,进而研究了基于BIM的文本信息集成方法。首先,详细阐述了本文提出的文本信息与IFC模型对象的集成方法:基于向量空间模型进行建设项?目文本分类;利用BIM核心建模软件Autodesk Revit提供的API提取模型对象的属性信息并生成查询向量,通过计算其与文本向量的相似度,检索出与模型对象相关的文本文档;利用IFC提供的外部资源引用将文本关联到BIM模型,实现文本信息与项目模型的集成。其次,进行了基于BIM的建设项目文本信息集成管理系统的框架设计,并从数据库支持、集成开发环境、AutodeskRevit二次开发的工具、IFC文件解析工具四个方面详细介绍了文本信息集成系统的实现平台。最后,本文以提取建筑对象楼板为例,验证了使用Revit API提取模型对象属性信息的可行性;通过基于JAVA平台的IFC模型解析工具IFC JAVA TOOLBOX在楼板和与其相关的文本之间建立了关联关系,并通过Revit平台可视化验证了模型对象和相关项目文本的关联过程。

吴韦[4]2009年在《文本分类语料库自动创建系统的研究与实现》文中指出大规模计算机语料库包含丰富的语言现象,能够充分的反应语言使用的普遍规律,已经引起许多国家的信息技术领域和语言学界日益浓厚的兴趣,成为自然语言处理领域的热点话题。特别地,随着基于统计规则的研究方法的兴起,语料库更是成为其研究的核心内容和基础。但是目前中文语料库稀缺,尤其是在文本分类领域,各种类型的中文文本分类语料库更是缺乏。在文本分类已经成为大规模数据处理应用的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。目前,创建计算机语料库的方法一般是组织各个领域的专家,从浩如烟海的知识中,选取符合语料库要求的语料,在这个过程中需要大量的人力物力资源,并且创建的语料库的优劣通常与参与专家的水平有关,带有一定的主观特性。同时信息处理技术在快速发展,也需要大量的各种专业、垂直语料库。因此为了减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间,本文在对现有各种语料库特点进行分析的基础上,提出了一种自动创建中文文本分类语料库的方法。本文主要做的研究包括以下几个方面:1.设计并实现了一种自动创建中文文本分类语料库系统。该系统能够自动抓取Internet上各个网站的页面,并对其进行页面处理、主题信息提取、核心词获取以及规模控制,最终将这些信息作为语料库的语料。2.提出并实现了一种自动识别和统一页面编码的算法。该算法能够有效地识别从网络上下载的大量网页的编码方式。同时能够将所有的页面的编码方式转变成一种程序易于处理的方式。并且该模块可以方便地应用到各种Web数据处理的程序中。3.对下载的页面进行了结构分析,并实现了一种页面正文信息抽取的方法。该方法能够对页面进行处理后取出页面中主题相关信息。4.提出了类别核心词的概念,同时实现了获取类别核心词的算法。通过该算法能够获取到类别的核心词,在对这些核心词的重要性排序后,可以根据这些核心词和类别的名称联合来扩充语料库的规模。实验表明,上述系统能够自动创建计算机文本分类语料库,并且创建的语料库在各种类型的文本分类器中表现良好,具有一定的使用价值。

李瑶[5]2018年在《基于协同训练的微博情感分类研究》文中提出随着互联网的高速发展与公众的自我表现意识提高,微博等自媒体平台应运而生。公众普遍喜欢通过微博等平台获取资讯、发现新鲜事,并发布评论来表达自己的观点。微博评论文本具有长度简短、格式不固定、包含的信息量较少但产生速度快等特点,这些信息中蕴含了大众的情感倾向性。本文将融合微博文本采集、群体计算、Spark并行化和半监督协同训练等技术,来研究基于协同训练的微博情感分类问题。本文首先分别研究基于微博API的微博文本采集方法与基于爬虫的微博文本采集方法,然后利用爬虫来获取半监督协同训练分类算法的训练与测试数据集,并通过引入群体计算系统模型提出了一种新的协同训练分类模型,最后,完成了协同训练算法在Spark平台上的并行化实现。具体说来,本文的主要研究内容如下:第一,对微博情感分类研究的背景与意义和国内外研究现状进行了介绍。第二,使用微博文本采集的两种方法来进行微博数据的采集,一种是基于微博API的微博文本采集方法,另一种是基于爬虫的文本采集方法,并对这两种方法进行了实验对比。同时介绍了中文分词方法、文本向量表示与情感特征权重计算这叁种中文微博文本预处理方法。第叁,对基于协同训练的微博情感分类模型进行改进。针对半监督协同训练算法在微博情感分类时未标注样本多、易引入噪声样本数据的不足,通过引入群体计算系统模型,提出了一种新的协同训练分类模型。实验表明,引入群体计算系统模型的微博情感分类模型的分类准确率有所提高。第四,为提高微博情感分类效率,对协同训练算法进行改进,将情感分类预处理和协同训练算法中使用的两种分类器算法即支持向量机(SVM)和朴素贝叶斯算法在Spark平台实现并行化。实验表明,引入Spark平台后,并行执行的协同训练算法在加速比、规模比和可扩展比等指标方面均有较好的表现。

李书明[6]2011年在《数字化学习中知识组织模型及应用研究》文中研究指明数字教育资源是数字化学习的核心。教育资源因信息爆炸性增长造成了广大学习者的认知过载,一方面存在海量的信息资源,另一方面却难以发现符合个人需求的资源。这要求传统的信息资源组织与服务方式应向更简洁、准确的知识服务发展。知识服务以知识为对象,通过教育资源的描述、分类、关联等组织策略,为学习者提供个性化的资源检索、导航、推送等服务,并成为数字化学习中教育资源有效应用研究的热点问题。数字教育资源与学科知识分类体系密切关联,具有知识性、逻辑性、专业性等特点。传统的资源组织方法,如主题词表、分类法、元数据描述法等难以满足海量教育资源的内在关联关系,实现教育资源的有效组织和管理,导致教育资源的应用效率、效果低下。另一方面,由于数字教育资源包含的学科门类众多、知识体系各异、语义关系特征复杂,对面向学科的知识理解和语义互联的知识组织方法提出新的需求。针对教育资源应用中存在的问题,论文研究基于学科本体的知识组织模型,结合教育技术标准、自然语言处理(NLP)等技术,研究教育信息资源特征信息自动提取方法,以及学科自动分类机制,探索知识组织模型应用策略和方法。论文的主要研究工作体现在:(1)教育资源知识组织模型。论文构建了基于学科本体的教育资源组织模型,包括资源语义特征、元数据特征以及关联特性等。论文构建的基于学科本体的教育资源组织模型包括资源实体层,资源逻辑层、资源本体层和用户接口层,通过逻辑描述和和组织,屏蔽资源实体的不一致,解决教育资源在知识表示上的异质性问题,为提高用户的访问和查询效率提供有效支持。此外,论文以教育技术学学科为例,参照《中国图书馆分类法》的分类体系,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。(2)面向学科的教育资源元数据自动提取方法。论文将教育资源描述信息划分为描述类元数据和语义内容类元数据,提出了一种面向学科的、规则和统计模型有机结合的教育资源元数据自动提取方法。该方法结合关键词、位置、文档结构信息等特征进行描述类元数据自动抽取,结合学科主题词、学科知识分类体系等,采用统计学习的方法抽取语义内容类元数据信息。论文设计和实现了教育资源元数据抽取系统,对教育技术学的2000多篇期刊论文进行了可行性实验证明。(3)面向学科特征的教育资源自动分类方法。论文提出了一种面向学科的、基于主题词特征的教育资源自动分类方法。论文结合教育技术学学科知识分类体系,构建一个面向学科的教育资源主题分类模型;并以教育技术学主干课教材以及核心期刊论文作为知识源,研制了教育技术学主题分类词表;通过构建面向学科的主题特征抽取方法、以及基于学科主题的文档分类方法,提出了一种面向学科的、基于主题词的学科分类策略,并开发了面向教育技术学学科的教育资源自动分类系统。实验结果验证了面向学科的教育资源自动分类方法有效性。(4)基于知识组织的教育资源导航原型系统及应用研究。将教育资源知识组织模型应用于数字教育资源的组织、导航与检索,构建基于知识组织模型的数字教育资源导航原型系统。论文以教育技术学学科为应用背景,利用教育资源知识组织模型实现了教育技术学学科网站的知识组织,实现对网络教育资源的分类导航。论文的特色之处体现在:1)构建了基于学科本体的教育资源组织模型,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。2)基于学科知识分类特征,提出了一种规则和统计模型有机结合的教育资源元数据自动提取方法。3)提出了一种面向学科特征的教育资源自动分类方法。研究成果对于面向教育的知识服务体系建设具有一定的理论和实践指导意义。

张俊杰[7]2016年在《基于Hadoop的电子文件分类系统的设计与实现》文中指出21世纪以来,随着计算机技术的飞速发展,企业信息化程度不断加深,电子文件已经成为企业信息资产的主要载体,是企业总资产中至关重要的组成部分。伴随电子文件数量的急剧膨胀,信息管理与信息安全问题日益凸显,本文基于Hadoop分析并实现电子文件分类系统,使用分布式集群存储并处理大规模电子文件信息。本文首先介绍了文件分类的研究背景及国内外现状,并在此基础上提出研究目标与主要研究内容。介绍本系统中使用的相关技术,其主要包括对Hadoop平台的介绍、文本分类器的相关介绍以及Solr搜索应用服务器的介绍。然后按照软件工程的流程,对电子文件分类系统进行需求分析,根据需求分析的结果,并比较不同分类算法的优缺点及对本系统的适应性,选择朴素贝叶斯分类算法作为本系统的分类算法。在系统的设计部分,以需求分析为基础,分别提出物理架构设计、软件架构设计并将整体功能划分为四个功能模块,在系统实现部分,对这四个功能模块进行详细分析与实现,使其在满足系统功能的基础上具有良好的扩展性与复用性。最后,对系统功能进行测试与验证。测试结果表明,该系统功能满足需求分析中所提出的功能性要求,并且充分利用Hadoop平台提供的并行计算能力,具有良好的运行效率与可扩展性。

吕博[8]2017年在《基于本体的文本智能分类研究》文中指出文本分类是处理和组织大量信息检索和文本挖掘的基础,其主要的任务就是根据预先给定的文本训练集以及文本所属类别,通过学习得出类别向量,进而通过分类模型判断出测试集文本的类别。本文在国内外研究发展现状及现有的文本分类方法的基础上,深入研究了基于本体的文本智能分类问题。本体作为知识组织和表达的手段,为人们实现文本自动分类提供了一个新思路。首先,本文建立描述影视文本的本体模型,用于实现文本的分类存储。在本体方面,从本体建模语言、本体推理机、本体构建工具的选择方面详细介绍了整个影视文本本体构建的模型。并利用Jena作为本体模型的推理机,通过自带的推理规则和自定义规则,挖掘隐含信息。其次,根据分类的工作原理,在传统的分类方式的基础上融入语义信息,构建一个基于本体的文本智能分类框架。从预处理、特征降维、Softmax分类叁个方面详细介绍了整个框架。并给出文本在整个框架中的整个分类流程和评估标准。最后,在实验中介绍了上述框架构建的文本智能分类的实验环境和主要的实验设计模块。并从文本分类的准确率、召回率和F-度量值多个角度与关键词分类方法进行比较,证明文本智能分类方法的可行性与正确性,有效的提高文本在分类方面的性能。

沈加[9]2013年在《基于SVM模型的新闻分类系统设计与实现》文中进行了进一步梳理随着信息化技术的不断发展,网络信息量呈指数级增长,而浏览网络资源也成为获取信息的一个重要手段。在杂乱无章的各类网络资料中,如何快速而准确地帮助用户定位到所希望浏览的内容成为一个重要的研究课题,为了有效管理网络资源,方便用户查阅,文本分类技术应运而生。支持向量机(SVM)算法被认为是文本分类中效果较为优秀的一种方法,它是一种建立在统计学习理论基础上的机器学习方法。该算法基于结构风险最小化原理,将数据集合压缩到支持向量集合,学习得到分类决策函数。本系统平台结合用户分类需求,通过调用ICTCLAS50分词工具包与libsvm分类模型实现对网络新闻的分词、计算词频,提取关键词、特征表示和分类操作,同时提供了用户管理和新闻管理功能,在保证文本分类核心功能的同时使用户可以管理自己的新闻文档。本文介绍了课题研究意义、国内外研究状况、关键技术、开发平台、系统模块与数据库设计、各个功能模块的实现,同时添加了用例图,E‐R图,程序流程图等对系统开发进行了解释说明,在系统实现里给出了一些系统界面和相关功能的操作方法。测试阶段利用黑盒测试等软件方法对平台系统进行测试,系统能够稳定运行,同时利用大量文本数据对系统分类结果进行测试,保证新闻分类系统的精确率。

陈骏[10]2006年在《基于语义网的文本信息分类技术研究》文中研究指明随着因特网上信息的大量增加,如果不依靠自动分类而完全通过手工进行文本分类,文本分类是不可能完成的。因此,文本自动分类成为一个重要的研究领域。而网络资源缺乏统一的语义描述,用户越来越难从海量的数据中查找到自己需要的资源,W3C组织倡导的基于本体的语义网技术为解决这一问题提供了出路,语义网通过获得词汇的语义使Web应用不但能够表示信息,而且能够理解信息,还可以在此基础上依据一定的规则对文本进行分类。在这篇论文中,我们首先介绍了语义网及其相关技术,然后介绍了Web文本分类的方法以及本体与语义网之间的相互关系,最后介绍了基于本体技术的语义网的自动分类器。此分类器可以对关于杜威十进制的分类法(DDC)和国会图书馆分类法(LCC)的文本进行分类。在介绍分类器的过程中,我们首先解释如何以模块化的方式构建本体,并把本体映射到DDC和LCC中。其次,我们正式定义了DDC-LCC之间和本体-分类表之间的映射。接着,我们解释了分类器使用本体进行分类的方法。最后,我们通过实验对分类器的精确性进行评估,实验结果证明我们的方法改善了分类的精确性,由于不完整的本体的使用,精确性改善的同时匹配率有所下降。

参考文献:

[1]. 可扩展的文本分类系统的核心API的设计与实现[D]. 翟静. 四川大学. 2003

[2]. 基于Hadoop的文本分类系统的设计与实现[D]. 潘振鹏. 哈尔滨工业大学. 2013

[3]. 基于BIM的建设项目文本信息集成管理研究[D]. 李丽娜. 大连理工大学. 2015

[4]. 文本分类语料库自动创建系统的研究与实现[D]. 吴韦. 武汉理工大学. 2009

[5]. 基于协同训练的微博情感分类研究[D]. 李瑶. 西南交通大学. 2018

[6]. 数字化学习中知识组织模型及应用研究[D]. 李书明. 华中师范大学. 2011

[7]. 基于Hadoop的电子文件分类系统的设计与实现[D]. 张俊杰. 东南大学. 2016

[8]. 基于本体的文本智能分类研究[D]. 吕博. 上海大学. 2017

[9]. 基于SVM模型的新闻分类系统设计与实现[D]. 沈加. 电子科技大学. 2013

[10]. 基于语义网的文本信息分类技术研究[D]. 陈骏. 南京理工大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

可扩展的文本分类系统的核心API的设计与实现
下载Doc文档

猜你喜欢