导读:本文包含了近似挖掘技术论文开题报告文献综述及选题提纲参考文献,主要关键词:信息检索,文本数据挖掘,近似网页聚类
近似挖掘技术论文文献综述
杨文忠,章兢,彭曙蓉[1](2006)在《基于近似网页聚类的Web文本数据挖掘技术》一文中研究指出提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,以获得用户感兴趣的近似网页簇系列。试验证明,该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,研究的算法时间和空间复杂度都不高,因此,有望成为一种实用、有效的信息检索技术。(本文来源于《长沙交通学院学报》期刊2006年01期)
杨文忠[2](2005)在《基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用》一文中研究指出随着Internet信息量的飞速增长,数据挖掘技术的日益成熟及XML语言的崛起,Web数据挖掘技术迅速成为信息检索领域的研究热点。本文对Web数据挖掘技术、搜索引擎技术、XML语言、文本聚类技术作了系统的研究,介绍了其特点、原理、方法和研究现状。如今Internet已经成为了人们获取各种信息的主要来源,利用常用搜索引擎系统能够获得大量的相关信息,但是这些信息太多太乱,用户难以迅速找到真正感兴趣的网页。对此,本文深入研究了如何对搜索引擎返回的结果进行文本数据挖掘以获得用户感兴趣的搜索模式。 本文从Internet用户的兴趣度出发,提出了一种基于近似网页聚类算法的Web文本挖掘技术。该技术根据用户的兴趣程度形成词汇库;利用模糊聚类方法获得分词词典组;在用户利用常用搜索引擎系统进行信息检索时,采用MD5算法消除搜索引擎返回的重复页,采用近似网页聚类算法,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;为进一步满足用户的兴趣需要,最后提出了一种基于马尔可夫链的Web访问序列挖掘算法,对返回给用户的网页簇进行二次排序,以保证用户快速、准确地获得真正关心的信息。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,本文研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。 作者设计了一个基于上述思想的智能搜索系统,并用于一个办公自动化系统。该系统运行速度快,能够兼顾查全率和查准率,大大提高了搜索效率。实践证明本文所研究与开发的成果具有实用性和有效性。(本文来源于《湖南大学》期刊2005-05-08)
近似挖掘技术论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着Internet信息量的飞速增长,数据挖掘技术的日益成熟及XML语言的崛起,Web数据挖掘技术迅速成为信息检索领域的研究热点。本文对Web数据挖掘技术、搜索引擎技术、XML语言、文本聚类技术作了系统的研究,介绍了其特点、原理、方法和研究现状。如今Internet已经成为了人们获取各种信息的主要来源,利用常用搜索引擎系统能够获得大量的相关信息,但是这些信息太多太乱,用户难以迅速找到真正感兴趣的网页。对此,本文深入研究了如何对搜索引擎返回的结果进行文本数据挖掘以获得用户感兴趣的搜索模式。 本文从Internet用户的兴趣度出发,提出了一种基于近似网页聚类算法的Web文本挖掘技术。该技术根据用户的兴趣程度形成词汇库;利用模糊聚类方法获得分词词典组;在用户利用常用搜索引擎系统进行信息检索时,采用MD5算法消除搜索引擎返回的重复页,采用近似网页聚类算法,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;为进一步满足用户的兴趣需要,最后提出了一种基于马尔可夫链的Web访问序列挖掘算法,对返回给用户的网页簇进行二次排序,以保证用户快速、准确地获得真正关心的信息。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,本文研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。 作者设计了一个基于上述思想的智能搜索系统,并用于一个办公自动化系统。该系统运行速度快,能够兼顾查全率和查准率,大大提高了搜索效率。实践证明本文所研究与开发的成果具有实用性和有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
近似挖掘技术论文参考文献
[1].杨文忠,章兢,彭曙蓉.基于近似网页聚类的Web文本数据挖掘技术[J].长沙交通学院学报.2006
[2].杨文忠.基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D].湖南大学.2005