于爱军[1]2004年在《NERMS中基于Internet的搜索引擎研究与实现》文中研究表明网络教育资源管理系统NERMS(Network Educational Resource Management System)是我们承担的吉林省科学技术厅的重大项目。NERMS的主要目标是对繁多的网络教育资源进行有效的组织和管理,以便于网络教育资源的高度共享和便利获取,从而加快网络教育资源的开发和促进网络教育的发展。本文是其中的一部分,用于教育资源的动态扩展及站内资源的检索和索引。这里集中讨论了NERMS中基于Internet的搜索引擎中用到的关键技术和算法。首先,介绍了搜索引擎的基本概念和主要技术,阐述了多数基于Internet搜索引擎的系统结构。然后,研究了搜索引擎中页面收集即Spider中用到的主要技术,并探讨了如何提高Spider的工作效率。最后讨论了查询中涉及到的一些问题,以及如何对结果进行排序。1. 站点爬行器SpiderSpider使用HTTP协议从互联网上收集页面,一般是从一个或者多个知名的站点开始爬行,这些站点或者页面可以自行选择。当Spider获取一个新页面后,它对页面进行分析,提取出页面中的所有链接的URL,并把该页面和这些URL存入数据库。也就是说,一个Spider自动的利用Web的超文本结构,获取一个文档,并通过该文档中引用的URL递归的获取所有文档。首先,Web结构及其复杂和不一致,在Internet上有很多种类型的页面,如text、HTML和XML等,其中简单文本很容易分析和处理;XML文档由于高度结构化,也很容易处理。但互联网上的大多数页面都是HTML页面,而HTML的语法要求不是很严格,比如,一个超链接标签赡苊挥薪崾昵?/a>彼龅搅硪桓?a>币部梢匀衔耙桓鲆丫崾虼耍乖旖∽场⒐δ芮看蟮腍TML解析器是站点爬行器的一个基本要求。这里实现了一个通用的HTML解析器。其次,互联网上有大量的活动页面,它们包含表单、Javascript等动态特性,所以Spider要求能够处理页面中的Form,换句话说,它应该能够发送表单或者模拟执行Javascript代码。同时,HTTP连接是无状态的,为了维护Spider和Web服务器之间的连接的状态,Spider要求能够读取和存储来自服务器端的Cookie,这些Cookie不应该被永久保存,因为当Spider再次访问该站点时将是一个新的状态。
孟祥超[2]2005年在《网络资源搜集系统的设计与实现》文中研究表明本文实现了一个自然语言友好的、基于配置的网络资源搜集系统,并能直接为NERMS 服务。自然语言文本的关键词抽取、搜索引擎的搜索结果的抽取是两个难点。针对这两点,本文首先采用基于统计的最大概率分词算法对自然语言文本进行分词处理;并采用基于隐马尔可夫模型(HMM)的Viterbi 算法进行词性标注(pos tagging)处理;试图给出并编程实现了识别未登录的专有名词的一种方法(尚需进一步证明):把词性标注得到的名词作为专有名词的候选词,并向此词的两侧试探,计算所有的可能专有名词的出现频率,并按一定规则选出专有名词,即关键词,此算法从根本上讲也是基于统计的;实现了J. Hammer 等给出的Wrapper 方法,对各引擎返回的搜索结果进行抽取。本系统可搜集并下载文本、图片、文献(doc 及pdf)、课件(ppt)、动画(swf)、音频,共6 类资源。本系统的数据源采自多个搜索引擎,且只取每组搜索结果的前10 条记录,故在查准率和查全率上达到了较好的权衡。目前,本系统已经为NERMS 搜集了与数据结构相关的近10000条各类资源,取得了良好的效果。
张日崇[3]2004年在《基于web的个性化挖掘方法》文中认为随着科学技术的飞速发展,信息高速公路的普及,人们已经被包围在信息的汪洋大海之中。Internet是海量信息源,而且其信息的组织是异构的、多元的和分布的。由于信息不断地更新和增加,网络教育在世界各国日益普及。越来越多的人通过internet进行学习。网络教育资源管理系统NERMS(Network Educational Resource Management System,以下简称NERMS)是吉林大学承担的吉林省科学技术厅的重大项目。NERMS的主要目标是对繁多的网络教育资源进行有效的组织和管理,以便于网络教育资源的高度共享和便利获取,从而加快网络教育资源的开发和促进网络教育的发展。在NERMS中为了给用户更好的服务,为不同的用户提供适合其自身特点的个性化页面。 将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。这正是新一代的信息服务的发展方向。个性化主动信息服务的实现途径就是通过对用户信息需要、兴趣爱好和访问历史的收集分析,建立用户模型,并将用户模型应用于信息的过滤和排序,从而指导用户的浏览过程和信息检索,或向用户主动推送信息。Internet上的个性化信息服务系统必须具有叁个能力,即用户概貌能很好地反映用户的兴趣嗜好;为适应用户嗜好的变化,用户概貌能做适应性的改变;自动开发新的信息领域,主动向用户提供推荐服务。本文首先介绍了个性化主动信息服务推荐技术。然后分析了NERMS中个性化系统的结构和工作原理并给出了相关的工作,即如何根据不同用户各自的特点主动的为用户提供其相关的信息于内容。接着介绍了GSP算法(Global Sequential Pattern Algorithm)。GSP算法是一个基于AprioriAll的算法。GSP的引入是为了发现满足序列模式中的时间约束、滑动窗口的模式。GSP算法增加了时间约束、滑动窗口和分类法。通过添加这些约束,可以将数据库转换成了许多用户的访问序列。每个客户序列显示出这个客户已经进行了的访问。因此挖掘frequent序列问题是要发现那些在所有客户序列之间以足够频率出现的“后继”(或项目集)。在科学和商业的很多领域,发现事件之间预期的序列关联越来越有
高滢[4]2008年在《多关系聚类分析方法研究》文中进行了进一步梳理传统的数据挖掘任务通常假定数据由同种类型、相互独立的实体构成,但现实世界的许多数据却是多关系的。多关系数据在生物信息学、Web导航、社会网、知识获取与利用、地理信息系统和自然语言理解等领域广泛存在。本文围绕多关系数据挖掘领域,针对其中多关系聚类分析任务,展开了深入研究及应用工作:针对传统聚类分析任务,在研究现有监督分类中特征权值学习方法的基础上,提出了特征加权的聚类模型;关于多关系数据的聚类分析,为了提高现有多关系数据聚类算法的效率,提出了一种两阶段多关系数据聚类算法;为提高多关系数据聚类的质量,在传统K-均值聚类算法的基础上,结合半监督学习方法,提出了半监督K-均值多关系聚类算法;针对多关系聚类分析在推荐系统中的应用,研究了基于聚类的协同过滤推荐方法,为了解决传统协同过滤的稀疏性和扩展性问题,提出了结合似然关系模型和用户等级的协同过滤推荐算法;另外,将上述算法应用到网络教育资源管理系统中,并取得了较好效果。
田永鸿[5]2005年在《基于上下文的统计关系学习研究》文中提出统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是独立且同分布的。然而在现实世界中存在着大量的半结构化关系数据,如超文本、Web网页(网站)、Web图像、数字图书、教育资源等,这些数据集合由不同类型的数据对象组成,数据对象本身具有复杂的内部结构,同时不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。传统的统计学习方法忽略了数据对象间的关系结构,而这些语义信息却有助于使学习算法具有更好的性能。因此本论文研究的中心内容就是如何在统计机器学习中明确地利用数据实例间的关系信息来构建健壮的学习模型。本论文采用的主要方法论是上下文建模与分析。在研究中,上下文被定义为使得目标对象具有唯一的和可理解的语义的关联对象和其他影响因素的集合;相应地,上下文依赖关系则是传达了明确语义相关的“关系”。论文在对上下文分析和建模、统计关系学习等两方面的研究现状进行全面综述的基础上,以不同的应用问题为背景,开展了基于上下文分析的统计关系学习方法的研究。创新和研究成果如下:第一,提出了基于多粒度语义模型的Web站点挖掘方法。Web站点可以看作是一种具有复杂结构的超文本文档。论文用多粒度树来作为站点的描述模型,同时提出四种上下文模型来刻画树中结点间的主题相关关系。在此基础上,论文采用隐Markov树作为树结构的统计模型,研究了两阶段分类和多粒度分类等两个Web站点分类算法,以期通过利用结点间的上下文依赖关系来优化分类性能。同时,还利用两阶段文本去噪程序和基于熵的页面树动态剪枝策略来减少网页下载开销并进一步提高分类准确率。实验结果表明,多粒度语义模型能有效地刻画复杂对象内部的上下文依赖关系,而相应的分类算法能在较少的时间开销内达到较高的站点分类准确率。第二,通过扩展依赖网络模型,提出了一种上下文依赖网络模型(CDN)来刻画链接结构中的上下文主题依赖关系。在各种现实的链接关系数据(如Web)中,噪声链接或不相关“关系”是普遍存在的。为刻画这种复杂的链接规律性,CDN模型用链接特征和互信息来定量刻画链接对象间的上下文依赖关系,并利用一个简单但有效的上下文优化方法来优化对象的关系近邻,从而有效地减少噪声链接信息对分类过程的影响。CDN模型具有对链接特征的选择能力,易于适应不同的内容模型,并比传统的DN具有更简单的参数估计。实验结果表明,CDN模型在噪声数据集上具有较好的健壮性,并能为链接对象的属性提供较好的预测。第叁,提出了链接语义核来刻画链接对象之间的语义关系。特别地,将链接图中的语义相关关系看作一种扩散过程,提出了一种“语义扩散核”,并在核空间利用特征分解来获得潜在链接语义核。在此基础上描述了两类基于链接语义核的算法,即核化上下文依赖网络(KCDN)来进行协作分类,以及基于链接语义核的相关页发现算法。论文在
李秦[6]2009年在《基于用户行为的全文检索系统个性化推荐研究》文中研究说明随着互联网技术的飞速发展并逐步向社会各个领域渗透,学术文献的数字化传递变得越来越普遍,全文检索系统发展也越来越壮大。电子文献数量不断剧增而带来的信息过载现象却与人们对知识的渴望之间产生了矛盾。如何帮助用户充分利用现有的全文检索系统,从海量的电子文献中快速有效地找到所需要的文献,是当前数字化学术文献服务机构应该思考的方向。而个性化推荐正好是解决这个问题的有力途径;另一方面,全文检索系统环境也正需要推荐系统的大力支持。这是信息服务发展的必然趋势。对用户行为分析越准确,推荐算法使用越恰当,个性化推荐越有效果。所以,本文在对国内外有关用户行为兴趣建模技术和主要推荐算法的研究现状分析的基础上,针对全文检索系统的服务现状与用户的特点,提出了一个基于用户行为的全文检索系统个性化推荐模型。其主要思想是:在全文检索系统环境下,收集和使用用户隐式行为数据建立用户兴趣模型,采用一种改进的混合协同过滤算法来实现个性化推荐服务。首先,本文采用文献调查法与专家调查法,初步制定了一套全文检索系统相关反馈行为评价体系,将该体系作为收集和使用用户隐式行为数据的标准,建立“用户-文献”兴趣模型和“用户-关键词”兴趣模型;其次,在User-based协同过滤的基础上,使用基于“用户-文献”协同过滤和基于“用户-关键词”协同过滤的混合算法计算用户的兴趣相似度,并预测评分,进行相似用户推荐、文献推荐和关键词推荐;接着,在理论模型支撑下,设计并实现了一个个性化文献推荐系统(PDRS)的原型;最后,以计算机类和图书情报类的文献推荐为例,通过自然用户对原型系统的测试,本文将系统推荐结果与用户调查结果的拟合程度进行了卡方检验,实验结果表明PDRS系统的推荐结果具有较高的准确度。
参考文献:
[1]. NERMS中基于Internet的搜索引擎研究与实现[D]. 于爱军. 吉林大学. 2004
[2]. 网络资源搜集系统的设计与实现[D]. 孟祥超. 吉林大学. 2005
[3]. 基于web的个性化挖掘方法[D]. 张日崇. 吉林大学. 2004
[4]. 多关系聚类分析方法研究[D]. 高滢. 吉林大学. 2008
[5]. 基于上下文的统计关系学习研究[D]. 田永鸿. 中国科学院研究生院(计算技术研究所). 2005
[6]. 基于用户行为的全文检索系统个性化推荐研究[D]. 李秦. 西南大学. 2009
标签:互联网技术论文; 自然语言处理论文; 上下文论文; 推荐算法论文; 个性化推荐系统论文; 语义分析论文; 文本分类论文; 关系模型论文; 搜索引擎技术论文; web技术论文; 用户研究论文; 搜索引擎基本工作原理论文; 文本分析论文; 搜索引擎原理论文; 算法论文;