基于Web的日志挖掘技术的研究

陈峰^[1]2008年在《基于Web日志的用户兴趣聚类研究》文中研究指明随着Internet的普及,信息快速增长与人们注意力有限性的矛盾在不断增加,而Web日志挖掘正是解决这一矛盾的有效手段。Web日志中隐含了用户访问网站的行为和特点,使用聚类技术对其进行分析可以得到用户的兴趣模式,从而为网站结构的优化、个性化服务的推荐、电子商务的开展等方面提供帮助。传统的聚类对用户兴趣考虑不充分,导致聚类效果不理想。本文通过引入路径兴趣度的概念对用户访问兴趣模式进行挖掘,再利用改进的聚类算法对用户访问路径进行聚类,实验表明该方法聚类效果明显。本文的主要内容如下:(1)介绍并分析了Web日志挖掘中的数据预处理技术,提出了由用户访问序列直接转化到各个事务的SFT算法,该算法在保证预处理精度的前提下提高了预处理的速度。(2)针对用户访问路径兴趣度表示的不足,本文提出了改进的兴趣模式挖掘算法IPS,该算法以选择兴趣度、访问时间兴趣度和支持度叁个指标来度量用户兴趣路径,并从执行准确度和执行时间两方面将IPS算法与MFS算法进行比较,实验表明IPS算法具有一定优势。(3)针对目前事务聚类算法缺乏用户访问顺序性的缺点,本文提出了改进的用户兴趣模式聚类算法UIC,该算法综合考虑了页面顺序,给出了路径相似度的定义,在此基础上建立用户浏览路径相似度矩阵,从而获得聚类结果集,为个性化服务、电子商务等方面提供了依据。

李红宇^[2]2007年在《Web日志中浏览模式挖掘算法的研究》文中研究指明Internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。目前，以电子商务、电子图书馆、远程教育等为Web的主要应用，促使Web以更快的速度发展，在给人们带来丰富信息和极大便利的同时，对Web站点的设计和功能提出了更高的要求。要求Web具有智能性，能快速、准确地找到用户所需要的信息；能为不同用户提供不同的服务；能允许用户根据自己的需要定制页面：能为用户提供产品营销策略信息等等。解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志，即利用数据挖掘的原则和思想，针对Web日志的新特性，对传统挖掘方法进行扩展和改进，将其应用到Web日志上，挖掘出有用的模式，根据用户的浏览模式，可以改进站点的设计和服务，开展个性化服务和构建智能化网站。目前，Web日志挖掘已经成为国际上一个新兴的重要研究领域，其研究工作具有非常重要的现实意义。本文系统地阐述了Web数据挖掘到Web日志数据挖掘的整个过程，重点对Web日志中浏览模式挖掘算法进行了研究。在浏览模式挖掘中，采用传统的关联规则挖掘算法要频繁扫描数据库，产生大量候选集，效率低；另外，现有的算法很少考虑到浏览模式的时效性，为了解决这个问题本文提出了一个适用于Web日志的带有时态约束的浏览模式挖掘算法。该算法简化了挖掘过程中候选模式的生成操作，只对数据库扫描一次，求出所有连续子序列集，利用集合运算求得支持度，同时逐步修正会话时间得到浏览模式的有效时间，与类Apriori算法相比运行时间少，扩展性好，并且挖掘出的模式具有时效性。在此基础上，对现有的增量更新挖掘算法进行改进，增加了时态因素，能很好地适应Web日志的不断变化。最后，设计并实现了一个Web日志挖掘原型系统，证明了此算法的快速性和有效性。

王志强^[3]2007年在《基于远程教育网站的信息采集与数据挖掘技术研究》文中研究表明信息技术的发展，使得web上产生的信息飞速增长。然而，web信息使用技术的发展往往跟不上web信息的增长，如何合理地挖掘和利用Web信息，使web的巨大作用和潜能得以发挥，是我们值得研究的课题。远程教育的蓬勃兴起，各类学校和教育部门学习网站的迅速建立，学生通过网站来获取知识、学习技术日渐普遍，由此也积累了大量的数据信息。为了能更好地掌握用户的具体需求，同时也为了给教育网站的设计提供更多的参考，采用数据挖掘技术对远程教育网站的数据信息和访问信息进行处理有着极为深刻的意义。Web是互联网的主要载体，Web本身隐藏了大量的知识，人们在与Web交互过程中也产生了大量的知识，为了获得这些信息和知识，数据挖掘技术被广泛应用到Web中。教育网站每天大量的用户访问，生成大量的记录文件和登记表，如何对这些数据进行分析和挖掘，从而充分了解用户的需求、行为方式，对设计出结构合理，满足于不同用户群体需要的实用性、服务性强兼有一些个性化特点的教育网站意义重大。本文在系统地分析远程教育网站信息采集、数据挖掘、Web挖掘等概念的基础上，归纳出集数据信息采集和日志挖掘于一体的数据挖掘内涵，并深入说明对远程教育网站进行数据采集和日志挖掘的必要性和意义。在研究课题确定和相关理论铺挚后，全文着重就远程教育网站数据采集和日志挖掘技术中的数据处理过程、模式发现进行研究。远程教育网站数据采集和数据处理，讨论了数据采集和处理的过程，并给出了可视化数据采集的实现办法；远程教育网站日志挖掘数据预处理，讨论了数据源、日志预处理过程和算法，并举例说明；模式发现讨论了基于关联规则的经典算法Apriori，讨论了该算法及其实现，并考虑将Apriori算法应用于远程教育网站日志挖掘应思考的问题。结合前面叁个方面的分析，建立了面向远程教育网站的数据采集与日志挖掘应用系统模型，为日志挖掘技术在教育网站中的应用做了初步的建模，并结合算法给出了一个教育网站中日志挖掘的简单例子。

王涛^[4]2012年在《一种基于Web日志挖掘聚类算法的研究》文中提出信息时代的来临与网络商务的迅速发展，人们的网络商务行为变得越来越频繁，数据挖掘已经发展成为网络中的Web数据挖掘，Web数据挖掘的应运而生标志着人类商业的巨大变革。一方面，Web网服务商不断设法获取用户浏览的爱好兴趣，以便将更有针对性的服务提供给用户。另一方面，越来越多的人关注起如何快速且有效地从海量网络信息中发现有价值的、潜在的信息。但是，因为Web是无结构的动态的，而且Web页面复杂度远远比文本文档要大的多。Web日志挖掘是运用Web技术和传统数据挖掘相结合，对服务器日志进行分析处理和挖掘，从大量的数据信息中发现有规律性的内容，解决以上提出的各种问题。Web应用挖掘也称为Web日志挖掘（Web Log Mining），是Web挖掘中的一个很重要的方面，它有着很多的经典算法，其中算法Hamming距离聚类算法取得了一定的成效，但是还存在一些不足。本文介绍了数据挖掘与Web数据挖掘及其分类和方法，然后从分析Hamming距离聚类算法的不足入手，对传统的Web日志挖掘Hamming距离聚类算法进行改进，其一是把代表用户兴趣度的相应数据作为权值应用到算法过程改进当中，从而提高了聚类算法结果的准确性，其二是在程序调用数据时，对其访问的数据库中的数据做相应优化，以缩短计算过程中数据重复调用、重复计算所耗费的大量时间，并列出简单例子中的计算过程合理分析，通过理论与实验证明了算法运行结果，最后验证了改进后的Hamming距离聚类算法合理性和有效性。

刘建东^[5]2003年在《基于Web的日志挖掘技术的研究》文中认为WWW网无论是在访问量、大小上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器，一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式，像统计经常被访问的页面集、像统计经常需要分析的重要的表格数据、像通过网站分析找出一般的访问路径模式等，也可以通过数据挖掘的思想。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理，从而解决上面提出的各种问题。然而，在将数据挖掘的算法运用到服务器日志上之前，必须对日志数据进行一些预处理。本篇论文提出了几种数据预处理的方法，目的是分割服务器日志为多个独一无二的用户和独一无二的用户会话的过程。同时本篇论文也主要提出了一些经常被使用的数据挖掘的算法像聚类挖掘、关联规则挖掘、序列模式挖掘等。聚类挖掘是将具有相同属性的用户或数据项聚在一起成为一类。从Web服务器日志中得到的用户信息或数据信息的聚类，有利于将来的市场战略的实施与开展。而关联规则挖掘则是发现事务数据库中数据项之间的相关性。最后利用聚类算法和关联规则算法实现了用户个性化服务的一个应用实例。

朱越强^[6]2007年在《Web日志挖掘在网站优化中的研究与应用》文中研究指明Web日志挖掘是Web挖掘中重要的研究课题之一。Web日志挖掘的研究对象是Web日志数据。从服务器的观点分析,挖掘的对象是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计。从用户的点击序列分析,可以发现一个用户的使用信息,可帮助实现网页的预存取和缓存。本文所要研究的Web日志挖掘在网站优化中的应用就是对Web使用日志这些半结构化的数据进行预处理后,根据Mark Sweiger和Mark R.Madsen提出的点击流数据仓库模型,并结合就业网站的实际数据,创建了适合实例网站的点击流数据仓库模型,然后运用SQL 2000 Analysis Service中的决策树模型进行数据挖掘,最后对数据挖掘结果进行数据分析,给网站的管理者提供网站结构优化的建议。本文主要在如下的方面做了主要的工作:首先为数据预处理的数据导入、用户识别和会话识别部分提供了详细的算法,WEB日志数据通过这些算法进行预处理后,为数据仓库的建立提供了可靠的准备数据。其次在点击流数据仓库模式建立的问题上,根据前人提供的标准点击流仓库模型,提出了适合实例网站的数据仓库逻辑模型,并在此逻辑模型的基础上,建立相应的物理模型。最后将上述的数据预处理算法和数据仓库模型应用在就业网近两个月的Web访问日志中,然后运用决策树模型分析数据源的各个维,并将分析结果在网站结构的调整中进行应用。

尚蓉蓉^[7]2011年在《面向校园网日志分析的Web数据挖掘技术研究》文中研究指明随着互联网发展的日趋成熟，人们淹没在充斥着各种各样信息的世界中，面对着纷繁复杂的信息世界却无法有效的选择、吸收和消化信息，陷入了所谓的“信息过载”。无处不在的信息资源的普遍性又增加了人们从大量繁杂信息中寻找自己感兴趣的数据和信息的难度，用户无法有效的选择可以高效搜索自己所需信息资源的方法和工具，又会陷入“信息迷失”现象中。此外，目前检索网上信息的主要手段还是利用搜索引擎来检索，由于大部分搜索引擎都不具有主动性搜索的特点，与用户的交互极少甚至没有，忽略了用户的兴趣偏好和用户需求的差异，因此，基于搜索引擎的普遍检索无法有效的解决“信息过载”和“信息迷失”现象。随着信息技术水平的不断发展和成熟，从海量数据中抽取潜在的、用户感兴趣的知识成为数据挖掘领域中一个非常重要和有意义的研究课题。Web数据挖掘是将数据挖掘和万维网这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说，Web挖掘的研究领域包括Web内容挖掘、结构挖掘和使用挖掘。本文系统的阐述了从数据挖掘、Web数据挖掘到Web日志挖掘的整个过程，Web数据挖掘的预处理、Web日志模式发现以及Web日志模式分析等技术过程，在简要的论述Web日志挖掘的概念、研究内容、关键技术和目前国内外研究状况的基础上，针对我校网站的访问日志，采用数据挖掘技术进行数据分析，重点研究了Web日志挖掘的数据预处理的改进，在理论改进的基础上提出了具体的实验方案，并设计了基于校园网日志分析的Web数据挖掘系统，从而找出用户访问规律和内容喜好，为改进校园网的网站结构和内容提供了决策支持和依据，并通过实验验证了本研究所设计的Web数据挖掘系统的有效性和可行性。论文所做的主要工作是：首先介绍了本文所做研究的现状及趋势，国内外目前对Web日志挖掘研究的情况，然后阐述了数据挖掘和Web数据挖掘以及Web日志挖掘的基本概念和相互之间的联系。接下来分析了Web日志挖掘过程中的数据预处理技术，基于对传统数据预处理阶段中各项任务的完成方法和利用技术进行详尽的分析，然后提出了更新的数据与处理技术，即Frame页面过滤技术，并采用基于ID3算法的技术改进Frame页面过滤技术，最后利用实际的网站模型进行了验证，实验结果表明本文研究的算法在不破坏数据预处理精确度的前提下有效的提高了数据与处理的效率。

刘丽娜^[8]2008年在《基于Web日志挖掘的推荐系统的研究与实现》文中研究说明随着Internet应用的迅速发展,网上信息迅速增加,大量的网络信息使人们找到需要的信息更困难了,此种现象称为信息过载。同时,Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。目前大多数搜索引擎由于缺乏主动性,没有考虑用户的兴趣偏好,还不能有效地解决信息过载和信息迷失的问题。Web日志挖掘是研究用户Web浏览行为的主要技术和工具,了解用户的浏览兴趣是提高Web服务质量和改善站点结构设计的重要环节。通过分析和研究用户访问情况的规律,可以识别电子商务的潜在客户,增强服务器质量,并改进Web服务器系统的结构和性能[1,2]。Web挖掘技术的一个重要的研究方向是Web用户聚类和页面聚类,即通过用户对网站的使用信息—Web日志文件的处理和研究,得到具有相似访问兴趣的用户群体和用户共同感兴趣的站点的URL,据此可以判别和调整站点的结构并进行个性化服务[3,4]。而目前的研究均存在一些不足,首先在聚类的相似性度量方面,单纯地以浏览时间或访问次数来度量,对于Web站点这种复杂的情况而言,该聚类是不够准确的。另外,他们均采用传统的聚类技术,即把每个对象严格地划分到某个类中,不能处理类间重迭问题。在本文中,首先介绍Web日志挖掘中数据预处理过程,包括数据净化、用户识别、会话识别、路径补充和事务识别。并分析各个步骤的目的、方法,给出每个步骤的实现算法。然后从用户聚类,页面聚类和频繁访问路径叁方面考虑网络浏览模式。给出一些相关定义。并在原有的聚类算法基础上,提出基于向量和模糊集理论的算法,对用户和页面进行有效的聚类,并产生频繁访问路径,从而为用户进行个性化推荐。最后,实现基于Web日志挖掘的推荐系统。

朱鲲鹏^[9]2009年在《基于Web日志挖掘的智能信息检索研究》文中提出互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。基于Web日志挖掘的智能信息检索旨在通过对Web信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分:首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。其次,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。最后,对面向检索兴趣的用户聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法可以自适应地动态调整聚类参数,检测和消除聚类振荡,扫描参数空间来获得最佳的聚类效果。

冯丽桥^[10]2013年在《基于Web挖掘技术的电子商务个性化推荐算法研究》文中进行了进一步梳理进行些年来随着网络的迅速发展，B2C电子商务发展异常迅速。但是，电子商务网站为用户提供了越来越多的选择同时，在海量的商品信息下，用户经常会迷失自己，无法找到自己所需要的商品。在电子商务日益激烈的竞争中，个性化推荐系统越来越受到企业的追捧，成为电子商务研究的重要领域，它可以模拟销售人员向顾客推荐商品，使顾客可以根据自己的喜好来进行物品的搜索，快速、有效的完成购物，增强网站的竞争力。本文通过对数据挖掘技术、Web挖掘技术、模糊聚类技术、Markov技术以及对目前电子商务网站的个性化推荐系统的发展趋势进行分析研究，构建了基于Web挖掘的电子商务个性化推荐系统。第一、介绍了Web挖掘技术在国内外研究现状，以及Web挖掘在电子商务个性化研究意义。给出了本文的主要研究内容和方法。第二、对数据挖掘进行概述，介绍了数据挖掘的应用与过程；对Web挖掘技术进行了详细介绍，包括电子商务中Web挖掘数据源，数据特点，以及Web挖掘面临的挑战。第叁、分析了电子商务网站的个性化推荐技术，传统的个性化推荐技术和基于Web挖掘的个性化推荐技术。构建了基于Web挖掘的个性化推荐系统，从离线部分和在线部分析推荐系统的流程。第四、介绍了模糊聚类分析主要方法，针对Web数据特点提出应用动态直接聚类算法对Web日志数据进行用户聚类和页面聚类，并指出该算法的优越性。第五，采用模糊聚类与Markov链模型结合的方式，先对Web挖掘的数据进行模糊聚类，在每一类中应用Markov模型中进行预测。对基于聚类的Markov链模型和单Markov链模型在预测准确率、时间消耗上进行实验分析，验证了基于聚类的Markov链模型的优越性和有效性，在提高预测精度的同时降低了运算的时间开销和空间开销。最后对论文工作进行总结，结合研究中的不足之处提出有待进一步研究的展望。

参考文献：

[1]. 基于Web日志的用户兴趣聚类研究[D]. 陈峰. 合肥工业大学. 2008

[2]. Web日志中浏览模式挖掘算法的研究[D]. 李红宇. 哈尔滨工程大学. 2007

[3]. 基于远程教育网站的信息采集与数据挖掘技术研究[D]. 王志强. 华东师范大学. 2007

[4]. 一种基于Web日志挖掘聚类算法的研究[D]. 王涛. 西安电子科技大学. 2012

[5]. 基于Web的日志挖掘技术的研究[D]. 刘建东. 哈尔滨工程大学. 2003

[6]. Web日志挖掘在网站优化中的研究与应用[D]. 朱越强. 大连海事大学. 2007

[7]. 面向校园网日志分析的Web数据挖掘技术研究[D]. 尚蓉蓉. 西安电子科技大学. 2011

[8]. 基于Web日志挖掘的推荐系统的研究与实现[D]. 刘丽娜. 东北师范大学. 2008

[9]. 基于Web日志挖掘的智能信息检索研究[D]. 朱鲲鹏. 哈尔滨工业大学. 2009

[10]. 基于Web挖掘技术的电子商务个性化推荐算法研究[D]. 冯丽桥. 河北工业大学. 2013

标签：互联网技术论文; 数据挖掘论文; 聚类论文; 推荐算法论文; 大数据论文; 数据挖掘算法论文; 推荐系统论文; 文本挖掘论文; web技术论文; 网络模型论文; 用户研究论文; 用户分析论文; 电子商务发展论文; 网站分析论文; 电子商务分析论文; 数据检索论文; 算法论文;

基于Web的日志挖掘技术的研究

猜你喜欢