基于Web文本内容的信息过滤系统的研究与设计

基于Web文本内容的信息过滤系统的研究与设计

刘七[1]2004年在《基于Web文本内容的信息过滤系统的研究与设计》文中指出Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。

沈凤仙[2]2009年在《一个WEB文本过滤系统设计与实现》文中提出随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础上,为了提高该计费网关对公共信息网络服务的综合监管能力,通过研究Linux下实时内容过滤和文本过滤等相关技术,设计并实现了一个基于IPCG控制网关的Web文本信息过滤系统。本文首先给出了系统总体框架以及设计目标,并提出了一种分布式过滤系统的实现方式。系统由中央预警模块统一管理、在线过滤和离线过滤相结合。分布式数据库的同步借鉴OSPF路由协议中数据库同步算法,实现全网过滤信息的通用性。实时在线过滤模块,包括了数据包预处理和基于IP地址及关键词过滤两个子过程。数据包预处理过程主要针对Web页面进行数据分析和结构分析,解析出正确的页面数据信息;基于IP和基于关键词的过滤过程,采用了哈希树结构来组织IP黑名单列表和缓存拼接策略存储过滤内容,关键词过滤结合统计信息综合判定。离线过滤模块对正例类和不确定类做进一步的离线分析,更新实时在线过滤模块的IP黑名单列表和过滤关键字列表。离线过滤采用改进的特征词提取算法和改进的过滤策略。改进的特征词提取算法,综合考虑了特征词长、网页结构特征和词汇的感情色彩等;改进的过滤策略过滤初期采用SVM算法,中后期采用改进的自适应模板过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤的准确率。实验表明,本文提出的方法既能保证内容过滤分析和数据报流通相互独立,又能提高在线过滤的速度和过滤的正确率。

杨春喜[3]2007年在《Web文本内容过滤关键技术的分析与研究》文中提出随着Internet的飞速发展,网络上的信息呈指数级增长,其内容之丰富,种类之繁多,堪称世界上最大的信息资源。这一方面给用户发现信息、利用信息带来了方便,另一方面,无序、极其庞大的信息世界和成千上万的超级链接,又常常使用户在查找自己感兴趣的信息时感到力不从心。网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。信息过滤技术可以针对不同的用户采取不同的服务策略,为用户提供及时、个性化的信息服务,已成为人们关注和研究的热点。本文首先阐述Web上信息过滤的基本问题,包括信息过滤的基本原理、过滤系统的一般处理流程、过滤系统的分类、相关信息检索模型以及过滤系统的性能评价指标等。然后,着重对Web文本内容过滤中涉及的关键技术进行深入地分析和探讨。主要包括中文分词技术、文本特征提取技术、用户兴趣模型的表示与更新以及文本过滤技术。在此研究基础上,本文设计了一个Web文本内容过滤系统模型,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的信息过滤性能。

杨立涛[4]2016年在《基于Web内容的中文文本信息过滤的研究与实现》文中研究说明随着网络技术和信息技术的飞速发展,互联网上的信息资源呈指数级增长。丰富的信息资源在给用户查询信息、利用信息带来方便的同时,也给用户带来了像信息迷向、正确信息获取率低、垃圾信息泛滥等诸多问题。如何从海量的信息资源中及时、准确地获取用户需要的信息,成为目前亟待解决的问题。Web文本信息过滤,是指根据用户的信息需求,利用一定的方法从大规模的动态信息流中筛选出用户感兴趣的文本信息,同时屏蔽掉无用信息的过程。Web中文文本的信息过滤涉及的技术主要有:Html页面文本内容的提取、中文分词、特征项提取与权重计算、文本表示模型、用户兴趣模板的构建以及文本过滤算法等。在对Web文本信息过滤进行研究的基础上,本文实现了一个Web文本信息过滤系统模型,并通过实验证明了该系统模型在过滤性能上的提升。本文主要的工作有以下几点:(1)设计与实现了一种多层次的Web文本信息过滤系统模型。该系统模型的过滤方法模仿人在阅读报纸时对信息的过滤过程。多层次过滤方法的原理是:在对Web文本进行过滤时,先采用关键字匹配的过滤方法对文本标题进行过滤,如果通过筛选,则直接将文本提供给用户;否则,再利用传统的VSM过滤方法对文本正文内容进行过滤。(2)从搜狐、新浪、网易等门户分类网站的专题新闻中,提取了700篇经济类文本与700篇非经济类文本,组成本论文的测试文本。并分别用100篇经济类文本与100篇非经济类文本进行实验,用来确定对文本正文进行过滤时的过滤阂值。(3)设计并进行分组实验。在过滤文本数相同的情况下,比较本文采用的多层次过滤方法与传统VSM过滤方法的性能。实验结果表明,与传统的VSM过滤方法相比,本文实现的Web文本信息过滤系统模型中所采用的多层次过滤方法,在查准率、查全率和F值叁个系统衡量指标上没有较大变化,但是在过滤完成时间上,随着过滤文本数的增加,本文采用的多层次过滤方法却逐渐优于传统的VSM过滤方法。

王雷[5]2012年在《基于内容识别的不良网页双重过滤方法研究》文中研究说明基于网页文本内容的识别技术,是目前主流的网络不良信息过滤手段之一,具有高效率,低误判和便于维护的特性,与传统的垃圾邮件过滤手段有明显的优势。本文在基于内容的不良网页文本识别的基础上选取双重过滤手段,已达到进一步增强过滤系统性能的目的。本文首先对比分析了国内外不良网页过滤技术的研究现状和目前正在应用的主流技术,以及这类技术的发展趋势。在详细研究文本分类算法的基础上,总结各类方法的优缺点,进行互补性分析,并最终确定了以贝叶斯和支持向量机为核心算法的双层过滤结构,并对这种结构进行详细的分析阐述。本系统测试集的收集采用的是维基百科现有数据集和人工收集的方式获取,在所取得的测试集中,分别做十组交叉实验,因此,所取得的实验结果具有较强的客观性。在对比试验中,分别与贝叶斯和支持向量机分类过滤方法在正确率、召回率、精确率、误判率和F1值五项指标进行对比分析,结果表明,双层过滤系统在以上指标中较贝叶斯和支持向量机两种独立分类过滤方法有所提高。不足之处在于系统的开销略高,平均分类速度较独立分类方法有所下降,这是下一步工作需要改进之处。

张宏兵[6]2013年在《Web文本挖掘技术在网页推荐中的应用研究》文中认为随着科学技术的发展,目前Web成为了世界上最大的数据源。这些信息在页面上的分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。本文主要研究Web文本挖掘技术在网站文本推荐中的应用。首先根据前人研究成果提出一种基于该技术的模型,然后按照该模型的流程依次剖析Web页面主要内容的提取、Web文本的聚类和一种改进的推荐算法。推荐算法作为模型核心,内容的提取作为文本聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究内容如下:1,基于经典推荐模型,结合Web文本的特点,设计出一个针对网站中文本的推荐模型。2,研究了Web页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建DOM(Document Object Model)树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。3,Web文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距离(approximate EMD)。利用近似EMD (Earth Mover's Distance)距离代替常规距离,使得实体间的度量更加精确。实验采用中国科学院计算技术研究所的文本数据,基于欧氏距离的DBSCAN算法聚类的平均正确率是78.9%,基于EMD的改进算法的平均正确率为84.4%,说明EMD距离代替常用距离在聚类的精确性上是可行的。4,研究了推荐算法。基于纯文本的内容推荐只关注页面内容本身,对应的推荐对象将保持不变。而利用协同过滤算法,加上用户对信息的打分,可以得到用户的爱好倾向;同时利用项目加权,形成推荐目标重要性阶梯变化的加权规则。两者相结合,更能容易找到用户感兴趣的信息,从而形成推荐列表对用户加以推荐。

邢丽莉[7]2008年在《基于Web的中文文本分类技术的研究》文中提出随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个亟待解决的问题。Web文本分类作为Web文本挖掘中的重要技术,可以在较大程度上解决信息杂乱和“信息爆炸”的问题。作为搜索引擎、数字图书馆、信息过滤及信息检索等领域的技术基础,Web文本分类有着广泛的应用前景。本文分析了Web文本挖掘和Web文本分类的研究现状,指出Web中文文本分类领域需要进一步研究和解决的问题,在此基础上,对基于Web的中文文本分类技术进行了深入研究。本文主要内容如下:(1)对Web中文文本分类过程中的关键技术:文本自动分词、文本表示、特征项的权重计算、降维技术等进行详细地分析和讨论,指出现有权重计算方法的不足以及常用特征选择方法的优缺点。(2)介绍常用的分类方法,深入研究了统计学习理论基础上的支持向量机(Support Vector Machine,SVM)方法,分析了SVM用于Web文本分类的优势及不足;研究了粗糙集的相关理论,重点探讨了粗糙集的约简理论以及可变精度粗糙集模型,对粗糙集在Web文本分类中的应用可行性进行了深入的分析。(3)针对现有权重计算方法的不足,在分析Web文本特点的基础上,研究了HTML标记对网页内容的修饰作用,设计了HTML标记的加权策略,并提出了一种基于Web文本的可变精度粗糙集权重计算方法。(4)以上述内容为基础,提出了一种优势互补的Web中文文本分类混合算法;该算法中,粗糙集作为SVM的一个前端处理器,利用其约简理论以及基于Web文本的可变精度粗糙集权重计算方法分别从分类效率和分类精度两个角度对SVM方法进行优化;SVM作为后端分类器,利用SVM的优势对约简并加权后的数据进行分类,使得分类性能得到进一步保证;最后对该混合算法的具体实现过程进行详细地分析和阐述,通过实验验证了算法的有效性,并提出了其在辅助科技宏观决策中的应用模型。

李晓微[8]2008年在《基于内容的中文文本过滤关键技术研究》文中研究表明随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息和非法信息的过程。广义的信息过滤包括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指对文本信息的过滤处理。由于目前网络上的主要信息载体为文本形式,文本信息过滤技术首先成为研究的焦点。此外,信息过滤的研究方法主要分为基于内容的过滤和社会过滤两种,本文主要对基于内容的文本信息过滤进行研究。利用向量空间模型表示的基于关键字的过滤系统简单、易于实现,但它不能解决语义方面的问题,影响过滤结果,针对该问题,本文在过滤系统中引入概念因素,利用同义词词典对用户模板进行概念扩充,以解决同义词问题,提高系统查全率。另外,随着文本过滤的进行,用户的需求可能会不断变化。构造一个好的过滤模板虽然可以在没有反馈学习的情况下取得较好的过滤效果,但不论采用什么样的方法建立的初始过滤模板都只是对用户需求的一种粗糙的近似表达。因此,在过滤精度要求较高的情况下,需要在过滤系统中引入机器学习的机制。本文利用用户的反馈信息,采用改进的自适应学习的方法,及时的对用户模板进行修改,以提高系统过滤精度。本文借鉴其它文本过滤系统的优点,充分考虑系统的查全率、查准率及可实现性等,给出一种改进的中文文本过滤原型系统,并利用Java技术对整个过滤系统的功能模块进行尝试性的实践,取得一定的过滤效果。

王立建[9]2010年在《中文web文本过滤技术研究》文中进行了进一步梳理随着Internet的日益普及,人们对网络的依赖程度越来越高,互联网的平等性、开放性、无界性等导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,特别是对广大青少年学生,一些“有害信息”正在威胁着他们的身心健康。如何协助用户更加方便有效地利用现有的网络资源,并且从中获得真正有用的信息,是信息处理的一个研究方向。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行深度分析。网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。本文首先阐述web上信息过滤的基本问题,包括信息过滤的基本原理、过滤系统的一般处理流程、过滤系统的分类以及过滤系统的性能评价指标等。然后,着重对web文本内容过滤中涉及的关键技术进行深入地分析和探讨,主要包括中文分词技术、文本特征提取技术、用户兴趣模型的表示与更新以及文本过滤技术。针对当前网页信息提取技术提取效率低的现状,本文提出了基于HTML树和内容分析的可适应性信息抽取方法。针对向量空间模型过滤器对网页结构不分权重,使得过滤性能低的原因,本文改进了向量空间模型的文本向量表示形式,实验结果验证了改进的向量空间模型更适合网页文本的过滤。在此研究基础上,设计了一个中文web过滤原型系统,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的信息过滤性能。

史乙力[10]2009年在《基于关键词匹配的网页文本过滤算法的研究和实现》文中研究说明在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。基于互联网的不良信息滤技术就是在这种情况下诞生的。互联网信息过滤(Information Filtering)是指从海量的Web文本中识别出含有不良信息的非法文本,以将其屏蔽。目前它已成为信息过滤的一个新的研究领域。文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型进行研究的基础上,给出了一个基于向量空间模型的文本过滤逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于TF*IDF的特征项权重计算方法。用户信息需求模型(User Profile)是文本过滤的依据,本文探讨了获取用户信息需求的方式和方法,给出了向量空间模型下用户模板的表示方法,并对用反馈技术对需求模板进行优化进行了讨论。代理服务器在Intranet管理中具有重要作用。本文基于HTTP代理服务器在应用层实现了对Web页内容的内容过滤。并且,通过将客户机成功访问过的网页内容存储在代理服务器端,实现了Web页访问的内容重现。本文在对多种信息过滤方法进行分析研究及初步评估的基础上,为提高系统过滤不良信息的整体性能和运行速度,提出二级过滤的策略:第一级基于黑白名单过滤,第二级基于关键字的文本内容的过滤。实验证明,该方法提高了文本过滤性能。

参考文献:

[1]. 基于Web文本内容的信息过滤系统的研究与设计[D]. 刘七. 南京理工大学. 2004

[2]. 一个WEB文本过滤系统设计与实现[D]. 沈凤仙. 苏州大学. 2009

[3]. Web文本内容过滤关键技术的分析与研究[D]. 杨春喜. 暨南大学. 2007

[4]. 基于Web内容的中文文本信息过滤的研究与实现[D]. 杨立涛. 北京交通大学. 2016

[5]. 基于内容识别的不良网页双重过滤方法研究[D]. 王雷. 吉林大学. 2012

[6]. Web文本挖掘技术在网页推荐中的应用研究[D]. 张宏兵. 南京理工大学. 2013

[7]. 基于Web的中文文本分类技术的研究[D]. 邢丽莉. 河北工程大学. 2008

[8]. 基于内容的中文文本过滤关键技术研究[D]. 李晓微. 东北师范大学. 2008

[9]. 中文web文本过滤技术研究[D]. 王立建. 中北大学. 2010

[10]. 基于关键词匹配的网页文本过滤算法的研究和实现[D]. 史乙力. 贵州大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Web文本内容的信息过滤系统的研究与设计
下载Doc文档

猜你喜欢