导读:本文包含了自适应文本过滤论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:自适应,向量,文本,模型,特征,模板,用户。
自适应文本过滤论文文献综述
吕志龙[1](2008)在《基于遗传算法的自适应文本过滤方法的研究》一文中研究指出网络信息的飞速膨胀带来了“信息爆炸”问题,快速准确的从中获取用户所需要的信息,成为一个急需解决的问题。信息过滤(Information Filtering,IF)技术可以帮助人们检出感兴趣的信息从而屏蔽掉其它不需要的部分。面对实时在线的网络信息过滤新挑战,自适应信息过滤(Adaptive InformationFiltering,AIF)技术就在这种情况下产生了,由于具有只需要少量的用户需求信息和能自适应的调整过滤系统等一系列优点,从而成为学者们关注和研究的热点话题。在AIF文本预处理方面,针对文档频率对高频词过于依赖和互信息对低频词过于依赖这一特点,本文给出了二者组合的特征选择方法,试图用组合特征选择方法消除二者的缺点和弊端;另外,对文档频率进行了改进,综合考虑了类内文本频率和类外文本频率。实验结果显示:该方法能有效的提取更有代表意义的特征词来构建用户模板,这样不仅降低了向量空间的维数、简化了计算,而且减少了用户模板的冗余性。在AIF用户模板自适应学习方面,本文采用了一种基于遗传算法的自适应模板自学习过程。通过对系统伪相关反馈的信息进行遗传优化,选择最优的特征信息作为正例质心送入Rocchio(一种反馈算法)反馈模块,从而实现自适应的学习并更新了用户模板。根据实验结果,该方法有效地屏蔽了伪相关反馈信息的稀疏性以及特征歧义性对自学习的误导,改善了AIF系统的过滤性能。(本文来源于《哈尔滨工程大学》期刊2008-01-03)
袁新成[2](2006)在《基于向量空间模型的自适应文本过滤研究》一文中研究指出互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速的从中获取用户所需要的部分,成为一个亟待解决的问题。信息过滤技术可以帮助人们检出感兴趣的信息而屏蔽掉其它部分。而自适应信息过滤技术由于只需要少量的用户需求信息,并且在过滤过程中能够自适应地调整系统,提高性能,更适合于互联网的实时过滤要求,从而成为人们关注和研究的热点。本文在向量空间模型的基础上,主要对自适应文本信息过滤中如何更准确地构建用户模板以及在过滤过程中模板学习算法进行了研究。在初始化构建用户模板方面,本文提出了两种基于查询扩展技术构造用户模板的新方法:基于《同义词词林(扩展版)》的查询扩展和基于网络挖掘的查询扩展,并主要对基于网络挖掘的查询扩展技术进行了深入的研究。该方法以互联网作为信息来源,充分考虑了待扩展词所在的上下文,并融合了句法分析等高层自然语言处理技术,通过扩展和确认两个主要步骤,逐步求精,使扩展的精度很高,从而在只有少量需求描述的情况下,使初始化构造的用户模板更加准确和丰富。在用户模板学习方面,本文提出了一种基于层次聚类的自适应学习机制,通过对伪相关反馈信息进行聚类,选择最相关的一类信息用于更新用户模板,从而解决用户需求初始信息稀疏和阈值估计偏见性问题。经过实验验证,该方法一定程度上屏蔽了初始信息上下文稀疏及语言歧义问题对自适应学习的误导。此外,选择聚类择优后的一类信息参与Rocchio自适应学习与更新,能够有效地削弱阈值偏见性和伪相关反馈排序偏见性造成的负面影响。(本文来源于《哈尔滨工业大学》期刊2006-06-01)
朱祥玉[3](2006)在《基于向量空间模型的自适应文本过滤系统研究》一文中研究指出近年来,随着互联网的不断发展和普及,各种各样的信息以爆炸般的速度产生。信息资源已经成为一种新的财富。但是,信息的日益增多带给人们诸多便利的同时也带来了诸如犯罪、色情、暴力、迷信以及邪教宣传等不良信息泛滥和信息过载等等很多问题。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经成为当前互联网研究和发展的一个重要问题。信息过滤便是在这种情况下产生的。信息过滤随着信息检索的发展而长期被人们研究。它是一个寻找符合人们兴趣的信息的处理过程,也就是从大量的动态信息中找出最大程度地满足用户真实需求并且滤除其它无用信息和非法信息的过程。信息过滤根据处理的信息内容可以分为文本信息过滤和非文本信息过滤。文本信息过滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索满足用户需求的文本的过程。TREC把文本过滤分为两种类型:一种是基于内容的文本过滤;另一种是基于合作模式的文本过滤。文本过滤作为信息过滤的一个研究分支,它涉及的知识范围非常广泛,综合了自然语言理解、人工智能以及知识论等领域的知识,其关键技术主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及机器学习等。本文研究的内容是文本过滤,主要是Internet上文本的过滤。论文的主要工作集中在自适应文本过滤系统的关键技术上,主要从以下几个方面进行了探讨:1.对当前广泛采用的一些文本过滤评价指标、文本特征项权重评估函数以及用户模板学习方法进行了总结。2.在分析研究期望交叉熵和互信息这两个文本特征项权重评估函数的基础上,基于两者对特征项权重评估的不同侧重功能,提出了将两者结合起来对文本特征项进行权重评估并在此基础上进行特征提取的方法。相关实验结果验证了该方法的可行性。3.提出了一种基于概念学习的过滤模板获取方法。该法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,该法(本文来源于《山东师范大学》期刊2006-04-26)
自适应文本过滤论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速的从中获取用户所需要的部分,成为一个亟待解决的问题。信息过滤技术可以帮助人们检出感兴趣的信息而屏蔽掉其它部分。而自适应信息过滤技术由于只需要少量的用户需求信息,并且在过滤过程中能够自适应地调整系统,提高性能,更适合于互联网的实时过滤要求,从而成为人们关注和研究的热点。本文在向量空间模型的基础上,主要对自适应文本信息过滤中如何更准确地构建用户模板以及在过滤过程中模板学习算法进行了研究。在初始化构建用户模板方面,本文提出了两种基于查询扩展技术构造用户模板的新方法:基于《同义词词林(扩展版)》的查询扩展和基于网络挖掘的查询扩展,并主要对基于网络挖掘的查询扩展技术进行了深入的研究。该方法以互联网作为信息来源,充分考虑了待扩展词所在的上下文,并融合了句法分析等高层自然语言处理技术,通过扩展和确认两个主要步骤,逐步求精,使扩展的精度很高,从而在只有少量需求描述的情况下,使初始化构造的用户模板更加准确和丰富。在用户模板学习方面,本文提出了一种基于层次聚类的自适应学习机制,通过对伪相关反馈信息进行聚类,选择最相关的一类信息用于更新用户模板,从而解决用户需求初始信息稀疏和阈值估计偏见性问题。经过实验验证,该方法一定程度上屏蔽了初始信息上下文稀疏及语言歧义问题对自适应学习的误导。此外,选择聚类择优后的一类信息参与Rocchio自适应学习与更新,能够有效地削弱阈值偏见性和伪相关反馈排序偏见性造成的负面影响。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自适应文本过滤论文参考文献
[1].吕志龙.基于遗传算法的自适应文本过滤方法的研究[D].哈尔滨工程大学.2008
[2].袁新成.基于向量空间模型的自适应文本过滤研究[D].哈尔滨工业大学.2006
[3].朱祥玉.基于向量空间模型的自适应文本过滤系统研究[D].山东师范大学.2006