中文邮件论文-张柳艳

中文邮件论文-张柳艳

导读:本文包含了中文邮件论文开题报告文献综述及选题提纲参考文献,主要关键词:垃圾邮件,词向量,堆迭式降噪自编码器,Dropout

中文邮件论文文献综述

张柳艳[1](2019)在《基于SDA的中文垃圾邮件过滤研究》一文中研究指出随着互联网技术的高速发展,电子邮件以其成本低廉、传输便利的优势在互联网上被广泛使用,逐步成为人们重要的一种交流通信工具。但是在商业利益的驱动下,企业和个人经常通过群发邮件进行营销,使得用户收到的垃圾邮件数量远远超于正常邮件数量。据统计,在2018年全球虚假电子邮件的日发送量估计已高达64亿,过去几年中,企业电子邮件诈骗(BEC诈骗)损失成本已达到120亿美元。由此可见,对反垃圾邮件技术的研究不可或缺。传统垃圾邮件过滤方法在中文垃圾邮件过滤中存在准确率不高、数据特征难以提取的问题,而浅层神经网络模型在垃圾邮件过滤中不能表示复杂的目标函数,训练时容易陷入局部最优。本文提出了基于SDA的中文垃圾邮件过滤方法,首先对深度网络进行无监督逐层预训练,初始化网络参数;然后通过有监督学习对网络参数进行反向微调,获取最优的模型参数;该深度网络模型可以很好的对短文本中文垃圾邮件进行过滤,并针对深度网络在训练时速度慢、模型鲁棒性差、容易受噪音影响以及容易出现过拟合等特点,对模型进行了优化和改进。本文主要的工作如下:(1)本文采用TREC06C数据集,提取其中的11360条短文本中文垃圾邮件数据正文作为样本数据,然后通过训练Word2vec中CBOW模型来获取深度网络分类所需要的词向量,并将自然语言处理中的深度学习模型堆迭式降噪自编码器应用于中文垃圾邮件中;(2)由于深度网络在训练时极容易发生过拟合现象,本文在深度网络中加入Dropout技术来防止网络过拟合,实验表明:网络中添加了Dropout后,结果更加平稳,网络的泛化效果更好;(3)本文采用的W2C_SDA深度网络中文垃圾邮件过滤模型是一个混合的深度网络,它由堆迭式降噪自编码器和Softamx分类器组合而成;为了提高网络的收敛速度和缓解过拟合现象,在Softmax分类器中加入了L2正则化,实验表明:添加了L2正则化后,网络收敛速度加快,准确率提高了0.2%;(4)通过实验获得W2C_SDA模型最优参数,并且在一个数据集上与伯努利贝叶斯过滤模型和KNN过滤模型的分类效果进行对比,实验表明:与贝叶斯过滤模型和KNN过滤模型相比较,该方法在中文垃圾邮件过滤效果更好。(本文来源于《南昌航空大学》期刊2019-06-01)

刘浩然,丁攀,郭长江,常金凤,崔静闯[2](2018)在《基于贝叶斯算法的中文垃圾邮件过滤系统研究》一文中研究指出目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。(本文来源于《通信学报》期刊2018年12期)

李玉峰,米晓琴,杨婷[3](2019)在《Windows下SpamAssassin对中文垃圾邮件的过滤研究》一文中研究指出英文垃圾邮件过滤效果良好的开源软件Spam Assassin,在Windows下的应用研究较少。在Windows下安装配置Spa-m Assassin,针对中文邮件添加规则与学习贝叶斯库,基于真实邮件测试,取得了良好过滤效果。(本文来源于《内蒙古农业大学学报(自然科学版)》期刊2019年01期)

万亚利[4](2018)在《基于CPSO优化CNN的中文垃圾邮件分类研究》一文中研究指出互联网技术飞速的发展,电子邮件作为互联网技术应用最广的服务之一,为人们的工作与生活带来了更加便捷的沟通与交流方式。与此同时,未经请求的大量垃圾邮件,充斥着人们的电子邮箱,不仅消耗大量的公共资源,而且给人们带来许多有害信息。中文垃圾邮件的文本向量表示以及分类识别是建立邮件过滤系统的关键,然而由于中文邮件的数据维数高且稀疏的问题,使得建立垃圾邮件的过滤模型变得十分困难。随着深度学习近年来在自然语言处理方面取得的较大突破,为垃圾邮件在此领域的应用带来了希望。本文系统地分析垃圾邮件的定义和危害、常用的垃圾邮件过滤技术以及深度学习在文本分类中的研究现状,重点介绍了文本的表示方法和一些常用的文本分类方法。在深入总结和借鉴目前研究垃圾邮件的相关成果及方法的基础上,针对邮件文本向量表示和分类器上存在的缺陷,提出了相关的一些改进方法,并取得了有效的成果。主要的研究内容如下:针对传统文本特征表示不充分导致文本的内容信息丢失的问题,通过结合TFIDF加权算法和深度表示Word2vec模型的文本分布式特征,提出了基于加权分布式特征的中文垃圾邮件分类方法,采用TF-IDF算法计算文本特征词语的权值,再将其引入Word2vec模型获得的词向量上,该方法有效地增强了文本分布式特征的表示,在此基础上使用基于粒子群优化的支持向量机建立中文垃圾邮件分类模型。实验结果表明该方法不但能更好地表示文本向量,并且有效提高了中文垃圾邮件的准确识别率。针对卷积神经网络参数较多且仅依靠经验选取的问题,提出一种将混沌粒子群算法用于优化卷积神经网络的卷积核、权值等相关网络参数的方法,本文所提方法使得网络自动寻找最优参数组合,同时,引入的混沌序列可帮助粒子群算法在寻优过程中逃离局部最优,且通过有限次迭代能够快速收敛并获得全局最优解。将所提方法应用于中文垃圾邮件数据集上进行分类识别,实验结果表明,相较于其他方法该分类模型取得了更为精准的分类效果。(本文来源于《重庆邮电大学》期刊2018-04-08)

魏如玉[5](2016)在《中文垃圾邮件过滤方法的研究》一文中研究指出目前垃圾邮件给人们的生活造成了越来越恶劣的影响,对于我国这样人口基数大的邮件发送接收大国,在处理垃圾邮件问题上浪费了更多的人力物力。在众多的反垃圾邮件技术中,朴素贝叶斯垃圾邮件过滤方法以其运算速度快、易于实现等特点而被广泛应用。这种技术在过滤过程中,必不可少的环节是分词和特征项提取。目前大部分面向中文的垃圾邮件过滤方法中,分词过程往往实现复杂;当面对的是大规模的邮件训练样本时,以词语作为文本的特征项单位,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈;另外在特征项提取时现有的特征评估函数并不完全符合垃圾邮件的特点,所提取出来的特征项对文本并没有足够的代表能力。针对这种现状,本文以提高中文垃圾邮件过滤性能为目标,做了较为深入的研究,主要工作如下:1在预处理的分词阶段,提出一种以基本短语为单位的分词方法。使用TRIE树结构为词典载体,将TRIE树与正向最大匹配原则配合使用,然后结合文本分类领域的短语分析方法,利用基本名词短语、基本动词短语等语义分析方面的限定将向量空间中从词语模式转换成基本短语模式。这种方法可以使分词在精度和效率都达到更好的效果。2在特征项提取阶段结合垃圾邮件的特点,提出改进的互信息特征评估函数,用于特征项提取。改善正负相关、忽略词频和趋向低频词、不同位置的特征项对类别界定贡献能力不同的问题,这种方法可以在大大缩减特征向量空间维数的同时也保证提取出的特征项对文本有更强的代表能力。3运用朴素贝叶斯垃圾邮件过滤算法进行仿真实验,实验结果验证了利用TRIE树和最大匹配原则结合进行分词能够提高分词效率,用基本短语代替词作为特征项单位能够缩减向量空间的维数,运用改进的特征评估函数能够提高过滤性能,改进的朴素贝叶斯方法在查重率、查准率等各方面上都有更好的表现。(本文来源于《辽宁大学》期刊2016-05-01)

王青松,魏如玉[6](2016)在《基于短语的贝叶斯中文垃圾邮件过滤方法》一文中研究指出朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。(本文来源于《计算机科学》期刊2016年04期)

李明轩,吴秀梅,王旭[7](2015)在《基于变异特征检测的中文垃圾邮件过滤研究》一文中研究指出当前,垃圾邮件日益成为信息时代人们的一个心病,它具有反复性、强制性、欺骗性和不健康性等特点,严重影响着人们正常的生活。本文通过对比垃圾邮件的变化,以及对垃圾邮件制造者目的的分析,针对中文垃圾邮件变异的几个重要特性,提出一个提高垃圾邮件变异特征识别率的构想,对反垃圾邮件技术的研究有着一定的意义。(本文来源于《新疆电力技术》期刊2015年01期)

徐彬[8](2015)在《针对中文的图像型垃圾邮件过滤技术》一文中研究指出随着传统文本型垃圾邮件过滤技术的成熟,垃圾邮件制造者开始使用图像作为载体传播垃圾邮件信息。这种方式的垃圾邮件更加难以检测、消耗的网络带宽和存储也更大,因此带来的危害也更加严重,在中文图像型垃圾邮件过滤中也难度更大。通过对传统图像型垃圾邮件方法的研究,同时考虑更多的对垃圾邮件图像语义信息的需求,本文针对中文图像型垃圾邮件,提出了基于传统OCR技术进行改进的伪OCR过滤技术。综合考虑对图像语义信息的抽取和整体的过滤性能,伪OCR过滤技术认为传统OCR技术中大部分的识别都是冗余的,是不必要的。因此在具体的实现中,我们放宽了对汉字的具体识别需求,优化了预处理技术以适应垃圾邮件图像的特点,同时以真实的垃圾邮件图像生成匹配样本库。实验结果表明,同基于传统OCR过滤技术相比,伪OCR在过滤中文垃圾邮件图像时具有更好的效果,尤其在要求误识别率比较低的情况下,而且通过调节具体的参数还可以在一定程度上控制伪OCR技术的系统性能以满足不同的应用需求。而在对核心的汉字字符特征进行设计时,本文采用了一种创新的基于汉字关键点的统计特征的表示方法。而在对汉字关键点的提取部分,提出了一种能够同时考虑邻域信息和汉字整体字形的基于图深度遍历的关键点提取算法。通过实验对比发现,这种基于DFS的提取算法在对汉字关键点的提取效果上要远优于传统的角点检测技术。最后,针对伪OCR过滤技术中召回率相对较低的缺点,本文选择使用传统的基于图像浅层特征的方法对其进行补充,从而形成整体的针对中文图像型垃圾邮件的过滤技术。随后的实验结果也表明,这样的补充方式能够在牺牲较小准确率和误识别率的情况下,比较大的提升系统整体的召回率,从而优化系统的整体过滤性能。(本文来源于《北京邮电大学》期刊2015-03-12)

沈元辅,沈跃伍[9](2015)在《基于多层grams的在线支持向量机的中文垃圾邮件过滤》一文中研究指出该文提出一种多层grams特征抽取方法来提升基于在线支持向量模型的垃圾邮件过滤器。基于在线支持向量机模型的垃圾邮件过滤器在大规模垃圾邮件数据集已取得了很好的过滤效果,但与逻辑回归模型相比,计算性能的耗时是巨大的,很难被工业界所运用。该文提出的多层grams特征抽取方法能够有效减少特征数,抽取更精准有效的特征,大幅降低模型的运行时间,同时提升过滤器的过滤效果。实验表明,该方法使得在线支持向量机模型的运行时间从10337s减少到3784s,同时模型(1-ROCA)%降低了一半。(本文来源于《中文信息学报》期刊2015年01期)

徐征,刘遵雄,张贤龙[10](2014)在《基于套索(Lasso)的中文垃圾邮件过滤》一文中研究指出使用向量空间模型表示的文本邮件数据高维而稀疏,不利于邮件过滤分类模型的建立,通常需在分类器训练前进行维数约减。Lasso回归是一种基于l1正则化的多元线性模型,其在模型参数估计的同时实现了变量选择。提出使用Lasso回归进行垃圾邮件过滤,建立Lasso回归邮件分类模型、Lasso回归词条选择结合逻辑回归的分类模型,结合中文文本垃圾邮件数据集TREC06C进行垃圾邮件过滤实验。实验结果表明Lasso回归词条选择结合逻辑回归的邮件分类模型性能更佳。(本文来源于《华东交通大学学报》期刊2014年04期)

中文邮件论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文邮件论文参考文献

[1].张柳艳.基于SDA的中文垃圾邮件过滤研究[D].南昌航空大学.2019

[2].刘浩然,丁攀,郭长江,常金凤,崔静闯.基于贝叶斯算法的中文垃圾邮件过滤系统研究[J].通信学报.2018

[3].李玉峰,米晓琴,杨婷.Windows下SpamAssassin对中文垃圾邮件的过滤研究[J].内蒙古农业大学学报(自然科学版).2019

[4].万亚利.基于CPSO优化CNN的中文垃圾邮件分类研究[D].重庆邮电大学.2018

[5].魏如玉.中文垃圾邮件过滤方法的研究[D].辽宁大学.2016

[6].王青松,魏如玉.基于短语的贝叶斯中文垃圾邮件过滤方法[J].计算机科学.2016

[7].李明轩,吴秀梅,王旭.基于变异特征检测的中文垃圾邮件过滤研究[J].新疆电力技术.2015

[8].徐彬.针对中文的图像型垃圾邮件过滤技术[D].北京邮电大学.2015

[9].沈元辅,沈跃伍.基于多层grams的在线支持向量机的中文垃圾邮件过滤[J].中文信息学报.2015

[10].徐征,刘遵雄,张贤龙.基于套索(Lasso)的中文垃圾邮件过滤[J].华东交通大学学报.2014

标签:;  ;  ;  ;  

中文邮件论文-张柳艳
下载Doc文档

猜你喜欢