删除算法论文_王青松,葛慧

导读:本文包含了删除算法论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,算法,乐谱,指纹,索引,极值,拓扑。

删除算法论文文献综述

王青松,葛慧[1](2018)在《指纹极值的双层重复数据删除算法》一文中研究指出为提高重复数据删除算法的重删率,减少CDC算法边界硬分块,使重复数据删除率和性能之间得到平衡,提出了指纹极值的双层重复数据删除算法(DDFE).首先在第一层重复数据删除模型中使用较大的分块大小,保证重删操作的速度;然后将第一层模型重删后的不重复数据输入到分块大小较小的第二层重复数据删除模型,保证重复数据删除的精度.数据分块时,在可容忍范围内,提出了指纹极值的分块算法,减少了硬分块对重复删除的影响.在多种分块组合下的实验结果表明,与任何传统的单层重复数据删除算法相比,DDFE能够较好地防止硬分块、平衡性能和时间,在大量小数据块和频繁变化的数据间有效地消除更多的重复数据.(本文来源于《辽宁大学学报(自然科学版)》期刊2018年03期)

葛慧[2](2018)在《相似性的块级重复数据删除算法的研究》一文中研究指出科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于云存储、备份与归档系统中。然而在数据块级重复数据删除算法中,传统分块算法的分块效果均较差。固定分块(FSP)不能很好的满足数据多变性,可变长度分块(CDC)的参数设定掺杂了过多人为干预,导致基于经典分块算法的重复数据删除技术性能表现不稳定。另外,随着数据量级的增加,越来越多的指纹信息不能快速被检测对比,机械式的I/O操作严重增加了算法时间,性能难以保证。针对可变长度分块(CDC)的分块大小难以控制,指纹计算对比开销大,预先设置参数等问题,提出Winnowing指纹串匹配的分块算法(CAWM)。首先在数据分块前引入分块大小预测模型,能够较准确地根据应用场景计算出合适的分块大小;然后在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后在确定分块边界时,提出指纹串匹配的分块算法,无须预先设置参数,使得指纹计算和对比开销减少。通过将FSP、CDC、CAWM叁种分块算法应用于重删实验,来验证CAWM分块效果,相比于FSP和CDC分块算法,CAWM在数据的重删率上提升了10%左右,在指纹计算和对比开销方面减少了18%左右。因此,CAWM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。针对重复数据删除算法指纹对比I/O瓶颈问题,提出了一种基于相似聚类的二级索引重复数据删除算法。首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出了一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中。然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心。当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比。实验结果表明,与传统重复数据删除算法TDA、Bloom filter及shingle技术相比,算法没有误判率,在重删率提升23%的同时,每次检测只产生一次I/O操作,具有更高效的性能。(本文来源于《辽宁大学》期刊2018-05-01)

王青松,葛慧[3](2018)在《Winnowing指纹串匹配的重复数据删除算法》一文中研究指出针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。(本文来源于《计算机应用》期刊2018年03期)

杨任,宋琦,陈璞[4](2018)在《结构拓扑修改重分析的增加与删除算法实现》一文中研究指出本文描述了适用于结构拓扑修改的重分析算法及其具体实现,以及在施工模拟中的应用。该算法基于多重图剖分填充元优化,通过对LDL~T分解过程中修改传递路径的观察,仅对分解因子矩阵的一部分进行更新,极大地减少了计算量。该算法可用于结构拓扑修改问题,对大规模结构的局部修改显示出较高的效率。(本文来源于《北京力学会第二十四届学术年会会议论文集》期刊2018-01-21)

王青松,葛慧[5](2017)在《相似聚类的二级索引重复数据删除算法》一文中研究指出针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心.当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比.实验结果表明,算法没有误判率,在较大提高了指纹对比速度的同时,每次检测只产生一次I/O操作,具有更高效的性能.(本文来源于《小型微型计算机系统》期刊2017年12期)

卞琛,于炯,修位蓉[6](2017)在《基于回归检测的滑动块重复数据删除算法》一文中研究指出随着大数据时代的来临,重复数据在存储系统中占有很高比例,如何在保障数据可用性的前提下提高存储系统利用率问题一直是研究人员关注的热点.重复数据删除技术是一种存储系统优化技术,通过比较数据指纹确定冗余并删除,达到保障数据唯一性的目的.在重复数据分块检测过程中,无匹配指纹的块即认定为新数据存储,然而通过研究发现,未匹配块中仍然包含大量的重复数据,若能检测到未匹配块内的重复数据,则能够在一定程度上进一步提高重复数据检测率.本文提出一种基于回归检测的滑动块重复数据删除算法,对传统滑动块技术产生的未匹配数据块进行回归检测,通过对比未匹配块的结构变化进而确定数据操作类型,再根据不同的操作类型执行不同的检测算法,达到去除未匹配块内重复数据的目的.实验表明:本算法在时间开销方面比较合理,并能够有效提高重复数据检测率.(本文来源于《新疆大学学报(自然科学版)》期刊2017年03期)

孟凡奥[7](2017)在《印刷乐谱谱线检测与删除算法研究》一文中研究指出光学乐谱识别是将纸质乐谱转换为数字乐谱的过程,主要目的是对扫描得到的乐谱图像进行处理、识别、分析,最终自动准确地获得乐谱上的符号。所得的数字乐谱是计算机能直接进行合成等深度应用的乐谱形式。由于乐谱中的谱线往往与大多数音乐符号交叉或重迭,破坏了符号独有的特征,造成后续符号识别的困难,因此在乐谱符号识别前,一般需要先检测乐谱中的谱线,尽可能多地删除谱线且不破坏音乐符号,谱线删除效果的好坏直接影响到后续符号识别的正确率。本文以印刷体五线谱为研究对象,对谱线的检测和谱线的删除进行了深入研究。乐谱图像中谱线是广泛存在的,从全局观察,谱线的分布位置相对于整个乐谱具有低秩特征,而从局部观察,谱线与音符的局部纹理存在差异,根据全局特征和局部细节特征,本文分别提出基于低秩结构的乐谱谱线检测与删除方法和基于局部二值模式的乐谱谱线检测与删除方法。这两种方法从全局和局部角度考虑,都能很好地删除理想状态乐谱谱线,而基于局部二值模式的方法还可以删除弯曲等非理想状态乐谱谱线。本文提出的方法在已有数据库上进行了实验验证,与游程分析等方法进行了比较,在像素误差和片段误差指标上有较好结果。(本文来源于《天津大学》期刊2017-05-01)

张宗华,屈英,叶志佳,牛新征[8](2016)在《基于多特征匹配和Bloom filter的重复数据删除算法》一文中研究指出针对EB(extreme binning)算法重复数据删除率低,磁盘I/O开销大的缺陷,提出基于多特征匹配和Bloom filter的重复数据删除算法DBMB(deduplication based on multi-feature matching and Bloom filter).将小文件聚合为局部性文件单元,作为一个整体进行去重处理,采用最大、最小以及中间数据块ID的多重相似性特征进行匹配,并基于Bloom filter优化磁盘数据块的查找和匹配过程.结果表明,DBMB算法能有效提升重复数据删除率,降低算法执行时间,同时减少处理小文件的内存开销,性能提升显着.(本文来源于《深圳大学学报(理工版)》期刊2016年05期)

李纯,关成涛[9](2016)在《极化码连续删除算法的改进》一文中研究指出提出一种改进的连续删除算法,通过添加监督节点来改善译码性能。具体的,根据发送序列里节点类型的不同,添加固定监督节点和信息监督节点来加强信息传输的可靠度,以提高译码的精度。仿真结果表明,与原始的连续删除算法相比,改进算法通过增加监督节点译码的计算量,从而提高了其译码的性能。(本文来源于《通信技术》期刊2016年06期)

张沪寅,周景才,陈毅波,查文亮[10](2015)在《用户感知的重复数据删除算法》一文中研究指出通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与Open Dedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.(本文来源于《软件学报》期刊2015年10期)

删除算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于云存储、备份与归档系统中。然而在数据块级重复数据删除算法中,传统分块算法的分块效果均较差。固定分块(FSP)不能很好的满足数据多变性,可变长度分块(CDC)的参数设定掺杂了过多人为干预,导致基于经典分块算法的重复数据删除技术性能表现不稳定。另外,随着数据量级的增加,越来越多的指纹信息不能快速被检测对比,机械式的I/O操作严重增加了算法时间,性能难以保证。针对可变长度分块(CDC)的分块大小难以控制,指纹计算对比开销大,预先设置参数等问题,提出Winnowing指纹串匹配的分块算法(CAWM)。首先在数据分块前引入分块大小预测模型,能够较准确地根据应用场景计算出合适的分块大小;然后在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后在确定分块边界时,提出指纹串匹配的分块算法,无须预先设置参数,使得指纹计算和对比开销减少。通过将FSP、CDC、CAWM叁种分块算法应用于重删实验,来验证CAWM分块效果,相比于FSP和CDC分块算法,CAWM在数据的重删率上提升了10%左右,在指纹计算和对比开销方面减少了18%左右。因此,CAWM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。针对重复数据删除算法指纹对比I/O瓶颈问题,提出了一种基于相似聚类的二级索引重复数据删除算法。首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出了一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中。然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心。当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比。实验结果表明,与传统重复数据删除算法TDA、Bloom filter及shingle技术相比,算法没有误判率,在重删率提升23%的同时,每次检测只产生一次I/O操作,具有更高效的性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

删除算法论文参考文献

[1].王青松,葛慧.指纹极值的双层重复数据删除算法[J].辽宁大学学报(自然科学版).2018

[2].葛慧.相似性的块级重复数据删除算法的研究[D].辽宁大学.2018

[3].王青松,葛慧.Winnowing指纹串匹配的重复数据删除算法[J].计算机应用.2018

[4].杨任,宋琦,陈璞.结构拓扑修改重分析的增加与删除算法实现[C].北京力学会第二十四届学术年会会议论文集.2018

[5].王青松,葛慧.相似聚类的二级索引重复数据删除算法[J].小型微型计算机系统.2017

[6].卞琛,于炯,修位蓉.基于回归检测的滑动块重复数据删除算法[J].新疆大学学报(自然科学版).2017

[7].孟凡奥.印刷乐谱谱线检测与删除算法研究[D].天津大学.2017

[8].张宗华,屈英,叶志佳,牛新征.基于多特征匹配和Bloomfilter的重复数据删除算法[J].深圳大学学报(理工版).2016

[9].李纯,关成涛.极化码连续删除算法的改进[J].通信技术.2016

[10].张沪寅,周景才,陈毅波,查文亮.用户感知的重复数据删除算法[J].软件学报.2015

论文知识图

化简算法的应用内部的数据结构表示字符串集T经过一次正向并行拓扑排序后...不同删除算法的加速比(M=500 0...一1普通迭代串行干扰删除算法分层...删除算法界面

标签:;  ;  ;  ;  ;  ;  ;  

删除算法论文_王青松,葛慧
下载Doc文档

猜你喜欢