后缀树论文_张凌浩,桂盛霖,穆逢君,王胜

导读:本文包含了后缀树论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:后缀,子树,相异,序列,概率,符号化,搜索引擎。

后缀树论文文献综述

张凌浩,桂盛霖,穆逢君,王胜[1](2019)在《基于后缀树的二进制可执行代码的克隆检测算法》一文中研究指出如何发现代码克隆,是软件维护和软件侵权纠纷案件中的一个关键问题。由于商业保密等原因,在商业软件的侵权纠纷案中往往无法使用基于源代码比对的克隆检测技术。因此,针对这类无法获得源代码进行代码克隆检测的场景,文中提出一种针对二进制可执行文件分析的代码克隆检测方法。首先,通过反编译与指令类型抽象得到二进制可执行目标文件的指令类型序列;然后,对指令类型序列构建后缀树,利用后缀树的性质获取函数级的指令序列间的克隆信息,并通过消除沙砾指令进一步提高检测性能;最后,基于MIPS32指令集,使用Linux内核和经过混淆处理的代码分别作为克隆级别0-级别2与级别1-级别4的二进制可执行文件代码克隆测试样本,并与源代码检测工具进行对比测试。结果表明,所提算法在缺少源代码的场景下同样能进行细粒度的克隆分析,且对各级代码克隆均具有较好的检测性能。(本文来源于《计算机科学》期刊2019年10期)

秦诗悦,周福才,柳璐[2](2019)在《基于后缀树的基因数据可搜索加密方法》一文中研究指出为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景.(本文来源于《东北大学学报(自然科学版)》期刊2019年04期)

赵美勇,史昊臻,朱珍珍[3](2019)在《后缀树的设计与构造》一文中研究指出后缀树是处理字符串的一个优秀算法。利用图像化设计可使后缀树更加清晰。按照递推的思路,建立前i个字符对应的后缀树,通过插入第i+1个字符的方式,建立前i+1个字符对应的后缀树。由于字符串的任意子串都可以表示为某个后缀的前缀,因此可以设定当前节点为根节点。父节点取子节点中贡献最大的节点,同时,记录其对应的字符串。(本文来源于《信息与电脑(理论版)》期刊2019年06期)

张欣[4](2019)在《基于后缀树的DNA序列进化树构建研究》一文中研究指出生物序列比较是近年来迅速发展起来的一门学科,主要用来应对由分子生物学飞速发展所产生的巨大数据等问题。生物序列比较的常见方法有2种:序列的比对方法和序列的非比对方法。然而由于生物的全基因组序列比较长,比对方法计算量较大,我们利用序列的比对方法来直接分析序列间相似性在一些情况下是不可行的。序列的非比对方法不是具体的比较基对,而是将序列看成是一个整体并将其转化为数学对象,最终借助于数学工具对其进行分析比较。在本文中,我们使用序列的非比对方法来进行生物序列相似性的研究。后缀树模型是用来存储生物序列中每个位置处的后缀标识,它的提出为多方面的研究提供了高效率的保证。很多领域的国内外学者都从事过有关后缀树模型在实际应用方面的研究。后缀树模型在生物序列比较方面也有着重要的应用,例如Leimeister CA等人利用后缀树模型查找最长公共子串的位置来近似求取k个错配下最长公共子串的长度。本文基于后缀树模型提出了2种新的相异度量。第一种相异度量是基于每个后缀标识集在序列中对应的位置集。取两条生物序列后缀标识集的交集,对交集中所有后缀对应的位置集取并集,并求每条序列的并集中含有位置个数与序列长度的比值,最后用1减去比值中较大的一个;第二种相异度量是取两条序列长度中的较小值与基于后缀树模型找到这两条序列间的公共唯一后缀的个数,二者作差后除以长度中的较小值。经过测试,本文提出的方法可以分别对12条灵长目动物的生物序列、31条哺乳动物线粒体序列和48条E型肝炎病毒序列组成的数据集重构得到的进化树图示是符合当前的生物学分类的,并且本文方法对数据集重构的进化树结果优于现在已发表的文献中其他方法对数据集重建得到的进化树结果,或与现在已发表的文献中其他方法对这个数据集重构得到的进化树完全一致。(本文来源于《辽宁师范大学》期刊2019-03-01)

周湛[5](2018)在《概率后缀树在移动用户轨迹异常检测中的应用》一文中研究指出在移动用户轨迹异常检测中,针对传统的马尔可夫模型准确率不高、效率低的问题,提出了基于后缀树的异常用户轨迹检测模型。首先,结合移动用户在某个位置的逗留时长对数据进行预处理;然后依据时间将移动用户的轨迹序列化;再计算用户轨迹序列上下文的概率特征,并构建概率后缀树;最后通过计算用户轨迹序列之间的相似度来实现轨迹异常检测应用。实验证明,该方法具有一定的有效性和扩展性。(本文来源于《移动通信》期刊2018年08期)

高可攀,周经亚[6](2018)在《基于Spark的通用后缀树并行构造算法》一文中研究指出通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合。在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战。为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法。该算法采用子树划分与合并的思想,将构造过程分解为多个子任务并行执行,算法基于Spark平台设计实现,字符序列以弹性分布式数据集(RDD)形式存储,任务在RDD上分布式执行。基于真实数据集的实验表明,对数十亿字符序列构造通用后缀树,其构造过程可在7分钟内完成,由此可见,本文所提算法可高效解决大规模通用后缀树构造问题。(本文来源于《福建电脑》期刊2018年05期)

程小林,郑兴,李旭伟[7](2018)在《基于概率后缀树的股票时间序列预测方法研究》一文中研究指出在时间序列符号化基础上,本文引入概率后缀树PST模型,构建基于时间序列符号化和概率后缀树相结合的股票预测模型.本文选择在沪深300的10支股票数据上将预测模型与传统的马尔科夫模型MM和自回归移动平均模型ARMA进行对比,结果显示本文提出的股票预测模型优于MM模型和ARMA模型,验证了本文所提出的预测模型在投资收益上的有效性.(本文来源于《四川大学学报(自然科学版)》期刊2018年01期)

韦美峰,王亚民[8](2017)在《基于后缀树聚类的主题搜索引擎研究》一文中研究指出[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。(本文来源于《情报理论与实践》期刊2017年12期)

陈建华[9](2017)在《基于后缀树聚类算法的元搜索引擎的设计与实现》一文中研究指出日新月异的Internet革命给人们带来了极大便利。随着大数据时代的到来,如何更高效的获取信息越来越成为人们关注的焦点,而搜索引擎正是解决此类问题的有效工具之一。但从目前来看,搜索引擎技术仍有很多不足,虽然有众多的商业搜索引擎供用户选择,很多时候用户还是难以在第一时间找到感兴趣的内容。由于全文搜索引擎之间数据库内容和排序算法上都有很大不同,导致用户得到的结果集也千差万别,为了提高搜索引擎的覆盖率和查全率,元搜索引擎技术孕育而生。传统搜索引擎还存在着另一个不足之处,用户提交关键字进行搜索时,得到的结果集往往十分庞杂,需要用户一一筛选,而在关键字具有多种含义时这种不足尤为明显,在大量具有不同类别含义的结果集面前用户常常会花费很多时间查找有用信息。一种解决方案是对结果集进行聚类处理,当用户提交关键字查询时,返回结果以聚类的形式呈现给用户,从而提高搜索效率。目前,越来越多的元搜索引擎开始引入聚类功能,如开源搜索引擎Carrot2和Vivisimo等。但聚类搜索引擎的技术还没有进入完全成熟的阶段,分类水平、类标签的可读性、对中文语言的支持等方面都存在着一定不足,有待于进一步研究。本文针对元搜索引擎和聚类算法进行了一定的分析和研究,并在此基础之上使用java语言和myEclipse10工具设计实现了一个基于后缀树聚类算法的元搜索引擎,主要工作如下:1.对元搜索引擎的工作原理进行了介绍,阐述了元搜索引擎各个模块的工作方式和实现。2.针对短文本聚类算法的研究,介绍了几种常用的聚类算法,深入比较了这些聚类算法的优缺点,对后缀树聚类算法的原理进行了细致分析。3.针对聚类算法产生的类标签描述性不强的问题,首先对类标签的选取方法进行了研究和改进,使得评分较高的类标签更符合汉语的语言习惯;其次,在后缀树聚类和类融合之后,对具有相同类标签的簇再一次融合,保证标签不具有重复性;最后引入语义规则对所有类的标签进行再一次的筛选,通过筛选的类簇才作为结果进行返回,保证标签的可读性。在实现该搜索引擎的同时,本文对该系统的性能进行了分析,实验结果表明该系统对中文的支持较好,聚类算法所花费的时间和分类能力比较令人满意,类标签的质量有了一定的提升,无意义类标签数量明显减少。下面给出该系统存在的一些问题和应该改进的方向:1.本系统仅对检索信息的标题和摘要进行聚类,并未赋予其权值,在以后的信息采集过程中,除了可以为标题和摘要赋予权值比重外,还可以引入如段首段尾这些信息量强的内容,这样可以进一步增强文本特征,提高聚类效果。2.本系统实现的后缀树聚类算法是完全基于内存处理的,这对于处理结果的总量产生了制约,可以考虑将该聚类算法改进成一种外归并聚类算法,当处理结果超过一定数量级后,按用户需求提供二次聚类或多次聚类。3.目前中文同义词词库较少,未来可以加入中文同义词词典,在聚类中引入语义相似度计算方法,从而对语义上相近的类簇进行合并。(本文来源于《吉林大学》期刊2017-05-01)

高永兵,张贵娟,胡文江,马占飞[10](2018)在《基于后缀树算法的地区微博摘要技术研究》一文中研究指出地区官方微博中包含了大量相关当地的事件信息,聚合地区官方微博数据可以发掘当地的重要事件;结合地区微博数据地区别称、不同层级,地区标签属性突显等特征提出了基于后缀树算法的地区微博摘要技术研究。利用地区权值树和知网HowNet对地区微博数据进行预处理,将意思相近的词汇进行替换统一;利用后缀树聚类算法STC和奇异值分解SVD对地区微博进行聚类;结合地区微博特征对其综合打分,选取有代表性的微博句子生成摘要。实验验证了该方法的可行性,表明所提出的方法能够很好地识别出当地事件并生成可读性高的事件摘要。(本文来源于《计算机工程与应用》期刊2018年09期)

后缀树论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

后缀树论文参考文献

[1].张凌浩,桂盛霖,穆逢君,王胜.基于后缀树的二进制可执行代码的克隆检测算法[J].计算机科学.2019

[2].秦诗悦,周福才,柳璐.基于后缀树的基因数据可搜索加密方法[J].东北大学学报(自然科学版).2019

[3].赵美勇,史昊臻,朱珍珍.后缀树的设计与构造[J].信息与电脑(理论版).2019

[4].张欣.基于后缀树的DNA序列进化树构建研究[D].辽宁师范大学.2019

[5].周湛.概率后缀树在移动用户轨迹异常检测中的应用[J].移动通信.2018

[6].高可攀,周经亚.基于Spark的通用后缀树并行构造算法[J].福建电脑.2018

[7].程小林,郑兴,李旭伟.基于概率后缀树的股票时间序列预测方法研究[J].四川大学学报(自然科学版).2018

[8].韦美峰,王亚民.基于后缀树聚类的主题搜索引擎研究[J].情报理论与实践.2017

[9].陈建华.基于后缀树聚类算法的元搜索引擎的设计与实现[D].吉林大学.2017

[10].高永兵,张贵娟,胡文江,马占飞.基于后缀树算法的地区微博摘要技术研究[J].计算机工程与应用.2018

论文知识图

中文字串的后缀树结构构造后的可扩展后缀树扩充后缀树后缀树实例文档的后缀树后缀树的简单例子(T)

标签:;  ;  ;  ;  ;  ;  ;  

后缀树论文_张凌浩,桂盛霖,穆逢君,王胜
下载Doc文档

猜你喜欢