导读:本文包含了字符串匹配论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:字符串,算法,距离,编辑,模式,分词,不确定。
字符串匹配论文文献综述
孙娟红[1](2019)在《一种基于KMP算法思想的字符串匹配算法的研究与实现》一文中研究指出KMP算法在使用中效率很高,并且在失败匹配之后,不必要重新进行内容字符的匹配,降低了匹配的速度和次数,使得效率大大提高。在本文中,主要是分析了该算法的优点和实现。(本文来源于《电脑知识与技术》期刊2019年26期)
陈天一,郑闻悦,邹健,邱修峰[2](2019)在《基于KMP算法的字符串查找匹配研究》一文中研究指出目前,有学者提出了一种特殊的符号语言,了解到其文字是由20个字母组成。目前已获得许多段由该语言写成的文本,但缺少标点符号与空格,导致无法理解其中的含义与规律。本文针对在不同段由特殊语言组成的文本中搜索在误差允许范围内相同的字母序列片段问题,建立了基于KMP算法的相似字符串搜索匹配算法模型,在特定的多个文本中找出符合题意的子串,依据已知条件自定义模型生成外星语文本段落对该算法进行检验,评判其优缺点并进一步优化分析。(本文来源于《科技创新导报》期刊2019年23期)
邢光升[3](2019)在《数据流字符串匹配算法并行化运行与性能测试》一文中研究指出该文实验模拟数据流在本地或集群分布式处理的条件下,多线程多进程、CPU+GPU异构等处理模式的字符串匹配测试,研究了在多进程,多线程下最佳并行运行节点数,GPU最佳优化参数设置,CPU+GPU异构环境下最佳搭配优化方案。(本文来源于《电脑知识与技术》期刊2019年16期)
牛增贤[4](2019)在《融合多元信息的字符串近似匹配算法研究及应用》一文中研究指出字符串匹配是计算机科学中研究最经典的问题之一。早期主要是对字符串的精确匹配进行研究,而且大多数研究都是针对DNA片段等小型字符集,或针对英文等中等大小字符集,而对于汉字乃至亚洲语言等大型字符集的研究却不多。然而随着新问题的不断提出,人们发现在实际应用中有时更需要近似字符串匹配。并且字符串近似匹配已经被应用到众多领域之中,比如拼写检查、模式识别、Web搜索、OCR纠错、DNA序列匹配等。本文针对中文字符串的近似匹配算法进行研究,论文的主要成果如下:(1)提出了融合多元信息的编辑距离的计算方法。传统编辑距离算法中只是单纯考虑了增加、删除、替换一个字符的代价,并没有区分各字符的重要程度对字符串相似度的影响,也没有考虑汉字的字形信息。本文在传统编辑距离算法的基础上,融合了汉字的字频信息和字形信息。对于固定库中的字符串,字符出现的频率是一定的。本文将低频字符定义为重要字符,对于重要的字符降低其匹配代价,提高其匹配的概率。汉字字符与英文字符不同,具有在字形上特有的信息,包括五笔、结构、四角、笔画的特征,分别表示了汉字在部件、结构、形状、复杂度上的差别。对于两个字形差异较大的字符,加大其匹配的代价,从而降低其匹配的概率。本文提出的融合多种信息的编辑距离方法,不仅考虑了汉字的字频的信息,而且充分利用了汉字的字形上的差异性。实验结果表明,融合多种信息的编辑距离方法显着提高了字符串近似匹配的精度。(2)提出了融合多元信息的编辑距离与Trie树相结合的方法。对于大量字符串的近似匹配,如果每一条都用编辑距离的方法进行比较,会耗费大量的时间。本文采用融合多元信息的编辑距离与Trie树相结合的方式,结合编辑距离动态规划的思想和Trie树共享前缀的特点,对目标字符串进行剪枝,以减少字符串匹配的次数,从而降低字符串近似匹配的时间。实验结果表明,融合多元信息的编辑距离与Trie树结合的方式在保证准确率不变的情况下,大大减少了字符串近似匹配的时间。(本文来源于《北京交通大学》期刊2019-06-01)
邵岚,唐永群,孔令顺[5](2018)在《一种基于KMP算法思想的字符串匹配算法的研究与实现》一文中研究指出KMP算法是一种高效的字符匹配算法,它的思想在于其在匹配失败以后,不需要再对内容字符序列从头匹配,这样就减少了匹配的次数,提高效率。本方通过举例比较说明这个算法的优点。(本文来源于《网络安全技术与应用》期刊2018年12期)
王绍雷,杨鹤标[6](2018)在《基于近似字符串匹配的姿势识别算法》一文中研究指出近似字符串匹配算法string-k是一种高效的基于模板类的人体姿势识别算法,其实时性能能保障在低端设备(如智能手机、平板等)上完美运行。由于该算法的识别率偏低,难以满足用户体验。为此,提出一种优化的姿势识别算法。算法基本思想是:剔除与姿势相关度低的骨骼节点,依据骨骼节点对识别姿势贡献度的大小分配相应权值,采用改进的Levenshtein距离计算姿势序列降低识别过程的计算量。实验结果表明,在保证实时性条件下,提高了多数姿势的识别率。(本文来源于《软件导刊》期刊2018年09期)
吴振华,高瑞泽[7](2018)在《智能家居场景下改进的中文字符串匹配算法》一文中研究指出近年,随着智能家居行业的火热,智能家居应用的开发也愈发重要。在智能家居应用智能化的软件需求下,该文旨在解决开发客户端语音控制功能时遇到的中文字符串识别精度问题。在智能家居场景下,语音控制指令字符串往往具有动词+关键词+家居名词的叁段式结构,针对这一个特性,在对比分析了以往的中文字符串匹配算法之后,利用正向最大匹配算法进行分词,并结合汉字拼音码和汉字字形结构对编辑距离算法进行改进。最终提出了一种适合智能家居语音控制场景下的中文字符串匹配算法。研究结果表明该算法是有效,可行的。(本文来源于《南昌航空大学学报(自然科学版)》期刊2018年02期)
Mirza,Baber,Baig(贝克)[8](2018)在《Urdu语言文本字符串匹配串行与并行处理》一文中研究指出字符串匹配问题是计算机科学中十分重要且应用广泛。在我的国家巴基斯坦,使用的母语是Urdu语言。Urdu语言文本与英语语言文本完全不一样。Urdu语言文本具有自己的(?)特征。Urdu语言文本字符之间是关联的。Urdu语言文本字符采用utf-8编码,utf-8编码是变长编码方法。如果采用ASCⅡ编码方法设计实现Urdu语言文本字符串匹配算法,那么将得不到正确的匹配位置。据我们所知,以前没有针对Urdu文本的字符串匹配算法研究的文献报道。为此,面向Urdu语言文本,研究实现有效的Urdu字符串匹配串行和并行处理具有现实意义。本文首先分析研究Urdu语言文本的特性及其字符编码表示方法,融合采用wchar_t类型和unicode编码方式以有效表示Urdu语言文本字符编码,进而研究实现针对Urdu语言文本字符串匹配的BM,KMP,BF和Sunday串行算法,并通过大量Urdu语言文本正文串和模式串的实验评估测试串行匹配算法的运行性能。实验结果比较表明,对于不同规模(长度)的Urdu语言文本正文串和模式串,总体上,针对Urdu语言文本开发实现的串行BM串匹配处理算法在4个算法中是最快速的,第二快速的是串行Sunday串匹配处理算法;此外,随着Urdu语言文本正文串的增大,KMP和BF串行匹配算法所需的运行时间增加很快,而BM和Sunday串行匹配算法所需的运行时间增加缓慢并且运行性能稳定。与KMP、Sunday和BF串匹配算法相比,采用自右至左扫描模式和正文字符的BM串匹配算法更适用于Urdu语言文本结构的大规模字符串匹配处理。基于分组原理、多核并行计算、Pthread多线程程序设计方法,采取重迭部分正文字符策略,通过将长度n的Urdu语言正文串txt[0..n-1]划分为num threads个正文子串txt[(i*n/num_threads..(i+1)n/num_threads+m-1]的方法,其中m为Urdu语言模式串长度,i=0~num_threads-1,num_threads为并行线程数,本文进一步研究实现多核计算平台上的面向Urdu语言文本的BM、KMP、BF和Sunday字符串匹配并行化算法。对于不同规模的Urdu语言文本字符串,在多核计算机上运行不同数目的并行线程的实验结果比较表明:运行的并行线程数量对于并行化串匹配算法所需的匹配时间具有明显的影响;并行BM和Sunday串匹配算法所需的运行时间远远少于并行KMP和BF串匹配算法所需的运行时间;总体来说,并行BM串匹配算法在4个并行串匹配算法中是最快速的,第二快速的是并行Sunday串匹配算法,并行BM和Sunday串匹配算法运行10个线程或者8个并行线程时,其完成Urdu语言文本字符串匹配所需时间最少;并行多线程BM和Sunday算法分别获得最高和次最高加速比。与其他3个并行化串匹配算法相比,BM多线程并行化算法更适用于Urdu语言文本结构的大规模字符串匹配并行处理。(本文来源于《广西大学》期刊2018-06-01)
王丁[9](2018)在《不确定字符串的匹配方法研究》一文中研究指出给定一个文本串T和模式串P,字符串匹配就是从一个T中找到所有和P相同的子串。字符串匹配的应用涉及到生物信息学、文本编辑、模式识别、自然语言处理和搜索引擎等领域。随着互联网技术的发展,数据来源的差异性导致了不确定数据的产生。本文重点研究生物信息学领域的不确定字符串匹配问题,研究内容如下。首先,通过对现有方法进行深入分析,发现了现有方法存在索引构建时间长,索引规模大的问题。其次,针对生物信息学领域中字符种类较少的特点,提出了空间代价为字符种类乘字符串长度的索引USAL。在USAL上提出了积极字符和消极字符的概念,基于积极字符并结合贪心思想和范围最值查询RMQ提出了一种高效的字符串匹配算法GUSM。USAL在每个位置记录了每种字符的出现概率,字符串匹配时,根据给定的查询概率阈值用RMQ以O(1)时间返回当前划分区间中概率最大的积极字符位置,然后对该位置进行概率阈值的验证,最后返回正确的结果。为了提高积极字符位置的过滤效果,提出了基于最小概率字符和随机选择字符的过滤策略。再次,为了进一步增强字符串匹配阶段的过滤效果,结合Bitmap思想提出了一种小规模位图索引BI。BI可以对USAL上的位置概率进行位映射,基于BI提出了一种高效字符串匹配算法BUSM,字符串匹配时,将子串匹配操作转化为BI上的位操作,然后验证候选结果集合,最后返回正确的结果。为了提高BUSM在概率阈值验证阶段的效率,提出了多维位图索引MBI,通过减少候选结果集合的规模,从而提高了算法执行效率。最后,对于多个不同特征的真实数据集和人工合成数据集进行实验,验证了本文提出算法的高效性。(本文来源于《燕山大学》期刊2018-05-01)
赵志力[10](2018)在《众包数据的数据库模式映射方案和近似多字符串匹配研究》一文中研究指出随着众包模式作为一种新型的经济模式,国内外不同类型的众包平台也如同雨后春笋般的涌现。基于NoSQL数据库的轻量级众包平台是目前使用的最为广泛的众包模式,其高效的读写性能以及支持分布式存储的特点能应对大数据量下的存储问题。但是其弱结构化的存储方式,也带了通用性较差等和对数据本身的事物操作支持较弱等不足。因此,如何高效且能通过事物操作处理大数据量众包数据成为了目前研究的主要热点。基于NoSQL数据库对事物性操作的不敏感性,目前已经有大量的工作旨在通过研究数据结构之间的转换来优化该问题,但是系统的针对由NoSQL数据库向关系型数据库的模式映射方案的研究较少。另外,在某些众包数据的提取中存在着多字符串匹配的问题,目前国内外的主要研究是还未将字符串匹配技术应用到该领域,基于现有的算法无法实现对众包数据中的多个字符串进行匹配提取。本文以Recital众包平台及其数据为研究基础,主要对数据库间的模式映射和多字符串模糊匹配进行研究,具体的研究内容和研究结果如下:(1)首先分析了众包系统的设计原理,着重对轻量级众包平台所使用的MongoDB数据库与关系型数据库进行框架和数据结构上的对比分析,为模式映射方案做理论准备。(2)研究字符串比较的算法,详细介绍编辑距离(Edit Distance)与Needleman-Wunsch算法的基本原理,为多字符串的模糊匹配算法提供理论支持和对比研究。(3)针对MongoDB中数据向MySQL应用迁移需求,本文通过数据迁移与数据映射两模块提出对应的模式映射方案,根据不同环境下的数据类型与数据库结构间的差异比较完成了对MySQL的迁移方案。并使用伪代码的形式对映射过程进行详尽的解析。(4)针对多字符串的提取问题,提出了基于编辑距离的多字符串模糊匹配算法,使用卷积的思想,逐位使用编辑距离计算相似程度,并且根据相应输出准则进行匹配结果筛选。在输出的阈值参数选取中,阈值越高时匹配结果准确度越高,但是匹配耗时也随之增加,统筹考虑到匹配的准确率选取最佳阈值。实验表明,在多字符串的模糊匹配与单字符串的提取过程中,本文提出的基于编辑距离的算法都在准确率上优于Needleman-Wunsch算法并且耗时更短。(本文来源于《广东工业大学》期刊2018-05-01)
字符串匹配论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目前,有学者提出了一种特殊的符号语言,了解到其文字是由20个字母组成。目前已获得许多段由该语言写成的文本,但缺少标点符号与空格,导致无法理解其中的含义与规律。本文针对在不同段由特殊语言组成的文本中搜索在误差允许范围内相同的字母序列片段问题,建立了基于KMP算法的相似字符串搜索匹配算法模型,在特定的多个文本中找出符合题意的子串,依据已知条件自定义模型生成外星语文本段落对该算法进行检验,评判其优缺点并进一步优化分析。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
字符串匹配论文参考文献
[1].孙娟红.一种基于KMP算法思想的字符串匹配算法的研究与实现[J].电脑知识与技术.2019
[2].陈天一,郑闻悦,邹健,邱修峰.基于KMP算法的字符串查找匹配研究[J].科技创新导报.2019
[3].邢光升.数据流字符串匹配算法并行化运行与性能测试[J].电脑知识与技术.2019
[4].牛增贤.融合多元信息的字符串近似匹配算法研究及应用[D].北京交通大学.2019
[5].邵岚,唐永群,孔令顺.一种基于KMP算法思想的字符串匹配算法的研究与实现[J].网络安全技术与应用.2018
[6].王绍雷,杨鹤标.基于近似字符串匹配的姿势识别算法[J].软件导刊.2018
[7].吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报(自然科学版).2018
[8].Mirza,Baber,Baig(贝克).Urdu语言文本字符串匹配串行与并行处理[D].广西大学.2018
[9].王丁.不确定字符串的匹配方法研究[D].燕山大学.2018
[10].赵志力.众包数据的数据库模式映射方案和近似多字符串匹配研究[D].广东工业大学.2018