导读:本文包含了序列模式发现论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:序列,模式,发现,时间,基因,频繁,医疗。
序列模式发现论文文献综述
马双剑[1](2019)在《行为序列模式识别在泛娱乐平台用户兴趣发现中的应用》一文中研究指出泛娱乐是现阶段互联网发展的重要特征之一,移动互联网泛娱乐化的趋势,激活了用户固有的、旺盛的娱乐社交需求。用户在产品使用过程中产生了大量日志,包含了一切行为的时间、地点、内容、互动、消费等信息,企业如何充分利用用户在其产品上留下的海量日志,运用数据挖掘技术,对用户进行深刻洞察,挖掘用户属性,揣摩用户的喜好,提取出对企业有价值的信息,以实现平台效益的最大化,也成为了工业界和学术界一个热点研究话题。带有时序信息的行为日志,又称为行为路径,蕴含了用户跳转习惯、路径偏好等有价值的信息,为了引导用户持续深入体验产品的价值,最大限度的激发用户兴趣,互联网行业普遍采用用户行为路径分析方法,该方法又可以称为行为序列模式挖掘,是一种将序列挖掘技术与用户行为路径相结合,探索行为规律,发现兴趣模式,从而获知产品使用情况,找到优化方向的分析方法。本文积极探索了行为序列模式识别技术在用户兴趣发现中的应用,从挖掘偏好路径、提取关键功能点、分析低活跃用户特征叁个角度,构建了一个多层次用户兴趣分析体系,并以某泛娱乐平台的用户真实行为数据为基础,通过实验,论证了该体系的可行性,具体工作如下。首先提出了有效行为和有效序列的概念,并据此完成了数据清洗和整理,形成了供后续分析的基础数据,然后从序列长度、行为种类等角度进行了基本的数据探索和特征分析。其次,基于隐马尔可夫模型的参数估计问题,设计实验,进行了用户兴趣模式的挖掘。实验根据序列长度将基础数据进行了分组,并且为了保证模型科学训练,不被分布差异过大的数据所误导,本文还提出了针对性的分层采样方案。在结果评估阶段,基于已知行为所属场景天然属于隐藏状态的事实,设计出了隐藏状态准确率的指标,利用该指标挑选出了较优模型,进而模拟出最可能的行为路径,从这些模拟的路径中发现出了用户的路径偏好规律,并说明了这些模拟序列在兴趣发现中的实际指导意义。然后,为了解决泛娱乐平台中重要功能的发现问题,本文基于数学领域中图论的思想,提出了以行为为节点,以行为的跳转关系为边构建图的方案,将问题抽象成为图论中的关键节点发现问题。在关键节点发现的方案中,选用了叁种从不同角度刻画节点重要性的指标。在实验分析阶段,利用不同序列长度的分组数据,分别进行了图形的构建和关键节点的发现,并在每个指标下得出了头部的结果,通过对比不同组别和不同指标的结果,给出了对系统起到重要作用的功能,并针对这个结果对产品提出了优化建议,证明了该场景下图模型的可行性。最后,聚焦于泛娱乐生态促活问题,设计了对比实验,将平台的低活跃用户和高活跃用户的行为序列进行对比,以高活跃的数据指标作为参考,观察指标为界面跳出率和界面退出率,提出了用于衡量两组数据差异度的指标比例差值。针对跳出率和退出率,选取比例差值大于阈值的行为界面作为实验结果。然后从实际业务出发,解释了这些界面对用户流失造成了哪些具体的影响,并给出了优化方案,最后还提出了其他针对性的的促活建议。(本文来源于《对外经济贸易大学》期刊2019-05-01)
李海林,邬先利[2](2018)在《基于频繁模式发现的时间序列异常检测方法》一文中研究指出针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的叁种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对叁种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。(本文来源于《计算机应用》期刊2018年11期)
韩旭[3](2017)在《序列模式挖掘在临床路径发现问题中的研究与应用》一文中研究指出提高医院管理的效率和增加患者就医的透明度,规范医护人员的临床行为和减少医疗资源的浪费关乎每个人的切身利益,这是当前全社会关注的热点问题。临床路径作为一种临床医疗行为管理的手段,已经被世界上很多国家用于医院管理,并取得了很好的效果。我国从2009年开始进行临床路径的试点和推广工作,力争2020年底实现全部二级以上医院纳入临床路径管理。目前临床路径的制定是由相关领域医学专家根据经验和专业知识制定,费时费力。医疗信息技术的发展使得医院积累了海量的临床数据,促进了大数据技术在临床医学上的研究和应用,这为临床路径的发现和制定提供了新思路。数据挖掘技术能充分利用已有数据的信息,为临床路径的制定提供参考和指导,使临床路径的制定更具科学性和合理性。本文基于频繁序列模式挖掘对临床路径发现问题进行了研究。主要工作内容如下:(1)提出了有前缀约束的频繁序列模式挖掘算法CPM-PC(Clinical Pathways Mining with Prefix Constraints)。临床路径是针对某个病种的一套标准化的治疗方案,实际上是一系列检查、治疗以及护理行为按照时间先后顺序组成的一个序列,因此临床路径的挖掘问题被转化为频繁序列模式挖掘问题。另外,患者一个完整的治疗疗程总是由一些特定的医疗行为开始,像手术过程一般是从麻醉开始,据此在论文中提出临床路径"前缀集"的概念,即可以作为某种疾病治疗开端的临床项目的集合。在此基础上,提出了一个适用于临床路径发现的序列模式挖掘算法CPM-PC,该算法充分考虑临床路径"前缀集"的作用,能够较高效的挖掘出有意义的序列模式。(2)提出了临床路径基于属性的评估模型。由于临床路径的挖掘会产生大量的候选序列模式,对这些模式如何选择,目前还没有相关研究。对临床路径评估的研究大都集中于对已经试点的临床路径进行结果分析式的评估,这种方法不能适用于临床路径的选择过程。因此,在总结国内外临床路径评估方法的基础上,对各评价指标进行分析,选择住院时长LOS,医疗总费用C,药占比P叁个基本属性提出了基于属性的临床路径评估模型,更加侧重于临床路径本身的属性,通过计算临床路径基于属性的加权评估值ABWE评价临床路径的优劣。最后,在阜阳市某医院的真实临床数据集上进行了实验,对实验结果的分析显示CPM-PC算法在挖掘临床路径过程中相比于传统的序列模式挖掘算法有更好的性能。(本文来源于《中国科学技术大学》期刊2017-05-01)
冯路[4](2017)在《海量用户行为序列中的模式发现及应用》一文中研究指出所谓时序数据是指观察对象的某一特征或行为按时间排序的集合。实际应用中很大一部分时序数据是由系统产生用于记录用户的行为。分析这些数据背后的用户行为模式,将会对用户和系统模式的识别与未来状态的预测带来积极的影响。然而,这些刻画用户行为的时序数据却体量庞大且表现形式复杂,给处理这些这些数据带来了巨大困难。本文遵循“数据中挖掘模式,模式预测未来”的思路,意在从用户时序数据中挖掘出有用的行为模式,并以此为基础分别预测出小规模群组和复杂群体(系统)的未来行为状态。为此,文章针对如下关键问题提出了有效的解决方案:第一,是时间序列的表示问题。由于用户行为的多样性,使得用传统方法表示用户行为存在诸多问题,如维数灾难等。本文创造性地提出了一种用户行为模式的内容-结构表示方法,它是利用聚类和贪婪算法,将原始用户时序数据用一个极其简单的序列表示。此表示方法既保留了原始序列的主要信息,又方便了后续的行为模式挖掘工作。其次,是时间序列模式相似度衡量问题。由于用户行为序列数据所指向的对象众多,因此衡量其相似度必不可少。然而不同对象行为序列的多维和非等长特性却给此项工作带来了挑战。本文基于内容-结构表示,分别从用户行为偏好以及偏好分布特点两方面去衡量不同用户序列行为的相似度。实验表明,此相似度衡量方法表现良好。第叁,是群体用户行为的预测问题。本文分别从微观和宏观的角度预测了群体行为趋势。微观方面,利用基于内容-结构模式的表示和相似度衡量方法,预测了小规模群组的行为趋势。宏观方面,利用相空间重构的方法将复杂群体(系统)行为序列数据映射到相空间,然后基于此空间构建预测算法。其中在寻找相空间中相似点用于预测时,创新性地提出了改进的K邻近值算法,使得预测准确性有了很大幅度地提升。本文的主要贡献在于叁个方面,首先提出了一种新的用户序列行为的“内容-结构”表示方法和相似度度量方式。其次,分别从微观和宏观的角度提出了预测小规模群组和复杂群体行为的有效方法,并利用改进的K邻近值算法大大提升了复杂群体行为预测的准确度。实验结果表明,本文的方法可以有效进行小规模群组及复杂群体(系统)的序列行为模式分析与预测。并且,将此套方法应用于真实公交大数据挖掘工作中,取得了不错效果,对交通系统的改进有积极地指导作用。(本文来源于《电子科技大学》期刊2017-04-01)
陈潋,乐嘉锦,陈德华,冯洁莹[5](2016)在《糖尿病临床诊断事件序列中频繁模式的发现算法》一文中研究指出随着各大医院信息化建设进程的不断推进,医院中的各生产系统如HIS(医院信息化系统)、EMR(电子病历系统)等已经积累了规模庞大的临床数据,这种临床大数据对于提升临床医疗质量有着深远的意义。糖尿病作为一种慢性病,容易引发多种并发症如肾病、眼病等。为了找出糖尿病并发症出现的规律,本文首先对糖尿病历史临床诊断数据进行事件序列化,然后对传统的SPADE算法进行改进,提出一种糖尿病临床诊断事件序列频繁模式发现算法NFPS,该算法考虑糖尿病治疗时间间隔,通过时间窗口的设定,支持对该时间窗口内糖尿病并发症频繁出现模式的发现。实验结果表明其在临床糖尿病并发症频繁模式发现上的有效性。(本文来源于《计算机与现代化》期刊2016年04期)
杜翠兰,鲁睿,付戈,赵淳璐,钮艳[6](2015)在《用闭合序列模式实现特征子串的发现研究》一文中研究指出序列模式作为数据挖掘中的重要分支之一,已在众多领域中得到广泛的应用,而闭合序列模式针对频繁模式较长或者支持度阈值较低时,相比传统的序列模式挖掘更加精简有效。Clo Span算法作为闭合序列模式挖掘中性能优的算法之一,采用闭合模式挖掘算法对未识别数据集中的特征子串发现的问题进行实例论证,证明其高效性。(本文来源于《现代计算机(专业版)》期刊2015年18期)
冯思玲[7](2014)在《生物地理学优化算法及其在生物序列模式发现中的应用》一文中研究指出生物序列中的模式发现问题是当前生命科学领域中的热门研究问题之一,对理解基因的功能与调控作用有重大价值。基于字符串和基于概率的模式发现方法虽已取得很大成功,但也存在一些问题,如基于字符串的方法仅适合发现一些短的完全有约束的模式和对长序列模式的发现性能不高;基于概率的方法对初始数据较敏感且不能保证全局最优解。随着智能计算技术的迅速发展,进化计算以较强的全局搜索能力、初始条件的低敏感性、领域知识的非依赖性等优点受到关注,生物地理学优化算法(Biogeography-Based Optimization,BBO)作为一种新型的模拟自然界生物物种迁徙过程的进化算法,在提出的短短几年时间内已在许多领域获得成功应用。本文针对生物序列模式发现问题,分析了目前序列模式发现方法存在的问题,设计了生物地理学优化算法的叁种改进算法,并将之应用于序列模式发现问题,为序列模式的发现提供了新的有效解决方案。首先,本文通过分析BBO算法的特征,将其纳入群体智能算法之中,并借鉴群体智能的统一模型设计了BBO算法的模式及BBO的群体智能框架模型。将BBO算法纳入群体智能框架体系对BBO算法的理论及应用研究都有重要指导意义,同时对智能算法规律的探究和设计新的进化算法提供一些有益启示。其次,针对目前序列模式发现方法在发现模式的准确性及运行时间存在的不足,考虑到BBO算法较强的局部开发能力和全局探测能力,提出一种针对序列模式发现问题的改进的生物地理学优化算法。该算法改进了BBO算法的迁移算子和变异算子,同时使用集成化机制生成初始种群。提出的算法能以较快的收敛速度获得有意义的模式。在两个常用数据集上的实验结果表明改进后的BBO算法用于模式发现问题的正确性和有效性,为序列模式发现问题提供了一种新的解决方案。再次,为了增强BBO算法的开发能力及探测能力,提出一种增强算子的混杂生物地理学优化算法(Biogeography-Based Optimization/Differential Evolution/Generation,BBO/DE/GEN),BBO/DE/GEN算法利用差分进化算法的全局探测能力并结合生物地理学优化算法的局部开发能力,即借鉴差分进化改进BBO算法的变异算子,基于迭代次数改进BBO算法的迁移算子,并将BBO/DE/GEN算法用于全局数值优化问题及序列模式发现问题。对于全局数值优化问题,使用基准函数进行测试,并与BBO算法及BBO/DE(Biogeography-Based Optimization/Differential Evolution)算法比较,在求得的最优值和平均值方面均优于其它两种算法。对于序列模式发现问题,在常用的叁个实验数据集上的实验结果表明,对复杂的长序列数据,BBO/DE/GEN算法能预测到更多有意义的模式。进而说明BBO/DE/GEN算法具有良好的性能。最后,针对BBO/DE/GEN算法对少数基准函数的测试结果不理想,同时为了进一步提高预测模式的精度,提出了一种自适应参数的混杂生物地理学优化算法/差分进化算法(Adaptive Biogeography-Based Optimization/Differential Evolution/Generation,ABBO/DE/GEN),并将该算法应用于数值优化问题及序列模式发现问题。算法利用差分进化机制改进BBO算法的变异算子,基于迭代次数改进BBO算法的迁移算子,同时基于每一代适应度函数值与平均值之间的关系自适应的改变BBO算法的迁移概率和变异概率。在所有的基准函数上与BBO/DE/GEN算法比较,根据获得的最小值和平均值表明ABBO/DE/GEN算法有更好的性能。在序列模式发现问题上的实验结果也显示ABBO/DE/GEN算法比BBO/DE/GEN算法对长序列数据能发现更多的有意义的模式。(本文来源于《电子科技大学》期刊2014-03-15)
周大为[8](2013)在《蛋白质序列模式在细菌基因发现中的应用》一文中研究指出寻找遗漏基因是基因组注释中一项挑战性问题,即使对基因结构简单的原核基因组,基因遗漏的现象同样普遍存在。当基因与已知蛋白质缺乏显着同源关系时,作为基因预测最可靠途径的知识库检索方法就会失效。本文提出一种新的基因发现方法,通过搜索原核基因组中所有具备蛋白质序列模式特征的片段,寻找通常基因预测方法难以发现的基因。为研究该方法的有效性,本文系统研究了来源于气热菌属、棒状杆菌属、乳球菌属、乳杆菌属、片球菌属、链球菌属、和热酸菌属等7个属的22个原核基因组,利用InterProScan作蛋白质模式扫描并对,扫描结果进行了细致的比较基因组学和基因结构分析,发现1.所有(约40万个)与已知蛋白质序列无显着相似性的ORF(Open Reading Frame,开放读框)中,有7265个携带蛋白质序列模式,其中94%的蛋白质模式特征携带者是已注释基因,表明了在现实基因组序列背景下,模式特征与编码区之间良好的对应关系以及将模式特征扫描作为基因发现手段的合理性;2.在其余的6%(450个)GenBank未注释的ORF中,有395个在其他基因组中存在相似的ORF序列,另有323个ORF具有恰当的核糖体结合位点,这些额外的证据均支持这些ORF是可能的遗漏基因。基因组序列搜索还发现这450个ORF中有37个可能在进化过程中发生过移框或无义突变,为疑似假基因。还有10个ORF未找到其他证据;3.经过适当预处理,一个基因组的全基因组扫描约耗费100CPU小时,例如对Streptococcus mitis B6的扫描约耗时101CPU小时。这些结果证明蛋白质序列模式特征对于编码区有很高的覆盖率和很低的假阳性率,计算复杂性亦在可接受范围。因而蛋白质序列模式特征可以有效地发现原核基因组注释中的遗漏基因,弥补通常的从头预测方法和基于序列同源性方法的不足。(本文来源于《江南大学》期刊2013-06-01)
田彬[9](2012)在《基因启动子序列模式建模与发现》一文中研究指出启动子序列模式的建模与发现是基因表达与调控组织特异性模式发现的核心。研究表明,综合多个模式发现工具的结果覆盖度较高,但是需要消除冗余。目前,在消除模式冗余中缺乏变长模式的定长建模、高质量的模式相似性度量。针对上述问题,本文提出了变长模式的定长建模方法、基于概率的模式相似性度量以及无融合相似模式的层次聚类模式发现,提高了消除模式冗余的效果。针对模式长度可变的问题,本文在综合考虑了模式的位置信息量和双碱基依赖性的基础上,分别对二者进行特征提取,从而实现对模式建模的目的。模式上一个位置的信息量是指能描述这个位置重要度的信息,信息量越高表明这个位置的重要性越大。研究表明,不同位置上的碱基之间存在着相互影响,并且高保留的位置倾向于聚集到一起。本文基于来自JASPAR数据库的模式的分类分析,对两种建模方法进行了比较分析。为了提高模式相似性的计算,本文综合考虑了两个模式来自相同源分布的概率和来自独立源分布的概率,提出了基于概率的相似性度量。本文对分别具有25个类别的两组模拟数据集进行分类分析,实验结果表明基于概率的相似性度量在两种模式建模方法上的表现都是最好的。针对聚类分析过程中融合相似模式导致模式上碱基分布趋向于均匀分布的不足,本文提出无融合相似模式的层次聚类模式发现。同时,本文还针对聚类过程中的关键问题提出了解决方案:聚类质量评分函数;聚类族代表样本的选择;序列扫描匹配评分函数。本文首先综合上述关键技术对两种聚类方法进行实验比较,然后结合两组具有25个类别的模拟数据集对聚类质量评分函数进行分析评价,最后展示了来自人体心肌细胞的76个组织特异性基因产生的1417个模式的聚类分析结果,通过聚类得到38个冗余度低的候选模式。对于结果集,本文首先利用在线工具STAMP对结果进行与已知模式匹配度分析,然后利用来自人体的2852个组织特异性基因和13275个GO词汇对聚类得到的38个模式进行功能映射分析。并且,在每个方法结果集中出现频率前10的GO词汇的重合度达到60%,足以说明方法的可靠性。通过分析已有消除模式冗余方法的不足,本文提出了变长模式的定长建模方法、基于概率的相似性度量,提高了消除模式冗余的效率和质量。通过实验发现,本文提出的消除模式冗余方法得到的结果中部分是现存在的模式,得到的GO词汇绝大部分与心肌或细胞功能相关,表明结果具有一定的可信度。(本文来源于《天津大学》期刊2012-11-01)
郭烁,袁德成,黄明忠[10](2012)在《启动子序列模式发现的高斯混合模型》一文中研究指出模式发现是生物信息学的一个重要研究内容。本文应用机器学习的方法设计出自动发现生物序列模式的算法。利用高斯混合模型建立面向启动子序列模式发现的新模型。利用聚类分析算法确定模型的最优分量数,并为期望最大化算法提供初始值。用期望最大化算法进行参数估计。该算法能够辨识出分布在转录起始位点周围的大多数重要模式。本算法对其他功能序列的模式发现也是适用的。仿真结果表明,该算法与文献[10]相比,对不同模式的提取更有针对性,准确性更高。(本文来源于《第叁十一届中国控制会议论文集D卷》期刊2012-07-25)
序列模式发现论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的叁种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对叁种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
序列模式发现论文参考文献
[1].马双剑.行为序列模式识别在泛娱乐平台用户兴趣发现中的应用[D].对外经济贸易大学.2019
[2].李海林,邬先利.基于频繁模式发现的时间序列异常检测方法[J].计算机应用.2018
[3].韩旭.序列模式挖掘在临床路径发现问题中的研究与应用[D].中国科学技术大学.2017
[4].冯路.海量用户行为序列中的模式发现及应用[D].电子科技大学.2017
[5].陈潋,乐嘉锦,陈德华,冯洁莹.糖尿病临床诊断事件序列中频繁模式的发现算法[J].计算机与现代化.2016
[6].杜翠兰,鲁睿,付戈,赵淳璐,钮艳.用闭合序列模式实现特征子串的发现研究[J].现代计算机(专业版).2015
[7].冯思玲.生物地理学优化算法及其在生物序列模式发现中的应用[D].电子科技大学.2014
[8].周大为.蛋白质序列模式在细菌基因发现中的应用[D].江南大学.2013
[9].田彬.基因启动子序列模式建模与发现[D].天津大学.2012
[10].郭烁,袁德成,黄明忠.启动子序列模式发现的高斯混合模型[C].第叁十一届中国控制会议论文集D卷.2012