导读:本文包含了基因识别算法论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:基因,算法,相位,周期性,功率,精确性,数据。
基因识别算法论文文献综述
李杏[1](2018)在《基于多元数据融合的癌症亚型驱动基因识别算法研究》一文中研究指出乳腺癌是女性中最常见的恶性肿瘤之一,同时是一种异质性疾病。癌症亚型特异性驱动基因的识别对乳腺癌的诊断、预后和治疗具有重要意义。随着下一代测序技术的快速发展,一些大规模的基因组学项目提供了多种癌症类型的大量的多组学数据,其中包括转录组学、基因组学和蛋白质组学等,为全面展开对乳腺癌的分子驱动机制的研究创造了一个前所未有的机会。如何通过整合分析多种类型的组学数据,从突变数据中识别出驱动基因是探索癌症进展的一大挑战。目前还没有稳健的模型能够从这些高异质、强相关的数据中挖掘出乳腺癌亚型相关的驱动基因与驱动通路。因此本论文基于多元数据融合来对驱动基因进行识别研究,从分子亚型来探索与患者预后相关的分子机制。本文的主要工作包括以下两点:(1)提出了一种基于模块网络的数据整合方法来识别亚型特异性驱动基因。首先针对高异质性乳腺癌数据在亚型之间进行差异表达分析,选出差异表达显着的基因数据子集,基于频率方法选出亚型候选调控基因;然后对每一种亚型,利用聚类方法构建初始模块,然后通过模块网络学习建立异质性网络,通过回归树模型建立起不同组学数据之间的调控机制,从而得到最终的模块和亚型驱动基因。最后为了验证驱动基因的特异性,本文利用基因表达数据基于十层交叉验证来分类样本,并通过拓扑通路分析和功能性分析来验证其生物意义。实验结果表明该方法是切实可行的,提出的整合方法能够识别出潜在的驱动基因,并且该方法相比于其他方法识别出的驱动基因能够较好的对癌症进行区分亚型。(2)提出了一种基于通路网络的驱动通路与驱动基因识别方法。通过整合拷贝数突变数据、基因相互作用网络数据和同源信息数据来识别出亚型的驱动突变。首先基于基因在所有通路中出现的频率和通路网络中基因的度来计算基因的初始权重;然后针对通路网络相互作用图,利用拷贝数突变和同源信息对通路网络中的点和边计算得分;进而计算整个通路网络的得分,通过排序选择出重要的驱动突变通路,同时选择出驱动通路中重要的驱动基因。为了验证选出的驱动基因的特异性,同样进行了亚型分类验证。针对选择的驱动通路和驱动基因进行通路活性分析和富集分析,并结合临床数据对通路进行生存分析。实验结果表明该方法的有效性,对于乳腺癌亚型的治疗具有参考价值,对了解乳腺癌的致病机制具有重要意义。(本文来源于《湖南大学》期刊2018-05-15)
马宏兴,姜海波[2](2017)在《一种改进的基因识别快速算法》一文中研究指出基因是生物遗传中的信息携带者,其中外显子带有基因中的遗传信息,是基因识别领域中重点研究对象。目前的研究方法是根据外显子的频谱-3周期性的特征,对它进行离散傅里叶变换(DFT),在其P(N/3)点处判别其峰值,来识别其是否为外显子。针对其方法计算量很大,运行时间长的缺点,将稀疏矩阵与原始的离散方法傅里叶变换相融合,改进其算法的难度和计算量,使其计算时间大大缩减。通过实验验证,证明改进后算法的可行性和高效性。(本文来源于《中国科技信息》期刊2017年23期)
郭睿[3](2016)在《基于序列统计特征的基因识别算法研究》一文中研究指出面对世间纷繁浩瀚的模式生物的全基因组数据,能够高效、精准的识别其中可编码蛋白的基因序列具有非常巨大的实用意义。这种意义致使基因识别作为生物信息学研究和发展的基础,向来备受学者们的青睐。传统的研究方式主要依托于繁琐的生物实验,过程缓慢且耗时耗力。本文则主要依托信号处理的理论和方法,如傅里叶变换、滤波器算法、智能计算、统计学习等,从序列统计特征的角度对该问题加以深入研讨。而周期3性质作为一项重要的统计特征一直被广泛地应用于基因识别中。为了获得更好的识别性能,研究者们在基因序列的信号滤波处理以及周期3特征强化方面做出了很大的研究贡献,但仍然存在很大的不足。本文针对固定步长LMS自适应滤波器算法在基因预测中存在的问题,结合系统的反馈输出和基因序列碱基组成成份的特征信息,提出一种新的具有更好滤波效果和强化周期3特征功能的变步长LMS自适应滤波器改进算法,通过仿真实验分析验证算法性能。研究表明,与现有算法相比,所提算法精度优越性较为明显。另外,针对短基因序列存在的特征信息较弱,不利于基因识别的问题,本文也提出一种新的依据各单特征表征能力而加权融合多特征的改进算法,着重分析其在序列长度低于200 bp的短基因数据集中的识别性能,与传统多特征融合算法相比,所提算法是有效的、鲁棒的。结合上述两方面的研究,本文实现一个结合了数字信号处理技术和多特征融合优势的人类基因组专用的基因识别系统。该系统因摆脱了对条件随机场、隐马尔科夫模型和支持向量机等传统机器学习方法的依赖,具有实现简单、无需训练保存大量模型参数、不过多受已有训练数据集知识结构影响以及可实时识别等特点。并通过基准测试数据集ALLSEQ和HMR195综合验证系统性能。(本文来源于《哈尔滨工业大学》期刊2016-12-01)
周朝栋,张有全,许竞文,刘梦思[4](2017)在《基于变动窗口和移动序列的基因识别算法》一文中研究指出采用信号处理技术来识别DNA碱基序列中的基因片段的方法,已经成为一种重要的基因识别途径,重新编码的DNA序列存在大量噪声信息,使得目前很多识别算法无法准确的识别外显子片段的起始位置。本研究通过对"固定长度滑动窗口-频谱曲线法"和"移动序列-信噪比法"的实现与改进,提出了一种基于变动窗口和移动序列的基因识别算法。首先,对已有基因识别算法进行编程实现;采用小波分析对识别结果进行消噪处理;探讨识别最优固定长度M的选择,提出基于变动窗口和移动序列的基因预测模型,并编程实现。最后使用该模型对已有基因序列进行识别,其识别准确度达到77.57%。(本文来源于《基因组学与应用生物学》期刊2017年06期)
王飞宇,郑紫微,杨任尔[5](2016)在《基于全相位频谱分析的基因识别算法研究》一文中研究指出为对未知基因序列的编码区进行预测,利用基因编码区存在的频谱3-周期性质,在传统的固定窗口长度滑动窗算法的基础上,提出了一种改进型的基因识别算法.新算法将全相位谱分析技术与多采样率数字信号处理技术相结合,有效地降低了传统滑动窗算法中存在的截断效应,减少了计算量并且可实现流水线操作.最后通过计算机仿真将该算法所得结果与其他识别算法所得结果相比较,结果表明该算法在核苷酸水平上有较高的预测准确性.(本文来源于《宁波大学学报(理工版)》期刊2016年02期)
姜林,刘湘伟[6](2015)在《基因识别的综合优化算法及精确性分析》一文中研究指出针对现有算法难以精确地确定基因外显子的2个端点,结合"基于固定长度滑动窗口上频谱曲线的基因识别方法"、"基于DNA序列上"移动序列"信噪比曲线的基因识别方法"、"小波算法"3种方法,采用综合优化算法对基因进行识别,最后通过误差评估验证了算法的精确性。(本文来源于《舰船电子对抗》期刊2015年01期)
王飞宇[7](2014)在《基于全相位数字信号处理的基因识别算法研究》一文中研究指出DNA序列是遗传物质的载体,它由四种碱基按照一定顺序组合而成。在一整段DNA序列中,只有其中一部分能够被编码成蛋白质,称为基因的外显子。而不能被编码成蛋白质的序列称为内含子。基因识别算法的目的是从未知的DNA序列中检测出有效的外显子片段。本文通过信号处理的方法检测未知基因中的编码区的位置。对基因信号做数字信号处理的第一个步骤是对DNA序列做数值映射,通过数值映射将符号序列转化为相应的数值序列,然后通过信号处理方法分析其频域特性。由于基因编码区的频谱具有叁周期性,这种性质通常是由编码区密码子的偏性造成的。故可以由此特征来识别基因的外显子与内含子。针对DNA序列的数值映射问题,本文分析并研究了DNA序列的几种常用的数值映射。在叁种最常用的且物理意义较明确的数值映射下,推导了DNA序列功率谱与信噪比的快速算法。讨论了叁者之间的相互关系,并给出了矩阵形式的闭式表达式。针对基因识别问题,传统的谱分析方法对数据进行截断时会造成频谱泄露,影响基因识别的准确度。为了减少频谱泄露,抑制背景噪声,本文将全相位数字信号处理技术应用到基因识别算法中。此项技术通过对原始数据进行全相位数据预处理,保持数据截断后首尾波形的连续,因而极大程度上减少了截断效应。本文针对基因识别算法设计相应的全相位FFT谱分析结构,以此来提取出基因内部的叁周期信号,达到对基因外显子准确预测的目的。同时将多采样率信号处理模型与谱分析结构相结合,在减少计算量的同时可实现流水线操作。为了进一步提取DNA序列中的叁周期信号,提高基因识别的准确率。本文将全相位FIR模型与基因识别算法相结合,设计了适合于基因预测的全相位窄带滤波器。由于全相位FIR滤波器具有严格的线性相位,并且具有相位不变性,则又将相位旋转算法与全相位FIR滤波相结合,可以得到更为准确的预测结果。最后一节中引入定量的评价指标来对各种不同基因识别算法的效果做出评价,实验结果证明了该算法在核苷酸水平上有较高的预测准确性。(本文来源于《宁波大学》期刊2014-06-15)
陈爱明[8](2014)在《基于频谱分析的基因识别算法研究》一文中研究指出随着生物信息学与计算机技术、数学、物理等学科交叉发展,基因研究工作也逐步进入后基因时代。面对日益膨胀的海量基因数据,及时有效“读懂”数据,挖掘具有生物意义的知识成为基因识别重要目标,而达到此目标,最直接的途径是拥有快速、高效、精确的基因识别算法。由于基因编码区3-周期性的发现,谱分析引起了基因识别领域研究者们的极大关注,并涌现出了一批基于谱分析的基因识别算法,其中Voss与Z_curve是目前两种最常用的基因识别方法。鉴于Voss与Z_curve算法各自存在的缺点与不足,本文首先通过探究Voss与Z_curve算法中计算DNA序列功率谱、信噪比的原理,得到了其功率谱、信噪比的相应关系。在此基础上,提出了二次型频数快速算法(QF3),该算法不但保证了输出值能直接展示真实值,而且避免了DFT的计算过程。最后通过EMBL基因库的标准基因序列数据检验了QF3算法的优越性,同时得到QF3算法具有很低的灵敏度,其运行时间受DNA序列长度影响较小。在获得信噪比基础上,综合应用统计学的靴带抽样算法与SVM二分类算法,以确定信噪比阈值。通过实验对比分析两种算法在信噪比阈值确定问题中的优越性,得到了SVM算法分类的正确率更高,特别是在小样本情况下,基于SVM算法在信噪比阈值确定中效果更佳。对于基因识别工作至关重要的编码区定位问题,为解决常用的“固定长度窗口滑动频谱曲线法”与“移动序列信噪比曲线识别法”定位精度不够高问题,在结合两算法得到编码区大致范围基础上,借助生物工具sequence viewer对区间端点进行调整,提出了定长窗口序列移动曲线法(FWSMC)。FWSMC曲线法不仅可以提高定位精度,而且实验过程非常严谨,输出结果具有极强的直观效果。在论文的最后一章,对本文中所提出的新算法综合应用,对给定的五个未被注释的DNA序列进行综合仿真实验,成功识别并精确定位了每个序列的基因编码区,同时实现了对各序列所属物种的判定。(本文来源于《华南理工大学》期刊2014-05-25)
王璐[9](2014)在《基于统计的基因识别问题及其算法研究》一文中研究指出基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。然而,由于人类已经获得了巨大数量的基因组信息,依靠较慢的实验分析已不能满足基因识别的需要。随着计算机技术的发展,利用计算机算法识别基因逐渐成为基因识别的主要手段。在面对大量复杂的基因序列数据时,怎样更好更快捷地获取准确的基因遗传信息,怎样在大量的基因序列数据中成功计算功率谱和信噪比,如何快速实现基因识别,具有重要的现实意义和应用价值。本文将通过多元统计分析的相关方法研究基因特征提取和基因识别,建立基因特征提取、基因识别的数学模型,并通过计算机手段进行实现。本文首先通过信号处理方法,采用Voss映射、Z-curve映射,把抽象的符号序列映射成数值序列,并绘制出频谱图,建立了功率谱和信噪比的快速计算方法;通过推导,得到了“Z-curve映射和Voss映射所获得的基因数据的功率谱和信噪比之间”均有倍数关系的结论,且其功率谱P的比例系数是4,信噪比R之间的比例系数是4;本文还建立了频谱和信噪比基因识别模型,并将其应用于基因突变数据研究,获得了相应的结论。(本文来源于《西安建筑科技大学》期刊2014-05-01)
沈洁,郭文雯,刘秀敏[10](2014)在《基因识别问题及其算法实现(下)》一文中研究指出利用序列的频谱曲线和信噪比曲线,建立基因识别的简化算法.提出可变窗宽的DFT算法,代数推导出Voss映射和Z-curve映射下频谱和信噪比的函数关系.运用Bootstrap算法,在精度指标下比较四组具有代表性的基因序列的阈值.(本文来源于《首都师范大学学报(自然科学版)》期刊2014年02期)
基因识别算法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
基因是生物遗传中的信息携带者,其中外显子带有基因中的遗传信息,是基因识别领域中重点研究对象。目前的研究方法是根据外显子的频谱-3周期性的特征,对它进行离散傅里叶变换(DFT),在其P(N/3)点处判别其峰值,来识别其是否为外显子。针对其方法计算量很大,运行时间长的缺点,将稀疏矩阵与原始的离散方法傅里叶变换相融合,改进其算法的难度和计算量,使其计算时间大大缩减。通过实验验证,证明改进后算法的可行性和高效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基因识别算法论文参考文献
[1].李杏.基于多元数据融合的癌症亚型驱动基因识别算法研究[D].湖南大学.2018
[2].马宏兴,姜海波.一种改进的基因识别快速算法[J].中国科技信息.2017
[3].郭睿.基于序列统计特征的基因识别算法研究[D].哈尔滨工业大学.2016
[4].周朝栋,张有全,许竞文,刘梦思.基于变动窗口和移动序列的基因识别算法[J].基因组学与应用生物学.2017
[5].王飞宇,郑紫微,杨任尔.基于全相位频谱分析的基因识别算法研究[J].宁波大学学报(理工版).2016
[6].姜林,刘湘伟.基因识别的综合优化算法及精确性分析[J].舰船电子对抗.2015
[7].王飞宇.基于全相位数字信号处理的基因识别算法研究[D].宁波大学.2014
[8].陈爱明.基于频谱分析的基因识别算法研究[D].华南理工大学.2014
[9].王璐.基于统计的基因识别问题及其算法研究[D].西安建筑科技大学.2014
[10].沈洁,郭文雯,刘秀敏.基因识别问题及其算法实现(下)[J].首都师范大学学报(自然科学版).2014