导读:本文包含了蛋白质亚细胞定位论文开题报告文献综述及选题提纲参考文献,主要关键词:稀疏编码,氨基酸组成,多层次池化,支持向量机
蛋白质亚细胞定位论文文献综述
陈行健,胡雪娇,薛卫[1](2019)在《基于多层次稀疏编码预测蛋白质亚细胞定位》一文中研究指出文中提出了一种简单有效的蛋白质亚细胞区间定位预测方法,为进一步了解蛋白质的功能和性质提供理论基础。运用稀疏编码,结合氨基酸组成信息提取蛋白质序列特征,基于不同字典大小对得到的特征进行多层次池化整合,并送入支持向量机进行分类。经Jackknife检验,在数据集ZD98、CH317和Gram1253上的预测成功率分别达到95.9%、93.4%和94.7%。实验证明基于多层次稀疏编码的分类预测算法能显着提高蛋白质亚细胞区间定位的预测精度。(本文来源于《生物工程学报》期刊2019年04期)
刘清华,赖裕平,丁洪伟,杨志军,崔晓龙[2](2019)在《基于SVM的蛋白质亚细胞定位预测》一文中研究指出首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。(本文来源于《计算机工程与应用》期刊2019年11期)
王春宇,徐珊珊,郭茂祖,车凯,刘晓燕[3](2019)在《基于Convolutional-LSTM的蛋白质亚细胞定位研究》一文中研究指出蛋白质亚细胞位置预测研究是目前蛋白质组学和生物信息学研究的重点问题之一。蛋白质的亚细胞定位决定了它的生物学功能,故研究亚细胞定位对了解蛋白质功能非常重要。由于蛋白质结构的序列性,考虑使用序列模型来进行亚细胞定位研究。尝试使用卷积神经网络(convolutional neural network,CNN)、长短期记忆神经网络(long short-term memory,LSTM)两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后构建了基于卷积的长短期记忆网络(Convolutional-LSTM)的集成模型进行亚细胞定位。首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。使用该模型能达到0.816 5的分类准确率,比传统方法有明显提升。(本文来源于《计算机科学与探索》期刊2019年06期)
李珊[4](2018)在《蛋白质亚细胞定位的机器学习方法及其应用研究》一文中研究指出蛋白质组研究的开展是生命科学研究进入后基因组时代的里程碑,也是继基因组研究之后的又一“大数据科学”。蛋白质亚细胞定位预测研究是蛋白质组学的重要内容同时也是生物信息学的热点问题。研究单位点和多位点的蛋白质亚细胞位点信息对研究某些疾病的发病机理、药物设计和发现具有重要意义。围绕蛋白质亚细胞定位的机器学习方法及其应用研究这一主题,本文主要工作如下:1.提出基于PsePSSM-DCCA-LFDA方法的凋亡蛋白质亚细胞定位预测。首先融合伪位置特异性得分矩阵(PsePSSM)和去趋势互相关分析(DCCA coefficient)对蛋白质序列进行特征提取,然后对提取后的特征信息使用局部Fisher判别分析(LFDA)进行降维,最后,将降维后的特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,在对于蛋白亚细胞定位预测的研究中,我们的方法在现有的方法中发挥补充作用。2.提出基于PseAAC-PsePSSM-WD方法的凋亡蛋白质亚细胞定位预测。首先融合伪氨基酸组成(PseAAC)和伪位置特异性得分矩阵(PsePSSM)对蛋白质序列进行特征提取,然后对提取后的特征信息进行二维小波降噪,最后,将降噪后的最佳特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,本文提出的方法能够显着提高凋亡蛋白质亚细胞定位的预测精度,而且有望用于蛋白质其它属性的预测。3.提出基于DMLDA-LocLIFT方法的多标记蛋白质亚细胞定位预测。首先分别利用伪氨基酸组成、伪位置特异性得分矩阵、分组重量编码、二肽组成和GO信息对蛋白质序列进行特征提取,并将五种算法融合。然后对融合的特征信息进行直接多标记线性判别分析(DMLDA)降维。最后,将降维后的最佳特征向量输入到标记特征的多标记学习算法(LIFT)分类器中预测多位点蛋白亚细胞的位置。通过jackknife检验,与其它预测方法进行比较,对革兰氏阴性菌、革兰氏阳性菌和植物数据集上的预测准确率达到目前最高的预测精度。结果表明,本文提出的DMLDA-LocLIFT模型能够有效的预测多位点蛋白质亚细胞定位。(本文来源于《青岛科技大学》期刊2018-06-05)
徐珊珊[5](2018)在《基于Convolutional-LSTM的蛋白质亚细胞定位研究》一文中研究指出细胞中的各类细胞器,通过相互之间的协同合作,共同完成细胞的生命活动。亚细胞定位是决定基因产物——蛋白质——功能注释的主要因素,靶向信号的知识使得复杂的药物设计成为可能。因此,蛋白质亚细胞定位研究对于某些疾病的致病机制的研究和新药物的开发非常重要。早期研究采用生物实验的方法,如荧光标记法、电子显微法、超速离心法等。然而,这些实验手段耗时巨大且花费极高,所以相关科研人员都希望能够找到更加高效的方法处理亚细胞定位问题。随着基因组学和蛋白质组学的迅速发展,各种生物信息学相关的数据量迅速增加。利用机器学习方法探索蛋白质亚细胞定位预测问题已成为近年来的热门话题。当前的比较主流的方法有:基于支持向量机的方法、基于最近邻规则的方法、基于人工神经网络的方法。这些方法应用在预测蛋白质亚细胞定位问题上取得了很好的效果,本文希望通过设计更好的生物特征和机器学习模型,有效的挖掘蛋白质数据中隐藏的信息,以获得更好的预测效果。本文使用卷积神经网络CNN、长短期记忆神经网络LSTM两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后,结合两者的优点,构建了基于卷积的常短期记忆网络Convolutional-LSTM的集成模型。具体而言,首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。随后又通过实验,探究不同空间位置的蛋白质对实验结果的影响,从蛋白质两端各截取长度为500的片段用于实验能获得更好的实验结果。最后,考虑到蛋白质氨基酸组分信息示、蛋白质状态信息、氨基酸的理化性质在最近邻方法中的表现,决定加入这叁种特征向量对Convolutional-LSTM模型进行指导,最终完成蛋白质亚细胞定位的预测。为了验证Convolutional-LSTM模型的有效性,本文选择10-折交叉验证的方法与其他算法进行对比。Convolutional-LSTM的方法在植物、真菌、动物叁类数据上的预测准确率能够达到82.0%、81.7%和96.8%,实验结果证明该方法是有效且高效的。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
王蕾[6](2018)在《基于重复信息测定与卷积神经网络的蛋白质亚细胞定位研究》一文中研究指出细胞由细胞膜、细胞核、内质网等被称为“亚细胞”的各部分组成,亚细胞的功能由位于其中的蛋白质执行。蛋白质的亚细胞结构被叫做蛋白质的“亚细胞位置”。蛋白质必须被运送到适当的亚细胞位置才能正常发挥功能,否则会产生机体功能紊乱和疾病,因而准确的了解亚细胞定位信息对于深入了解蛋白质的功能、细胞生命活动等具有重要意义。同时,蛋白质数据本身的海量、多模态、关联性、不完整等特征,使蛋白质亚细胞定位问题成为生物信息学领域具有挑战性的研究热点。蛋白质亚细胞定位问题一般分为叁个步骤,分别为特征提取、分类预测和算法评估。特征提取是最关键的一步。通过对蛋白质序列进行分析,提取主要特征,建立特征向量;分类预测是将特征提取的特征作为分类算法的输入送到不同的分类器中;算法评估是评估分类结果,判定特征提取方法和分类算法的优劣。本文围绕蛋白质亚细胞定位问题,主要进行特征提取方法和分类算法两个方面的研究。论文工作如下:(1)针对传统特征提取方法上的不足,本文提出叁种新的基于重复信息测定的特征提取方法,分别为R-Dipeptide、I-PseAAC、PseAAC2。其中,R-Dipeptide通过窗口移动测定关键信息,并通过增加关键重复信息提取二肽特征;I-PseAAC在R-Dipeptide的基础上,计算了每个残基与其之后残基的理化性质之间的差异,与传统的PseAAC方法相比,在提取蛋白质位置信息上做出了调整;PseAAC2则在R-Dipeptide的基础上,计算了每个残基的整体理化性质、每个残基与其他残基整体理化性质的乘积来反映不同残基之间的特征差异。实验结果证明,本文的特征提取方法在增加关键重复信息、提取不同的位置信息和比较残基间的整体理化性质差异等方面优于传统特征提取方法。(2)引入卷积神经网络进行蛋白质亚细胞定位。卷积神经网络具有特征的自动提取和归纳能力,基于前文涉及的特征提取方法,本文利用卷积神经网络对蛋白质亚细胞定位特征进行二次提取,进一步精炼特征,提高分类精度。与不同分类器进行实验比较,卷积神经网络算法在预测精度上优于多标签K近邻算法和支持向量机算法。(3)对卷积神经网络的一阶梯度下降训练算法进行了改进。实验结果显示,使用二阶算法的卷积神经网络均方误差的下降速度快于使用一阶算法的卷积神经网络。本文通过特征提取方法与分类算法两方面的研究,有效提高了蛋白质亚细胞定位问题的预测精度。(本文来源于《济南大学》期刊2018-06-01)
岳曜廷[7](2018)在《蛋白质亚细胞定位中的特征表达与降维算法研究》一文中研究指出随着后基因组时代的进入,作为蛋白质组学的一项分支,蛋白质亚细胞定位研究的热度与日俱增。蛋白质亚细胞定位研究中,基于蛋白质氨基酸序列的特征表达在定位预测阶段扮演着重要角色;很大程度上,它决定了亚细胞定位结果的好坏。提取蛋白质特征表达以后,通常会面临“小样本,高维数”的问题;因此,为了降低计算开销、减少数据噪声及增强小样本数据集的鲁棒性,使用降维算法处理高维特征表达是必要的。基于此,本文对蛋白质亚细胞定位中的特征表达与降维算法进行了深入研究与分析。本文的主要工作及创新之处概括如下:1.蛋白质有4种基本的、分类性能依次递增的单特征表达:氨基酸组成(AAC)、二肽组成(DipC)、伪氨基酸组成(PseAAC)和位置特异性得分矩阵(PSSM)。为了提高蛋白质亚细胞定位预测准确率,构造信息量丰富的特征表达是有效的方法之一。为此,本文新提出了一种先加权后相加的特征融合模型,通过融合多种单特征表达以形成新型复合特征。实验结果表明该复合特征表达所包含信息量大于被融和的单特征表达。其次,本文基于PSSM提出了一种新特征表达——相关性位置特异性得分矩阵(CoPSSM),经实验验证,CoPSSM的分类性能优于常用的PseAAC和 PSSM。2.核主成分分析(KPCA)与核线性判别分析(KLDA)是两种常用的非线性降维算法。实际应用中,不同的核函数及其不同的核参数将会对降维效果产生显着影响。基于此,本文先研究了单核函数及复合核函数的降维效果区别;而后,针对最优核参数的选取,本文新提出了一个距离判别准则,以将无监督降维算法KPCA改进为半监督降维算法。其次,基于遗传算法(GA),本文新提出了一个优化算法——二分贪心遗传算法(DGGA)去结合新提出的距离判别准则以对KLDA中的核参数进行优化搜索,从而对蛋白质亚细胞进行定位预测。实验结果表明,本文所提的距离判别准则及DGGA优化算法是有效的。(本文来源于《云南大学》期刊2018-05-01)
刘清华[8](2018)在《蛋白质序列信息提取方法及亚细胞定位预测研究》一文中研究指出人类基因组测序的完成导致未知功能和结构的蛋白质序列数目飞速增长,使用传统的生物数据处理方法认知这些蛋白质不仅耗时耗力耗材,而且处理速度已经远远落后于数据的增长速度。针对这个问题,本文对蛋白质亚细胞定位预测过程中的两项技术——特征提取和分类进行了以下改进:(1)提出一种新的改进型的序列特征提取方法,该方法基于特征融合,把氨基酸组成、熵密度和自相关系数结合起来进行特征表达,使用该方法构建的特征向量能够包含蛋白质序列中的氨基酸组成信息、氨基酸理化性质以及氨基酸残基的相关性信息,可以更好地表达蛋白质序列。选择得到广泛认可的支持向量机作为分类器,采用jackknife方法进行交叉检验,在两个数据集上与传统方法的预测效果进行对比,证明了新方法的有效性。(2)提出一种新的伪氨基酸组成方法,同时基于特征融合,提出一种改进型的序列特征提取方法,并提升了分类器的性能。新的伪氨基酸组成方法包含了更丰富的蛋白质物化性质,改进型的特征融合方法把新的伪氨基酸组成和基于PSSM矩阵提取的信息结合起来进行特征表达,该方法在结合氨基酸组成、氨基酸理化性质和氨基酸残基之间相互影响的基础上引入了蛋白质进化信息,包含的蛋白质信息更加丰富多元。在采用新方法提取信息的基础上,把多个支持向量机并联起来构建集成分类器,提高了预测性能,取得了理想的预测结果。(本文来源于《云南大学》期刊2018-05-01)
程浪[9](2018)在《基于特征选择融合和代价敏感学习的蛋白质亚细胞定位研究》一文中研究指出蛋白质分类预测通常包括如下四个步骤:(1)构建合理的蛋白质数据集;(2)特征描述方法把蛋白质信息转化为特征向量;(3)若数据集维度较高,需要进行降维处理;(4)建立分类模型对蛋白质分类预测;(5)用检验方法和评价指标衡量分类效果。如何提高蛋白质分类的精度和降低对内存的需求,一直都是研究者重点关注的问题。特征工程和分类算法是蛋白质分类预测研究问题中最关键的两项技术,直接决定着分类效果的好坏。特征工程决定分类效果的上限,而模型和算法只是尽可能达到该上限。因此本文以蛋白质亚细胞位置定位预测为主题,针对蛋白质亚细胞定位的特征表达、分类算法展开了相关的研究,主要工作和创新点如下:一、提出特征选择加权融合的方法对数据进行特征筛选,从而得到最优特征集合并降低数据维度。因为生物数据具有数据量大、维度高、计算复杂、耗时等特点,所以首先就要对获取的生物数据进行降维处理。本文提出SVM-Logistic-RFE算法,引入特征选择的方法,它不改变原始特征值,只消除冗余和不相关特征,选择最有用的那一部分特征,并将递归特征消除法(Recursive feature elimination method,RFE)和支持向量机(SVM)及Logistic回归相结合,分别对原始特征进行筛选,得到各自的最优子特征集合,并加权融合得到新的最优特征集合,最后利用K最近邻算法分类。实验表明:(1)采用特征选择后,分类效果明显增强了;(2)特征选择融合的分类效果和稳定性都比单一的特征选择好。二、针对蛋白质数据类别不平衡问题,本文提出基于代价敏感学习的贝叶斯决策树算法(NBDT-cs算法)。传统的蛋白质分类问题很少考虑到数据类别的不平衡性。在本文中,我们引入代价敏感学习概念,把代价增益作为决策树的属性选择,在决策树的叶子结点采用含代价期望的贝叶斯算法,提出基于代价敏感学习的贝叶斯决策树算法,该方法有有效解决蛋白质数据类别不平衡问题。实验表明:(1)该方法的分类效果比单一的贝叶斯算法、决策树算法都要好,略好于K近邻分类器;(2)在不降低总体分类精度的情况下,可以提高少数类别的分类精度。(本文来源于《云南大学》期刊2018-05-01)
温慧雄,刘泱,魏晗[10](2018)在《人类甲状腺组织蛋白质图像亚细胞定位预测》一文中研究指出近年来,甲状腺癌发病率呈指数增长,在社会关注度与日俱增的同时,针对人类甲状腺组织的蛋白质亚细胞位置信息的注释已经成为生物信息学领域的研究热点。近年来,随着成像技术的突飞猛进,更加容易的获得高分辨率显微图片。传统的基于氨基酸序列的蛋白质亚细胞预测研究的成本昂贵、耗时长,工作量大,因此建立一种自动分析亚细胞模式预测系统来对蛋白质进行研究势在必行。基于这一点,本文着眼于人类甲状腺组织蛋白质图像,从人类蛋白质图谱库中整理出165个蛋白质中的761幅蛋白质图像的基准数据集进行实验。首先,对蛋白质图像中的蛋白质通道与DNA通道信号分离;然后,将分离出的蛋白质图像信号进行特征提取和特征选择,最后,训练基于支持向量机的分类器模型实现模式分类。实验结果表明,分类模型的识别精度高于现有文献报道的模型,预测准度为58.53%;另一方面,基于图像信号的蛋白质亚细胞定位预测可以很好地以辅助或代替人工注释工作,并具有辅助临床判断、缩短新型药物开发周期以及保障全民健康的宏观意义。(本文来源于《计算机产品与流通》期刊2018年01期)
蛋白质亚细胞定位论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
蛋白质亚细胞定位论文参考文献
[1].陈行健,胡雪娇,薛卫.基于多层次稀疏编码预测蛋白质亚细胞定位[J].生物工程学报.2019
[2].刘清华,赖裕平,丁洪伟,杨志军,崔晓龙.基于SVM的蛋白质亚细胞定位预测[J].计算机工程与应用.2019
[3].王春宇,徐珊珊,郭茂祖,车凯,刘晓燕.基于Convolutional-LSTM的蛋白质亚细胞定位研究[J].计算机科学与探索.2019
[4].李珊.蛋白质亚细胞定位的机器学习方法及其应用研究[D].青岛科技大学.2018
[5].徐珊珊.基于Convolutional-LSTM的蛋白质亚细胞定位研究[D].哈尔滨工业大学.2018
[6].王蕾.基于重复信息测定与卷积神经网络的蛋白质亚细胞定位研究[D].济南大学.2018
[7].岳曜廷.蛋白质亚细胞定位中的特征表达与降维算法研究[D].云南大学.2018
[8].刘清华.蛋白质序列信息提取方法及亚细胞定位预测研究[D].云南大学.2018
[9].程浪.基于特征选择融合和代价敏感学习的蛋白质亚细胞定位研究[D].云南大学.2018
[10].温慧雄,刘泱,魏晗.人类甲状腺组织蛋白质图像亚细胞定位预测[J].计算机产品与流通.2018