基于RNA序列甲基化位点识别方法和应用的研究

基于RNA序列甲基化位点识别方法和应用的研究

论文摘要

RNA甲基化修饰是指在RNA序列的不同位置产生转录后修饰的现象,目前已经被发现甲基化修饰达到150多种,其中最为常见的两种分别是5-甲基胞嘧啶(5-methylcytosine,m5C)和6-甲基腺嘌呤(N6-methyladenosine,m6A)。上述两种常见的修饰位点不仅对酵母菌细胞的命运起到重要的作用,还对人类,动物的胚胎发育具有一定的调控作用。因此从RNA序列中精确识别m5C位点和m6A位点对于深入了解两种修饰位点的机制和功能十分有益。由于使用湿实验技术鉴别甲基化位点需要面临众多困难和昂贵的成本,因此迫切需要开发一种基于机器学习的,并能够快速准确预测甲基化位点的方法。在本文中,为了进一步提高甲基化位点预测模型的性能,主要做了以下工作:(1)设计一种基于核酸物化学属性冗余度度量的K重启发式约简(Heuristic Physical-Chemical Reduction,HPCR)算法,通过使用该约简算法获得K组物化属性约简子集来重新编码RNA样本,并结合支持向量机(Support vector machine,SVM)训练获得K个基分类器,然后通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m6A数据集上,Mcc和AUC的预测精度分别达到了0.454和0.784。在m5C数据集上,Mcc和AUC的预测精度分别达到了0.859和0.962。(2)设计基于统计方法的特征编码方法和分类器集成算法,通过使用该算法对RNA样本采用三种特征编码方式,并结合SVM训练获得三个基分类器,再通过使用分类器集成算法构建最终的甲基化位点预测器;最后,在两种基准数据集上分别采用Jackknife测试法进行验证。最终实验结果表明,基于该算法所构建的预测器优于目前最优的甲基化位点预测器。在m6A数据集上,Mcc和AUC的预测精度分别达到了0.542和0.829。在m5C数据集上,Mcc和AUC的预测精度分别达到了0.95和0.992。(3)为了便于其他研究人员的使用,本文还设计实现了甲基化位点在线预测网站。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景和意义
  •   1.2 甲基化位点的国内外研究现状
  •     1.2.1 基于传统的湿实验方法的研究现状
  •     1.2.2 基于智能计算方法的研究现状
  •   1.3 研究目标与内容
  •   1.4 文章结构
  • 第2章 甲基化位点预测流程概述
  •   2.1 甲基化位点预测流程
  •   2.2 RNA序列概述
  •     2.2.1 RNA分子
  •     2.2.2 RNA序列的结构
  •   2.3 甲基化位点概述
  • 5C甲基化位点'>    2.3.1 m5C甲基化位点
  • 6A甲基化位点'>    2.3.2 m6A甲基化位点
  •   2.4 基准数据集描述
  • 5C位点数据集'>    2.4.1 m5C位点数据集
  • 6A位点数据集'>    2.4.2 m6A位点数据集
  •   2.5 特征表示方法
  •   2.6 分类器
  •     2.6.1 K近邻
  •     2.6.2 贝叶斯
  •     2.6.3 随机森林
  •     2.6.4 支持向量机
  •   2.7 分类器集成
  •     2.7.1 分类器集成方法
  •     2.7.2 集成学习的结合策略
  •   2.8 验证方法
  •   2.9 性能评价指标
  •   2.10 本章小结
  • 第3章 基于核酸物化属性方法的甲基化位点预测
  •   3.1 问题描述
  •   3.2 核酸物理化学属性
  •   3.3 基于核酸物理化学属性的特征表示方法
  •     3.3.1 基于伪核苷酸组成成分的方法
  •     3.3.2 基于自协方差和互协方差变换的方法
  •   3.4 核酸物理化学属性约简算法
  •     3.4.1 核酸物理化学属性冗余度度量
  •     3.4.2 K重启发式约简算法
  •   3.5 构建预测模型
  •     3.5.1 支持向量机算法
  •     3.5.2 在线预测网站的建立
  •   3.6 实验结果与分析
  •     3.6.1 参数优化
  •     3.6.2 核酸物化属性冗余度度量结果
  •     3.6.3 启发式物化属性约简结果与分析
  • 5C和 m6A位点预测器比较'>    3.6.4 与现有的m5C和 m6A位点预测器比较
  •   3.7 本章小结
  • 第4章 基于统计方法的甲基化位点预测
  •   4.1 问题描述
  •   4.2 基于统计的特征表示方法
  •     4.2.1 位置特异性单核苷酸特征
  •     4.2.2 位置特异性二核苷酸特征
  •     4.2.3 二值编码特征
  •   4.3 构建预测模型
  •   4.4 实验结果与分析
  •     4.4.1 单特征的实验结果与分析
  •     4.4.2 与现有预测器对比的实验结果与分析
  •   4.5 本章小结
  • 第5章 甲基化位点在线预测网站的设计与实现
  •   5.1 问题描述
  •   5.2 系统概述
  •     5.2.1 系统结构
  •     5.2.2 开发工具及相关技术
  •     5.2.3 服务器配置
  •   5.3 系统设计与实现
  •     5.3.1 主页面界面
  •     5.3.2 数据处理结果界面
  •     5.3.3 其他界面
  •   5.4 本章小结
  • 第6章 总结与展望
  •   6.1 本文工作总结
  •   6.2 展望
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 徐妍

    导师: 张明

    关键词: 甲基化,启发式约简算法,支持向量机,分类器集成

    来源: 江苏科技大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 江苏科技大学

    分类号: Q811.4

    DOI: 10.27171/d.cnki.ghdcc.2019.000169

    总页数: 73

    文件大小: 1237K

    下载量: 32

    相关论文文献

    • [1].一种新的分析RNA相似性的方法[J]. 长春师范学院学报(自然科学版) 2010(06)

    标签:;  ;  ;  ;  

    基于RNA序列甲基化位点识别方法和应用的研究
    下载Doc文档

    猜你喜欢