基于深度学习和推荐算法的基因组序列及功能研究

基于深度学习和推荐算法的基因组序列及功能研究

论文摘要

基因功能的研究,主要通过各种组学、算法和生物实验技术,将基因序列信息和基因功能联系起来。基因序列和功能研究不仅揭示了自然界中生物系统不同水平的生命活动规律,还与人类疾病防治、新药开发、抗性基因息息相关,推动着遗传学、发育生物学、医学、农学等学科发展。在信息时代,算法作为解决问题的重要工具之一,通过输入计算机识别的预处理信息,在短时间内快速获取所需要的输出,在各个领域中得到了广泛的应用。本文主要通过数学建模进行基因的序列和功能研究。本文第一部分将深度学习应用到人HIV-1病毒的染色质区整合位点预测上,取整合位点及其周围构成序列,kmer切分后,进行词向量训练,然后构建深度学习模型,加入注意力机制,对影响越大的特征给予越大的权重,提高模型性能(AUROC提高了大约0.01)。我们通过对训练集随机抽样构成不同的弱分类器,最后采用模型平均的策略集成学习。在深度学习中碱基序列编码方式上,我们比较了传统的onehot和基于词向量模型训练的word2vec、doc2vec、GloVe,发现GloVe具有最高的模型性能,AUROC为0.881、AUPRC为0.879。和其他模型对比,AUROC优于Min等人的LSTM-CNN模型0.645;我们平衡了正负样本,所以在AUPRC上也优于Hailin等人的0.511,AUROC也略高于Hailin等人的0.879。我们的模型具有更高的性能以及潜力,通过参数优化,也阐释了模型的有效性。本文第二部分基于推荐算法,通过多个lncRNA、蛋白质的相似性网络来预测lncRNA和蛋白质的相互作用关系。我们各取了3000条lncRNA、蛋白质,计算了它们的共表达相似性、基因序列相似性,构建成网络,通过重启随机游走算法来学习lncRNA、蛋白质的特征,最后通过双线性函数映射原理学习映射空间,对未发现的lncRNA-蛋白质的相互作用关系进行评分预测。经过十折交叉验证,取平均值,模型的准确率为0.971,AUROC达到了0.986,优于最新Xiao等人PLPIHS模型的0.968。模型可以对后续海量的基因相互作用提供思路,发现新的lncRNA-蛋白质相互作用关系,研究lncRNA的功能。

论文目录

  • 摘要
  • Abstract
  • 缩略语表
  • 1 绪论
  •   1.1 功能基因组学
  •     1.1.1 功能基因组学进展
  •     1.1.2 功能基因组学研究内容
  •     1.1.3 基因功能研究的方法
  •     1.1.4 基因序列和功能研究的意义
  •   1.2 深度学习
  •     1.2.1 深度学习的发展
  •     1.2.2 碱基序列在深度学习中的表示方法
  •   1.3 推荐算法
  •     1.3.1 推荐算法的发展
  •     1.3.2 推荐算法的分类
  •   1.4 本文工作内容介绍
  • 2 基于词向量的深度学习预测HIV-1 整合人染色质区位点
  •   2.1 前言
  •   2.2 材料和方法
  •     2.2.1 数据来源
  •     2.2.2 数据筛选和词向量训练
  •     2.2.3 数据集的构建
  •     2.2.4 模型的搭建
  •     2.2.5 模型及参数优化
  •   2.3 结果及分析
  •     2.3.1 模型参数优化结果及分析
  •     2.3.2 不同碱基序列表示方法的结果及分析
  •     2.3.3 模型(GloVe)结果分析
  •     2.3.4 不同模型的对比
  •   2.4 讨论
  • 3 基于多个相似性网络的lncRNA-protein相互作用预测
  •   3.1 前言
  •   3.2 材料和方法
  •     3.2.1 数据来源
  •     3.2.2 相似性矩阵的计算
  •     3.2.3 模型的搭建
  •   3.3 结果及分析
  •   3.4 讨论
  • 4 小结
  •   4.1 研究意义
  •   4.2 未来展望
  • 参考文献
  • 附录
  •   附录1 数据来源网址和工作环境
  •   附录2 DeepCA模型的补充结果
  •   附录3 双线性函数映射十折交叉补充结果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 王凯

    导师: 黄钰

    关键词: 基因序列,基因功能,深度学习,推荐算法

    来源: 华中农业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用,自动化技术

    单位: 华中农业大学

    分类号: TP18;TP391.3;Q811.4

    DOI: 10.27158/d.cnki.ghznu.2019.000644

    总页数: 74

    文件大小: 3433K

    下载量: 90

    相关论文文献

    • [1].基于在线评论的混合推荐算法[J]. 系统工程 2019(06)
    • [2].基于校企合作的情景感知推荐算法研究[J]. 海峡科技与产业 2019(06)
    • [3].融合时序的决策树推荐算法研究[J]. 现代计算机 2019(34)
    • [4].算法实践中的多义与转义:以新闻推荐算法为例[J]. 新闻大学 2019(12)
    • [5].教程推荐算法研究[J]. 信息与电脑(理论版) 2019(24)
    • [6].基于社交网络学习推荐算法的应用研究[J]. 信息系统工程 2019(12)
    • [7].垂直学习社区基于学习兴趣与风格的社会化推荐算法[J]. 小型微型计算机系统 2020(01)
    • [8].融合层次聚类和粒子群优化的鲁棒推荐算法[J]. 小型微型计算机系统 2020(01)
    • [9].智能推荐算法安全风险研究[J]. 广东通信技术 2019(07)
    • [10].基于门控循环单元与主动学习的协同过滤推荐算法[J]. 山东大学学报(工学版) 2020(01)
    • [11].电影智能推荐算法的潜在文化影响[J]. 电影艺术 2020(01)
    • [12].基于聚类和用户偏好的协同过滤推荐算法[J]. 计算机工程与应用 2020(03)
    • [13].基于会话的推荐算法研究综述[J]. 现代计算机 2019(36)
    • [14].基于兴趣点的多维度推荐算法研究[J]. 电脑知识与技术 2020(04)
    • [15].一种基于层次分析的多维属性混合推荐算法[J]. 渤海大学学报(自然科学版) 2019(04)
    • [16].一种时间加权的网络结构推荐算法[J]. 哈尔滨理工大学学报 2019(06)
    • [17].基于协同过滤的改进课程推荐算法[J]. 科技传播 2020(05)
    • [18].一种融合知识图谱与长短期偏好的下一项推荐算法[J]. 小型微型计算机系统 2020(04)
    • [19].个性化推荐算法中“信息茧房”与用户权利的思考[J]. 新闻研究导刊 2020(05)
    • [20].基于用户聚类的图书协同推荐算法研究[J]. 科技资讯 2020(09)
    • [21].适应情景变化的协同推荐算法[J]. 江西科学 2020(02)
    • [22].一种基于用户的协同过滤与人气排行榜的融合推荐算法[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [23].融合内容与矩阵分解的混合推荐算法[J]. 计算机应用研究 2020(05)
    • [24].基于链路预测的有向互动影响力和用户信任的推荐算法[J]. 计算机应用研究 2020(05)
    • [25].一种融合注意力和记忆网络的序列推荐算法[J]. 信息技术与网络安全 2020(05)
    • [26].基于综合因素的服装智能推荐算法研究[J]. 软件 2020(04)
    • [27].基于多元隐式信任关系挖掘的抗攻击社会化推荐算法研究[J]. 运筹与管理 2020(01)
    • [28].基于学习轨迹的学生培养模式智能推荐算法研究[J]. 科学技术创新 2020(13)
    • [29].基于注意力机制的神经网络贝叶斯群组推荐算法[J]. 计算机应用与软件 2020(05)
    • [30].基于云平台的慕课资源协同过滤推荐算法[J]. 微型电脑应用 2020(05)

    标签:;  ;  ;  ;  

    基于深度学习和推荐算法的基因组序列及功能研究
    下载Doc文档

    猜你喜欢