抗癌药物反应预测模型中的特征选择算法研究

抗癌药物反应预测模型中的特征选择算法研究

论文摘要

大量临床数据表明,患有同种癌症的不同患者,由于病人基因的特异性,对同一种治疗手段或药物往往有不同的反应。因此考虑基因特异性影响的靶向药物治疗已成为一种新兴的癌症治疗手段。然而病人体内是否存在抗癌药物的靶向基因对治疗效果影响较大,并且临床上抗癌药物的筛选研究存在多方面的挑战:实验环境要求高、等待反应时间长以及耗资巨大等。生物信息学的快速发展,将肿瘤细胞的基因组数据与药物相关数据整合成大型数据库,结合机器学习算法在细胞水平上对药物反应进行预测,为多种靶向抗癌药物的筛选提供有利依据。本文基于肿瘤细胞系的基因表达数据和抗癌药物反应值IC50,进行特征选择算法的研究,从而建立可靠准确的抗癌药物反应预测模型,主要包括以下三方面的工作:(1)对CCLE中的癌细胞系基因组数据与抗癌药物反应数据进行关联性分析,发现基因表达数据分布集中并且与IC50之间的相关性较为显著,更适用于预测药物反应。然后结合药物反应值计算相关系数的假设检验p值,按一定阈值选择的基因之间存在群组相关性,为后续工作中特征选择算法的研究以及回归模型的构建提供一定的依据。(2)针对基因特征数据的“维数灾难”问题,将处理高维特征的评价筛选与惩罚最小二乘系数收缩的方法结合使用。首先使用SIRS算法计算21种抗癌药物的IC50与各个基因表达的边际度量值进行初步筛选,并使用Pearson相关系数的假设检验进行对比;然后结合不同的惩罚最小二乘系数收缩的方法:LASSO、Elastic Net、SCAD,作精确特征选择,为建立可靠的回归预测模型提供有效的预测变量。(3)由于SIRS算法更适用一般模型,且Elastic Net兼顾LASSO与岭回归的变量选择与群组效应优势,研究中使用SIRS_Elastic Net方法进行特征选择,并与CCLE数据发布的论文中的Elastic Net算法模型进行对比,并且比较评价筛选与系数收缩的不同结合对模型结果的影响。然后对肺部癌细胞系单独进行预测分析,并且通过对预测基因变量的富集分析来了解基因的分子生物学功能信息以及在信号通路中的作用。本文基于CCLE数据对21种抗癌药物反应进行预测,侧重于回归模型中的特征选择算法研究,将评价筛选与系数收缩进行有效结合,采用SIRS_Elastic Net作特征选择,提高了模型预测的准确度,大多数药物得到的决定系数达到0.7以上,同时对肺癌进行单独研究的预测模型决定系数达到0.95左右。并且通过富集分析发现预测基因所对应的分子功能及通路信息与抗癌药物具有生物学相关性,这为后续研究药物的靶向基因提供了一定的基础,同时有助于新的抗癌药物的筛选研究。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究背景及意义
  •     1.1.1 癌症与精准医疗
  •     1.1.2 抗癌药物筛选的研究与发展
  •     1.1.3 研究意义
  •   1.2 研究现状及分析
  •     1.2.1 几大药物基因组学数据库
  •     1.2.2 抗癌药物反应预测的研究现状
  •     1.2.3 高维数据特征筛选问题的研究现状
  •   1.3 研究内容及本文结构
  • 2 药物基因组学数据描述及可视化
  •   2.1 抗癌药物反应值
  •   2.2 癌细胞系基因组数据
  •   2.3 相关性分析
  •   2.4 本章小结
  • 3 基于基因表达数据的特征选择
  •   3.1 高维数据的评价筛选
  •     3.1.1 基于Pearson相关系数的假设检验
  •     3.1.2 SIRS算法
  •   3.2 惩罚最小二乘估计与变量选择
  •     3.2.1 最小二乘法
  •     3.2.2 LASSO算法
  •     3.2.3 Elastic Net算法
  •     3.2.4 SCAD算法
  •   3.3 特征选择结果
  •   3.4 本章小结
  • 4 抗癌药物反应预测的回归模型
  •   4.1 交叉验证与模型的性能度量
  •   4.2 惩罚回归模型构建
  •   4.3 CCLE数据的模型预测结果
  •     4.3.1 相关系数结果对比
  •     4.3.2 基于不同特征选择方法的回归算法模型结果对比
  • Elastic Net算法的肺部癌细胞系的药物反应预测'>  4.4 基于SIRSElastic Net算法的肺部癌细胞系的药物反应预测
  •     4.4.1 抗癌药物反应预测模型结果
  •     4.4.2 基因富集分析
  •   4.5 本章小结
  • 结论与展望
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 孙七凡

    导师: 顾宏

    关键词: 抗癌药物反应预测,特征选择,惩罚最小二乘估计

    来源: 大连理工大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 数学,肿瘤学

    单位: 大连理工大学

    分类号: O212.1;R730.5

    DOI: 10.26991/d.cnki.gdllu.2019.002774

    总页数: 65

    文件大小: 3009K

    下载量: 35

    相关论文文献

    • [1].基于指数损失间隔的多标记特征选择算法[J]. 计算机技术与发展 2020(04)
    • [2].基于?_(2,1)范数的在线流特征选择算法[J]. 计算机与数字工程 2019(06)
    • [3].森林优化特征选择算法的增强与扩展[J]. 软件学报 2020(05)
    • [4].基于自步学习的半监督特征选择算法研究[J]. 电脑知识与技术 2020(15)
    • [5].基于图的特征选择算法综述[J]. 安徽大学学报(自然科学版) 2017(01)
    • [6].面向高维微阵列数据的集成特征选择算法[J]. 计算机工程与科学 2016(07)
    • [7].基于支持向量机的特征选择算法综述[J]. 信息工程大学学报 2014(01)
    • [8].一种改进的文本分类特征选择算法[J]. 微电子学与计算机 2011(12)
    • [9].基于邻域交互增益信息的多标记流特征选择算法[J]. 南京大学学报(自然科学) 2020(01)
    • [10].大数据中基于稀疏投影的在线特征选择算法[J]. 湖南科技大学学报(自然科学版) 2018(03)
    • [11].一种改进的动态流特征选择算法[J]. 计算机工程与应用 2012(18)
    • [12].特征选择算法研究综述[J]. 安徽广播电视大学学报 2019(04)
    • [13].多标记特征选择算法的综述[J]. 郑州大学学报(理学版) 2020(04)
    • [14].一种改进的类别区分词特征选择算法[J]. 计算机与现代化 2019(03)
    • [15].特征选择算法及应用综述[J]. 办公自动化 2018(21)
    • [16].海量高维数据下分布式特征选择算法的研究与应用[J]. 科技通报 2013(08)
    • [17].全局调距和声特征选择算法[J]. 计算机工程与应用 2019(02)
    • [18].基于标记权重的多标记特征选择算法[J]. 计算机科学 2017(10)
    • [19].多标记不完备数据的特征选择算法[J]. 计算机科学与探索 2019(10)
    • [20].一种基于支持向量数据描述的特征选择算法[J]. 智能系统学报 2015(02)
    • [21].基于多视角学习和注意力的特征选择算法[J]. 北京交通大学学报 2020(05)
    • [22].基于XGBoost的特征选择算法[J]. 通信学报 2019(10)
    • [23].用于轴承表面缺陷分类的特征选择算法[J]. 轴承 2018(01)
    • [24].基于森林优化特征选择算法的改进研究[J]. 软件学报 2018(09)
    • [25].面向代价敏感的多标记不完备数据特征选择算法[J]. 小型微型计算机系统 2018(12)
    • [26].一种基于谱理论的并行特征选择算法[J]. 计算机应用与软件 2010(11)
    • [27].改进的特征选择算法[J]. 计算机工程与设计 2008(22)
    • [28].基于分割策略的特征选择算法[J]. 计算机科学 2018(10)
    • [29].基于拉普拉斯评分的多标记特征选择算法[J]. 计算机应用 2018(11)
    • [30].基于特征关联的多标记谱特征选择算法[J]. 闽南师范大学学报(自然科学版) 2017(02)

    标签:;  ;  ;  

    抗癌药物反应预测模型中的特征选择算法研究
    下载Doc文档

    猜你喜欢