统计模型和机器学习方法在交叉科学研究中的一些整合应用

统计模型和机器学习方法在交叉科学研究中的一些整合应用

论文摘要

经典统计模型通常有比较好的解释性,但有时在预测性能上表现欠佳;与之相反,机器学习方法在一些问题中表现出了良好的预测性能,但往往难以对问题机制做出解释。面对实际问题,恰当地将统计模型与机器学习方法相结合,则有助于对问题进行深入研究,揭示其中的机理。本文通过两个交叉研究课题,即“金属-有机单层结构的合成和生长机理”以及“食管癌复发的相关因素分析”,对统计模型与机器学习的整合应用进行一些探索和尝试。在探究金属-有机单层结构的合成和生长机理中,我们着重研究对相的分类问题和对目标产物的厚度预测问题。关于相的分类,利用随机森林实现对相的精确归类,Kappa值达到0.86;对于厚度的预测,在保留线性回归模型良好的解释力的情况下,先采用聚类分析,寻求表现较优的区域,然后采用判别分析、Logistic回归探究样本空间的特征;接着,为进一步探究反应机理,引入中间产物,建立回归模型,利用逐步回归进行变量选择,研究反应物、中间产物的关系;进而在只有反应物、目标产物的数据中预测中间产物用量;最后,我们尝试将厚度预测问题转化为“厚-薄”二分类问题,基于反应物、预测的中间产物建立随机森林模型。经过比较,发现随机森林模型的预测性能明显优于仅用反应物建立的模型,Kappa值从0.4067提升至0.6179。这提示了引入的中间产物对于厚度研究起着关键作用。在食管癌复发的相关因素分析中,首先进行单因素分析,利用Pearson卡方检验、Fisher精确性检验、log-rank检验,探究年龄、性别、病变长度等因素与瘤床区复发、吻合口复发、远端转移和生存时间的相关关系,发现切端阳性患者吻合口复发的几率更高(P=0.064),病变长度长的患者出现远端转移的几率更高(P=0.091),溃疡型肿瘤患者出现远端转移的几率更高(P=0.03),病变长度长(P=0.068)、淋巴结个数多(P=0.081)、切端阳性(P=0.015)患者的生存时间更短。然后根据单因素分析的结果,将部分变量纳入多因素分析,建立Logistic回归模型和COX比例危险模型模型,发现病变长度、肿瘤类型、切端类型为危险因素,病变长度长、溃疡型肿瘤的病人有更高的远端转移的几率,病变长度长、切端阳性的病人生存的时间相对较短。最后,利用基于树的机器学习算法iRF,探究变量间可能存在的交互作用,发现对于瘤床区复发,T分期、淋巴结个数之间存在交互作用;对于远端转移,病变长度、淋巴结个数之间存在交互作用;对于吻合口复发,病变长度、淋巴结清扫个数之间存在交互作用。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  •   1.1 研究背景
  •     1.1.1 模型背景
  •     1.1.2 课题背景
  •       1.1.2.1 金属-有机单层结构的合成和生长机理
  •       1.1.2.2 食管癌复发的相关因素分析
  •       1.1.2.3 数据来源及处理工具
  •   1.2 本文贡献
  •     1.2.1 金属-有机单层结构的合成和生长机理
  •     1.2.2 食管癌复发的相关因素分析
  • 第二章 金属-有机单层结构的合成和生长机理
  •   2.1 对相的分类
  •     2.1.1 问题描述
  •     2.1.2 数据描述
  •     2.1.3 随机森林模型
  •       2.1.3.1 机器学习模型性能的指标
  •       2.1.3.2 模型结果
  •   2.2 预测目标产物厚度
  •     2.2.1 数据描述
  •     2.2.2 线性回归
  •       2.2.2.1 线性回归模型概述
  •       2.2.2.2 线性回归方程建模结果
  •   2.3 基于聚类分析的线性回归模型
  •     2.3.1 聚类分析
  •     2.3.2 判别分析
  •       2.3.2.1 判别分析概述
  •       2.3.2.2 判别分析结果
  •     2.3.3 Logistic回归
  •       2.3.3.1 模型简介及拟合结果
  •       2.3.3.2 检验模型性能
  •   2.4 引入中间产物进一步探究
  •     2.4.1 中间产物HCO2-和反应物的关系
  • 12/Hf6和反应物的关系'>    2.4.2 中间产物Hf12/Hf6和反应物的关系
  •     2.4.3 中间产物溶解度和反应物的关系
  •     2.4.4 中间产物与目标产物的关系
  •   2.5 本章小结
  • 第三章 食管癌复发的相关因素分析
  •   3.1 数据描述
  •   3.2 单因素分析
  •     3.2.1 Pearson卡方检验、Fisher精确性检验、log-rank检验简介
  •     3.2.2 因子型响应变量单因素分析结果
  •     3.2.3 连续型响应变量单因素分析结果
  •   3.3 多因素分析
  •     3.3.1 LASSO、COX比例危险模型简介
  •     3.3.2 远端转移经变量选择后的结果
  •     3.3.3 复发时间的COX比例危险模型结果
  •   3.4 交互作用分析
  •     3.4.1 iRF(Iterative random forests)相关背景
  •     3.4.2 iRF探究交互作用
  •   3.5 本章小结
  • 第四章 回顾与展望
  • 附录
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 唐泽昱

    导师: 周达

    关键词: 统计模型,机器学习,整合应用

    来源: 厦门大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展

    单位: 厦门大学

    分类号: F224

    总页数: 84

    文件大小: 3982K

    下载量: 28

    相关论文文献

    • [1].生产工艺偏差统计模型的研究与实现[J]. 化工设计通讯 2020(05)
    • [2].数学统计模型在旅游业发展中的应用[J]. 旅游纵览(下半月) 2019(04)
    • [3].统计模型应用面临的挑战与转型[J]. 统计与信息论坛 2016(11)
    • [4].经历探究过程,构建统计模型——特级教师徐斌《平均数》教学赏析[J]. 教育研究与评论(小学教育教学) 2016(12)
    • [5].基于空气质量数据校准统计模型的研究[J]. 电子技术 2020(05)
    • [6].一种基于无味滤波的当前统计模型跟踪算法[J]. 数字技术与应用 2015(03)
    • [7].基于当前统计模型的交互融合跟踪算法[J]. 雷达与对抗 2015(02)
    • [8].基于累加两水平统计模型的年降雨量预测[J]. 黄冈师范学院学报 2010(03)
    • [9].幂整体模式累加多层统计模型的建立及应用[J]. 统计与决策 2009(05)
    • [10].幂随机系数累加多层统计模型的建立及其预测上的应用[J]. 系统工程 2008(11)
    • [11].回归建模的基础与要领(Ⅰ)——统计模型种类的划分方法[J]. 四川精神卫生 2018(06)
    • [12].如何看待统计模型[J]. 中国统计 2018(08)
    • [13].区域攻击水雷命中概率的试验统计模型[J]. 兵器装备工程学报 2017(03)
    • [14].基于产量统计模型的农作物保险定价研究进展[J]. 中国农业科学 2012(12)
    • [15].多层统计模型的应用进展综述[J]. 统计与决策 2011(23)
    • [16].多变量整体模式的累加多层统计模型研究及应用[J]. 统计与信息论坛 2009(12)
    • [17].利用可变形统计模型进行膝关节建模与运动测量[J]. 清华大学学报(自然科学版) 2013(01)
    • [18].基于“当前”统计模型的载体速度计算[J]. 测绘科学 2011(02)
    • [19].猪剩余采食量统计模型的研究现状[J]. 中国畜牧杂志 2018(12)
    • [20].陕西省服务业发展与就业关系研究[J]. 纳税 2019(02)
    • [21].一种雷达散射截面半参数起伏统计模型[J]. 电子信息对抗技术 2015(04)
    • [22].一类基于改进的当前统计模型的目标跟踪算法研究[J]. 上海航天 2014(02)
    • [23].施工期混凝土坝温度统计模型探讨[J]. 水电能源科学 2012(02)
    • [24].多变量整体模式累加多层统计模型的建立及其在组织绩效预测上的应用研究[J]. 数理统计与管理 2009(05)
    • [25].非线性“当前”统计模型及自适应跟踪算法[J]. 系统工程与电子技术 2008(03)
    • [26].基于“当前”统计模型的模糊自适应航迹预测算法[J]. 空军工程大学学报(自然科学版) 2015(02)
    • [27].基于改进当前统计模型的模糊自适应车辆定位算法[J]. 通信学报 2013(07)
    • [28].基于因子分析方法解析降雨分量的渗流统计模型及应用[J]. 水文地质工程地质 2011(06)
    • [29].基于改进“当前”统计模型的非线性机动目标跟踪算法[J]. 控制理论与应用 2011(12)
    • [30].组合统计模型在程序错误定位中的应用[J]. 计算机工程与设计 2010(19)

    标签:;  ;  ;  

    统计模型和机器学习方法在交叉科学研究中的一些整合应用
    下载Doc文档

    猜你喜欢