组学研究样本量的综合评估与计算及在线工具开发

组学研究样本量的综合评估与计算及在线工具开发

论文摘要

通过高通量技术的应用,组学研究已经可以同时测量成百上千特征表达值的改变。然而,虽然组学研究在生物医药、疾病等领域取得了一系列的成功,但是也出现了一些问题严重阻碍着组学的进一步发展与进步。这些问题包括研究的统计功效过低、结果重现性较差等问题。这些问题的出现得到了极大的关注,并且被认为是多种原因的结果。有研究人员提出,在这些原因当中,样本量是解决问题的关键。在组学研究中,样本量是一个关键因素,它意味着该项研究科学性与伦理性的平衡。如果一个研究的样本量过小,则会影响该研究发现真正的科学问题,最终导致时间和成本的浪费;而相反,如果研究的样本量过大,则意味着在实验中投入了过多的样本,提高了研究的成本,特别当研究有潜在危害性时,还会引起伦理问题。因此,在组学研究中有必要进行样本量的评估与计算。统计功效、分类准确率及结果稳定性分别从不同角度对组学研究的样本量进行评估。统计功效能够反映该项研究的灵敏度,它是指一项研究发现组间差异的能力。分类准确率是指通过组学发现的生物标志物所建立预测模型的预测准确率,一般用AUC、ACC等来表示。结果稳定性表示发现标志物的可重复性,即针对同一疾病所建立标志物的一个性能评估,可以通过Overlap,Concordance,Weighted Consistency等标准来进行评估。考虑到这三项指标之间相互补充,缺一不可,能够对组学的样本量进行综合的评估与计算,满足组学研究的需要,我们开展了以下工作:首先,对不同数据在相同样本量下的指标数值进行对比研究,结果表明,在样本量评估时,不同数据之间相互独立,这一结论通过对不同数据达到相同指标阈值所需要的样本量进行对比得到了进一步验证,因此,我们认为在进行样本量的评估计算时,不存在一个数值对组学研究的样本量进行笼统的概括,而应该针对不同的数据进行相应的研究。然后,我们对同一数据达到不同指标阈值所需要的样本量进行比对,发现结果会随着指标的不同而不同,而且数值之间不存在相关性,指标之间相互独立。同时,我们对18组来源于不同组学数据的样本量进行计算,发现满足不同指标阈值所需要的样本量的大小顺序之间不存在一定的规律,因此无法简单的将某一指标作为最宽松或最严格标准来看待。因此,在进行样本量的评估与计算时,我们建议应该采用多指标、综合的研究。最后,我们借助R‘shiny’包构建相应的在线工具——SSizer,用于进行组学样本量的综合评估与计算。SSizer整合了三种指标(统计功效、分类准确率、结果稳定性)共六项标准(Power,AUC,ACC,Overlap,Concordance,CW),以及多种数据预处理、分析算法,为满足不同研究的需求。同时,通过准确的数据模拟算法的引入,SSizer能够基于上述三项标准对相应研究的样本量进行计算,从而帮助后续研究更好地开展,使研究在拥有足够样本量的前提下进行。综上所述,本次研究从组学样本量出发,基于三种常见指标,对组学样本量进行综合地评估与计算,并在此基础上,建立相应的在线工具,帮助科学家们更好地从研究中发现生物学问题,促进生命科学、生物医药领域的进一步发展与进步。

论文目录

  • 中文摘要
  • 英文摘要
  • 略缩词列表
  • 1 绪论
  •   1.1 组学概述
  •   1.2 组学研究现状与进展
  •     1.2.1 技术的进步推动了组学的发展
  •     1.2.2 生物信息学方法的应用方便了组学数据处理与分析
  •     1.2.3 组学的应用
  •   1.3 组学研究中目前存在的问题及原因
  •   1.4 样本量与组学研究
  •     1.4.1 样本量评估与计算的重要性
  •     1.4.2 组学研究样本量的影响因素
  •     1.4.3 组学样本量的研究现状
  •   1.5 本研究的意义、主要内容和创新点
  • 2 样本量的综合评估和计算
  •   2.1 引言
  •   2.2 材料及方法
  •     2.2.1 数据收集
  •     2.2.2 数据预处理
  •     2.2.3 数据模拟
  •     2.2.4 统计分析
  •     2.2.5 样本量评估和计算
  •   2.3 结果与讨论
  •     2.3.1 指标准确性的验证
  •     2.3.2 数据模拟
  •     2.3.3 样本量的评估与计算应该考虑数据的多样性
  •     2.3.4 应该进行多指标、综合的样本量评估与计算
  •   2.4 本章小结
  • 3 组学样本量评估与计算在线工具的构建与开发
  •   3.1 在线工具的整体结构与所用开发技术
  •     3.1.1 在线工具设计策略
  •     3.1.2 平台配置与构架
  •     3.1.3 开发所用的相关技术
  •   3.2 数据上传模块的设计
  •   3.3 数据预处理模块的设计
  •     3.3.1 缺失值填充
  •     3.3.2 数据滤波
  •     3.3.3 归一化
  •   3.4 样本量评估模块的设计
  •     3.4.1 SSizer中的统计算法
  •     3.4.2 SSizer中的样本量评价标准
  •   3.5 样本量计算模块的设计
  •   3.6 案例分析与测试
  •   3.7 本章小结
  • 4 结论与展望
  •   4.1 结论
  •   4.2 未来工作展望
  • 参考文献
  • 附录
  •   A.作者在攻读硕士学位期间发表的论文目录
  •   B.学位论文数据集
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 张潇雨

    导师: 朱峰

    关键词: 样本量,统计功效,分类准确率,结果稳定性,在线工具

    来源: 重庆大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 数学,生物学,基础医学

    单位: 重庆大学

    分类号: R394;O212

    DOI: 10.27670/d.cnki.gcqdu.2019.001972

    总页数: 86

    文件大小: 2264k

    下载量: 12

    相关论文文献

    • [1].压缩感知理论在小样本量蛋白质组学变量筛选研究中的应用[J]. 中国卫生统计 2019(05)
    • [2].关于检验抗病毒药物有效性样本量的比较[J]. 统计与决策 2017(09)
    • [3].抽样调查中样本量的确定[J]. 统计与咨询 2009(04)
    • [4].几种优效性随机对照试验样本量估算的比较研究[J]. 中华中医药学刊 2018(10)
    • [5].样本量估计及其在nQuery(nTerim)和SAS软件上的实现——期中分析(一)[J]. 中国卫生统计 2014(01)
    • [6].市场调查中样本量确定问题研究[J]. 中国计量 2013(10)
    • [7].特定抽样下有效样本量的性质研究[J]. 统计与决策 2016(23)
    • [8].非劣效性设计样本量估算——计数指标[J]. 中国介入心脏病学杂志 2016(06)
    • [9].叙述性偏好法实验的有效样本量模型框架[J]. 同济大学学报(自然科学版) 2019(11)
    • [10].Logistic回归分析的样本量确定[J]. 循证医学 2018(02)
    • [11].基于指数分布的生存资料盲态下样本量再估计方法[J]. 中国卫生统计 2018(02)
    • [12].临床试验中样本量确定的统计学考虑[J]. 中国卫生统计 2015(04)
    • [13].临床研究样本量的统计学估算[J]. 中国介入心脏病学杂志 2014(07)
    • [14].关于样本量计算方法的比较研究[J]. 统计与决策 2013(01)
    • [15].差异性检验下等效性结论的样本量的确定[J]. 中国民族民间医药 2009(05)
    • [16].样本量估计及其在nQuery和SAS软件上的实现——均数比较(五)[J]. 中国卫生统计 2012(03)
    • [17].临床试验中自适应设计的样本量再估计方法[J]. 中国卫生统计 2008(06)
    • [18].二分类结果组间比较的样本量计算(英文)[J]. 上海精神医学 2017(05)
    • [19].医学科研中样本量的估算方法介绍[J]. 实用检验医师杂志 2019(01)
    • [20].样本量确定的经济学分析[J]. 统计与决策 2009(19)
    • [21].现况调查的样本量计算方法[J]. 预防医学 2020(06)
    • [22].省级食品安全监督抽检工作样本量的确定方法研究[J]. 食品安全质量检测学报 2019(12)
    • [23].域的最优样本量分配方法研究[J]. 数理统计与管理 2018(05)
    • [24].交通探测车的样本量模型[J]. 公路交通科技 2009(10)
    • [25].淀山湖鱼类调查样本量优化设计[J]. 上海海洋大学学报 2018(02)
    • [26].全国英语等级考试锚测验非等组设计中样本量对等值结果的影响[J]. 中国考试 2017(06)
    • [27].样本量估计及其在nQuery和SAS软件上的实现——率的比较(三)[J]. 中国卫生统计 2012(06)
    • [28].等效性设计样本量估算——计量指标[J]. 中国介入心脏病学杂志 2016(07)
    • [29].样本量估计及其在nQuery和SAS软件上的实现——率的比较(四)[J]. 中国卫生统计 2012(06)
    • [30].样本量估计及其在nQuery和SAS软件上的实现——率的比较(五)[J]. 中国卫生统计 2013(01)

    标签:;  ;  ;  ;  ;  

    组学研究样本量的综合评估与计算及在线工具开发
    下载Doc文档

    猜你喜欢