组学研究样本量的综合评估与计算及在线工具开发

论文摘要

通过高通量技术的应用,组学研究已经可以同时测量成百上千特征表达值的改变。然而,虽然组学研究在生物医药、疾病等领域取得了一系列的成功,但是也出现了一些问题严重阻碍着组学的进一步发展与进步。这些问题包括研究的统计功效过低、结果重现性较差等问题。这些问题的出现得到了极大的关注,并且被认为是多种原因的结果。有研究人员提出,在这些原因当中,样本量是解决问题的关键。在组学研究中,样本量是一个关键因素,它意味着该项研究科学性与伦理性的平衡。如果一个研究的样本量过小,则会影响该研究发现真正的科学问题,最终导致时间和成本的浪费;而相反,如果研究的样本量过大,则意味着在实验中投入了过多的样本,提高了研究的成本,特别当研究有潜在危害性时,还会引起伦理问题。因此,在组学研究中有必要进行样本量的评估与计算。统计功效、分类准确率及结果稳定性分别从不同角度对组学研究的样本量进行评估。统计功效能够反映该项研究的灵敏度,它是指一项研究发现组间差异的能力。分类准确率是指通过组学发现的生物标志物所建立预测模型的预测准确率,一般用AUC、ACC等来表示。结果稳定性表示发现标志物的可重复性,即针对同一疾病所建立标志物的一个性能评估,可以通过Overlap,Concordance,Weighted Consistency等标准来进行评估。考虑到这三项指标之间相互补充,缺一不可,能够对组学的样本量进行综合的评估与计算,满足组学研究的需要,我们开展了以下工作:首先,对不同数据在相同样本量下的指标数值进行对比研究,结果表明,在样本量评估时,不同数据之间相互独立,这一结论通过对不同数据达到相同指标阈值所需要的样本量进行对比得到了进一步验证,因此,我们认为在进行样本量的评估计算时,不存在一个数值对组学研究的样本量进行笼统的概括,而应该针对不同的数据进行相应的研究。然后,我们对同一数据达到不同指标阈值所需要的样本量进行比对,发现结果会随着指标的不同而不同,而且数值之间不存在相关性,指标之间相互独立。同时,我们对18组来源于不同组学数据的样本量进行计算,发现满足不同指标阈值所需要的样本量的大小顺序之间不存在一定的规律,因此无法简单的将某一指标作为最宽松或最严格标准来看待。因此,在进行样本量的评估与计算时,我们建议应该采用多指标、综合的研究。最后,我们借助R‘shiny’包构建相应的在线工具——SSizer,用于进行组学样本量的综合评估与计算。SSizer整合了三种指标(统计功效、分类准确率、结果稳定性)共六项标准(Power,AUC,ACC,Overlap,Concordance,CW),以及多种数据预处理、分析算法,为满足不同研究的需求。同时,通过准确的数据模拟算法的引入,SSizer能够基于上述三项标准对相应研究的样本量进行计算,从而帮助后续研究更好地开展,使研究在拥有足够样本量的前提下进行。综上所述,本次研究从组学样本量出发,基于三种常见指标,对组学样本量进行综合地评估与计算,并在此基础上,建立相应的在线工具,帮助科学家们更好地从研究中发现生物学问题,促进生命科学、生物医药领域的进一步发展与进步。

论文目录

中文摘要

英文摘要

略缩词列表

1 绪论

1.1 组学概述

1.2 组学研究现状与进展

1.2.1 技术的进步推动了组学的发展

1.2.2 生物信息学方法的应用方便了组学数据处理与分析

1.2.3 组学的应用

1.3 组学研究中目前存在的问题及原因

1.4 样本量与组学研究

1.4.1 样本量评估与计算的重要性

1.4.2 组学研究样本量的影响因素

1.4.3 组学样本量的研究现状

1.5 本研究的意义、主要内容和创新点

2 样本量的综合评估和计算

2.1 引言

2.2 材料及方法

2.2.1 数据收集

2.2.2 数据预处理

2.2.3 数据模拟

2.2.4 统计分析

2.2.5 样本量评估和计算

2.3 结果与讨论

2.3.1 指标准确性的验证

2.3.2 数据模拟

2.3.3 样本量的评估与计算应该考虑数据的多样性

2.3.4 应该进行多指标、综合的样本量评估与计算

2.4 本章小结

3 组学样本量评估与计算在线工具的构建与开发

3.1 在线工具的整体结构与所用开发技术

3.1.1 在线工具设计策略

3.1.2 平台配置与构架

3.1.3 开发所用的相关技术

3.2 数据上传模块的设计

3.3 数据预处理模块的设计

3.3.1 缺失值填充

3.3.2 数据滤波

3.3.3 归一化

3.4 样本量评估模块的设计

3.4.1 SSizer中的统计算法

3.4.2 SSizer中的样本量评价标准

3.5 样本量计算模块的设计

3.6 案例分析与测试

3.7 本章小结

4 结论与展望

4.1 结论

4.2 未来工作展望

参考文献

附录

A.作者在攻读硕士学位期间发表的论文目录

B.学位论文数据集

致谢

文章来源

类型: 硕士论文

作者: 张潇雨

导师: 朱峰

关键词: 样本量,统计功效,分类准确率,结果稳定性,在线工具

来源: 重庆大学

年度: 2019

分类: 基础科学,医药卫生科技

专业: 数学,生物学,基础医学

单位: 重庆大学

分类号: R394;O212

DOI: 10.27670/d.cnki.gcqdu.2019.001972

总页数: 86

文件大小: 2264k

下载量: 12

组学研究样本量的综合评估与计算及在线工具开发

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢