论文摘要
随着科学技术的飞速发展和数据收集成本不断的降低,超高维数据频繁出现在许多科学领域,例如基因组学,生物影像,肿瘤分类,经济学,高频率交易,机器学习等。这类数据的典型特点是它的维数p远远大于样本容量n,具体来说按照Fan等(2009)的定义,存在常数α∈(0,1/2),使得:logp=O(nα),即所谓超高维。在稀疏性假设下,如何从超高维数据中筛选出对响应变量真正起作用的少数重要协变量是这类问题的核心。传统的惩罚类型变量选择方法在处理这类问题时,总会碰到以下三个方面的问题:计算复杂性、统计准确性和算法稳定性。与变量选择思想不同,特征筛选通过一种快速筛选方法把那些明显不相关的协变量排除,从而使协变量的维数降到一个相对温和的程度,这样传统的变量选择方法可以顺利使用得出最后模型及相关估计。因此,超高维数据特征筛选是一个很有意义的研究方向。为此,本文对超高维纵向数据和带组结构数据展开若干筛选研究,主要内容如下:(1)在可加模型假定下,我们提出一种利用边际非参数回归的方法处理超高维纵向数据的筛选问题。不同于以往大多数特征筛选问题,纵向数据带有内部相关性。我们利用标准B样条基进行边际非参数回归拟合,并根据拟合程度来衡量各个协变量的重要程度。在一定条件下,可以证明我们的筛选方法具有确保筛选性质。从算法角度,我们提出一种基于数据驱动选取阈值下的先筛选,后变量选择的迭代算法INIS-SAM及其贪婪版本。为进一步控制最后选取模型的大小,我们把一种数据劈开的方法应用到筛选中,得到split-INIS-SAM。模拟显示我们方法的良好有限样本表现,同时通过对酵母细胞周期循环基因表达数据集的分析,展现我们筛选方法的优点。(2)在线性模型的假设下,我们提出一种边际的超高维组变量筛选方法来处理这类带组结构的筛选问题。借鉴单变量筛选的想法,我们分别对各组变量和响应变量做线性拟合,并根据拟合大小来衡量各个组变量的重要程度。理论上,我们证明在一定条件下,组筛选方法具有确保筛选性质。为增强组筛选方法的有限样本表现,我们先给出一种数据驱动的阈值选取方法,并基于它提出迭代版本组筛选方法ISIS-Group-Lasso及其贪婪版本g-ISIS-Group-Lasso。模拟结果显示我们的组筛选方法优于其他组变量筛选方法,并且我们还将这种组筛选方法应用到一个克隆数据的研究中,取得较好的效果。(3)为处理超高维带组结构的数据,我们进一步提出一种无模型假定的边际分位数组筛选方法。它通过基于分位数边际拟合指标来刻画组变量的相对重要程度,且这种方法不需要任何关于协变量矩方面的假设。为了对超高维带组结构数据有更全面的认识,我们允许重要组变量集可以随着分位数的变化而变化。理论上,在相对较弱的条件下,我们的组筛选方法也具有确保筛选性质。与其他组选择方法相比,我们的基于分位数自适应筛选有更好的有限样本表现。最后,我们通过一个基因通路实例数据呈现我们方法的优点。本文的筛选方法丰富了超高维纵向数据和超高维带组结构数据的特征筛选研究,将有助于基因学、生物医学影像和经济学等各个领域中进行重要变量或组变量的选择,从而达到提高计算速度、精简模型和提高预测精度的目的。
论文目录
文章来源
类型: 博士论文
作者: 牛勇
导师: 张日权
关键词: 超高维,特征筛选,可加模型,非参数独立筛选,确保筛选性质,线性模型,变量选择,组变量选择,纵向数据,稀疏性,分位数
来源: 华东师范大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 华东师范大学
分类号: O212
DOI: 10.27149/d.cnki.ghdsu.2019.000142
总页数: 120
文件大小: 4607K
下载量: 66
相关论文文献
- [1].高维纵向数据的模型平均估计[J]. 系统科学与数学 2020(07)
- [2].纵向数据的一种稳健同时建模方法(英文)[J]. 中国科学技术大学学报 2020(03)
- [3].应用广义估计方程分析纵向数据[J]. 预防医学 2018(01)
- [4].基于M估计的非线性纵向数据模型的异常点检验[J]. 淮阴师范学院学报(自然科学版) 2015(01)
- [5].纵向数据的实验设计及统计分析理论[J]. 数理医药学杂志 2011(01)
- [6].教育大数据战略下美国州纵向数据系统建设与运用[J]. 电化教育研究 2019(02)
- [7].基于纵向数据的超高维特征筛选[J]. 福建师范大学学报(自然科学版) 2018(03)
- [8].含有缺失机制的多元纵向数据分析[J]. 中国卫生统计 2008(05)
- [9].纵向数据可加模型的识别[J]. 嘉兴学院学报 2017(06)
- [10].将数据表纵向数据横向输出[J]. 电脑编程技巧与维护 2014(24)
- [11].部分非线性混合效应模型在纵向数据下的估计[J]. 淮南师范学院学报 2019(02)
- [12].重复测量数据方差分析在中医临床纵向数据分析中的应用[J]. 时珍国医国药 2016(07)
- [13].一阶马氏下潜变量模型的多元纵向数据分析[J]. 东北师大学报(自然科学版) 2013(03)
- [14].纵向数据中基于偏自相关的均值协方差同时建模(英文)[J]. 应用概率统计 2015(06)
- [15].基于纵向数据与生存时间数据联合建模的变量选择[J]. 数理统计与管理 2019(03)
- [16].基于纵向数据线性混合效应模型的老年人抑郁影响因素研究[J]. 第三军医大学学报 2019(04)
- [17].纵向数据下广义线性模型的稳健二次推断函数估计[J]. 北京化工大学学报(自然科学版) 2018(02)
- [18].Elastic Net方法在纵向数据模型中的应用[J]. 数学理论与应用 2016(02)
- [19].纵向数据的有效秩推断基于修正的Cholesky分解[J]. 数学学报(中文版) 2018(04)
- [20].组基础模型在HIV/AIDS患者随访纵向数据研究中的应用[J]. 中国卫生统计 2018(05)
- [21].纵向数据下半参数指数回归模型的参数估计[J]. 发明与创新(职业教育) 2019(03)
- [22].基于Lasso方法的平衡纵向数据模型变量选择[J]. 黑龙江大学自然科学学报 2012(06)
- [23].利用随机效应非参分布分析纵向数据[J]. 湖南科技学院学报 2015(10)
- [24].纵向数据模型分析[J]. 信息通信 2012(03)
- [25].纵向数据下半参数工具变量模型的经验似然推断[J]. 应用数学 2018(04)
- [26].纵向数据下广义经验似然方法的有效稳健估计[J]. 上海理工大学学报 2019(04)
- [27].利用SAS软件实现基于多水平模型纵向数据的Meta分析[J]. 中国循证医学杂志 2019(05)
- [28].纵向数据模型的稳健估计及经验似然推断[J]. 数理统计与管理 2018(04)
- [29].二元纵向数据单指标模型的参数估计[J]. 嘉兴学院学报 2015(06)
- [30].基于扩展范式距离的纵向数据相似性度量[J]. 计算机与应用化学 2012(10)
标签:超高维论文; 特征筛选论文; 可加模型论文; 非参数独立筛选论文; 确保筛选性质论文; 线性模型论文; 变量选择论文; 组变量选择论文; 纵向数据论文; 稀疏性论文; 分位数论文;