超高维线性模型下若干特征筛选问题的研究

超高维线性模型下若干特征筛选问题的研究

论文摘要

在过去三十年中,信息技术的飞速发展使得数据收集及存储的成本显著降低.因此,研究者在各个科学领域,例如基因学、经济学、信号和图像处理以及地球科学等领域,均面临着史无前例的高维数据信息.如何在大量冗余信息的干扰下,有效地从高维复杂数据中提取出有价值的信息成为了当今统计学家面临的一个巨大挑战.在高维回归分析中,该问题可以具体描述为,如何在大部分预测变量为非活跃预测变量(回归系数为零的变量)的前提下,准确且高效的识别所有对响应变量有影响的活跃预测变量(回归系数非零的预测变量).然而,在变量个数p远超样本大小n的高维回归模型中,许多经典的统计方法,例如最小二乘法以及极大似然估计方法等,由于维度的急速扩张均不再有效.为了应对高维数据的挑战,统计学家在过去二十年中对变量空间的降维方法进行了深入研究,其主要可以分为两类:一类是对损失函数施加惩罚的变量选择方法,而另一类是可以实现快速降维的特征筛选方法.变量选择方法通过求解最优化问题,可以同时实现对预测变量的选择以及对相应回归参数的估计.然而,变量维数的指数级增长会显著提高求解最优化问题的计算成本并令许多变量选择方法不再具备相合性.因此,为了进一步提高降维的计算效率和准确性,统计学家开展了对特征筛选方法的研究.特征筛选方法旨在将超高维数据的维度迅速降至合适大小,从而变量选择方法能够有效地运用在降维后的模型之上,达到变量选择与参数估计的目的.本文的主要研究对象为超高维线性模型下的特征筛选问题,并且针对此类问题做出了如下贡献:首先,本文完善了 Fan&Lv(2008)提出的确定独立筛选(sure inde-pendence screening)理论,证明了几类基于该理论的迭代特征筛选方法的确定筛选性(sure screening property).其次,本文提出了一个新的条件特征筛选方法,其可以充分利用之前研究得到的部分活跃预测变量的先验信息以提高筛选准确性.最后,受经典向前回归方法FR(forward regression)的启发,本文基于之前介绍的条件筛选方法,提出了新的迭代特征筛选方法,其不仅可以更为充分地利用先验信息,在先验信息不可用时,其同样可以运用数据驱动的条件集合有效地完成变量空间的降维.本文的具体研究工作可以概括如下:1.自Fan&Lv(2008)提出具有开创性的确定独立筛选方法SIS(sure indepen-dence screening)以来,特征筛选方法的研究得到了迅猛发展.SIS 通过对预测变量与响应变量间的边际相关系数进行排序,从而实现了对变量空间的迅速降维.SIS在过去十年中被广泛应用到各个科学领域,其成功主要得益于两个因素:一是相较于求解超大规模的最优化问题,SIS具有更低的计算成本.更重要的是,SIS在适当的假设下具有确定筛选性,即其所选模型可以以趋于1的概率涵盖所有活跃预测变量.Fan&Lv(2008)指出,SIS的确定筛选性依赖于边际相关性假设,其要求所有活跃预测变量与响应变量间的边际相关系数均不接近于零.然而,由于预测变量间的相关性,该假设在高维模型中时常不成立,从而导致了 SIS在此类情形下的不佳表现.为了解决该问题,Fan&Lv(2008)提出了 ISIS(iteratively sure independence screening)方法,其通过对残差向量迭代运用SIS方法,降低了预测变量间相关性对筛选结果的影响.Fan et al.(2009)进一步改善了 ISIS方法,并将其推广至广义线性模型,提出了基于边际损失函数的 Van-ISIS(vanilla ISIS)方法.尽管ISIS与Van-ISIS方法在数值模拟以及实际应用中均有亮眼表现,但其确定筛选性在过去十年中一直没有得到证明.确定筛选性是由Fan&Lv(2008)提出的用以衡量特征筛选方法的重要标准之一,其确保了之后的变量选择方法可以大概率作用在全部活跃预测变量之上.本文在合理的假设下,证明了三类迭代筛选方法的确定筛选性,其中ISIS和Van-ISIS均可看作此三类方法的特殊情况,从而其确定筛选性可由相应结果直接得到.本文的结果填补了长达十余年的理论空白,为ISIS和Van-ISIS今后的广泛应用提供了更为坚实的理论支持.同时,FR方法同样可以看作此三类方法的特殊情况之一.与Wang(2009)中对FR确定筛选性的证明相比,我们在更具一般性的条件下得到了比Wang(2009)中结论更强的结果.2.在科学研究中,学者们通常可以通过之前的研究成果得知某些预测变量为活跃预测变量,对响应变量有显著影响.如何充分利用此类有关活跃预测变量的先验信息以进一步提高筛选的准确性具有极高的研究价值.为了利用此类先验信息,Barut et al.(2016)提出 了条件特征筛选方法 CSIS(conditional sure independence screening),其基于已知活跃预测变量,通过对剩余预测变量关于响应变量的条件贡献进行排序从而实现变量空间的降维.Barut et al.(2016)在条件线性协方差假设下证明了 CSIS方法的确定筛选性,该假设要求剩余活跃预测变量与响应变量关于已知活跃预测变量的条件线性协方差不接近于零.然而,与边际相关性假设类似,高维模型中预测变量间的相关性同样会导致条件线性协方差假设不再成立,进而显著降低CSIS方法的筛选准确性.为了改善该情况,基于 Wang&Leng(2016)提出的 HOLP(high dimensional ordinary least squares projection)方法,本文提出了一个新的条件特征筛选方法,称为最小二乘投影条件筛选方法,并简记为 COLP(conditional screening via ordinary least squares projection).HOLP为线性模型下的高效特征筛选方法,其应用设计矩阵的Moore-Penrose逆矩阵构造对角占优矩阵对回归参数进行估计,并以此为基础进行变量筛选.然而,HOLP无法利用有关活跃预测变量的先验信息,并且其确定筛选性依赖于回归参数β的L2范数的上界,即当||β||足够大时,HOLP的确定筛选性可能不再成立.COLP方法首先将设计矩阵投影到已知活跃预测变量列空间的正交补空间上,再通过投影后设计矩阵的Moore-Penrose逆构造对角占优矩阵对剩余回归参数进行估计,并根据估计值进行特征筛选.通过投影,COLP可以消除已知活跃变量的系数对剩余参数估计的影响,从而提高估计和筛选的准确性.我们在不依赖条件线性协方差假设及||β||上界条件的情况下,证明了 COLP方法的确定筛选性.因此,当某些已知活跃预测变量回归系数绝对值较大或者某些剩余活跃预测变量的条件线性协方差接近于零时,COLP仍可以以趋近于1的概率识别所有剩余活跃变量.通过与CSIS等筛选方法的对比,COLP的有效性在大量数值模拟中得到了充分验证.3.从数值模拟中可以看到,COLP方法在先验信息包含所有显著活跃预测变量(回归系数绝对值较大的预测变量)时能够达到最佳表现.但在实际应用当中,研究者通常无法获得完整包含所有显著活跃预测变量的先验信息.因此,尽管COLP可以消除已知活跃变量的回归系数在剩余参数估计中的影响,但剩余显著活跃预测变量的较大回归系数仍可以对剩余变量的筛选造成不可忽视的负面影响.为了进一步消除剩余显著活跃预测变量系数的影响,基于FR和COLP方法,本文提出了新的迭代特征筛选方法,称为最小二乘投影向前筛选方法,并简记为FOLP(forward screening via ordinary least squares projection).FOLP通过迭代运用COLP方法,可以逐步消除被选中的活跃预测变量的回归系数在剩余参数估计中的影响.与FR方法类似,FOLP通过对比备选预测变量的残差平方和(RSS)将备选变量逐个加入到已选模型当中,避免了复杂的参数选择过程.不同的是,FR在每一步中需要计算所有剩余预测变量的RSS,而FOLP方法每一步只需比较两个备选预测变量,从而显著地降低了计算成本.更重要的是,当先验信息不可用时,FOLP同样可以利用数据驱动的条件变量集合进行特征筛选.无论先验信息是否可用,FOLP方法在大量数值模拟中均有亮眼的表现.另外,FOLP方法的有效性在一个急性白血病分类问题中同样得到了印证.结合朴素贝叶斯准则(naive Bayes rule),FOLP在训练数据以及测试数据中均未产生任何分类错误.

论文目录

  • 中文摘要
  • 英文摘要
  • 第一章 绪论
  •   1.1 研究背景与主要内容
  •   1.2 变量选择方法简介
  •   1.3 特征筛选方法简介
  • 第二章 ISIS及相关迭代筛选方法的确定筛选性
  •   2.1 引言
  •   2.2 背景知识
  •     2.2.1 模型与符号
  •     2.2.2 ISIS与三类迭代特征筛选方法
  •   2.3 三类迭代特征筛选方法的确定筛选性
  •     2.3.1 理论假设
  •     2.3.2 主要定理
  •   2.4 主要定理证明
  •     2.4.1 重要命题
  •     2.4.2 第一类迭代算法的确定筛选性证明
  •     2.4.3 第二类迭代算法的确定筛选性证明
  •     2.4.4 第三类迭代算法的确定筛选性证明
  •   2.5 附录:重要命题证明
  • 第三章 最小二乘投影条件筛选方法
  •   3.1 引言
  •   3.2 最小二乘投影条件筛选方法:COLP
  •     3.2.1 模型与算法
  •     3.2.2 COLP方法的原理
  •   3.3 COLP方法的确定筛选性
  •     3.3.1 理论假设
  •     3.3.2 主要定理
  •   3.4 数值模拟:COLP的条件筛选表现
  •   3.5 附录: 理论证明
  •     3.5.1 预备知识
  •     3.5.2 主要定理证明
  • 第四章 最小二乘投影向前筛选方法
  •   4.1 引言
  •   4.2 最小二乘投影向前筛选方法:FOLP
  •   4.3 数值模拟Ⅰ: FOLP的条件筛选表现
  •   4.4 数值模拟Ⅱ: FOLP的变量选择表现
  •   4.5 实例分析: 急性白血病分类问题
  • 第五章 总结与展望
  •   5.1 主要内容总结
  •   5.2 本文不足与研究展望
  • 参考文献
  • 攻读博士学位期间完成论文情况
  • 致谢
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 博士论文

    作者: 张宁

    导师: 陈增敬,蒋文新

    关键词: 变量选择,迭代特征筛选,确定筛选性,条件特征筛选,向前回归

    来源: 山东大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 山东大学

    分类号: O212.1

    DOI: 10.27272/d.cnki.gshdu.2019.000341

    总页数: 97

    文件大小: 4254K

    下载量: 118

    相关论文文献

    • [1].运动员倦怠的测量、模型与预测变量[J]. 体育与科学 2008(02)
    • [2].基层医疗卫生机构医护人员情绪劳动对职业倦怠感、服务破坏的影响研究[J]. 中国农村卫生事业管理 2016(03)
    • [3].浅谈logic回归[J]. 中国卫生统计 2009(06)
    • [4].运动员倦怠的研究评述[J]. 成都体育学院学报 2008(08)
    • [5].用Weighted fusion方法对森林中蝙蝠活动数据做变量选取[J]. 东北师大学报(自然科学版) 2013(01)
    • [6].工程线性回归计算中控制变量和预测变量的区分[J]. 芜湖职业技术学院学报 2012(04)
    • [7].中职生自我和谐特点及其与社会支持关系的研究[J]. 福建教育学院学报 2009(04)
    • [8].公安院校体改生学习价值观对学习投入的影响研究[J]. 广西警官高等专科学校学报 2014(04)
    • [9].有限总体中条件最优预测的稳健性[J]. 贵州大学学报(自然科学版) 2010(03)
    • [10].自我牺牲型领导力国内外研究述评与展望[J]. 邢台学院学报 2018(03)
    • [11].区域土壤容重转换函数构建与预测结果评价——以河南省封丘县为例[J]. 土壤通报 2013(01)
    • [12].不良数据下的“统计陷阱”[J]. 统计与决策 2010(18)
    • [13].大学生学习投入的影响因素及其作用机制[J]. 高教发展与评估 2016(06)
    • [14].冲突与支持影响情侣依恋的文化差异[J]. 心理学报 2009(06)
    • [15].心理治疗中的脱落[J]. 心理科学进展 2020(07)
    • [16].大学生气质类型与幽默风格的关系研究[J]. 健康研究 2011(04)
    • [17].基于层次结构模型的小样本组合预测建模[J]. 统计与决策 2011(22)
    • [18].师范院校大学生自信与学习动机的关系[J]. 中国健康心理学杂志 2010(09)
    • [19].应用数量化理论对集安复兴屯矿田矿产预测变量研究[J]. 地球物理学进展 2011(06)
    • [20].独立学院大学生自信与成就动机的关系研究[J]. 保健医学研究与实践 2012(03)
    • [21].中职生自我和谐与社会支持关系的研究[J]. 中小学心理健康教育 2010(10)
    • [22].大学生村官工作压力与工作倦怠的关系[J]. 生产力研究 2011(12)
    • [23].范围限制及其校正方法的研究述评[J]. 江西农业学报 2011(01)
    • [24].2013年武警某部新兵家庭环境与应对方式调查分析[J]. 武警医学 2014(01)
    • [25].武汉市大学生学习倦怠与完美主义、学习压力的关系[J]. 医学与社会 2014(04)
    • [26].试用决策树法探讨福建省手足口病重症病例的危险因素[J]. 海峡预防医学杂志 2012(05)
    • [27].自我意识对惧怕否定评价的影响[J]. 中国健康心理学杂志 2011(10)
    • [28].大学生网络使用受益的预测变量[J]. 河北工业大学学报(社会科学版) 2009(03)
    • [29].龙眼树势评判及表观预测模型的建立[J]. 广东农业科学 2015(04)
    • [30].民族聚居区高校大学生学习倦怠、专业承诺与社会支持关系研究[J]. 甘肃高师学报 2012(04)

    标签:;  ;  ;  ;  ;  

    超高维线性模型下若干特征筛选问题的研究
    下载Doc文档

    猜你喜欢