基于秩次的稳健回归分析和诊断方法研究

基于秩次的稳健回归分析和诊断方法研究

鲍彦平[1]2003年在《基于秩次的稳健回归分析和诊断方法研究》文中研究表明回归分析方法在临床科研工作中被广泛应用,但由于生命现象的复杂性,实际数据往往会出现偏离假定模型或不满足假定模型所需要的假设条件等情况,此时经典回归估计方法的应用会受到很大的影响有时甚至出现专业上无法解释的结果。稳健回归方法是针对该问题的一个好的解决途径。本文在前人研究稳健方法的基础上引入一类基于秩次的稳健回归方法,并对其回归诊断内容做了简要的阐述,同时给出了医学应用的实例。 Jackel于1972年提出基于秩次的回归分析方法(R估计),它是将残差的秩次得分函数作为权重引入估计模型从而减小Y方向上的大的残差对估计的影响,并且它不要求误差项满足正态性,即当模型轻微偏离时,该估计不受影响。但是当X空间有大的杆杠点时,R估计可能会失效;将上述R估计函数中的得分函数推广为以该点离X空间中心位置的距离的某函数为权重的得分函数,得到GR估计,从而避免X空间异常点对估计的影响,但该方法失效点不大;基于上述GR估计方法的思想,将GR估计中该点离X空间中心位置距离的某函数扩大为离X、Y两维空间中心位置距离的某函数,得到高失效点的HBR估计,从而将最大失效点增加到50%,增加了估计的稳健性。同时本次研究考虑了R类估计的稳健性质和估计效率,且对它们的回归诊断内容做了讨论。可得到当误差项为正态分布时R估计和GR估计有较高的相对效率(可达95%),但HBR估计的相对效率则较差,且随着失效点的增高而降低;在误差项分布不满足正态时,不同情况下选用不同的R类估计可得到符合实际的估计值。在回归诊断方面: 山西医科大学硕士学位论文R估计对异常点的识别和模型拟合效果的判断均能取得较好的效果,而GR估计和HBR估计对模型拟合效果的评价结果不理想,但在识别可疑数据点方面的效果较好。 该类估计的估计值和统计诊断结果均在SAS的IML模块下得到。

王彤[2]2000年在《线性回归模型的稳健估计及多个异常点诊断方法研究》文中研究指明在医学科研过程中,当实际数据不符合既定线性回归模型暗含的理想分布或模型选择有误而有异常数据出现时,经典的最小二乘估计会受到很大影响甚至得到完全错误的结论。本研究在回顾、比较某些现代回归分析研究成果基础上,重点解决多个异常点存在时经典方法不能奏效的回归诊断与影响分析问题,并尝试提出对现有方法的改进,同时探讨某些稳健性较高的回归估计方法,以实现对医用回归分析中某些病态数据的“诊疗”方法,促进医学回归分析的正确应用。 1.概要介绍了稳健统计方法的起源、发展、定义及其分析目的与主要研究内容,描述了Huber的最小最大方法与Hampel的极微小方法基本思想,强调稳健性与估计的一致性、有效性、无偏性等一样应成为评价某一统计分析技术的重要指标,经典方法属于相应稳健方法的某个特例。 2.结合稳健性理论的有关内容对稳健回归估计技术作出了较为全面的回顾与评价,在此基础上详细探讨了线性回归模型的M估计、GM估计、基于Wilcoxon秩次的R估计、高失效点HBP估计及其基础上的两阶段稳健回归方法及其稳健性质,给出了它们的估计与假设检验算法。其中首次将Rousseeuw & Croux用于单变量情况的尺度估计S_n引入稳健回归,比常用的绝对离差中位数MAD作尺度参数估计提高了估计效率。 3.说明了回归数据中异常点的分类、可能的发生原因及其处理原则,介绍了基于数据删除模型与均数漂移模型的经典诊断量,并分析了多个异常数据情况下掩盖与淹没现象带来的困难及后果,针对此问题详细回顾了文献中尝试解决回归诊断中掩盖现象的方法,指出其中存在的问题。 4.使用了稳健估计得到的标准化残差或稳健距离作为诊断量并结合其直观的诊断图示可将回归数据分为正常点、垂直异常点、无影响异常点和有影响异常

王彤, 鲍彦平[3]2008年在《一类基于秩次的稳健线性回归估计与诊断方法》文中研究说明线性回归模型的误差项不服从正态分布或存在多个离群点时,可以将残差秩次的某些函数作为权重引入估计模型来减少离群点的不良影响。本文从参数估计、稳健性质、回归诊断等方面对基于残差秩次的一类稳健回归方法进行介绍.通过模拟研究和实例分析表明,R和GR估计是一种估计效率较高的稳健回归方法,其中GR估计可同时避免X与Y空间离群点,而高失效点HBR估计可通过控制某个参数在稳健性与估计效率之间进行折衷.

姜昊[4]2016年在《电网阻频特性测试与辨识》文中认为随着电力电子技术的发展和大功率电力电子器件的广泛使用,电力系统中的谐波污染日益严重,并严重威胁到电力系统和用电设备的安全。这时候就需要对公共连接点处系统和用户的谐波发射水平进行合理的评估,而评估主要围绕对系统和用户谐波阻抗特性分析来展开。同时随着交直交列车在电气化铁路上的广泛使用,谐波谐振造成电气化铁路设备损坏,甚至影响正常安全运行的案例时有发生。因此,有必要对系统的阻频特性进行测定,掌握其谐振规律,更有针对性的对系统的谐波情况进行评估和治理,避免不良影响的发生和发展。本文围绕电力系统阻抗频率特性分析来展开工作,研究的主要内容如下。首先对现有的几种谐波阻抗估算方法进行分析,包括注入法、开关元件法、用户侧并联阻抗法、波动量法和回归法,总结了各自的优缺点和适用范围。分析了现有的方法在实际测量中可能会出现的问题,并给出相应的解决方案。通过比较,选择计算精度高、测量频域范围广的谐波电流注入法,以及成本低、易实现的回归法做进一步优化研究。给出了注入法谐波阻抗测量方案。用基于无差拍控制的级联五电平逆变器作为谐波产生源,能够输出幅值和频率可调并且精度较高的任意谐波电流。在谐波注入源上选择更接近特征次谐波的序列非特征谐波电流。不仅能够准确的计算出各特征谐波阻抗,又能精确的找到系统串并联谐振点。在谐波提取上,采用简单、实用的离散傅里叶变换。最后通过仿真分析验证方案的准确性和可行性。给出了一种基于中位参数初值的秩次回归法。秩次回归法对数据的Y方向具有很好的抗差性,改善了传统二元线性回归法受数据异常值影响大的缺点。而改进的秩次回归法又弥补了秩次回归法以最小二乘法解作为迭代初值的不足,进一步减小异常值对回归计算的影响。仿真比较二元线性回归法、秩次回归法和改进的秩次回归法,证明改进秩次回归法的的优越性。同时又利用实测数据对该方法进行进一步做分析,结果发现改进的秩次回归法和波动量法相比误差很小并且更为稳健,验证了算法的实用性。

鲍晓蕾[5]2014年在《《比较统计学》框架的构建及在回归分析中的示范研究》文中提出【目的】针对人们在处理同一个与统计学有关的问题时往往随意从多种类似的分析方法中选择其一的事实,和迄今为止统计学体系中缺乏科学系统的理论研究的现状,建立比较统计学研究的平台,构建科学、合理、系统、完善的比较统计学框架,并对回归分析中的叁个子课题进行深入研究,以期成为此项研究的示范;同时邀请与本课题研究有关的各分支领域的专家共同参与该项研究,促进比较统计学的繁荣与发展。【内容】本研究首先构建比较统计学的框架,内容涉及统计学的方方面面,包括统计思想、统计理论和统计方法,重点是对相似的统计概念、理论和方法进行比较研究。在框架构建完成后,本研究对回归分析中的叁个子课题进行了深入探索和研究,即①多种缺失数据处理方法在重复测量资料分析中的比较研究;②四种稳健回归分析方法的比较研究;③多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现。在对重复测量资料多种缺失数据处理方法的比较研究中,考察了删除法、单一填补法和多重填补法的处理效果;在对稳健回归方法的比较研究中,考察了最常用的Huber M估计、LTS估计、S估计和MM估计的稳健性及相对效率;在多种变量筛选方法的比较研究中,考察了前进法、后退法、逐步筛选法、R2选择法、校正R2选择法和Mallow’sC p选择法的优劣,并通过SAS软件的宏语言,实现了在进行多重线性回归分析和多种logistic回归分析时,针对同一个问题自动运用多种方法进行变量筛选并自动输出最优的拟合模型,并通过实例验证程序的可行性。本研究还制定了中英文邀请函,邀请国内外专家参与该课题的研究,以凝聚更多专家的智慧和力量,促进比较统计学的繁荣和发展。【方法】为构建科学、合理、系统、完善的比较统计学框架,本研究大量搜集、阅读、学习、归纳和整理包括Pubmed、Embase、中国知网、万方、维普等大型数据库中的相关文献,在现有的统计学知识的基础上,对比较统计学的整体架构进行梳理,并与教研室师生进行了多次讨论并反复修改。对于重复测量资料多种缺失数据处理方法的比较研究,首先对各种方法进行原理上的总结与比较,然后运用蒙特卡罗模拟的方法构建含一个分组因素和一个重复测量因素的数据集,并进行混合效应模型分析,比较各种方法处理缺失数据的能力。对于单调缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法、多重填补法中的线性回归法、预测均数匹配法和趋势得分法在叁种不同缺失机制、五种不同缺失率数据中的处理效果,其中多重填补法还考虑了不同的填补次数对结果的影响。对于任意缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法以及多重填补法中的马尔科夫链蒙特卡罗填补法在叁种不同缺失机制、五种不同缺失率数据中的处理效果,同时也考察了多重填补不同填补次数对结果的影响。对于四种稳健回归方法的比较,首先对各种方法进行原理上的介绍与比较,然后运用蒙特卡罗模拟的方法比较各种方法的稳健性和相对效率。通过构造一个线性模型,分别运用普通最小二乘估计、Huber M估计、LTS估计、S估计和MM估计分析误差不满足正态分布以及含不同来源和不同比例的异常点的情况。同时,考察在数据满足高斯马尔科夫假定下,以普通最小二乘估计的效率为基准,计算四种稳健估计相对于普通最小二乘估计的效率。最终,综合稳健性及相对效率归纳四种稳健回归方法的优劣。对于多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现,选择常用的叁种自变量筛选方法(即前进法、后退法和逐步筛选法)及叁种最优回归子集法(R2选择法、校正R2选择法、Mallow’sC p选择法),总结各种筛选方法的原理及优缺点,并基于SAS语言编写程序,实现多重线性回归分析和多重logistic回归分析的自动化筛选。随后,将该程序运用到有氧健身效果的影响因素分析及喉癌的发病危险因素分析中,以验证程序的可行性。【结果】本课题构建了比较统计学研究的框架,并对回归分析中的叁个子课题进行了深入研究,全面分析和比较了多种缺失数据处理方法处理重复测量资料的优劣、四种常用稳健回归方法的优劣及多种变量筛选方法的优缺点,并通过SAS软件进行大量编程,实现了多重线性回归分析和多重logistic回归分析自动运用多种方法进行变量筛选并输出最优模型的SAS自动化程序。具体而言,本文的研究结果以及主要创新点包括以下四个方面:(1)构建了科学、合理、系统、完善的比较统计学框架,包括统计思想的比较、各种科研设计方法的比较、统计资料收集与整理方法的比较、常用统计分析方法的比较以及特殊领域中统计应用的比较。(2)多种缺失数据处理方法在重复测量资料中的比较研究得出:在任意缺失模式下,当缺失机制为完全随机缺失和随机缺失时,在低缺失率(10%)情况下,删除法、单一填补法和多重填补法的效果均较好;随着缺失率的增大,删除法和单一填补法的处理效果都不佳,单一填补法甚至不如删除法;而多重填补法的处理效果依然令人满意,当缺失率较低时结果几乎与真值无异,当缺失率高达50%时,其回归系数也非常接近真值,其缺点是在高缺失率下容易高估变量的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,各种方法的处理效果都不理想。在单调缺失模式下,当缺失机制为完全随机缺失和随机缺失时,删除法、均值填补法、末次观测结转法和多重填补的趋势得分法的处理效果都不理想,而多重填补的线性回归法和预测均数匹配法的填补效果很好,其回归系数非常接近真值,缺点是在一定程度上会高估系数的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,所有方法都无法取得较好的处理效果。(3)四种稳健回归方法的比较研究得出:当误差不满足正态分布时,普通最小二乘估计无法进行正确的参数估计和假设检验,且结果非常不稳健,而HuberM估计、LTS估计、S估计和MM估计则能有效抵抗非正态误差的影响。当数据中存在异常值时,无论存在于原因变量还是结果变量,普通最小二乘估计都无法抵御,结果非常不稳健。当异常值只出现在结果变量中时,四种稳健估计法都能正确地估计回归模型,结果非常稳健;当异常值只出现在原因变量中时,Huber M估计无法正确估计回归模型,而LTS估计、S估计和MM估计仍能正确拟合模型,结果稳健;当结果变量和原因变量都存在异常值时,Huber M估计同样无法正确拟合回归模型,而LTS估计、S估计和MM估计依然能正确地估计模型,结果稳健。也就是说,Huber M估计只对结果变量存在异常值的情况稳健,而LTS估计、S估计和MM估计对于原因变量和结果变量的异常值都很稳健。另一方面,在对四种稳健回归方法效率的考察时,以普通最小二乘回归为参照,得出当数据满足高斯马尔科夫假定时,Huber M估计的相对效率最高,能达到普通最小二乘估计的95%;MM估计的相对效率次之,但仍然较高,能达到普通最小二乘估计的85%;S估计再次之,为普通最小二乘估计的75%;LTS估计最低,只有普通最小二乘估计的27%。因此,综合稳健性和相对效率,MM估计相对Huber M估计、LTS估计和S估计具有很大优势,是一种良好的稳健回归估计方法。(4)对六种变量筛选方法的比较研究,首先从原理上分析了各种方法的优缺点,并借助SAS软件的宏编程语言,实现了在多重线性回归和多重logistic回归分析中自动运用多种方法进行自变量筛选并自动输出最优的拟合模型。将该程序运用到有氧健身效果的影响因素分析中,得到年龄、跑1.5km消耗的时间以及跑步时的心率为影响有氧健身效果的影响因素;运用该程序分析喉癌的发病危险因素,得到吸烟量、新鲜蔬菜摄食量以及癌症家族史为喉癌的发病危险因素。通过在以上实例中的运用,证明了程序的切实可行性。【结论】本课题构建了比较统计学研究的框架,在一定程度和范围内,为未来统计学的研究和发展绘就了一幅宏伟的蓝图;针对回归分析中的叁个子课题进行了深入的比较研究,得到了令人满意的结果,为完善比较统计学这个学术平台起到了很好的示范作用。在对多种缺失数据分析方法处理重复测量资料的比较研究中,通过原理上和模拟上的比较,考虑了不同的缺失模式、缺失机制和缺失率,使统计结论更可靠,为实际应用中寻找此类问题的最佳处理提供了有效策略;在对四种常用的稳健回归分析方法的比较研究中,同样进行了原理上和模拟上的比较,对四种方法的稳健性和相对效率进行了全面、系统的评价,统计推论更可信,为稳健回归估计方法的普及和合理选择夯实了理论基础。此外,还对六种变量筛选方法进行了综合比较,通过SAS编程实现了多重回归分析中自动运用多种方法进行变量筛选并自动输出最优模型,并通过实例验证了程序的可行性,为更好、更快捷地选择合适的多重回归模型奠定了理论基础和提供了有效途径。

宇传华[6]2000年在《ROC分析方法及其在医学研究中的应用》文中指出ROC曲线以共同的、容易解释的尺度,对诊断系统的准确性提供了直观的视觉印象,是不同阈值对应的灵敏度与特异度的折中体现;其曲线下面积描述了诊断系统对正反两种状态的判别能力。目前,ROC分析被公认为衡量诊断信息和诊断决策质量的最佳方法,其方法和应用的研究在生物统计学、临床流行病学、放射学、决策学、实验室医学等领域十分活跃。本文对该方法的研究历史和现状作了系统的归纳;在已有文献的基础上,结合医学研究中的具体实例和需要解决的具体问题,探讨了ROC分析的多种方法;比较了各种方法的优缺点及其应用条件;并自编了大量SAS程序。 本文采用双正态模型、有序回归模型等参数法,Cox比例风险模型半参数法,Hanley、Delong非参数法拟合了ROC曲线;文中也考虑了样本量的估计、协变量的混杂效应、再抽样技术计算ROC曲线下面积的标准误与可信区间等问题;并研究了SROC分析方法。具体工作与结果小结如下。 1.双正态模型假定正常组与异常组均服从正态分布。目前该模型用于ROC分析的统计学方法比较完善,属于“经典”的ROC分析参数法。本文探讨了单变量、双变量双正态ROC模型的构建及其参数的最大似然估计方法;采用双变量卡方检验、真阳性率z检验、面积z检验叁种方法比较了ROC曲线间是否具有显着性差异。用真双正态模型处理了退化资料。采用ROCKIT等软件对单个有序分类资料、单个连续性资料、多个相关或独立的有序分类资料、多个相关或独立的连续性资料、不完全缺失资料、多观察者多诊断方式的重复有序分类资料等进行了分析。 2.非参数法主要有Hardey和McNeil法与Delong,Delong和Clarke-Pearson法两种,这两种方法均得到了大家的公认,属于“经典”的ROC分析非参数法。它们对正常组与异常组的分布没有要求;可充分利用所有截断点,对连续性样本量大小没有限制;不会类似参数法出现不能获得计算结果的情况;如果双正态模型迭代不收敛,不能获得参数估计值,或对于大型连续性资料,常可用非参数法代替参数模型建立ROC曲线。非参数法中Hanley和McNeil法计算相对简单,容易理解,适用于一般独立的有序分类资料与连续性资料。对于该方法,我们编写了SAS程序。目前有很多计算机软件采用了这种方法,如SPSS 9.0以上Windows版,能很容易实现这种方法。Delong,Delong和Clarke-Pearson法计算获得的ROC曲线下面积与Hanley和McNeil法完全相同,它们均等价于梯形法。尽管Delong,Delong和Clarke-Pearson法计算比较复杂,但该方法与Jackknife法类似,且获得的方差协方差满足了相关ROC资料比较的需要。 3.本研究除探讨了以上ROC分析方法外,还探讨了有序回归模型(比例优势模型、位置尺度模型、GEE法)、Cox比例风险模型获得ROC曲线、曲线下面积及其标准误的方法。也采用这些方法初步考虑了协变量的混杂效应问题。

余红梅[7]2001年在《Cox比例风险回归模型诊断及预测有关问题的研究》文中研究说明随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究日益重要和增多,这些临床试验和随访研究的资料都可整理为生存资料。目前对生存资料的多因素分析最常用的方法仍然是Cox比例风险回归模型。由于Cox模型适用范围广,实际应用中分析者常忽视了它的应用条件,直接影响到该模型的稳定性。本研究在国内首次较系统地探讨和解决Cox模型拟合及预测中以下四个方面的问题。 1.针对Cox模型基本假定之一,即比例风险假定,通过Monte-Carlo模拟研究和实例分析分别比较和验证了考察Cox模型比例风险假定各种图法和检验法的效能,建议分析者选用平滑Shoenfeld残差图、score残差图、叁次样条函数法及时协变量检验、线性相关检验、加权残差score检验,指出当资料不满足PH假定时的解决方法。 2.针对Cox模型基本假定之二——对数线性假定,通过实例比较了现有四种Cox模型协变量与对数风险线性关系假定的图法检查(鞅残差图、改进的鞅残差图、构造变量图及多重β法),这些方法同时提供协变量对生存影响的最佳函数形式。 3.影响分析方面,通过Monte-Carlo模拟研究比较了六种影响点诊断统计量的诊断效能。提出加权score残差、似然距离和最大影响曲率及其诊断图可从模型拟合不同角度有效识别影响点。强调影响点的处理不是简单剔除,应结合数据、模型和专业知识作出合理解释,并采取恰当措施如加权偏似然估计。 4.在Cox模型预测应用方面,引入度量既定预后因子模型预测能力的评 价指标一解释变异,建议把此度量作为标准输出的一部分,纳入常规COx模 型分析中。本研究还首次引入压缩预测技术,实例分析表明压缩预测在一定程 度上校正模型的过度拟合,有效改善预测。 以上四方面研究分别从建模和应用角度讨论了COX模型应用中存在的问题 和解决方法。本研究旨在使分析者在进行COX分析的同时对其合理性作出正确 判断,并采取相应的处理措施,为C。X模型在医学中的应用提供有效的分析方 法。

余红梅, 王彤, 刘桂芬, 王琳娜, 张岩波[8]2006年在《Cox回归模型诊断及其医学应用研究报告》文中认为一、立项背景 1.Cox 比例风险回归模型回顾随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越来越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料。目前对生存资料的多因素分析最常用的方法仍然是 Cox 比例风险回归模型 (proportional hazards regression model)。该模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。由于上述优

李丽[9]2010年在《中国城乡居民家庭贫困脆弱性研究》文中研究说明贫困作为世界叁大经济难题之一,长期以来受到各国政府和社会各界的广泛关注。各国政府反贫困政策的制定主要依据当前的贫困测度结果。但是今天的贫困未必等于明天的贫困,现在贫困的家庭可能很快就能脱贫,也可能继续贫困陷入贫困的恶性循环,现在不贫的家庭可能会因遭受严重的负面冲击而陷入贫困。根据家庭当前收入或消费计算的贫困指标,只是静态地度量了家庭当前的福利水平,没有考虑家庭的未来福利或与未来福利相关的风险,是一种事后测度,据此制定的反贫困政策充其量只是亡羊补牢,不具有前瞻性,无法在贫困发生之前阻击贫困。世界银行2000/2001年度《世界发展报告》正式提出了“贫困脆弱性(vulnerability)"这一概念,之后这一前瞻性视角迅速成为发展经济学的一个研究热点。围绕如何将风险纳入贫困评估框架,如何理解和测度脆弱性,取得了大量的研究成果,但在国内贫困研究中涉及贫困脆弱性的文献还很少。借鉴国外的研究经验,构建适合中国实际情况的脆弱性研究框架,为前瞻性扶贫政策的瞄准及差别救助政策的设计提供参考,具有重要的理论和实践意义。本文以家庭为基本研究单位,以脆弱性的测度、根源和影响因素为研究主题,综合运用了文献研究法,统计图、统计表、均值、方差等描述统计法,秩相关分析、核密度估计、bootstrap、分位数回归等非参数统计法,面板数据固定效应模型、回归分析等计量模型法,借助Matlab、Excel、Eviews、SPSS、SAS等分析工具,以CHNS为数据源进行实证分析。论文按照从测度到识别再到干预的逻辑思路展开,分为五个阶段,十章。第一阶段是理论基础和数据准备阶段,包括论文的前叁章。主要任务是从理论和数据两方面构建研究基础。一方面,研究国内外相关文献资料,从脆弱性视角和测度方法两方面进行系统的分析和梳理,在此基础上界定脆弱性的内涵及脆弱性测度准则,构建本文的研究框架。另一方面,对CHNS数据进行匹配和加工,根据劳动经济学、福利经济学和社会学的基本理论,借鉴已有的研究成果,尽可能多地筛选变量以备研究所用。第二阶段是测度阶段,包括四、五、六章。第四章构建了家庭脆弱性测度的方法体系。总的来讲,包括描述性和推断性测度两大类。其中,描述性测度指标有七种:边缘型脆弱性、偶贫型脆弱性、P1型暂时贫困值(TP1)、P2型暂时贫困值(TP2)、负向变动率、绝对变动率、平均变动率。推断性测度指标有叁种:EP0、EP1、EP2。对于推断性测度,还要区分不同的未来收入分布估计方法:面板数据跨期均值和方差(方法1)、面板数据回归均值跨期方差(方法2)、面板数据回归均值和方差(方法3)、截面数据回归均值和方差(方法4)、非参数法(方法5-1、5-2、5-3)。第五章尝试测度指标、未来分布估计方法、贫困线的各种测度组合,共84种,对家庭脆弱性进行实证测度,并且从脆弱贫困对照的角度记录测度结果。由于角度、尺度、量纲不同,具体的测度结果存在很大差异,但得到的方向性结论基本一致:首先,“穷人更脆弱”。各种测度的脆弱贫困对照表、脆弱性直方图和脆弱性发生率曲线都印证了这一结论。这种脆弱性结果与贫困状况的高度相关性,说明用脆弱性预测贫困是可靠的。其次,脆弱性不等同于贫困。贫困者并非都脆弱,脆弱者也并非都贫困,二者锁定的群体有交叉的部分,但并不完全重合。再次,城镇家庭的收入差距和脆弱性差距都大于农村。最后,“农村更脆弱”。农村家庭的脆弱性高于城镇,而且贫困线越高,脆弱性的城乡差异越大。这一规律对总体和非贫困家庭都适用,但是在贫困家庭中,城乡脆弱性的力量对比却发生了逆转,说明城镇低收入群体的贫困风险更大。第六章根据实证测度的结果,评估各种测度组合的可靠性、稳健性和准确性,进而选择测度效果最好的贫困线、脆弱线、测度指标和未来分布估计方法,作为下一阶段的研究基础。第一,贫困线应选择2美元。第二,脆弱线的选择比较复杂。对低脆弱线,考虑了贫困均值和脆弱性均值两种设置方法。描述性测度仅适用于脆弱性均值脆弱线,推断性测度中,EP1和EP2以及非参数法测度EP0时应以贫困均值为脆弱线,参数法测度EP0时,应以脆弱性均值为脆弱线,这一结论对当前脆弱性研究文献中普遍以贫困发生率为脆弱线的做法提出质疑。对高脆弱线,以当前已达成共识的0.5脆弱线为基础,根据极差法和切尾极差法同量纲化处理的思想、设置了七条高脆弱线。对描述性测度而言,极值脆弱线表现最优,同时适用于TP1和负向变动率,切尾1%极值脆弱线适用于绝对变动率,切尾5%极值脆弱线适用于TP2。推断性测度的高脆弱线适用情况则更加复杂,但总的来讲,对EP0最合适的高脆弱线是0.5,这与以往文献中的做法一致。而EP1和EP2更适用于脆弱性极值脆弱线。第叁,对分布估计方法的优劣,叁种评估的结论并不完全一致,需要做出权衡。总的来讲,参数法表现优于非参数法。参数法中,方法3最优。值得一提的是方法4,由于仅使用一期截面数据测度脆弱性,方法4具有天然劣势,但其表现并不太差,虽在可靠性上落后于其他方法,但差距不大,在稳健性方面却仅次于方法3排在第二位。可见,在面板数据不可得的情况下用方法4测度仍然具有一定价值。第四,在测度指标方面,推断性测度整体优于描述性测度,但在某些方面描述性测度也有上佳表现。例如在可靠性评估中TP2、TP1、负向变动率排在第2、3、4位,高于EP0和EP1,而偶贫型脆弱性、平均变动率也排在EP0。前面。可见,虽然各种描述性测度本质上属于事后测度,是家庭面临风险或风险响应能力的代表指标,并不完全具备脆弱性的内涵,但确实提供了推断性测度力不能及的视角,在测度体系中还是有一定价值的。叁种推断性测度的优劣十分明显,综合排名从前到后的顺序是EP2、EP1、EP0。这一实证结论与当前文献对叁种测度的理论评价完全相符,也与前文测度准则中对叁者的基本判断一致。第叁阶段是识别阶段,包括第七章。运用上一阶段选择的最优测度组合,在区分城乡的基础上,按省份、社区、教育、年龄、职业特征、抚养比测度不同子群的脆弱性,识别脆弱地区和群体,为前瞻性扶贫政策瞄准提供依据。城镇样本中脆弱性最高的贵州、广西、近距离组,小学和初中组,无自雇组,65岁以上组,高抚养比组,农村样本中的脆弱性最高的贵州、广西,近距离组,文盲、小学组,全自雇组,65岁以上组,高抚养比组。第四阶段是干预阶段,包括八、九章。分析脆弱性的直接根源和潜在影响因素,为差别救助政策的设计提供依据。第八章从脆弱率和脆弱性差异两方面进行脆弱性根源分解,得到如下结论:首先,收入越低或变动性越高,家庭越脆弱。其次,脆弱性相等或相近的家庭,其脆弱性的根源可能不同,有的主要因低收入水平(LM)而脆弱,有的主要因高变动性(HV)而脆弱。再次,脆弱率分解结果显示,几乎在所有层面的群体中HV和LM型脆弱都占有一定的比例,只是贫困家庭的脆弱性主要源于LM,而非贫困家庭的脆弱性主要源于HV,并且从整体上讲,城镇家庭脆弱性源于HV的份额高于农村,源于LM的份额低于农村。最后,脆弱性离差分解结果显示,城镇脆弱性以HV为主要根源,农村脆弱性以LM为主要根源。城镇高脆弱性组都以正向变动效应为主导,而高农村脆弱性组都以正向水平效应为主导,不论城乡低脆弱性组都以负向水平效应为主导。第九章筛选家庭脆弱性的影响因素,比较各因素的重要性,分析各因素在脆弱性分布不同位置的作用。首先,城乡家庭脆弱性的影响因素互有异同。同为负向的影响因素有:成人数、教育程度、医保比例、年龄及各类资产变量,同为正向的影响因素有:家庭规模和诊断高血压比例。是否有技术人员和自雇比例两个因素对城乡家庭脆弱性的影响方向相反,城镇两者均负,农村两者均正。户主BMI和国有比例两个因素对城镇家庭有显着负影响,但对农村家庭影响并不显着。其次,各因素的重要性各有高低。无论城乡,资产类因素的重要性都绝对领先于其他因素,说明保护和增加脆弱群体的实物资产是降低脆弱性的根本途径。城乡脆弱性影响因素中可归入重要性第二层次的有医保比例和户主年龄,佐证了不断地推行城镇和农村的医疗保险制度改革的合理性。值得注意的是,成人数、教育、健康、技术等人力资本因素和随礼支出所代表的社会资本因素排在重要性最低的第叁、四层次,说明这些因素尚未发挥应有的作用,大有可以作为的空间。第叁,各因素在脆弱性分布的不同位置作用不同。以救助最脆弱群体为目标的扶贫政策应该重点关注两类因素:一类是影响随着分位点的提高而增大的负向因素(A类因素),另一类是虽然存在波动但较高分位点上影响大于较低分位点上影响的负向因素(B类因素)。在城镇,A类因素有:资产总值、自雇比例、国有比例,B类因素有:成人数、技术人员、户主BMI、东部。在农村,A类因素有:电器交通总值、农机价值、房屋出租价值、一次感冒费用、随礼支出,B类因素有:成人数、教育、技术人员、户主BMI。第五阶段是归纳总结阶段,对应着第十章。归纳总结脆弱性测度、识别和干预的研究结论,提出相应的对策建议,指明进一步的研究方向。本文的主要创新点有四点:第一,脆弱性测度框架方面的独特性。本研究将测度方法分为描述性和推断性两类。对描述性测度首次提出边缘型脆弱性、负向变动率型脆弱性、平均变动率型脆弱性和绝对变动率型脆弱性测度指标。对推断性测度突破只从理论上而非实证上探讨EP1和EP2的做法,运用五种未来收入分布估计方法测度EP0、EP1、EP2。在已有的脆弱性文献中,尚未有任何一项研究做过如此全面系统的测度。另外,本文所建立的从测度到识别再到干预的研究框架,从逻辑上具有严密性,从架构上具有新颖性。第二,对测度方法的多角度评估。当前的脆弱性测度处于一种百花争鸣的状态,由于使用的数据不同,不但测度结果不具有可比性,各种方法的优劣也无从可知。判断方法优劣对扶贫实践十分重要,毕竟,在扶贫过程中同时计算多种测度并不现实,客观上需要一种统一的测度,但是当前的脆弱性文献恰恰缺少这方面的研究。本文尝试运用测度指标、贫困线、估计方法共84种测度组合测度家庭脆弱性,根据测度结果对评估各种测度。评估视角和评估指标的选择都具有一定的创新性。第叁,研究方法的独特性。用分位数回归研究各因素对脆弱性分布不同位置的影响,在脆弱性研究领域尚属首次。将bootstrap法应用于脆弱性测度实践,在国内已发表的成果中应是首次。用秩相关法评估测度方法的稳健性也是一种全新的尝试。第四,脆弱线选择方面的开创性研究。当前的脆弱性研究中,对脆弱线的选择仅局限于EP0。本文将其扩展到所有测度,借鉴EP0脆弱线的设定思想,提出两种低脆弱线和七种高脆弱线,应用于脆弱性测度实践,为不同的测度选择合适的脆弱线。从理论上讲,对脆弱线的讨论对脆弱性研究体系是一个有益的补充。从实践上讲,如果没有为一种测度方法设定一条合适的脆弱线,就无法判断单个家庭是否脆弱,也就无法应用该种测度进行扶贫政策的瞄准,客观上限制了脆弱性测度在扶贫实践中的应用。不足之处在于:首先,可得数据的内容严重限制了脆弱性研究的角度和深度。CHNS不提供消费数据,只能根据收入数据测度脆弱性,而且无法从风险暴露的角度测度脆弱性。缺少家庭风险和风险响应方面的信息,使很多脆弱性测度的设想只能停留在理论层面。其次,面板数据的长度有限,研究仍建立在极强的假设之上,因此研究结果的准确性和可靠性也受到影响。第叁,测度和分解子群脆弱性时,由于样本量有限,只采用了城乡和年龄,城乡、教育程度等两个层次的交叉分组。这样识别出的脆弱群体比较粗略,瞄准面过宽,针对性不强。第四,在实证过程中某些处理主观性较强。例如,本文使用的变量大都不是CHNS的原始数据,而是由多个数据文件的匹配,甚至是重新加工计算得到的,在加工这些变量的过程中存在一定的主观性,从某种程度上会影响到研究结论。最后,本文借鉴国外的研究经验,对中国贫困脆弱性问题进行尝试性研究,主要是探讨各种测度方法的适用性,并未提出全新的测度方法,也未能改进现有脆弱性测度中缺乏前瞻性的问题。

参考文献:

[1]. 基于秩次的稳健回归分析和诊断方法研究[D]. 鲍彦平. 山西医科大学. 2003

[2]. 线性回归模型的稳健估计及多个异常点诊断方法研究[D]. 王彤. 第四军医大学. 2000

[3]. 一类基于秩次的稳健线性回归估计与诊断方法[J]. 王彤, 鲍彦平. 数理统计与管理. 2008

[4]. 电网阻频特性测试与辨识[D]. 姜昊. 西南交通大学. 2016

[5]. 《比较统计学》框架的构建及在回归分析中的示范研究[D]. 鲍晓蕾. 中国人民解放军军事医学科学院. 2014

[6]. ROC分析方法及其在医学研究中的应用[D]. 宇传华. 第四军医大学. 2000

[7]. Cox比例风险回归模型诊断及预测有关问题的研究[D]. 余红梅. 第四军医大学. 2001

[8]. Cox回归模型诊断及其医学应用研究报告[C]. 余红梅, 王彤, 刘桂芬, 王琳娜, 张岩波. 2005—2006山西省统计科研成果汇编. 2006

[9]. 中国城乡居民家庭贫困脆弱性研究[D]. 李丽. 东北财经大学. 2010

标签:;  ;  ;  ;  ;  ;  

基于秩次的稳健回归分析和诊断方法研究
下载Doc文档

猜你喜欢