不等概率抽样中若干方法的比较

不等概率抽样中若干方法的比较

顾莉洁[1]2003年在《不等概率抽样中若干方法的比较》文中研究表明不等概率抽样是抽样调查中一种重要的抽样形式,在实际中被广泛地应用。 本文首先从理论上介绍了若干种不等概率抽样方法,它们的估计量、估计量的方差及其估计,其中包括有放回PPZ及PPS抽样,不放回不等概率抽样中的Brewer、Durbin、Sampford、Des Raj,Murthy、Rao-Hartley-Cochran等人的方法; 其次,在Rao和Bayless两人就样本单元数n=2的情形对上述抽样方法进行比较的基础上,将总体随机地分成两个子总体,视每个子总体取自不同的线性超总体,在文中,我们利用计算机实现随机分组,并通过画图比较各方法估计量的稳定性,结果表明,对变异系数C.V.(x)较大的总体而言,两个超总体之间的微小差异将对估计量的稳定性产生很大的影响,从而说明Rao和Bayless的比较结果还不够完善。

廉恒丽[2]2010年在《死因监测整群抽样设计方案的比较研究》文中指出死因监测工作是了解居民死亡水平和死因顺位,掌握居民健康影响因素,为政府制定卫生政策、评价卫生工作质量和效果的科学依据,也是研究人口自然变动规律的一个重要内容。其中死因监测点的确定是一个首要的问题。本研究以陕西省死因监测点的确定为例,以陕西省107个县(市,区)级单元作为抽样框架,进行以下几部分的研究:1.制定不同的抽样设计方案。结合中国实际情况,引入了不等概率抽样方法,建立可行的四种抽样方法,即:完全随机整群抽样、分层整群抽样、不等概率整群抽样、不等概率分层整群抽样,分别以总人口的5%、10%、15%作为抽样比例,组合成为十二种抽样方案,每个方案都进行计算机重复抽样100次。2.计算不同抽样方案的抽样精确度,结果表明:完全随机整群抽样抽样比例大于10%就可对总体有较好的代表性;分层整群抽样抽样比例大于15%就可对总体有较好的代表性;不等概率整群抽样抽样比例大于15%就可对总体有较好的代表性;不等概率分层整群抽样抽样比例大于15%就可对总体有较好的代表性。3.计算并比较不同抽样方案的平均抽样标准差。结果表明:地区生产总值均数的标准差:1)抽样比例除5%外,随着抽样比例的增大(从10%到15%),地区生产总值标准差的均数反而减小。2)不同的抽样方法中,地区生产总值标准差的均数以不等概率分层整群抽样最小。死亡率均数的标准差表明:不同的抽样方法中,以不等概率分层整群抽样的标准差最小。4.计算并比较不同抽样方案的设计效率,结果表明:地区生产总值:1)完全随机整群抽样中:不同抽样比例的地区生产总值设计效率的均数是相同的,都是1;除抽样比例为5%,随着抽样比例的增大(从10%到15%),地区生产总值设计效率的均数是减小的。2)不同的抽样方法中,以不等概率分层整群抽样的地区生产总值设计效率的均数最小。死亡率:1)完全随机整群抽样中,不同抽样比例的死亡率设计效率的均数是相同的,都是1;除抽样比例为5%,随着抽样比例的增大(从10%到15%),死亡率设计效率的均数是减小的。2)不同的抽样方法中,以不等概率分层整群抽样的死亡率设计效率的均数最小。5.提出最佳抽样方案是不等概率分层整群抽样。本研究的主要创新点主要包括以下叁点:(1)提出并将不等概率抽样应用于有明确抽样框架的总体的抽样研究中。(2)重复抽样计算并比较了每种抽样方案的平均抽样误差、抽样精确度及设计效率。(3)评价并提出了有明确抽样框架的总体的最佳抽样方案是不等概率分层整群抽样。

熊国林[3]2006年在《辅助信息在不等概率抽样设计中的应用方法研究》文中研究表明在不同的抽样设计中,可利用的辅助信息的类型及应用方法是不同的,因此很有必要深入到各种抽样设计中,根据不同抽样设计的特点对辅助信息的应用方法进行研究。本研究主要针对的是辅助信息在不等概率抽样设计中的应用方法,文中分别对在叁类不同的不等概率抽样设计中利用辅助信息进行分类探讨,它们是泊松抽样,πPS抽样和PPS抽样。这是一个全新的研究角度。 首先,对本研究的选题背景和研究意义及研究的主要内容进行了阐述,其次,论述了辅助信息与抽样设计,并引入了本研究基于的方法论基础,即以基于示性变量的入样概率和π估计量为研究工具。再次,分三章分别讨论了辅助信息在泊松抽样,πPS抽样和PPS抽样中的应用方法。最后是论文的总结与展望部分,陈述了本论文不足之处和可进一步研究的方向。

李战江[4]2006年在《抽样调查中一些理论与方法的研究》文中进行了进一步梳理抽样调查是应用统计的一个重要分支,在实际中被广泛地应用,本文首先研究了一些多元抽样技术,较为系统地建立了多元不等概率抽样和多元二阶抽样理论。其次,本文对单个辅助指标的回归估计法与多个辅助指标的回归估计法作了数值比较。得到的结果表明,在一些情况下使用多个辅助指标的回归估计可以提高估计的精度。最后,本文讨论了在利用同一辅助指标下的叁类估计量(PPS抽样方案下的PPS估计量、简单随机放回抽样方案下的比估计量、PPS抽样方案下的比估计量)的效率比较问题。

刘辉[5]2014年在《系统抽样中若干问题研究》文中认为系统抽样与其他抽样方法相比,实施简单操作简便,容易被实际工作者所接受.不过当总体N不是样本容量n的整数倍时,样本均值不是总体均值的无偏估计量,且实际样本均值的方差不易求得.为此通过引入修正等距直线抽样、圆形系统抽样等获得总体均值的无偏估计量.但是即便如此,想要求得估计量方差仍然不易,针对这一问题我们借用不等概率Horvitz-Thompson估计量作为系统抽样下的总体均值的估计量.因此,一阶包含概率、二阶包含概率能否求得且不为零,将成为解决问题的关键.本文介绍了新的系统抽样、混合简单系统抽样等,通过定义总体中任意两个不同单元的距离,将总体单元划分后实现求得非零的一、二阶包含概率.从而借用不等概率的估计量方差来实现计算系统抽样样本均值的方差.在总体排列呈线性趋势下,系统抽样的精度要高于简单随机抽样.Subramani提出对角系统抽样,这是一种不等距的系统抽样方法,实施也较为简便,且在总体排列呈线性趋势下,估计量的方差比一般的系统抽样效率要高.经过其他人的改进,对角系统抽样在总体N是样本n的整数倍时,对角系统抽样是一个好的系统抽样设计,且效率比一般的系统抽样要好.当总体N不是样本n整数倍时,本文提出两种新的对角系统抽样方法:余数对角线性系统抽样方法,将总体划分后,一部分采用对角系统抽样,另一部分采用一般的系统抽样;余数对角-对角系统抽样方法,将总体划分后,一部分采用对角系统抽样,另一部分也采用对角系统抽样.混合使用对角系统抽样与一般线性等距系统抽样或者是两部分都采用对角系统抽样得到新的估计量,同样经过计算一阶包含概率、二阶包含概率,借用不等概率Horvitz-Thompson估计量实现估计量的方差计算.由此总体N将不再受限于样本量n,是对于对角系统抽样一个很好的拓展与补充.另外,本文还提出一种新的辅以简单随机抽样的系统抽样,通过插补法实现了样本量n整除总体N,从而可以按等距系统抽样实施,这就为当总体N不是样本n整数倍时提供了一种新的方法.本文部分地讨论了系统抽样改进方法,主要解决当总体N是一个不受限制的任意整数时系统抽样的方法实施,对于实际工作人员参考具有较为重要价值.

孙日扬[6]2015年在《复杂随机抽样数据的多重线性与多重logistic回归分析方法及其应用》文中研究表明【目的】针对目前大部分研究者在进行复杂随机抽样调查资料的回归分析时常采用基于单纯随机抽样(即不考虑抽样权重)的一般多重线性回归分析以及多重l o g i s t i c回归分析的现状,通过比较不考虑权重、仅考虑抽样权重、仅考虑观测权重和考虑综合权重的四种不同建模策略,发现在原理以及模拟研究结果上彼此的不同,进而引起研究者的重视。同时,创造性地提出“观测权重”与“综合权重”的概念并阐述其计算原理,模拟并探讨其在复杂随机抽样调查资料多重线性与多重l o g i s t i c回归分析建模中的作用。【内容】首先大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。而后借助综合评价中的权重系数的思想,在回归分析中,定义了反映各个体或观测对总体的重要性的量─观测权重。从而构建并完善观测权重及其衍生的综合权重的概念并阐述其计算原理。基于蒙特卡洛随机模拟思想,假设所得到的完整资料为抽样总体,在抽样总体中进行不同抽样率下的分层随机抽样。而后按考虑抽样权重、观测权重、综合权重与未考虑权重的分析策略(以下简称四种分析策略)对抽样资料进行多重线性与多重l o g i s t i c回归建模,比较并探讨纳入不同权重时模型拟合结果的准确性、稳健性以及灵敏性。而后将资料视为抽样样本,赋予每个观测不同抽样率下的抽样权重,在不同的分析策略下对上述所得结果进行验证分析。【方法】(1)通过大量搜集、阅读、归纳和整理文献,对复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析的原理进行研究。(2)对于观测权重和综合权重的构建,通过大量搜集、阅读、学习、归纳和整理相关文献,所用的数据库包括P u b m e d、E m b a s e、中国知网、万方、维普等,运用现有的统计学知识和创新性思维,提出观测权重和综合权重的理论构想,在导师的指导下,并与研究室师生进行反复讨论和多次修改,使其进一步完善、合理。(3)模拟研究:采用美国营养与健康研究中心在2 0 0 9~2 0 1 3年期间调查获得的两组数据(有效样本含量N1=6 7 5 6,N2=5 4 4 0),按照年龄段(1 0岁)分层。假定N=6 7 5 6/5 4 4 0例的调查资料就是一个“抽样总体”,基于此总体,构建分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样数据集,而后分别运用上述的四种分析策略进行多重线性回归分析与多重l o g i s t i c回归分析,并将分析结果进行比较,考察在不同分析策略与不同抽样率下模型拟合的效果。而后,假设该数据(N=6 7 5 6/5 4 4 0)为在分层随机抽样率分别为5%~9 5%(1 0%步长)的分层随机抽样下得到的数据集(即每次都是样本含量为n=6 7 5 6/5 4 4 0例的一个样本),运用前述的四种分析策略对该固定样本进行多重线性与多重l o g i s t i c回归分析,并将分析结果进行比较,对上述所得结果进行验证。【结果】(1)对复杂随机抽样调查所得的数据进行多重线性与多重l o g i s t i c回归分析的模型构建和参数估计方法进行了归纳和总结,比较了最小二乘法、加权最小二乘法、极大似然法、拟极大似然法的数学原理及需满足的条件。从原理上得知复杂随机抽样调查资料的多重线性与多重l o g i s t i c回归分析中应当考虑其研究所采用的抽样方法,并依据抽样方法选择适当的参数估计方法,否则会产生较大的偏差。(2)澄清了“权重”与“抽样权重”中一些模糊概念,提出并构建了“观测权重”以及“综合权重”的新概念及其确定方法。为接下来的研究提供了理论支持,也为未来关于“权重”的研究提供了一定的参考。(3)通过对所得到的数据(N1=6 7 5 6)进行抽样调查数据的多重线性回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大且比应当纳入模型的数目要少,同时其标准误也最大。检验模型拟合的统计量均方根误差较大,决定系数较小,其模型拟合结果的准确性、精确性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当抽样率达到8 5%时才达到稳定。同时其模型拟合的均方根误差和决定系数与未考虑权重的分析策略的一样大,因此与不考虑任何权重的分析策略相比,仅考虑抽样权重的分析策略的准确性、稳健性以及灵敏性有所提高,但还未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性、精确性以及灵敏性大大提高。但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型拟合的均方根误差最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。(4)通过对所得到的完整数据(N2=5 4 4 0)进行抽样调查数据的多重l o g i s t i c回归分析的模拟研究,得到以下结果:在不考虑权重的分析策略下建模,回归模型所纳入的自变量数目在不同抽样率下波动较大,当达到8 5%抽样率时才达到稳定。同时评价其模型拟合的统计量A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较差;在仅考虑抽样权重的分析策略下建模,回归模型在不同抽样率下纳入自变量数目波动较大,当达到6 5%抽样率时达到稳定。同时其模型对应的A I C值、S C值较大,决定系数较小,其模型拟合的准确性、稳健性以及灵敏性较不考虑权重时有所提高,但未达到研究者预期的目标;在仅考虑观测权重的分析策略下建模,当抽样率达到3 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值与前两种分析策略相比大大减小,决定系数大大增加到接近1,因此其模型拟合结果的准确性精确性以及灵敏性大大提高,但是其建模原理是建立在单纯随机抽样的前提下,因此笔者并不推荐此法;在考虑综合权重的分析策略下建模,当抽样率达到2 5%时模型纳入自变量即达到稳定,其模型参数估计值较为稳定,模型对应的A I C值、S C值最小,决定系数接近1,因此其模型拟合结果的准确性、精确性以及灵敏性最高。【结论】在进行复杂随机抽样调查资料的多重线性回归与多重l o g i s t i c回归分析时,研究者若将综合权重纳入到分析中(即同时考虑抽样权重与观测权重),则结果将会更加准确、稳定且灵敏。

张宇旋[7]2009年在《国家顾客满意度调查抽样方案研究》文中研究表明开展国家顾客满意度调查,建立国家顾客满意度指数对提高商品与服务质量有着十分重要的意义。在开展国家顾客满意度调查的过程中,调查抽样方案直接影响着调查的效率以及调查结果的精度。中国地区经济发展不平衡,人口分布不均等特殊国情给中国顾客满意度调查抽样方案的设计带来了巨大的挑战。本文通过从技术的层面上设计中国顾客满意度调查抽样方案,为中国顾客满意度调查的抽样工作所面临的问题提供了一种解决方案,提高了开展中国顾客满意度调查的可行性。本文主要工作和研究内容如下:1.在阐述本文的研究背景的前提下,提出中国顾客满意度调查抽样方案设计所面临的问题,并指出解决这些问题的意义。简要回顾了现有的国家顾客满意度指数研究现状以及国家满意度调查的开展情况。最后,详细阐明了本文的研究思路以及结构安排。2.详细介绍了与国家顾客满意度调查相关的社会调查基本理论,包括社会调查的概念、目的及作用,社会调查的方式以及社会调查的步骤。详细介绍了与国家顾客满意度调查相关的社会调查抽样理论,包括抽样的目的与意义,抽样的类型与方式以及抽样的误差与样本容量。3.系统地研究了与国家顾客满意度调查相关的电话调查理论,包括电话调查的发展与面临的问题,电话调查与其他调查方式的比较与结合,电话调查的抽样框,电话号码结构以及电话调查的误差源。为中国顾客满意度调查采用电话调查方式打下理论基础。4.在对中国顾客满意度指数模型,调查开展形式与调查范围进行简要介绍的基础上,分别详细介绍了中国顾客满意度调查的区号抽样方案与局号、用户号抽样方案的设计原理、过程以及方案结论,为中国顾客满意度调查的抽样工作所面临的问题提供了一种解决方案。5.最后,总结了本文的研究工作以及研究成果,并在此基础上对未来的研究目标与工作安排进行了展望。

吕萍[8]2016年在《住户调查中户内样本抽样方法的比较研究》文中进行了进一步梳理抽样调查是获取社会经济调查数据的主要手段,其抽样设计一般采用分层多阶段不等概的抽样设计。但是,在抽样设计和实际抽样中,人们往往忽视末端样本个体的抽样,本文主要基于中国家庭动态跟踪调查数据对末端样本的概率抽样方法进行比较研究。

常启辉[9]2015年在《校准估计法在抽样调查中的应用研究》文中进行了进一步梳理数据的搜集及分析对企业的经营、国民经济的宏观调控等都具有很强的指导意义。本文将研究目标锁定在抽样调查这一领域,针对这种很有效的数据搜集方法开展了深入的研究。文章主要研究了在抽样调查的抽样估计阶段如何充分利用辅助信息,通过构造校准估计量来估计总体的各种参数,重点对校准权数的确定方法以及校准估计法在不同抽样设计下的具体应用做了介绍,并在此基础上对校准估计法未来的发展做了展望。校准估计法的核心思想是在确定原始设计权数的基础上,利用辅助信息对原始设计权数进行调整,得到新的校准权数,以使加权后的样本结构尽可能地接近总体结构,减少样本结构与总体结构之间的差异,从而达到提高估计精度的目的。文章对叁种主流的权数校准方法进行了详细的阐述和解释,通过对模型的推导和对比,得出了一些实用的结论。在完成对校准估计法的理论阐述后,本文介绍了校准估计法在简单参数—即总体总值或总体均值估计中的应用,重点推导和介绍了某些特定条件或抽样设计下总体总值的校准估计量。上述特定条件和抽样设计涵盖了小域估计、无回答、二重抽样、二阶抽样、双重抽样框等情形,对于我国的抽样调查实践有重要的方法论意义。除了简单参数估计以外,校准估计法对于复杂参数的估计也有很好的改良作用。本文在理论推导的基础上介绍了校准估计法在总体分位数、比率、总体方差等复杂参数估计中的应用,进一步拓宽了校准估计法的运用思路。为了验证校准估计法的优势,本文通过对初始设计权重、相关系数以及无回答率的调整模拟了不同类型的数据,并比较了每种情况下校准估计量与?估计量的估计精度。从结果来看,校准估计法的估计效果均优于传统的?估计量。文章不仅通过模拟数据证实了校准估计法的优越性,而且在阅读大量文献的基础上对校准估计法的理论及运用进行了详细的推导、梳理和总结。我国抽样调查实践起步较晚,该领域的理论研究也始终滞后于国际先进水平,本文的研究内容不仅为相关工作者提供了有价值的基础资料,而且能够对校准估计法在我国的推广、运用和发展起到一定的推进作用,这也是本文研究的意义所在。

成俊[10]2008年在《以家庭为单位的整群抽样资料总体参数的GEE估计》文中提出在以家庭为单位的整群抽样调查研究中,由于家庭成员的观测指标间存在一定的内部相关性(intra-family correlation),不符合独立性的假设,若用传统的基于独立性假设的有关方法直接进行分析,即忽略了观察对象在不同家庭的内部相关性,误将其看作独立样本,得到的各参数估计值的有效性和其他统计特性均会受到影响,甚至会给统计推断结论带来偏倚。WG Cochran(1977)曾讨论过这类资料的分析,由于公式复杂,故尚未得到广泛应用。广义估计方程(generalized estimating equations,GEEs)是Liang & Zeger于1986年在广义线性模型的基础上提出的,用于分析非独立数据的一种统计分析方法。GEEs可以对符合正态分布、二项分布、Poisson分布等多种分布的因变量拟合相应的统计模型。以家庭为单位的整群抽样资料是一类特殊的资料,其参数估计必须考虑到该类资料的非独立性特点。本研究采用模拟试验,在各种组内相关结构、组内相关系数的组合下,产生模拟的以家庭为单位的整群抽样资料,每种情况模拟2000次,比较广义估计方程、公式法和直接计算法(logistic模型)得到的可信区间的覆盖率,考察方法的准确性。本研究的主要研究内容如下:(1)总体均数GEE估计的效果考核采用Monte Carlo方法模拟以家庭为单位的抽样调查资料,据此比较广义估计方程、公式法和直接计算法,所估计的总体均数的95%CI的实际覆盖率;探讨家庭内相关结构及其相关强弱对参数估计的影响。(2)总体率GEE估计的效果考核利用模拟的家系资料,比较广义估计方程、公式法和二项分布法(logistic模型)所估计的总体率的95%CI的实际覆盖率;探讨发病率水平、家庭内相关结构及其相关强弱对参数估计的影响。(3)实例分析以“某市高血压及其相关因素流行病学调查资料”实例为载体,分别用广义估计方程、公式法和logistic模型进行分析比较。本研究主要结论如下:(1)当家庭内个体独立时,GEEs、公式法和直接计算法(logistic模型),所估计的95%CI的实际覆盖率均稳定在95%附近,结果可信;(2)当家庭内个体非独立时,GEEs和公式法所估计的95%CI的实际覆盖率均稳定95%附近,结果可信;然而直接计算法(logistic模型)所估计的95%CI的实际覆盖率随家庭内个体相关性的增强而逐渐下降。这种规律在不同的组内相关结构、不同的事先设定的总体参数、不同的家庭人口数时是一致的。(3)组内相关系数越大,对直接计算法(logistic模型)的影响就越大,应用广义估计方程、公式法估计的效果越好,也就越有必要了。根据本研究的结论,对以家庭为单位的抽样调查研究提出以下几点粗浅建议:(1)以家庭为单位的抽样调查资料的参数估计,不适宜采用传统的统计分析方法,应考虑到其家庭成员间的相关性,采用合适的统计分析方法。(2)GEEs估计和公式法估计在参数估计方面结果虽近似,但GEEs既考虑了整群抽样的组内相关性,得到稳健的参数估计,又可调整协变量,且有成熟的软件支持,操作方便,推荐使用。(3)GEEs只适合2水平资料。若家庭嵌套在更高的层次结构上,如杜区水平,则需考虑社区内的相关性。此时就是一个3水平结构资料,其中社区为3水平、家庭为2水平、个体为1水平。若需考虑的水平数大于2,则建议用多水平模型进行分析。

参考文献:

[1]. 不等概率抽样中若干方法的比较[D]. 顾莉洁. 苏州大学. 2003

[2]. 死因监测整群抽样设计方案的比较研究[D]. 廉恒丽. 第四军医大学. 2010

[3]. 辅助信息在不等概率抽样设计中的应用方法研究[D]. 熊国林. 暨南大学. 2006

[4]. 抽样调查中一些理论与方法的研究[D]. 李战江. 内蒙古工业大学. 2006

[5]. 系统抽样中若干问题研究[D]. 刘辉. 内蒙古工业大学. 2014

[6]. 复杂随机抽样数据的多重线性与多重logistic回归分析方法及其应用[D]. 孙日扬. 中国人民解放军军事医学科学院. 2015

[7]. 国家顾客满意度调查抽样方案研究[D]. 张宇旋. 天津大学. 2009

[8]. 住户调查中户内样本抽样方法的比较研究[J]. 吕萍. 数理统计与管理. 2016

[9]. 校准估计法在抽样调查中的应用研究[D]. 常启辉. 暨南大学. 2015

[10]. 以家庭为单位的整群抽样资料总体参数的GEE估计[D]. 成俊. 南京医科大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

不等概率抽样中若干方法的比较
下载Doc文档

猜你喜欢