项目反应理论中2PLM参数估计新方法

项目反应理论中2PLM参数估计新方法

杜鹏东[1]2007年在《GA在IRT中2PLM参数估计中的应用研究》文中进行了进一步梳理本研究就项目反应理论(IRT)二参逻辑斯蒂克模型(2PLM)的参数估计问题为主要关注点,通过对IRT参数估计方法和GA进行了详细的探究,提出一种基于GA的2PLM参数估计方法,并且编制相应的算法程序对不同的项目参数进行估计。IRT是一种现代教育与心理测量理论。参数估计是应用IRT的前提,将这些参数估计出来是建设题库、评价被试、评价考试质量等具体应用方面的需要。可以说,IRT的发展史也就是能力参数和项目参数估计的发展史。相关文献中介绍的参数估计方法,基本都是采用极大似然估计法或贝叶斯方法,似然函数的获取、对待估参数初值的选取以及对待估参数求导是此类估计方法的主要特征。然而参数初值如果选取不恰当,在计算过程中“真值”可能不收敛,甚至会产生“振荡”现象,这显然不是施测者所期望的现象。同时对参数的求导乃至二阶偏导的计算将是非常繁杂的过程,而且每次的迭代必然会产生一定的误差,随着迭代次数的增多,误差有可能会变大,为克服上述缺点,笔者提出了一种新的参数估计的方法,即通过GA的思想来对参数进行估计,通过该方法进行参数估计时对参数初值的选取没有严格要求,而且不需要有待估参数的任何导数信息。GA是一种寻优方法,它具有其它寻优算法所没有的自适应性、全局优化性和隐含并行性等特点。笔者通过对GA编码、遗传算子的分析和借鉴,提出了对遗传算子的改进策略和算法加速收敛策略,编制了算法验证程序并通过一定量的数据资料与国外流行的BILOG软件进行了对比,结果表明,在一定的误差范围内,文中所提出的估计算法能够收敛到较好的最优解。

罗芬[2]2003年在《项目反应理论中2PLM参数估计新方法》文中研究指明本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较,提出一种新方法——双重两步迭代估计。新方法将经验Logistic回归用于两参数Logistic模型的参数估计,使用logit变换建立线性模型,利用线性模型的最小二乘估计得到第j个项目的项目参数向量β_j=(α_j,λ_j)′的两步估计由于X_j含有未知的讨厌参数θ,∑的理论值也和θ有关,我们结合上式的结果对θ进行再估计。修正θ进而修正X_j和∑,从而形成一种新的估计方法—双重两步迭代估计蒙特卡洛模拟结果显示,双重两步迭代估计提高了估计对真值的恢复能力。这种新方法有以下叁个优点:①项目数很少时参数估计的结果也较稳定;②能处理测验中含有少量特殊反应模式(见第二章)的参数估计;③以估计值和真值之差的绝对值(平方)的平均值作为估计对真值的修复能力为指标,新方法的参数估计结果与同类流行软件相比,修复能力不相上下;特别地,新的参数估计方法可以用于多级评分项目GPCM,并为估计题组项目开辟了另一条道路。

王祖俭[3]2005年在《IRT中3PLM参数估计新方法—GA算法》文中研究指明本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进的遗传算法解决这一问题。新方法不需要未知参数的求导及先验分布的任何信息,同时也克服了传统参数估计算法中对迭代初值要求严格的缺点。蒙特卡洛模拟结果显示,这种新的估计方法提高了估计值对真值的恢复能力,特别是提高了项目的难度和猜测度参数估计的精度。本文主要围绕遗传算法的技术基础、特性研究以及在IRT 3PLM参数估计方面的应用等问题,重点进行了以下的研究工作: 1.搜集、整理和总结了近年来国内外在IRT参数估计领域内的主要参数估计方法,对IRT中各种算法的基本算法原理、构成、特点及相关的应用问题等进行了较为系统的研究和探讨。 2.对遗传算法的结构特点和算法特性进行系统的介绍。 3.根据IRT中3PLM参数估计特性对遗传算法进行了相应的探讨和改进。 4.为了验证遗传算法在IRT 3PLM参数估计方面所具有的独特优势,本文将改进后的遗传算法应用于IRT中多个3PLM参数估计适应度函数。 本文的创新点是: 1.将现有遗传算法中的改进方法进行综合,提出了“改进实码遗传算法”这新的参数估计方法,并将它应用于IRT中3PLM参数估计,得到了良好的效果。 2.将以前只能用于双参数估计,且要求能力已知的X~2检验的参数估计方法应用于3PLM,新方法放宽了对适应范围的要求(不需能力值已知)。 3.将多个检验统计量经过改写,应用于IRT的3PLM参数估计。 4.就新的参数估计方法所提出多个适应度函数,进行了性能对比的模拟实验。

胡海[4]2012年在《初始值对项目反应理论中MCMC参数估计影响的研究》文中进行了进一步梳理在项目反应理论(IRT)中,参数估计对于建设题库﹑考察被试﹑考察考试质量起着重要的作用。随着IRT的不断发展,产生了多种不同的参数估计方法。但随着模型的越来越复杂,已有的参数估计方法难以应付模型复杂所带来的繁杂计算量。上世纪九十年代美国统计学家Albert将马尔科夫链蒙特卡洛(MCMC)方法引入到IRT中的参数估计,近年来一些学者将其运用到各种模型中,取得了较好的估计结果。MCMC方法对于参数的初始值未作特别的要求,而传统的参数估计方法则要求较准确的参数初始值。然而,当参数初始值与真实值相差很大时,MCMC方法在估计过程中需要较长的链长去迭代,这个过程耗费了大量的时间。本文通过将传统的参数估计方法中的初始值估计方法引入到MCMC参数估计中,在估计得到较准确的初始值后,将其作为马尔科夫链的初始值进行反复迭代。通过这种方法,使得马尔科夫链能够快速达到平稳分布,减少了抽样取舍的时间。本文考察了2PLM和GRM两种模型,通过大量Monte Carlo模拟研究发现:对于2PLM,当样本量或项目量较大时,当链长较短时,初始值作用明显,比较准确的初始值估计精度更高。对于GRM,估计结果与2PLM类似,但效果更加明显。

胡小芳[5]2016年在《IRT中参数估计的新方法—叁点法》文中提出目前,项目反应理论(Item Response Theory,IRT)是被应用的最为广泛的一种现代心理与教育测量理论,它是为了克服经典测量理论的不足而发展起来的一种新的测量理论,被广泛的应用于各种大规模的考试中。然而,项目反应理论一直以来面临着一个核心问题,即如何快速、高效地估计参数,包括对能力参数和项目参数的估计,以及对能力参数与项目参数的同时估计。在项目反应理论中,参数估计常用的方法有条件极大似然估计和贝叶斯估计等等。对项目反应理论中的参数进行估计常用的算法有N-R算法、EM算法、MCMC算法、DSY算法等,然而这些算法自身存在一些问题,如N-R算法要求目标函数必须是凸函数,这在实际应用中很难满足;EM算法的原理复杂,它涉及到积分运算,理解起来比较困难且编程复杂。当项目反应模型从单维扩展到多维时,用EM算法比较困难;MCMC算法中涉及到寻找马尔科夫链,并且由于不知道MCMC算法估计参数在何时收敛,迭代次数通常要取到5000甚至更多,导致其估计参数时耗时很长。这些算法自身存在的一些缺陷,使他们在应用中总是无法达到研究者想要的效果,这就需要有一种新的参数估计方法。本文提出了一种项目反应理论参数估计的新方法:叁点法,并从理论及模拟实验两方面研究了新方法的有效性。首先,回顾相关领域学者对项目反应理论参数估计所做的研究,并且简要介绍了项目反应理论相关知识及项目反应理论中常用的项目参数估计方法,包括条件极大似然估计及贝叶斯估计;其次介绍了项目反应理论中对参数进行估计的常用算法:EM算法、MCMC算法及DSY算法,主要从这些算法的思想原理、参数估计的过程以及实际应用进行了介绍,通过对各个算法原理的介绍可以发现其原理存在一定的复杂性。随后介绍了本文提出的新算法:叁点法,由于叁点法是在两分法的基础上提出来的,因此在介绍叁点法之前先介绍了两分法,然后介绍了叁点法的原理并进行了证明;最后通过模拟实验对四种算法进行了比较,分为叁个实验,第一个实验是在测验的项目数固定时,比较被试数变化对四种算法进行参数估计的影响;第二个实验是在被试数固定时,比较测验的项目数变化对四种算法进行参数估计的影响;第叁个实验是在叁参数逻辑斯蒂模型的基础上,用叁点法对叁个参数进行估计的结果,并且被试数分别取为1000、2000、3000,以此来说明叁点法在大样本情况下对多个参数进行估计的效果同样比较好。其中第一个实验和第二个实验的模型基础是二参数逻辑斯蒂模型,是在能力参数已知的情况下对项目参数进行估计。在前两个实验中,四种算法对参数进行估计的误差差别并不大,这正是一个成熟的算法所具备的,可以有效的说明叁点法的实用性,从估计结果中可以明显的看出四种算法估计参数所耗用的时间差别。通过模拟实验得出以下结论:(1)叁点法对项目参数的估计精度比EM算法略高;(2)叁点法估计参数所用的时间小于DSY算法所用时间,且远小于MCMC算法所用的时间;(3)叁点法原理比EM算法、MCMC算法更简单,易于理解,且编程简单;(4)叁点法的适用范围比EM算法、MCMC算法要广。

张国红[6]2013年在《基于项目反应理论模型能力参数估计方法的研究》文中研究表明项目反应理论(Item Response Theory,简称IRT)是近20年来发展起来的一种比较完善的应用于心理和教育测试的理论。本文基于项目反应理论研究了Logistic模型下的能力参数估计问题,探讨了几种常用的基于项目反应理论的能力参数的估计方法,并且分析了每一种估计方法的优缺点及各自的适用领域。极大似然估计(MLE)和贝叶斯估计(BME)方法是项目反应理论参数估计研究中的重要方法。本文以叁参数Logistic模型为典型代表来研究,并就其理论模型中的能力参数的估计提出了见解。

汪存友[7]2007年在《运用ANN估计小样本的IRT参数研究》文中提出项目反应理论是题库建设的理论基础,而项目参数的估计则是题库建设前期的重要工作。在项目反应理论中,基于数理统计的传统参数估计方法需要大量的考生样本,这与题库建设中的项目预测必须限制考生数的要求相矛盾。因此,研究小样本测验中的项目参数估计已成为项目反应理论的重要课题。本文以二值记分的叁参数Logistic模型为研究对象,以广义回归神经网络作为网络模型,采用基于蒙特卡罗的模拟实验方法,研究了小样本测验下人工神经网络(简称“神经网络”)方法的项目参数估计性能,得出以下研究结论:1.本文提出了利用项目反应模式作为神经网络输入、IRT参数作为输出的神经网络建模方法。理论分析得出,该建模方法具有一定的优点。2.本文设计了叁种比较神经网络方法与数理统计方法的参数估计的性能指标,并在多种实验条件下对这两种方法进行了比较,结果表明:在大多数指标上,神经网络比数理统计方法的估计精度较高。尤其是当数理统计方法未对项目参数的先验分布进行限定时,神经网络的结果要远好于数理统计方法。3.本文对神经网络方法的参数估计结果进行了方差分析,给研究者的启示是:神经网络方法还不能同时在各个项目参数上得到最理想的估计精度;研究者需要权衡哪些参数更为重要,以便对测验方案做出调整,使得在该参数上得到最理想的估计精度。

戴勰[8]2014年在《结合影子题库和动态a分层选题策略研究》文中指出计算机化自适应测验(computerized adaptive testing,简称CAT)是项目反应理论(item response theory,简称IRT)成功应用的结果,引进了强大的现代科技手段——计算机,CAT根据被试能力自动选择测试项目施测,最后估计被试的能力。这种新型测验不同于传统的笔试测验,它根据被试不同的答题反应,主动选择适应被试能力的项目,以获得准确的被试能力估计值。因此,CAT是因人而异的个性化测验。根据评分模型的不同CAT采用的模型有:0-1评分模型和多级评分模型。选题策略是CAT中必不可少的组成部分,准确、高效且安全的选题策略是CAT一直以来追求的目标。经典的最大Fisher信息量选题具有效率高,估计准确等优点,但项目调用的不均匀性威胁到题库的安全。增设影子题库是一个能较好地平衡项目调用均匀性的方案。本文结合两种选题策略的优点,在0-1评分模型中,设计了一个新的选题策略,并把此方法引入按最大信息量分层和按a分层中。多级评分作为CAT中的一个分支方向,可以提供丰富的项目特征信息,文中结合曝光控制因子在Samejima等级反应模型中提出动态a分层法。模拟实验结果显示,以上新方法比已有的一些方法结果较为理想。

符华均[9]2012年在《一种新的处理迫选量表数据的累积模型研究》文中研究表明随着人格测验在人才测评中的应用日趋广泛,学界对其效度越来越关注。然而,在人才测评中使用单刺激形式量表来筛选应聘者效果较差。这是由于选拔情景下应聘者的作伪动机较高,同时单刺激形式量表控制作伪的能力非常低。因此应聘者能容易地识别出“正确”答案。研究表明迫选量表控制人格测验中的作伪行为有很好的效果。然而,目前有关迫选量表的研究大多基于CTT。以CTT为基础编制的迫选量表获得的被试得分是自比分数。由于分数的自比特性,使得分数不能在被试间进行比较,同时在分数解释上也存在困难。本研究以Andrrich与Strak等提出和发展的配对偏好概率反应模型为基础,采用2PLM来处理拟合累积模型单维数据;并通过结合2PLM和配对偏好模型,本文提出一种能处理累积模型的迫选量表数据——2PLM-MU。模拟研究显示采用2PLM-MU估计被试潜在特质有较高的精度;其中测验长度对参数估计的精度影响显着,测验长度越长估计精确性越高;单维题比例对参数估计精确性有有一定的影响,但是影响的方向还需要进一步研究。

徐瑞[10]2017年在《项目反应模型的正态拟合检验法》文中提出项目反应理论(Item Response Theory,IRT)是在经典测量理论的基础上发展起来的,在二十世纪七十年代被测量学家广泛研究,是心理与教育测量学中的重要内容,一直被广泛应用(漆书青,2003;张继超,2013)。它是在一定假设下,用数学模型去刻画被试在项目上的作答表现与其特质水平之间的关系,因此,可以说项目反应理论的基础是假设,核心是模型。由此可见,IRT能够有效运用的关键在于,选取的IRT模型与实际数据的拟合程度。只有当IRT模型与实际数据集拟合程度较好时,项目反应理论的优点才能充分发挥出来(单昕彤,2014)。那么如何判断所选模型是否得当呢,就需要对模型进行拟合性检验。项目反应理论中,模型的拟合检验统计量有很多,主要包括卡方类统计量,后验预测模型统计量和基于信息矩阵检验的统计量,其中卡方统计量是比较常用的统计量,在卡方类统计量中最常用的是博克的卡方统计量和似然比G~2统计量。然而针对卡方类统计量的自由度的问题一直存在争议,目前常用的自由度通常为mJ-,但是有学者认为自由度可能在mJ-到J之间。而且卡方统计量根据被试能力分组,能力估计产生的误差可能会导致每个组内的观察频数不准确,进而使拟合统计量的分布和自由度不准确,此外,卡方检验的结果与样本容量有关,根据卡方统计量的计算公式,如果样本容量增加,卡方值也会随之增加,而卡方分布的自由度与项目参数和所分组数有关,与样本容量无关,所以随着样本容量的增加,卡方值在增大,而卡方临界值不变,就会出现卡方检验显着的结果。即单个项目的拟合检验只有在被试样本量较小的情况下,BCHI法和似然比G~2检验法才能充分发挥其检验效能,当被试样本容量较大时,即使实际数据集与逻辑斯蒂模型拟合的很好,此方法仍然会出现拒绝逻辑斯蒂模型假设的误判。似然比G~2检验法也可用于整体测验的拟合检验,但是仍然是基于卡方的思想,因此具有卡方类统计量共有的缺点,而目前并没有BCHI法在整体测验应用上的研究。针对这些检验法自身存在的缺陷,本文提出一种既能用于项目的拟合检验又能用于整体测验的新的检验方法:正态拟合检验法。在本研究中,第一章,简单介绍项目反应理论,以及常用的模型:单参数、二参数、叁参数逻辑斯蒂模型;第二章,简要介绍常用的模型拟合检验统计量,博克的卡方统计量和似然比G~2统计量;第叁章,介绍BCHI法和似然比G~2检验法的检验步骤,并提出新的正态拟合检验法,在单参数、二参数、叁参数的逻辑斯蒂模型的假设下,通过模拟实验和实际应用比较叁种方法的有效性。实践研究发现正态拟合检验法在单参数、二参数逻辑斯蒂模型的假设检验下,具有一定的普遍适用性,叁参数逻辑斯蒂模型的假设检验下,适合于大样本检验。第四章,把正态拟合检验法拓展到整体测验上,同样在叁种模型假设下,通过模拟实验和实际应用判断其检验力,发现此方法可以运用在整体测验上。第五章,总结与展望,通过比较研究总结出正态拟合检验法的优点,以及存在的问题,指出未来的研究方向。

参考文献:

[1]. GA在IRT中2PLM参数估计中的应用研究[D]. 杜鹏东. 内蒙古师范大学. 2007

[2]. 项目反应理论中2PLM参数估计新方法[D]. 罗芬. 江西师范大学. 2003

[3]. IRT中3PLM参数估计新方法—GA算法[D]. 王祖俭. 江西师范大学. 2005

[4]. 初始值对项目反应理论中MCMC参数估计影响的研究[D]. 胡海. 江西师范大学. 2012

[5]. IRT中参数估计的新方法—叁点法[D]. 胡小芳. 西南大学. 2016

[6]. 基于项目反应理论模型能力参数估计方法的研究[D]. 张国红. 东北师范大学. 2013

[7]. 运用ANN估计小样本的IRT参数研究[D]. 汪存友. 南京师范大学. 2007

[8]. 结合影子题库和动态a分层选题策略研究[D]. 戴勰. 江西师范大学. 2014

[9]. 一种新的处理迫选量表数据的累积模型研究[D]. 符华均. 江西师范大学. 2012

[10]. 项目反应模型的正态拟合检验法[D]. 徐瑞. 西南大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

项目反应理论中2PLM参数估计新方法
下载Doc文档

猜你喜欢