评分员间信度论文_毛星星

导读:本文包含了评分员间信度论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:评分,测试,综合法,评价,理论,考试,主观性。

评分员间信度论文文献综述

毛星星^[1]（2018）在《评分员背景对大学英语期末考试写作评估信度和效度的影响》一文中研究指出不论是在课堂测试还是在大型标准化语言考试中,写作都是必不可少的一部分。它能够有效地测试出学生的综合语言运用能力。然而,由于评分的主观性,写作评分的准确性和公平性一直备受质疑。同一篇作文,不同评分员给出的分数可能会有很大的差别。这种情况下,写作评分的信度、效度和公平性就无法得到保证。Eckes(2008)也曾指出评分员不一致性是语言测量专家面对的最大挑战之一。现有研究表明,评分员的背景差异是导致作文得分偏离“真分数”的最重要原因之一。运用概化理论,本文旨在探究评分员的背景差异对大学英语期末考试中写作评估信度和效度的影响。基于此目的,本文将六位评分员按照叁个背景因素(性别、教育经历和写作评阅经历)进行分组(每个背景因素分成两组,每组叁人),比较了不同背景组别评分员的写作评分结果。本文的研究样本是从2017年6月湖南大学大一非英语专业学生的期末考试中抽取的60篇作文,由六位评分员采用整体评分的方法(1-15分)进行评阅。每位评分员独自评分。最终的分数在EXCEL和GENOVA中进行分析。分析结果表明,该写作评分的总体信度和效度较低。组间比较表明:与女性评分员相比,男性评分员的评分一致性更差,但两者在评分信度、聚合效度和区分效度上几乎无差别;与语言测试背景的评分员相比,非语言测试背景评分员的评分一致性、信度、聚合效度和区分效度明显偏低;与有经验的评分员相比,普通评分员的评分一致性、信度、聚合效度和区分效度相对较低。最后,本文挑选了两位评分员进行半结构化访谈,结果显示评分员的语言测试知识和评阅经历会对其评分观念和行为产生一定的影响,从而影响最终的作文得分。本文研究结果表明,评分员性别不会影响作文评分质量,但是评分员的语言测试背景与评阅经历却会产生明显影响。因此,探究评分员偏颇产生的原因对于写作评估信度和效度的研究至关重要。一旦了解了偏颇来源,我们就能够采取针对性措施来保障写作评分的信度、效度及公平性。(本文来源于《湖南大学》期刊2018-04-20）

王怡安^[2]（2017）在《对比研究英汉交替口译中量表式和意群式评分方式的评分者间信度》一文中研究指出口译质量评估研究的一个中心问题是使用什么样的工具和标准(Sang-Bing Lee,2015)。由于口译测试中评分者存在差异性以及口译资格考试具有高利害性,确保质量评估中的评分者间信度至关重要。从评估机构的角度来说,使用有效、可信的评估工具有助于保证评估结果的客观公正,对推动口译测试的标准化进程和口译人才的选拔都有重要意义。本文研究的是针对英汉口译质量评估中“信息准确度”这一标准采用两种评分方式对评分者间信度的影响以及背后可能的原因,旨在探讨口译评估中对评估方式的合理选择,保持评估结果的客观、公正。本研究选取厦门大学叁级交替口译考试音频为样本,邀请20名评分者分别使用量表式(scale-basedrating)和意群式(proposition-basedrating)的评分表针对译文的信息准确度打分。评分者内部分为两组,一组为经验丰富的业内人士,另一组为口译专业叁年级硕士研究生。使用SPSS工具分析整组和两组内部的分数一致性。通过对比使用两种不同的评分方式体现的评分者间信度(inter-rater reliability)的差异并结合访谈分析产生差异的原因。研究发现,两张评分表都体现了比较高的评分者间信度,意群式评分表的评分者间信度要高于量表式评分表。但是不同背景的评分者可能适用于不同的评分方式。对于经验丰富的职业译员来说,量表式或者意群式的评分方式体现的评分者间信度差别不大,但是具体操作时,意群式的评估表可以更有效地帮助评分者保持评估标准的一致性、客观性。而对于学生译员来说,使用意群式的评分方式可以帮助其在面对不同水平的口译表现时,保持评分标准上的一致性,达到较高的评分者间信度。量表式评分表和意群式评分表各有特点,在实际操作中可以根据评分者的特点,评估的目的、性质等选择合适的方式。(本文来源于《厦门大学》期刊2017-04-01）

王显涛^[3]（2016）在《基于小组讨论的大学英语口语考试中评分员信度研究》一文中研究指出大学英语口语考试的信度和效度受到很多学者关注,但是作为一种应用在一般教学环境中的小组讨论形式的测试,对于其中评分员信度的研究,目前相关的研究成果还不多见。本文对小组讨论形式的大学英语口语考试中评分员信度进行实证研究,并描述和讨论相关的数据与研究结果。(本文来源于《文教资料》期刊2016年04期）

Z.Meng,C.Chen,Y.Zhu,S.Zhang,C.Wei^[4]（2016）在《全自动乳腺容积扫描诊断性能:对乳腺良、恶性病变鉴别诊断准确性的评分者间信度/协议的系统评价和Meta分析》一文中研究指出摘要目的研究全自动乳腺容积扫描(ABVS)评分者间信度/协议以及鉴别乳腺良恶性病变的诊断准确度。总体目标是探讨ABVS是否适用日常临床实践。方法合格的研究是从Pub Med、EMBASE、Cochrane图书馆、BIOSIS预览检索、CBM磁盘和手工检索获得,参考文献截至2014年9月30日。计算ABVS的敏感度和特异度,绘制受试者操作特征曲线。结果 13项研究被纳入诊断准确性的Meta分析,7项研究被纳入ABVS评分者间信度/协议的系统评价。对于诊断准(本文来源于《国际医学放射学杂志》期刊2016年01期）

徐燚,陈红,周庆环,王杉^[5]（2015）在《医学生临床见习效果评价评分员间信度的多系列相关分析》一文中研究指出目的:测算医学生临床见习效果评价过程中评分员(带教教师)间信度系数。方法:通过多系列相关分析方法,对9名带教教师对43名医学生桥梁课阶段四门课程临床见习效果进行评价这一过程中评分员间整体信度系数进行测算。结果:通过测算,在这一评价过程中,9名评分员(带教教师)之间整体信度系数为0.73,具有一定的一致性和稳定性,处于技术上可以接受的范围内(0.6-0.9)。结论:多系列相关分析法是一种基于连续型数据的评价多个评分员之间整体一致性程度的方法,但是,这种方法没有考虑单个评分员之间的关联程度。在实际的教学评价过程中,需要进一步研究评分员个体差异对于评分的影响,以便客观而全面地评价评分员间信度。(本文来源于《中国高等医学教育》期刊2015年01期）

肖维青^[6]（2012）在《不同评分方法下翻译测试评分员间信度的实证研究》一文中研究指出中长篇文本翻译测试的评阅,是很多本科翻译专业教师很棘手的问题。本研究采用整体印象法、错误扣分法以及综合评分法进行了为期半年多的评分实测以及评分员跟踪访谈。各项统计数据表明:使用结合分段计点计句法、错误扣分法和分项分析评分法的综合法时,评分员间相关系数较高,且均值和标准差都比较接近,说明评分员之间的内部一致性良好,能保证较高的评分员间信度。(本文来源于《解放军外国语学院学报》期刊2012年04期）

肖维青^[7]（2011）在《翻译测试的评分员信度研究——TEM8翻译项目评分员问卷调查记略》一文中研究指出对文本翻译测试这样的主观性测试来说,评分员信度是衡量测试质量,确保其公平、公正使用的主要指标。本文在2010年全国TEM8翻译项目评分员问卷调查的基础上,探讨提高翻译测试评分员信度的策略,用调查数据证实评分员对细化评分标准、网上试评(培训评分员)以及使用网上阅卷自查功能的积极反映,并进行对新评分方案的试验性信度验证。(本文来源于《外语学刊》期刊2011年06期）

赵琪凤^[8]（2010）在《HSK写作测试评分信度考查——基于对新老评分员的个案调查》一文中研究指出主观性考试的评分信度问题一直是语言测试研究体系中的重要组成部分,据以往研究,评分员如何把握评分标准对评分信度具有至关重要的作用,鉴于此,本研究从2009年4月HSK(高等)写作测试评分的48组评分员中随机抽取了两组(每组中一老一新两名评分员),运用概化理论对两组的评分信度进行了检验,结果表明两组的测验信度较高;通过比较评分员间评分数据的描述性统计结果以及调查问卷,大致了解到新老评分员在对评分标准把握中的不同,这些因素也导致他们在评分过程中产生评分差异。(本文来源于《中国考试》期刊2010年10期）

苏海阳^[9]（2010）在《运用概化理论多侧面模型分析CEPT口语考试的评分员信度》一文中研究指出口语测试作为一种体现考生真实交际水平的测试手段是任何其他测试所不能达到的,因此,任何一个科学和理想的语言测试必须要包括口语测试。但由于口语考试自身的特点和评分的主观性,使得口语考试的评分工作面临着很多困难和挑战。这其中就包括了很多由测量误差所引起的评分信度不高的因素。概化理论作为一种现代测量理论,对口语评分信度的测量提出了全新的测量方法。首先在可观测的全域之上,明确测量目标、测量侧面及其相互关系。并在此基础上设计出交叉设计、嵌套设计和混合设计。其次,运用实验设计和方差分析的方法对实验数据进行分析,估计出各种变异来源对分数总变异所做的贡献,这也就是概化研究的过程。在决策研究阶段,通过修改不同的测量侧面、样本容量和测量结构等以达到试验设计人员想要的目的。本文正是运用概化理论对湖南大学英语分级考试中口语考试部分评分员信度问题所做出的研究。通过分析,本研究得出以下结论：1)本次口语考试评分员的整体信度很高。但也显示出了较显着的严厉度的差异。其中,3号评分员的严厉度水平是最低的。5号和6号评分员显示出了高度的评分一致性。并且,整个口语试题的难度适中,区分度也较理想。2)通过对不同测量条件下试题侧面的决策研究,估计出当试题侧面达到6个时,G系数达到了更高的信度水平。3)在决策研究中,分别估计出了评分员从1到10个范围内信度指标的变化情况。研究得出了在不同试题侧面条件下,多少个评分员就可以达到比较高的信度值。4)通过对不同测量侧面的调整和估计,研究得出了最优化的设计方案。即,当试题侧面为6,评分员侧面为4时,即可达到初始设计时的高信度水平。本文的研究首先体现在首次对湖南大学英语分级考试口语部分的整体评估和评分员信度分析,因此具有十分重要的意义,并为其进一步发展和完善提供了实证依据。研究结果指出了口语测试部分现存的问题并提出了修改建议,并显示出了不同评分员的内部一致性水平差异,对甄选合格的评分员提供了参考。另外,本研究中采用概化理论来检测大规模口语考试中评分员信度的检测方法,不仅对英语分级考试提供了检测方法的参考,还对其他同类主观评分具有重要的参考价值。在最后,作者还提出了本研究的局限和不足以及在此领域有待进一步研究的问题。(本文来源于《湖南大学》期刊2010-04-01）

汪顺玉,吴世银^[10]（2006）在《评分员信度的多系列相关分析方法原理及运用》一文中研究指出信度是评估所有教育和心理测验以及其他教学评价形式的重要指标。评分员信度是信度的一种类别。评分员信度的评估方法较多,每种方法都有其使用的条件,都有各自的优点和不足。多系列相关方法本质上是两个因素相关方法的扩展,它克服了两因素相关方法不能揭示多因素总体相关程度的缺陷,也克服了α一致性系数由于受到数据的多少和分布特征的影响而高估或低估信度的问题。但是,多系列相关方法虽然能够揭示多评分员之间的一致性程度,却是以牺牲个体评分员之间的关联程度信息为代价的。(本文来源于《重庆邮电学院学报(社会科学版)》期刊2006年06期）

评分员间信度论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

口译质量评估研究的一个中心问题是使用什么样的工具和标准(Sang-Bing Lee,2015)。由于口译测试中评分者存在差异性以及口译资格考试具有高利害性,确保质量评估中的评分者间信度至关重要。从评估机构的角度来说,使用有效、可信的评估工具有助于保证评估结果的客观公正,对推动口译测试的标准化进程和口译人才的选拔都有重要意义。本文研究的是针对英汉口译质量评估中“信息准确度”这一标准采用两种评分方式对评分者间信度的影响以及背后可能的原因,旨在探讨口译评估中对评估方式的合理选择,保持评估结果的客观、公正。本研究选取厦门大学叁级交替口译考试音频为样本,邀请20名评分者分别使用量表式(scale-basedrating)和意群式(proposition-basedrating)的评分表针对译文的信息准确度打分。评分者内部分为两组,一组为经验丰富的业内人士,另一组为口译专业叁年级硕士研究生。使用SPSS工具分析整组和两组内部的分数一致性。通过对比使用两种不同的评分方式体现的评分者间信度(inter-rater reliability)的差异并结合访谈分析产生差异的原因。研究发现,两张评分表都体现了比较高的评分者间信度,意群式评分表的评分者间信度要高于量表式评分表。但是不同背景的评分者可能适用于不同的评分方式。对于经验丰富的职业译员来说,量表式或者意群式的评分方式体现的评分者间信度差别不大,但是具体操作时,意群式的评估表可以更有效地帮助评分者保持评估标准的一致性、客观性。而对于学生译员来说,使用意群式的评分方式可以帮助其在面对不同水平的口译表现时,保持评分标准上的一致性,达到较高的评分者间信度。量表式评分表和意群式评分表各有特点,在实际操作中可以根据评分者的特点,评估的目的、性质等选择合适的方式。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

评分员间信度论文参考文献

[1].毛星星.评分员背景对大学英语期末考试写作评估信度和效度的影响[D].湖南大学.2018

[2].王怡安.对比研究英汉交替口译中量表式和意群式评分方式的评分者间信度[D].厦门大学.2017

[3].王显涛.基于小组讨论的大学英语口语考试中评分员信度研究[J].文教资料.2016

[4].Z.Meng,C.Chen,Y.Zhu,S.Zhang,C.Wei.全自动乳腺容积扫描诊断性能:对乳腺良、恶性病变鉴别诊断准确性的评分者间信度/协议的系统评价和Meta分析[J].国际医学放射学杂志.2016

[5].徐燚,陈红,周庆环,王杉.医学生临床见习效果评价评分员间信度的多系列相关分析[J].中国高等医学教育.2015

[6].肖维青.不同评分方法下翻译测试评分员间信度的实证研究[J].解放军外国语学院学报.2012

[7].肖维青.翻译测试的评分员信度研究——TEM8翻译项目评分员问卷调查记略[J].外语学刊.2011

[8].赵琪凤.HSK写作测试评分信度考查——基于对新老评分员的个案调查[J].中国考试.2010

[9].苏海阳.运用概化理论多侧面模型分析CEPT口语考试的评分员信度[D].湖南大学.2010

[10].汪顺玉,吴世银.评分员信度的多系列相关分析方法原理及运用[J].重庆邮电学院学报(社会科学版).2006

论文知识图

标签：评分论文; 测试论文; 综合法论文; 评价论文; 理论论文; 考试论文; 主观性论文;

评分员间信度论文_毛星星

评分员间信度论文文献综述

评分员间信度论文开题报告

评分员间信度论文参考文献

论文知识图

猜你喜欢