外语写作测试中的电子软件评估与人工评估

外语写作测试中的电子软件评估与人工评估

万鹏杰[1]2005年在《电子软件评估系统测试大学英语写作的研究报告》文中指出在外语写作测试领域,由于疲劳因素和不一致性,人工评估成绩在可信度方面存在着不可避免的问题;而计算机测试的新技术———电子软件评估则克服了人工评估的不足,被应用到外语写作测评中。本文概括了安阳工学院外语系英语专业运用电子软件评估系统测试外语写作的实验报告,旨在探讨电子软件评估代替人工评估的可能性,并为外语写作测试研究者提供一个稳定且客观的写作测评工具参考。

张雅蕾[2]2004年在《外语写作测试中的电子软件评估与人工评估》文中研究表明在外语写作测试领域,人工评估主要应用于大规模写作测试和班级写作测试中。然而,由于疲劳因素和不一致性,人工评估面临成绩可信度方面不可避免的问题。因此,在母语为英语的写作研究和外语写作研究领域中,英语写作研究者与测试者根据以往成功的实证研究和较高相关系数,认为电子软件评估有可能代替人工评估。 基于以往研究理论与成果,本论文概括了首都师范大学英语教育系电子软件评估与人工评估测试外语写作的相关性研究。通过对电子软件评估与人工评估的相关性分析,本论文旨在为外语写作测试研究者提供一个稳定且可观的写作测评工具。本论文共分为六部分: 第一章简要介绍当今中国英语写作课堂中人工评估的背景及不足;指出电子评估软件在外语写作测试中的必要性。为进一步确认电子软件评估代替人工评估的可能性,本文作者基于以往相关研究,在首都师范大学进行教学实证研究以验证前人的研究成果。 第二章提供人工评估从十九世纪七十年代至今的文献综述;详述各时期评估标准的演变;总结人工评估在外语写作教学中的不足,包括金钱、时间和劳动力方面的高昂花费,不理想且受到质疑的测评者间信度,测评者在评估过程中的疲劳因素、偏见和不一致性,及测评者的评估经验对测评结果的影响。 第叁章比较电子软件评估的不同定义,并确认美国教育考试中心的定义最准确;详述电子软件评估的叁方面测试内容:句法结构、修辞结构和论题分析;以时间顺序论述电子软件评估自十九世纪六十年代至今的发展历程,从电子软件评估与人工评估的相关性系数及其对人工评估的优势和补充作用方面讨论其代替人工评估的可能性;介绍当今写作测试四大电子评估软件:方案式分级测评,人工智能式测评.智能分类测评和英语文豪。 第四章评述本研究所依据的领域背景,包括总述,被试描述,研究方法,数据分析和教学实验研究过程。 第五章突出讲解了本研究结果,提供了叁十篇随机抽取的学生写作样本。在电子软件评估与人工评估两种测评方式下,得出定性文本分析结果,包括语法,用法,结构技巧,文体风格,布局与谋篇五方面;定量数据分析结果显示电子软件评估与人工评估具有相关性。 第六章总结本研究结果的实际意义,分析电子软件评估与人工评估在评语反馈及介词、连词、冠词、冗长短语和句子、及句子结构错误识别方面的不同;讨论本研究的局限性及改进措施,提出英语写作测试领域电子软件评估替代人工评估的积极前景。

王尔东[3]2014年在《电子软件评估在英语写作中的设计及应用》文中提出在英语写作评估中,人工评估主要用于大规模写作测试和半机械性测试中,然而由于人工评估面临着很多不可避免的可信度问题,因此电子软件评估就逐渐发展开来。本文概括了电子软件评估在英语专业写作中的应用,探讨电子软件评估代提人工评估的可能性,发现,电子评估系统与人工评估在分析测评方面存在相关性。皮尔逊相关系数0.324和定量分析相关系数0.7证明了电子软件评估与人工评估之间具有相关性,不可代替人工评估。

高海英[4]2010年在《国内外二语写作评估研究现状与思考》文中研究指明本文分析了十多年来国内外二语写作评估研究成果在基本趋势、研究内容、研究方法和研究对象等方面的基本规律,指出当今二语写作评估领域存在的普遍问题,即评分方法不确定,评估软件相对滞后,对评分员因素研究不够,实证研究欠缺,研究对象失衡等。文章提出了相关建议,期待为今后的进一步研究指明方向。

孙悠夏[5]2016年在《综合写作测试的效度验证:提示特征的影响研究》文中进行了进一步梳理从语言测试与评估的发展阶段来看,当前语言测试的研究重点已从分离测试转向行为测试(Grabe&Kaplan 1996;Hamp-Lyons 2001),综合写作任务则是行为测试的一个典范。较之传统的独立写作任务,综合写作任务提供了有意义的语言背景(Lee&Anderson 2007),即写作提示,其形式一般为听力提示、阅读提示或两者兼有,因而更具真实性(Cumming et al.2000)和公平性(Weigle 2004),能够真实有效地测量考生的写作能力,即综合写作任务更符合现实生活中的听、读、写相结合的写作任务,且综合写作中提供了均等的背景信息以供考生参考。针对此类背景提示,国内外许多研究就其固有特征展开,如从提示特征对综合写作测试得分影响的角度进行探讨(如 Lee 2004;Lee&Anderson 2007;Wiseman 2012),但未能取得共识;亦有从提示特征对综合写作文本的影响角度进行探讨(如Cumming et al.2005;Kormos 2011;Plakans&Gebril2012),但较囿于表层文本特征。然而,因提示特征并非其本身固有的属性,尤其是试题难度,需参考参加考试的不同考生的能力(Bachman 2002),可引入考生视角以明确提示的认知维度特征,但相关研究较少且结果迥异(如 Powers&Fowles 1998;Cho,Rijmen&Novak 2013)。此外,评分员对写作测试效度的作用也不容小觑,写作的评分效度往往受评分员的认知与态度差异影响,也受写作评分培训影响(Hamp-Lyons 1991),许多研究围绕评分员的评分行为进行探讨(如 Milanovic,Saville&Shenl996;Weiglel999;Cumming et al.2002;Lumley 2006;Baker 2010;Knoch 2011;Lim 2011;Winke&Lim 2015;Zhang 2016),但并未涉及综合写作中评分员对提示特征的认知差异。综上,提示特征不仅涉及其本身固有的特征,还涉及考生与评分员的认知维度特征。然而,已有的国内外研究尚未涵括叁个维度的提示特征及其对综合写作测试的影响;对国内新兴的综合写作测试而言,有关提示特征的研究则几乎是空白。因此,本研究希望涵括这叁个维度的提示特征,考查提示特征对综合写作测试的影响,以提高综合写作测试的效度。结合文献回顾与中国语言测试实践,本研究针对新近推出的"外研社杯"全国英语写作大赛的议论文综合写作任务展开研究,对该写作任务进行效度验证,将提示特征定义为叁个维度(提示固有特征维度、考生认知维度、评分员认知维度),旨在考查不同维度的提示特征对考生写作表现和评分员评分决策的影响。其中提示固有特征维度指提示本身所固有的特征,包括话题域、任务说明等;考生认知维度指基于考生认知的提示特征,包括考生所认知的提示难易度、熟悉度、趣味度、表达欲、有用性等;评分员认知维度指基于评分员认知的提示特征,包括评分员所认知的提示难易度、熟悉度、趣味度、有用性等,以及评分员在此认知下的评分关注点。鉴于此,本研究旨在回答以下叁个层面的问题:1)提示固有特征对综合写作表现的影响研究,即提示固有特征是否会对综合写作任务的文本特征产生影响?若存在影响,不同提示下的文本特征差异体现在哪些方面?2)基于考生认知的提示特征对综合写作表现的影响研究,即基于考生认知的提示特征是否会对其写作表现产生影响?若存在影响,具体是哪些考生认知的提示特征,影响程度如何?3)基于评分员认知的提示特征对综合写作评分的影响研究,即基于评分员认知的提示特征是否会对其评分产生影响?若存在影响,具体是怎样的影响?本研究的效度验证框架采用Bachman&Palmer(2010)的"评估使用论证"(Assessment Use Argument,简称 AUA)框架和 Toulmin(1958/2003)的论证框架,所要论证的是AUA框架中考生表现与评估记录/分数的评价过程以及基于评估记录所作出的有关考生语言能力的解释,具体为提示因素与考生综合写作表现及评分信度的关系,主要涉及AUA框架中评估记录/分数的一致性(consistency)和语言能力解释富有意义(meaningfulness),旨在系统地验证综合写作任务的测试效度。本研究根据叁个不同层面的研究问题进行数据收集,所用实验数据来自2013年和2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考作文与得分,以及2014年实考后考生与评分员的即时问卷调查。参赛考生为全国各高校的在校本科生,专业不限;评分员为英语写作教学经验丰富的中外籍英语教师。根据不同研究问题采用不同的数据收集与分析处理方法。针对第一个研究问题,所用数据来自2013年和2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考作文与得分,数据覆盖20多个省、市、自治区(其中2013年为26个,2014年为29个),涉及8个提示,共1354篇作文。考虑到语料中的拼写错误等因素,所用评分为大赛的人工评阅平均分,每篇文章均有2-3位具有丰富阅卷经验的中外籍评委进行分项评分,最终取其综合后的平均分,以保证评分信度。同时依据专家判断和方差分析,提取提示固有特征,将其分为话题域(包括社会、教育、商业和个人话题)和任务说明(包括显性和隐性对立观点说明);并用最新的自然语言处理工具Coh-Metrix 3.0,提取108项表层和深层的量化文本特征指标。因此,本研究分析的数据包括考生在综合写作任务中的平均得分、提示固有特征和各文本特征指标,数据分析工具为SPSS 18.0。对提示固有特征下写作得分与文本特征的回归分析显示,不同提示固有特征会不同程度地影响考生的综合写作任务表现,具体如下:第一,不同话题域的写作提示使文本显现出不同的文本特征影响因素。在各文本特征中,词数是共有的文本特征,这是保证议论文充分论证的基础。其他不同的文本特征表明不同话题下作文文本中的语言表达有所不同:社会话题提示下的文本显现了实词熟悉度、词汇最小编辑距离和连词使用频率等文本特征;教育话题提示下的文本显现了实词习得顺序、动词重迭率、LSA(潜伏语义分析)段落间语义承袭性、词汇多样性和时间连接词使用频率等文本特征;商业话题提示下的文本显现了实词句间重迭率、实词熟悉度和介词短语密度等文本特征;个人话题提示下的文本则显现了词汇多样性和句间词干重迭率等文本特征。第二,不同任务说明导致考生在写作中采用不同的论证模式。不同任务说明的提示特征下,各文本具有两项相似的文本特征,即词数和词汇多样性,两者是影响议论文的观点得到多角度充分论证的主要因素。虽然前者在评分细则中并未明确涉及,但这表明词数是议论文充分论证的基础,而词汇多样性又是多方面、多角度论证的必然结果。就不同的文本特征而言,显性对立观点的提示中,实词习得顺序和LSA段落间语义承袭性具有重要影响;而隐性对立观点的提示中,文本叙述性、动词重迭率和实词句间重迭率具有突出影响。以上文本差异主要源于提示的任务说明差异,即显性对立观点的提示引导考生在议论文写作中从单一角度或多角度进行观点论证,而隐性对立观点的提示则引导考生在议论文写作中运用事例叙述和观点进行论证。在效度验证方面,定量分析结果表明不同提示影响下所显现的不同文本特征反映了考生的英语写作能力,符合综合写作测试的构念效度。具体而言,该研究问题聚焦于"评估使用论证"框架中有关语言能力解释应该富有意义,即议论文综合写作测试所测量的构念是考生的语言能力。主要的理据是在提示固有特征的影响下,影响考生写作得分的文本特征均包括在所测构念的范围之内,提示固有特征的影响并非"构念无关因素",不构成反驳。针对第二个研究问题,所用数据来自2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考得分和考生的考后即时问卷。如前所述,本研究将综合写作任务的人工评阅平均分作为考生的综合写作表现;因省级复赛要求考生在规定时间内同时完成一篇议论文综合写作和一篇说明文写作,两者具有共时性,因此在本研究中将考生在说明文写作上的人工评阅平均分作为考生的英语语言能力。此外,考生问卷采用李克特五级量表,要求考生判断各提示特征描述与自己实际情况的符合程度,旨在探知考生认知的综合写作提示特征,如考生所认知的提示难易度、熟悉度、趣味度、表达欲、有用性等,共10个问题。问题设计参考已有的考生访谈和问卷调查(如 Polio&Glew 1996;Powers&Fowles 1998;Cho,Rijmen&Novak 2013;Li 2014),并根据本研究实际进行改编,再经专家评判和小范围试测后进行修正,在此基础上确定最终问卷版本。来自13个省、市、自治区的371名高校考生提供了有效问卷,分属3个提示。因此,本研究分析的数据包括考生的综合写作表现、考生的英语语言能力和考生认知的提示特征。因数据具有层次结构的特点,即考生嵌套于地区,而不同地区采用不同提示,本研究采用多层线性模型(multilevel linear modeling,简称MLM)以检验多个层次间的相互关系。在MLM分析结果的基础上,采用结构方程模型(structural equation modeling,简称SEM)更清晰准确地验证了各层次间的相互关系。数据分析工具为SPSS 18.0和AMOS 20.0。通过MLM和SEM模拟考生语言能力、考生认知的提示特征与考生综合写作表现之间的关系,发现英语语言能力是影响考生综合写作表现的主要因素,而考生所认知的提示特征对其综合写作表现的影响则较为复杂微妙,具体简述如下。多层线性模型分析显示:1)不同地区采用不同提示的情况下,考生的综合写作得分并无显着差异;2)考生认知的各个提示特征和综合写作得分及各个分项得分(内容、结构、语言)之间不存在显着关系。如上两项发现表明提示的地区差异可忽略不计,可将提示视为一个统一概念(即概化为统一的提示及其考生认知的提示特征)。采用探索性因子分析提取出3个考生所认知的提示特征的高阶特征因子,即提示知识(Prompt Knowledge)、提示难度(Prompt Difficulty)、提示认同(Prompt Identification)。进一步的多层线性模型分析结果表明:1)英语语言能力是影响考生综合写作得分的主要因素;2)考生认知的提示知识对综合写作得分具有显着影响。结构方程模型分析显示:在反复验证与修正基础上确立的最终模型拟合指数较好(χ2(41)=80.594,SRMR=0.470,RMSEA=.051,CFI=.973,TLI=.963)。该模型清晰地模拟了考生认知的提示特征与综合写作表现之间的影响关系,具体如下:考生认知的提示知识有助于提升其综合写作表现,而考生认知的提示难度阻碍其综合写作水平的发挥;提示知识虽有显着正面影响,但力度偏弱(β=.22,p<.05),而提示难度的负面影响则力度更弱,几乎不显着(β=-.15,p>.05),两者之间存在良性互动关系(β=.48),即考生认知的提示知识会中和其认知的提示难度的负面影响,并最终直接影响其综合写作表现。在效度验证方面,定量分析结果表明考生认知的提示特征对其综合写作表现的影响相对复杂微妙,而英语语言能力是决定考生综合写作表现的关键因素,符合综合写作测试的构念效度。具体而言,该研究问题主要观察"评估使用论证"框架中有关语言能力解释富有意义这一主张,即综合写作测试的构念是测量考生的语言能力。主要的理据是综合写作任务让考生展现了其英语语言能力,测试结果可以用来推断考生的语言能力。主要的反驳是考生认知的提示知识属于"构念无关因素",但因其影响微弱,对构念效度影响较小,说明反驳不成立。针对第叁个研究问题,所用数据来自2014年"外研社杯"全国大学生英语写作大赛省级复赛的议论文综合写作任务的实考评分和评分员的即时问卷。评分员的问卷设计与考生问卷相类似,参考以往研究(Hamp-Lyons&Mathias 1994;ffeigle 1999;Wiseman 2012;Trace,Janssen&Meier 2015),并结合专家判断和小规模试测,确定最终的问卷版本。该问卷采用李克特五级量表,要求评分员提供他们对各提示特征的态度或观点,旨在探知评分员认知的综合写作提示特征,如评分员所认知的提示难易度、熟悉度、趣味度、有用性等,共6个问题;另附上评分员对评分关注点的评价或看法,涉及内容、结构、语言、提示使用(source use)等四个方面,共19个问题,目的在于佐证评分员的评分表现。来自10个省、市、自治区的30名评分员提供了有效问卷。同时使用多层面Rasch模型(multi-faceted Rasch measurement,简称MFRM)分析这30名评分员在综合写作评分中的实际评分表现,涉及评分员严厉度、评分难易度、评分员与考生偏差交互。数据分析工具为SPSS 18.0和 FACETS 3.71.3。通过多层面Rasch模型测量评分员的评分表现,结合系其认知的提示特征,发现评分员认知的提示特征会不同程度地影响其评分表现,具体如下:第一,评分员对提示特征的不同认知会影响其评分严厉度。依据MFRM的评分员严厉度分析,将评分员分为宽松和严厉两个等级,采用二元逻辑回归分析,探索影响评分员严厉度的提示认知因素,结果发现两者关系虽不具有统计学意义上的显着性,但存在一定的趋向性。具体表现在:1)评分员认为提示越难或对提示越感兴趣,评分越宽松,反之亦然;2)评分员认为提示越熟悉或越清晰或越有用,评分就越严厉,反之亦然。第二,评分员对提示难度的不同认知会影响其对内容标准评判的严厉度。根据MFRM统计的评分难易度,结合评分员对评分关注点和提示特征的认知调查,定性探讨两两之间的可能联系。首先,MFRM的分析结果表明评分员在实际评分操作中对评分标准评判的难易度由难/严到易/松的顺序依次是内容、结构、语言。其次,对评分员的认知调查表明评分员对评分标准重要性评判的排序依次是内容、结构、语言、提示使用;与MFRM的分析结果相呼应,说明评分员在评分标准的评判上受一定认知影响,即评分员认为某评分标准越重要,评分越严厉,反之亦然。基于如上分析,结合评分员认知的提示特征,推断评分员认为提示越难,对内容标准的评判越严厉,反之亦然。第叁,评分员对提示特征的认知使得评分员对不同水平考生的评判出现偏差。MFRM的评分员与考生的交互分析显示,评分员在评判不同能力值的考生时呈现出显着的偏差交互模式:1)评分员对高水平考生的评分出现偏差比例高于对低水平考生的评分;2)严厉的评分员比宽松的评分员出现更多偏差;3)严厉的评分员对高水平及较高水平考生评分偏严,宽松的评分员对低水平及较低水平考生评分偏松;4)在对较高水平和较低水平考生进行评分时,严厉的评分员比宽松的评分员出现更多偏差。以上偏差模式可能与评分员对提示特征的认知有关。基于上述提示认知与评分松严度的趋向性关系,引入评分期望作为中介变量以合理解释其中联系,即评分员认为提示越容易,对考生期望越高,则评分越严厉,更易低估考生水平;反之,评分员认为提示越难,对考生期望越低,则评分越宽松,更易高估考生水平。在提示认知影响下,严厉的评分员对高水平及较高水平的考生期望偏高,更易给出较低的评分;而宽松的评分员对低水平及较低水平的考生期望偏低,更易给出较高的评分,而总体上因为写作大赛省级复赛中以高水平考生为多,且评分员中偏严厉人员(18)多于偏宽松人员(12),严厉的评分员比宽松的评分员有更多偏差,尤其是对高水平的考生群体。在效度验证方面,如上分析表明评分员认知的提示特征对其评分决策的影响较为微潜,其认知-偏差关系属于趋向性影响,并不具有统计学上的显着性,因此符合综合写作测试的评分效度。具体而言,该研究问题主要涉及"评估使用论证"框架中评估分数的一致性,即综合写作测试的评分不受评分员认知的提示特征影响,具有较高信度。主要的理据是评分员认知的提示特征的影响力较为微弱,几乎不影响其评分决策,这说明从评分员认知的提示特征角度来看,评分员的评分具有一致性。综上所述,本研究考查了不同维度的提示特征对考生的综合写作表现和评分员评分决策的影响,涉及提示固有特征维度、提示的考生认知维度和评分员认知维度,填补了国内外综合写作测试领域的研究不足,其研究发现在理论、方法和实践上均具有一定的启示意义。从理论层面而言,本研究首次运用"评估使用论证"框架对大规模赛事中综合写作任务进行较为系统的效度验证,从评分与分数解释环节入手,论证了评分与基于测试分数的解释具有一致性并富有意义,有利于推动基于论据的效度验证模型在语言测试领域的广泛应用。从研究方法而言,本研究采用不同定量研究方法并结合定性探讨来分析研究结果,为全方位了解提示特征与考生写作表现及评分员评分决策的关系提供了充分的实证依据,也为大规模语言测试的效度验证提供了方法参考。此外,本研究对综合写作测试的任务设计、教学、评分和自动评分具有一定的启示:第一,通过将提示影响具体化,明确了不同提示特征对写作表现和评分决策的影响,有利于试题设计人员在编写试题时规避考试偏颇,尽可能地弱化提示影响,也为评分标准的制定提供新的参考。第二,通过揭示提示特征与文本特征之间的关系、考生认知的提示特征与其写作表现之间的关系,有望为教师选材与教学提供新的启示,但并非趋利避害,而是因材施教,旨在有效地提高考生的写作水平。第叁,通过评分员层面、评分量表层面及其交互作用来评估评分员表现,发现评分员认知的提示特征与其评分偏颇之间的联系,有利于加强评分员培训,避免评分偏颇。第四,基于提示固有特征与文本显现的联系、考生/评分员与提示的认知互动,有望为不同维度提示特征下的评分模型提供新的启示;现有自动评分研究主要以写作文本特征为参数(如 Attali 2007;Knoch 2009;Sawaki,Quinlan&Lee 2013),而鲜有对不同提示固有特征下的文本特征、考生与评分员的认知加以考查,从而忽视了这叁者在综合写作任务结果解读中的交互作用。然而,本研究仍有一定的局限性,具体表现在以下六个方面:第一,本研究所用的考生样本与综合写作任务均具有一定的局限性,其中考生总体偏好,为全国各高校选拔参加省赛的选手;综合写作任务则局限于议论文文体,其提示固有特征仅涉及话题域和任务说明两个类别,也限于实考数据(即省级复赛中各省自主开展写作大赛)未能涉及各个写作任务的提示难度,从而使得结果的概推性受到影响。第二,本研究未将拼写错误纳入文本特征,原因是Coh-Metrix软件只能识别拼写正确的单词,未来研究可包括拼写错误以更全面地探讨文本特征。第叁,本研究未涉及综合写作中的提示使用问题,而提示使用是综合写作测试中必不可少的一部分,未来研究可探讨考生对提示的理解与使用。第四,本研究中评分员认知的提示特征受条件限制,仅涉及30名评分员,未来研究可考虑增加样本数量,或许会有更进一步的发现。第五,本研究主要采用定量方法对大样本进行分析,未采用定性方法,未来研究可采用多种定性方法对考生的写作过程和评分员的评分过程进行分析,从而更好地探讨提示特征的影响。第六,本研究利用多层面Rasch模型分析评分员差异,评分员认知的提示特征可在一定程度上解释该差异,有必要对其他导致差异的原因进行探索,以期对改进评分员培训方法和提高评分信度提供实证证据与有效反馈。

吴阿妮[6]2016年在《思辨性阅读对非英语专业大学生写作能力影响的实证研究》文中进行了进一步梳理在外语课堂教学中融入思辨能力的培养具有重要的意义。非英语专业学生学习英语的主要课程为阅读课,在传统的阅读教学中,比较注重对学生听说读写等基本技能的培养,而忽略了培养学生的思辨能力。外语学习就变成了词汇的死记硬背,语言的机械练习,因此语言缺乏灵活运用。在阅读教学中融入思辨能力的培养,注重学生的质疑与反思,鼓励学生大胆探索,学而思,学生才能对所学的知识真正理解,进而消化,语言才能被灵活运用。笔者结合课堂教学的经验和自身的心得体会,以培养学生的思辨能力为出发点,探究思辨性阅读对非英语专业大学生写作能力的影响,希望通过对学生思辨能力的培养,解决学生写作中条理不清、内容与主题缺乏相关性、逻辑性或者论述不深入等问题,进而提高学生的英语写作水平。本研究的研究问题如下:(1)思辨性阅读教学是否能有效地提高非英语专业大学生的写作能力?(2)思辨性阅读教学是否能够促进非英语专业大学生写作的清晰性、相关性、逻辑性和深刻性?本次研究对象为陕西某二本高校非英语专业大学二年级的两个平行班的学生,随机分为实验班和控制班,进行了为期两个月的实验研究。实验前对学生进行了测试,实验班和控制班学生各写作文一篇并完成大学生英语阅读情况调查问卷。实验进行时,实验班采用思辨性阅读教学的方法,引导学生灵活的使用思辨性阅读策略并且对文章进行有意义的文本分析。控制班以教师为中心采用语法翻译法等传统的阅读教学方法,侧重对语言知识的讲解和对文章的理解。实验结束后,要求两个班学生完成作文一篇和问卷测试,作为后测。回收整理数据后采用数据分析软件SPSS20.0对两个班的作文成绩和大学生阅读情况调查问卷的结果进行数据分析,并得出相应的结论。研究结果表明,实验班学生的写作能力有所提升,写作能力的提高尤其体现在学生作文的清晰性和逻辑性方面。论文结尾部分,指出了本次实验研究的不足之处,同时针对思辨性阅读教学提出了一些建议,希望能为后继的研究提供新的研究思路。

雷晓东[7]2015年在《英语作文自动评价系统技术的国内研究与应用》文中提出本文通过收集相关英语作文自动评价系统技术方面的专着以及检索、比较中文期刊网数据库中关于此方面的文献,从理论研究、实证研究、本土化的EFL写作评估系统探索叁个角度,回顾了国内研究者在这一领域的研究历程和主要成果。其次,从技术应用的角度,介绍了国内英语写作研究与实践领域中现存的若干主流的作文自动评价系统和网站,阐述了其各自背后的基本技术原理、自身特点、基本应用等。最后,基于上述的理论和应用研究,对于这一新技术的未来开发与研究,提出多个学科深度交叉融合、多种实体积极互动的研究方法建议,同时,针对其在英语写作测试与教学实践中的推广应用,提出人机评阅动态化理性结合的建议。

陆远[8]2010年在《网阅环境下的英语专业四级考试作文评分员偏颇研究》文中研究指明在计算机辅助阅卷逐渐成为当今阅卷主要方式的背景下,2009年英语专业四级考试作文评阅经历了两项重大改革。改革之一是评阅方式由纸笔评阅(简称纸阅)改为计算机辅助评阅(简称网阅);改革之二是作文评分标准由整体评分法改为分项评分法。作为TEM 4网阅评分效度研究的一个重要组成部分,对TEM 4作文评分员行为,尤其是评分员偏颇的研究十分必要。该项研究将能够为TEM 4作文评分员的培训提供有力的理论依据和实践模式。研究的深远意义还在于提高作文评分的质量监控,维护如TEM 4这样的大规模、高风险测试的公正性。与网阅环境下英语专业四级考试作文评分员偏颇研究密切相关的以往研究包括英语作为二语写作测试研究、作文评分员行为研究、作文评分员偏颇研究、作文评分员培训研究、以及国内外大规模标准考试作文网上评阅的研究。这些研究方面的成果和理论形成了本研究的理论依据。以往研究显示,ESL写作测试由间接测试发展到以培养语言交际能力为目的的直接测试。ESL写作测试评阅因测试目的不同而采用不同的评分量表(整体评分法、分项评分法、主要特点评分法)。ESL写作测试长期以来依靠人工评阅,不免带来评分员的主观因素,产生评分员效应。近年来开发的计算机辅助阅卷有助于探测和降低由评分员而起的评分误差。作文评分员的评分误差被公认为是“世界性”和“世纪性”的难题。对误差本质的认识由单纯的关注评分信度到观察评分的信度和效度。对揭示误差源的研究由单纯的关注评分结果到全面调查评分的各个环节(考生能力、评分量表、评分模式、评阅环境、评分员行为、评分时段、评分员培训等)。对评分员行为的研究更是呈现全方位,从交互作用的视角对影响评分员的各个刻面入手,深刻地揭示评分员在评分过程中产生的偏颇。科技的发展,尤其是统计学领域和信息技术领域的发展(例如FACETS统计软件)为研究这种偏颇提供了便捷。评分员培训一向被认为是保证评阅质量的有效途径。但是对培训效果的研究产生了不同的结论。对评分员偏颇的研究给评分员培训提供了许多启示。计算机辅助阅卷的开发亦给评分员培训展现了有利的发展空间。网阅环境下的英语专业四级考试作文评分员偏颇研究旨在利用网阅环境提供的评分详细数据,从评分员与评分环节交互作用的视角全面和深刻地探讨英语专业四级考试作文评分员偏颇的模式和产生根源,以期探索更有效的作文评分员培训模式。本研究的研究方案由两个部分组成。第一部分观察2009年5月开展的计算机辅助人工阅卷(网阅),了解参加此次阅卷的TEM 4作文评分员对新实施的网阅评分模式的看法,分析他们对网阅培训模式的态度。第二部分观察英语专业四级考试作文评分员偏颇的模式和探询偏颇产生的根源。本次研究设计的基本理念是结合以文献资料研究为特征的二手研究和以实证研究为特征的一手研究。实证研究包括基本属于定性研究性质的问卷调查和定量研究性质的评阅数据抽样调查。对参加2009年TEM 4作文评分员(70位)的问卷调查结果显示,TEM 4作文评分员都拥有高等英语教育背景、高等英语教学背景,以及相关的大型标准考试英语作文评阅背景。TEM 4作文评分员对网阅有比较高的评价,对网阅培训也评价颇高。2009年11月进行的对比实验显示,网阅模式下TEM 4作文评阅有一定的优势,体现在增强区分考生能力、减少评分员总体严厉度的差异、增强评分员自身内部一致性、以及减少评分员偏颇四个方面。对10位2009年TEM 4作文评分员的评阅数据抽样调查统计结果显示,网阅环境下TEM 4作文评阅在考生刻面、评分员刻面、评分项目刻面体现出显着的的评分差异。网阅环境下作文评分员与多刻面产生交互作用,主要表现为评分员对评分子项目和对考生的偏颇。对网阅环境下TEM 4作文评分员偏颇的探讨揭示,部分TEM 4作文评分员针对评分子项目和考生表现出显着偏颇。就偏颇的程度而论,相比较之下,评分员对写作规范评分项目的偏颇最大,对语言运用能力评分项目的偏颇次之,对内容和表达评分项目的偏颇最小。对于考生而言,评分员往往对能力估计值比较高和比较低的考生表现明显的偏颇,即能力估计值处于两极的考生比较容易“吸引”评分员的偏颇。就偏颇的方向而论,在与评分项目的交互作用中,评分员不是一味地严厉,或一味地宽松,而是往往不自觉地采用“补偿”策略,即对一种评分项目过于严厉后再对另一种评分项目过于宽松。在与考生的交互作用中,评分员似乎往往对能力估计值较高的考生比较严厉。评分员表现出的如此偏颇与他/她们的背景有一定的关联,其中与教学背景和英语作文评阅背景具有比较明显的相关性。对15位2009年TEM 4作文评分员的培训评阅数据抽样调查显示,网阅环境下TEM 4作文评分员的培训具有一定的效果,体现在减少评分员总体宽松/严厉度差异和偏颇程度方面。但是FACETS偏颇分析统计揭示,培训的效果显得有限,体现在评分员宽松/严厉度差异仍然显着,对评分项目,尤其是写作规范评分项目的偏颇程度也仍然显着。评分员在接受评分反馈意见后产生的“求稳”心态在一定程度上加剧了评分趋中的倾向。提升培训效果显得十分必要。本研究建议采取基于评分员偏颇分析的培训模式提升培训质量。首先需要加强持续培训的力度,培训活动的设计需要更加具有互动性和针对性,培训的反馈信息需要更加详细,尤其是需要包括有关评分员偏颇的反馈信息。同时,培训的设计还须注意更加科学合理地选择用于培训的样本试卷,尽量使用分项法评分量表,建立更加详细的评分员档案,将评分员英语教学和作文评阅背景纳入评分员培训的设计范围,采取定向培训。

蒋春丽, 张青妹[9]2011年在《基于语料库的大学英语写作评估实证研究》文中研究表明目前写作评估的方法主要有人工评估与电子评估,但各有优缺点。基于语料库的大学英语写作评估量表的设计通过Wordsmith等软件,在短时间内通过电脑得出学生在句子、单词等上的统计结果,自动生成一份报告,再结合教师的人工评阅及评语,生成最后的评估报告,反馈给学生。为了检验我们这份评估量表的可靠性和可行性,我们提取了收集的90份学生作文并加以统计分析,经过研究发现评估报告里客观描述中各项数值越高学生作文得分越高,这也就说明我们的评估报告是具有可靠性和可行性的,是可以推广的。

陈东[10]2013年在《基于文本特征提取的汉语L2作文电子评分系统初探》文中指出二语习得方面的很多研究都指出大规模的写作测试是必然要与高科技相结合的.这是不可避免的潮流和趋势。国际上,许多作文电子评分系统已经被开发出来并商业运作了很多年。但在中国,汉语作文的电子评分系统这一领域还很少有人涉足。由于中英文有着非常大的差异,直接借用外国的作文电子评分系统是不现实的。全世界学习汉语的人越来越多,参加汉语水平考试HSK的人也越来越多。如果在足够多的数据基础上研发出一个汉语作文电子评分系统,就可以大大减轻阅卷老师的负担,也可通过避免人工评分的评分员效应来提高作文分数的有效性和可靠性,还可以应用于网上的自助学习。这个研究的主要目的是提取和发掘出更多的能有效测量汉语作文水平的文本特征变量,以构建一个能为大规模汉语作文考试进行电子评分的统计模型。构建这样一个模型,不仅需要丰富的相关理论知识和概念模型,也需要强大的技术支持贯穿模型的始终。由于时间、资源和专业知识的限制,本研究并不构建一个能测量作文各方面水平的完整模型,只是给出一个完整的概念模型,主要研究概念模型中的其中一个模块——作文语言质量方面的统计模型。更详细地说,是尽量挖掘能反映汉语L2作文的语言质量的文本特征变量,并验证其预测能力。本文的第二章主要回顾了二语习得以及作文评分方面的国内外文献并简单介绍了国外四个有代表性且已广泛应用于大型考试的电子评分系统:Project Essay Grade (PEG), Intelligent Essay Assessor (IEA), Electronic Essay Rater (E-rater)和IntelliMetric。文章主要从叁方面对这些研究进行概述和整理,分别是:语言质量、内容质量和结构质量。在语言流利性方面,经国外实验证明比较有效的指标主要有:文章长度、文章长度的四次方根、不重复字数和句子数;在文章准确性方面主要指标是介词数和冠词数。文章复杂性又可分为词汇复杂性和语法复杂性。前者的主要指标有:类符一形符比、长词个数、词频分布、常用词个数与不常用词个数、常用词个数与不常用词个数之比、单词长度的平均值、单词长度的标准差和名词化个数;后者的主要指标有:平均句长、长句百分比和短句百分比、从句个数、简单句百分比、可读性指数和T单位。奇异值分解(SVD)相似度指标可用来测量话题相关度,即测量内容质量;段落数、代词数和连词数常用来测试结构质量。国内学者曹亦薇和杨晨(2007)是第一个使用潜在语义分析技术对汉语作文进行电子评分研究的学者。李亚男以中国少数民族汉语水平考试叁级作文为研究样本,研究了汉语作为第二语言测试的作文电子评分要提取哪些客观性指标,得到了8个回归方程并进行了比较。张晋军、任杰也用这样的文本做过汉语电子评分系统的研究,得到一个有5个变量的回归方程。第叁章主要讨论了构建汉语L2电子评分系统时所需要使用的理论和技术。经过讨论,笔者认为汉语电子评分系统的模型建构可以学习E-rater的框架,框架中的语言分析模块可以学习PEG的语言质量分析方法和技术;而内容分析模块作为E_rater的弱点,需要向IEA学习,使用潜在语义分析技术,同时结合自然语言处理技术兼顾语言质量评分。待中国的人工智能发展到比较高的水平时,也可以借鉴IntelliMetric的分析技术。在选取文本特征方面,则可以借鉴英语作文评分研究中的某些可适用于汉语的文本特征指标,如T单位、总字数的四次方根等,并增加一些汉语特有的文本特征指标。第四章的第一部分主要从语言质量的流利性、准确性、复杂性和多样性,以及内容质量、结构质量几个方面讨论了在本研究中采用和提取的各项文本指标,建议提取和使用128个文本特征指标,并创新性地提出了一些新的文本特征指标。第四章的第二部分是实证研究部分的数据处理和分析。在阅读了大量国内外相关文献以及研究分析已有的几大国外的作文电子评分系统的基础上,尝试提取了128个文本特征,进行多元线性回归分析。分析时运用了两种多元回归的变量选取方法:“顺向选择法”和“逐步法”。最后得到两个具有较高的有效性且拟合度较好的多元线性回归方程和11个能够有效预测汉语作文质量的文本特征项。在文章的最后,作者总结了本文的创新之处,并提出了今后中国汉语电子评分系统研究方向的一些建议。虽然本文还存在很多不足,但就其创新性而言,仍然是一个对汉语电子评分的研究有启发和借鉴意义的探索性研究。

参考文献:

[1]. 电子软件评估系统测试大学英语写作的研究报告[J]. 万鹏杰. 外语电化教学. 2005

[2]. 外语写作测试中的电子软件评估与人工评估[D]. 张雅蕾. 首都师范大学. 2004

[3]. 电子软件评估在英语写作中的设计及应用[J]. 王尔东. 电子设计工程. 2014

[4]. 国内外二语写作评估研究现状与思考[J]. 高海英. 外语界. 2010

[5]. 综合写作测试的效度验证:提示特征的影响研究[D]. 孙悠夏. 浙江大学. 2016

[6]. 思辨性阅读对非英语专业大学生写作能力影响的实证研究[D]. 吴阿妮. 西安外国语大学. 2016

[7]. 英语作文自动评价系统技术的国内研究与应用[J]. 雷晓东. 科技视界. 2015

[8]. 网阅环境下的英语专业四级考试作文评分员偏颇研究[D]. 陆远. 上海外国语大学. 2010

[9]. 基于语料库的大学英语写作评估实证研究[J]. 蒋春丽, 张青妹. 大学英语(学术版). 2011

[10]. 基于文本特征提取的汉语L2作文电子评分系统初探[D]. 陈东. 南京大学. 2013

标签:;  ;  ;  ;  ;  

外语写作测试中的电子软件评估与人工评估
下载Doc文档

猜你喜欢