电子阅卷员在美国的发展及在我国应用的探讨.docx

资源描述

电子阅卷员在美国的发展及在我国应用的探讨.docx

《电子阅卷员在美国的发展及在我国应用的探讨.docx》由会员分享，可在线阅读，更多相关《电子阅卷员在美国的发展及在我国应用的探讨.docx（14页珍藏版）》请在冰点文库上搜索。

电子阅卷员在美国的发展及在我国应用的探讨.docx

电子阅卷员在美国的发展及在我国应用的探讨

冯鑫冯卉

（作者简介：

冯鑫，男，博士研究生，哥伦比亚大学统计学系，10025；冯卉，女，硕士，讲师，天津大学外语学院，300071）

摘要：

本文以e-rater为例对电子阅卷员在美国的发展进行了详细的介绍，其中涉及发展简史、设计原理、语言学变量的获取、统计建模、结果分析、未来研究方向等多方面的问题；并从英语考试、中文考试、技术要求等诸多角度对电子阅卷员在我国应用的可行性与艰巨性进行了探讨。

关键词：

电子阅卷员；作文考试；计算语言学；吻合率

一、序论

对写作的评估在考试以及教育中一直处于十分重要的地位。

早在二千一百年前，中国就将作文考试用于选拔政府官员。

到l9世纪，作文考试已经在欧洲和美国的考试中广为应用。

20世纪初，电子读卡机的发明带来了考试界的革命，它大大促进了选择题（multiplechoice）的发展与应用，并使客观、迅速的评分和大批量的标准化测试成为可能。

虽然作文考试的地位曾被动摇，但人们从没有忽视过作文考试的重要性。

现在，人们日益强调基于表现（performance-based）的考试，这就要求在标准化测试中加入尽可能多的主观性题目，如写作。

研究表明，在选择题考试中添加一道（或以上）的写作题目，不仅能够提高该考试的有效性（validity），还可以减小性别造成的差异（Willingham&Cole，1997；Heck&Crislip，2001）。

与作文考试相伴的是作文阅卷和评估。

众所周知，这并不是一件容易的事。

作文阅卷遇到的第一个问题就是工作量巨大。

仅在2001年这一年中，美国教育考试服务处（EducationalTestingService，ETS）人工评阅了超过一千万份考试作文。

在中国，这个数字会以亿为单位。

其次，人工阅卷员的准确性和客观性也受到质疑。

研究显示，人工阅卷员彼此之间的吻合率（agreementrate）并不高；一般来讲，相关系数大约为0.50到0.60（Page，1996）。

当要求阅卷员在相隔足够长的时间后对同一篇作文第二次打分时，阅卷员的自我吻合率（self-agreement）大约为0.70（Page，1995）。

当然，多个有经验的阅卷员共同阅卷时，最终综合结果的可靠性（reliability）会大大提高，但目前尚无考试机构能负担两个以上的阅卷员进行常规性阅卷。

再次，人工阅卷员的评分尚不能满足对考分使用的两大需求。

从考试者个人角度讲，人工阅卷员只给考试者一个分数，而并无相应的反馈与诊断性信息；考生无从知道自己写作的可取之处与薄弱环节，因此也不能进行有针对性的学习。

从整体考虑，人工阅卷的地域性和流动性使跨地区、跨年度的比较变得十分困难。

以中国的高考为例，由于是以省为单位组织阅卷，阅卷尺度不尽相同，我们就不能将各省的作文分直接比较；每年的阅卷员在人员上不同，对同一地区的不同年份的成绩也无法进行有效比较，因此高考就不能充分、及时、有效地行使中学教育指挥棒的职能。

在人力资源日益昂贵的同时，计算机软硬件的成本大大降低。

当今，计算机广泛地用于家庭和学校；文字处理、语法检测及语言学的软件发展十分迅速。

研究者想到了尝试用计算机辅助作文阅卷，从而降低成本并提高阅卷质量。

早在20世纪60年代，受当时自然语言处理技术的启发，美国康涅狄格州的一些研究者开始考虑利用计算机阅卷的可行性（Kuno.1964：

Stoneetal，1966）。

目前，在美国具有相当影响力的三个电子阅卷员是：

ProjectEssayGrade，其主要发明者为公爵大学（DukeUniversity）的EllisPage；科罗拉多大学（UniversityofColorado）的ThomasLandauer及其学生研究发明的IntelligentEssayAssessor以及美国教育考试服务处（ETS）的JillBurstein，MartinChodorow等人研制的E-rater。

本文将着重介绍E-rater。

二、E-rater简介

1997年秋，E-rater在GraduateManagementAdmissionTest（GMAT）的写作考试中进行检测。

1998年，E-rater作为第二阅卷员与另一位人工阅卷员一起对GMAT的写作部分打分。

当年美国教育考试服务处的GMAT开支削减近两百万美元。

E-rater如何对作文准确合理地打分呢？

一个有效的方法就是依照评分标准来模拟人工阅卷员对作文的评判，这也是E-rater的一个重要的设计思想与出发点。

GMAT作文的满分为6分，评分标准要求，一篇优秀的作文（5或6分）要紧扣文题，论证有组织、有力度，修辞和句法具有多样性。

随着上述三方面要素的削弱，作文分也相应降低。

有关详细的GMAT作文评分标准请访问http：

//www.gnmt.org.E-rater就是利用评分标准中的这三个要素来模拟人工阅卷员的。

首先，计算语言学专家确定出一些语言学变量，这些变量涵盖了作文评分标准中最为重要的句法、修辞和主题内容这三个方面；然后，应用计算语言学的相关技术从作文中提取相应的语言学变量，并对其量化。

对于每一个作文题目，计算语言学的变量提取过程先用于一批叫做“训练”样本（trainingsample）的作文，这批作文已经被人工阅卷员打过分。

接着，利用人工阅卷员所给的分数和语言学变量，建立回归模型，选取对作文分数的预测最有帮助的变量，得到参数估计。

这样，对每一个文题就得到一个相应的预测模型。

最后，将建立起来的预测模型用于另外一个与“训练”样本独立的抽样，进行交叉验证（cross-validation），并将E-rater预测的分数与人工阅卷员给的分数进行比较。

如果交叉验证的结果符合一定的要求，就证明该模型是有效的。

一个用于衡量E-rater预测准确性的指标是吻合率。

当人工阅卷员所给的分数与E-rater预测的分数相差不超过一分时（注：

GMAT作文满分为6分），美国教育考试服务处的研究者就认为两者可称为吻合。

这与用来衡量两个人工阅卷员之间吻合率的标准一致。

下面我们将详细介绍E-rater语言学变量的获取过程。

三、语言学变量

Erater使用了将近60个与GMAT作文评分标准密切联系的语言学变量。

这些变量包括三个方面：

修辞结构、句法结构和主题内容。

它们是通过自然语言学技术以及相关统计方法从作文中提取出来的。

为了深入理解这三类语言学变量的获取过程，我们先来谈一谈GMAT作文的文题。

GMAT作文包括两类文题，一种类似“立论”（AnalysisofanIssue）；另一种类似“驳论”（AnalysisofanArgument）。

前者要求考生提供理由或例子来支持他对某一论题的看法或态度；后者要求考生找出一篇议论中存在的问题并通过合理的论述来说服读者。

附录中列出了这两类文题的例子，详细描述请访问http:

//www.gmat.org.这两类文题的共同点之一便是将考生的回答基本限制在一个出题者预先设定的范围之内。

我国的英语类作文文题，无论大学英语四六级考试还是高考英语，都与之类似，但中文作文，尤其是高考作文，与此差别很大。

这一点在本文后面的讨论中还会提到。

（一）修辞结构分析

考生对自己的作文结构有一个自然的划分，即文章的段落。

但修辞意义上的论证结构与段落划分不尽相同，考生可以用一个词、一句话、几句话甚至几个段落来阐述自己的某一观点。

修辞结构分析即通过对修辞或论证的结构分析来确定一篇文章的结构。

英语语言学有关内容分析的文献显示我们可以通过线索词（cueword）的出现来确定文章的论证关系。

比如，“Insummary”和“Inconclusion”是总结时用到的词，E-rater便把这类词作为确定总结关系的线索；“possibly”和“perhaps”表明考生在论证发展过程中显示自己的信念；“this”和“these”常常用来表示考生尚未转换话题；不定式从句则往往标志着新的论证的开始。

E-rate，使用一个针对GMAT作文比较专门的词库来确定这些线索词。

该词语集包括大约40个词条，涵盖了声明、平行、总结、递进、对比、推断等论证关系。

此外，美国教育考试服务处的自然语言学研究者总结了一套近20条规则用于更有效地提取线索词。

利用这一词库和相应规则，论证划分与注释（argumentpartitionandannotation）技术将作文按修辞结构划分为论证单元，同时对这些论证单元进行注释，标明论证关系的种类（平行、递进等等）和阶段（开始或发展），如表1所示。

修辞结构分析共产生四十多个语言学变量，例如“在论证过程中表示对比关系的词语、词组出现的次数”，“在论证开始表示声明的词语出现的次数”等等。

表1：

论证划分与注释工作机理演示

（摘自Burstein，J.，Braden—Harder，L.，Chodorow，M.，Hua，S．，Kaplan，B．，Kulich，K．，Lu，C．，Nolan，J．，Rock，D．andWolff，S．1998）

样文：

“．．．Anotherproblemwiththeargumentisfoundintheevidenceusedtosupportit．BigBoardstakesresponsibilityforincreasingRiverCity’sawarenessofthemarathonrunneroverthethree-monthperiodbyputtinghernamesonbillboards,buttheyalsostatedthattherewas“extensivenationalpublicity”ofthewomanduringthattime．The30％increaseinawarenessofthiswomancouldhavebeenaresultofthenationalpublicity．BigBoardsdidnotnecessarilyhaveanythingtodowithRiverCitylearningthewoman’sname-theymayhavelearneditfromTVormagazinesornewspapers…”

经过论证划分与注释处理，样文被分析如下：

Anotherproblemwiththeargumentisfoundintheevidenceusedtosupportit．

>Startargumentatparallelword：

another

BigBoardstakesresponsibilityforincreasingRiverCity’sawarenessofthemarathonrunneroverthethree-monthperiodbyputtinghernamesonbillboards，buttheyalsostatedthattherewas“extensivenationalpublicity”ofthewomanduringthattime．

>ArgumentDevelopmentatcontrastword：

but

>ArgumentDevelopmentatcomplementclause：

that．

The30％increaseinawarenessofthiswomancouldhavebeenaresultofthenationalpublicity．

>Speculationatauxiliaryword：

could

（二）句法结构分析

在GMAT作文评分标准中，句法的多样性与复杂性是一个重要的指标。

E-rater应用自然语言处理技术对作文逐句剖析（parse），通过对从句和动词类型的识别来确定作文的句法多样性。

例如，一类用来衡量句法多样性的变量是各种从句（定语从句、状语从句等等）和情态动词（would，could，should，might，may等等）在文章中出现的次数；各种从句和情态动词在每句话里的出现频率也用来衡量句法结构。

（三）主题内容分析

优秀的作文与题目紧密相连，在论证过程中使用针对性强、准确性高的词语。

美国教育考试服务处的语言学研究者认为，出类拔萃的作文彼此在词语使用上相近；同样，差一些的作文之间也存在着这样的相似性。

基于这一点，E-rater将一篇考试作文与人工阅卷员已经评好分数的六类作文（从1分到6分）在用词上比较，从而确定该文章与哪一类作文最近似。

在此过程中，作文在E-rater眼中就是一个个由单词构成的向量。

参考信息提取学理论，E-rater使用两类变量来衡量内容的相似性，一类基于用词频率，称为EssayContent；另一类基于用词权重，叫做ArgContent（Salton，1988）。

EssayContent变量衡量整篇作文的用词频率。

对于经人工阅卷员打过分的“训练”样本，先去除一些功能词，如冠词、介词、副词等；然后，总结出每个分数值（1分到6分）中所有作文用的单词及相应的频率，列成6个向量，我们将之称为“训练频率向量”；将尚未给分的作文也做相应的处理，写成一个向量；接着，计算此向量与6个“训练频率向量”之间的余弦相关（cosinecorrelation）系数，与哪一个“训练频率向量”之间的余弦相关系数最大，就说明该作文在内容上与相应一类作文最接近。

另一类变量，ArgContent，通过词语权重来衡量每一个论证单元的内容是否接近。

词语权重的选取不仅考虑了任一单词在每一个分数档的作文中的相对重要性，而且考虑了每一个分数档的作文在“训练”样本中的分布情况。

与获取EssayContent变量过程相似，每一类作文的每一个论证单元都用相应的向量来表示，不过，这里的向量不是频率向量，而是权重向量。

通过余弦相关分析，E-rater便获得了一系列的变量值（有多少个论证单元就有多少个值）。

如何最有效地使用这些变量值呢？

美国教育考试服务处的研究者发现，这些变量值的众数与平均值与人工阅卷员的评分吻合率皆很高，同时他们发现当一篇作文中包括比较多的论证单元时，人工阅卷员的评分比ArgContent变量的平均值要高一些；相反，如果一篇作文中的论证单元相对少（只有一两个）时，人工阅卷员的评分会低一些。

研究者利用作文中包含的论证单元数对ArgContent变量的平均值进行调整，这个调整以后的平均值与人工阅卷员的评分达到最高的吻合率。

上述基于修辞结构、句法结构和主题内容分析所得出的三类语言学变量不仅对统计建模起着至关重要的作用，还可以用来向考生提供诊断信息与反馈。

首先，便捷的语法检测系统可以对考生的单词拼写和语法进行监督指导。

目前，电子阅卷员在美国的应用中，语法检测并不突出，但对于把英语作为第二语言的我国考生其意义会更明显。

通过主题内容分析，我们可以知道考生的回答是否与文题相关，对于跑题或扣题不紧的考生可以加强审题的训练；利用句法结构分析，我们可以发现考生在使用从句时，种类是否相对单调，频率是否相对偏低；通过修辞结构分析，我们可以考查考生在论证中是否连贯，是否只是对文题简单复述而并未加以展开、论述；综合三者，我们可以发现考生使用单词、短语和词组是否相对单一，或对某一方面，如表示承接、递进的词语使用上比较欠缺。

条件允许时，命题人事先可对文题可能引发的语言点加以总结，并提供一些例句作为参考样本，电子阅卷员便可查找考生作文中是否缺失有关信息。

十分重要的一点是，上述的种种诊断信息完全可以由计算机自动给出，并且可以通过一系列问题的形式提供给考生，如“本文题要求就某某方面发表论述，你的作文是否集中在此方面”、“你使用了五个‘but’，是否可以在语意通畅的条件下用其他词语来代替”等等，循循善诱，让考生意识到自己在该考试涉及到的写作上的不足之处。

四、统计建模与结果分析

（一）统计模型

目前E-rater使用的是线性回归模型，即将作文分数表示成两部分的总和，一部分是语言学变量的线性组合，另一部分是随机误差。

E-rater利用“训练”样本对语言学变量加以选择，找出统计显著的一部分变量（一般每个模型中有7至12个变量），进而进行系数估计。

人工阅卷员已经对该样本中的每一篇作文都评了分，所以统计建模的过程就好似有经验的人工阅卷员在手把手地训练计算机如何合理地为作文评分，“训练”样本由此得名。

线性回归模型的优点之一便是计算上十分简单，这一点是大型的人工智能网络难以比拟的。

此外，线性模型的系数估计的解释通俗易懂。

例如，如果模型中变量“不定式从句”的系数估计为0.25，其意义为，当模型中的其他语言学变量值维持不变时，考生每多写一个不定式从句，他的作文分会提高0.25分。

对语言学变量作用的正确理解，有助于对现有语言学变量的修改、扩充和进一步的语言学分析。

表2列出了在15个模型中重要的语言学变量出现的频率及所属类别。

其中4个变量，ArgContent，EssayContent，用于论证发展的单词数和情态动词数，稳定地出现在这15个模型中。

除此以外，每个模型中的变量大相径庭，各有各的不同，没有一个明确的规律可循。

从这个角度讲，考生想通过简单地背诵一些词语来迷惑E-rater从而得高分，还是比较困难的。

表2：

在15个模型中最常出现的语言学变量

（摘自Burstein，J．，KukichK．，WolffS．，LuC．andChodorowM．，l998）

Feature

Featureclass

counts

ArgContent

Topical／rhetorical

EssayContent

Topical

Totalargument

Developmentwords

Rhetorical

Auxiliary

Subjunctives

Syntactic

Paragraph

Surface

Argumentinitialization

Complementclauses

Rhetorical

Argumentdevelopment

Rhetqueswords

Rhetorical

Argumentdevelopment

Evidencewords

Rhetorical

Subordinateclauses

Syntactic

Relativeclauses

Syntactic

（二）结果分析与讨论

表3是用这15个模型对作文分数预测的结果。

从第一列我们看到这15个文题十分广泛，包括8个GMATArgument文题，5个GMATIssue文题和两个TOEFL文题；第二列是相应交叉验证样本的样本量；第三列是两个人工阅卷员之间的吻合率；第四、五列是E-rater分别与两个人工阅卷员之间的吻合率。

表3：

E-rater与人工阅卷员的吻合率

（摘自Burstein，J．，KukichK．，WolffS．，LuC．，ChodorowM．，Harder，L．B．andHarris．M．D．,l998）

prompt

HRl～HR2

HRl～E-rater

HR2～E-rater

Argl

552

Arg2

517

Arg3

577

Arg4

592

Arg5

634

Arg6

706

Arg7

719

Arg8

684

Issue1

709

Issue2

747

Issue3

795

Issue4

879

Issue5

915

TWEl

260

TWE2

287

E-rater与人工阅卷员的吻合率在87％到91％之间变化。

在大多数情况下，E—rater与人工阅卷员的吻合率同两个人工阅卷员之间的吻合率只有细微的差别；在某些情况下（如Arg3，Arg4等等），E-rater与人工阅卷员的吻合率甚至高于两个人工阅卷员之间的吻合率。

值得注意的是，无论在语言学分析部分还是在统计建模部分，电子阅卷员绝不是脱离人工阅卷员而单独存在的，相反，电子阅卷员的有效工作依赖于人工阅卷员的“训练”。

即使在使用阶段，电子阅卷员也不是将人工阅卷员完全替代，而只是作为第二阅卷员来辅助人工阅卷。

不可否认，对作文的评判是一项十分复杂的工作，虽然电子阅卷员在美国发展已经比较成熟，与人工阅卷员的吻合率也相当高，但是依然存在着一些问题。

从语言学角度讲，电子阅卷员尚不能捕捉某些写作技巧，如暗喻、拟人，更不要说对幽默、创造性以及非传统的写作手法的欣赏。

电子阅卷员可能被迷惑，例如某些情态动词，电子阅卷员只会判断它们出现与否，而无法体会它们的使用是否妥当。

从统计学角度讲，线性回归模型更适用于回归变量（作文分）连续的情形，同时，在对语言学变量选择的统计方法也有待进一步改进。

五、电子阅卷员在我国应用的展望

考试源于我国，如今又得到了进一步的发展，无论考试涉及的广度还是考试研究的深度，都是盛况空前。

考试在我国的一个显著特征就是阅卷量非常大。

以全国高考为例，每年考生就有几百万人，每人至少写中英文各一篇作文，文科考生还要回答历史、政治的论述题（这都是长短不一的作文）。

所以单单高考这一个考试的作文量就与美国教育考试服务处全年要批改的作文相当，这还没有包括各种职业考试、大学英语等级考试等等。

其次，我国作文阅卷多采用阅卷员集中培训、最终由单一阅卷员打分的体制，阅卷的主观性比较突出，有效性、可靠性相对比较低。

此外，在我国作文阅卷中地域性强，阅卷员每年更替比较频繁，这使得跨地区、跨年度的比较显得十分困难。

可以说，我国对电子阅卷员的需求是迫切的。

同时，电子阅卷员在我国的发展可行性与艰巨性并存。

英语考试方面，我国各类英语作文与GMAT作文在命题上存在诸多一致的地方。

文题从看图说话、对某一图表、产品介绍说明，到就某一问题、现象发表看法、议论，例如高考英语作文题自1990年至今始终围绕着不同形式（书信、日记、简历等）和内容（人物、产品、身边变化等）的介绍、通知等等，这比较适合采用E-rater及其他电子阅卷员的语言学分析。

在试用研究阶段，可以采用GMAT现有的文题和E-rater的整套语言学分析手段；当使用新的、对我国英语考生针对性更强的文题后，对电子阅卷系统不可避免要进行调整。

首先，用于修辞结构分析的词库和规则，主题结构分析中的“训练频率向量”和“训练权重向量”都需要相应更新与调整；其次，由于我国英语作文的评分标准与GMAT作文的差异，语言学分析可能不仅仅局限于修辞结构、句法结构和主体内容这三方面；再次，我国英语作文的满分从15分到30分不等，分数分布比GMAT作文更细，吻合率的定义需要新的探索，同时统计建模上也需要相应的调整。

中文考试方面，我们主要谈高考作文。

高考作文经历了三个过程，命题作文、材料作文和话题作文。

命题作文限制很大；材料作文就是提供一段材料、小故事、诗歌等，从中提炼出一个观点、一个主题，审题不能偏；而话题作文对审题的要求低了，只要不离开这一话题就行，在内容上给学生更大的选择空间，就像一个自选超市，它所给的

展开阅读全文