公开考试评卷工作的重要程序
副标题#e#
公开考试的设计是一项专门的学问。公开考试一般包括三个重要元素:设计考试大纲、编制试题及评分、报告成绩。在考生人数众多的科目,评卷环节面临的重要问题之一就是须聘用大量评卷员参与评卷。但是,评卷是一项以专业判断为主的工作,为保证对所有考生公平,考评机构便须采取适当步骤,划一评卷尺度。本文旨在探讨香港考试及评核局为保持评卷信度,确保考生的答卷得到公平及客观的处理,在评卷环节所采取的程序,包括评卷参考的设计、评卷的配套程序、评卷教师的培训等,并分析这些程序的重要意义。
公开考试;评卷工作
G424.74[文献标识码]A
1673-1654(2012)02-049-010
设计一个公开考试是专门的学问,公开考试一般包括三个重要元素:设计考试大纲、编制试题及评分以及报告成绩。如果说某个考生拿到A级的成绩,是根据该名考生在考试中的表现所做出的结论,那么做出这个结论,起码有两个重要条件。第一,试题能够有效地要求考生运用相关的知识和能力;第二,评卷过程能够有效地反映考生已经掌握这些知识和能力。
编制试题工作固然艰巨,但评卷工作亦不简单。评阅考生的答卷须依赖专业判断,以及配合公布所定的要求。一般而言,评卷员多为有关学科的任教教师,聘用教师担任评卷员,需要考虑申请人的学历、教学经验、考试行政经验和评卷经验。一些考评机构在聘用评卷员时更有其他规定,如申请者须申报其任教学校名称,这样考评机构便可避免将这名评卷员所任教学校考生的答卷分发给该评卷员批阅,以避偏帮之嫌。也有考评机构禁止教科书的作者担任评卷员,防止出现任何利益冲突的情况。
所有评卷时常出现的一个大问题,就是考生人数众多的科目须聘用大量评卷员参与评卷工作。但是,评卷是一项以专业判断为主的工作,为保证对所有考生公平,考评机构便须采取适当步骤划一评卷尺度。那么,考评机构要订立什么措施确保考生的答卷能获公平及客观的处理呢?本文旨在介绍香港考试及评核局为保持评卷信度,在评卷环节所做的三项工作,即评卷参考的设计、评卷配套的程序、评卷教师的培训,并说明它们的重要性。
#p#副标题#e#
拟订试题初稿时,命题员同时须草拟一份评卷参考(Nitko&Brookhart,2007;Popham,2011)。评卷参考与试题一样,由审题委员会详细讨论、修订,直至满意为止。设计评卷参考时,必须考虑以下三方面:
首先,命题人员必须清楚什么是自己期望的答案。如果有一个客观的答案,必须把答案内容和相关的重要步骤列出来。即使是没有一个客观的答案,如文章描述题,也应该把答案大纲写出来,这样才能令审题者知道命题的原意,也有助他们鉴定题目难易度是否适合。
其次,必须把答案各个部分、步骤的分数列出来,以方便其后试卷主席①设计评卷程序,这个步骤尤其重要。在大型考试中,大部分考生的答案都不会是全对或全错的,大部分考生也都不会得满分,或不得分。所以评卷参考应指出分数如何分配。
最后,评卷参考中也应注明其他注意事项,如处理一些异常答案的方法,答案答错了,如何扣分;方法对了,但在最后运算中弄错答案,如何扣分;多答了题目,如何处理等。
评卷参考旨在提供一份指引,使评卷员有所依循,大家能在共同的规范下评卷。这样,评卷员在整个评卷过程中大致上可用一致的尺度来评阅试卷,而各评卷员之间以及同一评卷员在不同时期评卷时出现的差距也可尽量减少。在某些情况下,评卷员可斟酌情况利用他的专业知识来判断答案应获的分数。因此评卷实非机械化地应用某些规则,而是一项极富挑战性、非有专业知识不能应付的工作。至于各科评卷参考的详略程度,则会因各科性质的不同而互有差异。
#p#副标题#e#
1.评卷参考的修订
为了管理及监察评卷程序,考评机构可建立一定的机制来保证这项工作。首先,每份考卷都应有一位资深的教师担任试卷主席,领导评卷的工作。为了保证评卷质量,试卷主席需要其他资深教师及资深评卷员帮助,出任助理试卷主席,负责复核评卷的工作。
答卷由考场收回后,有关科目的试卷主席会选取适当的答卷作为答卷样本。一般而言,被抽选的多是典型的、具代表性的,或答案具争论性的试卷,并尽可能包括优劣不同的答案。选出的答卷样本,连同评卷参考及其他文件都需分发给评卷员。
试卷主席及助理试卷主席在评卷员会议前先举行筹备会议,评阅这些答卷样本,并交换意见,使评卷尺度划一。也会根据考生的表现修订评卷参考。凡此种种修订建议均会在即将举行的评卷员会议上讨论。
与此同时,其他评卷员亦须在评卷员会议前仔细参阅评卷参考,并试改答卷样本及小量真正答卷。
评卷员会议上,全体评卷员将会在试卷主席的领导下详细讨论评卷参考,包括如何处理那些评卷参考未涉及的考生的答案及如何分配分数等,并作修订。会议最终目的是完成一份较完善的评卷参考,让全体评卷员均有所本,使评卷尺度能趋于一致。
全体评卷员将会依照修订后的评卷参考批改新一批的答卷样本,并将结果与试卷主席及助理试卷主席所评者比较。两者的给分若仍有差距,试卷主席会反复地就有关问题再与评卷员详加讨论,或再作修订,务求各评卷员在正式评阅试卷前能清楚了解评卷参考的评分准则。
#p#副标题#e#
评卷参考是评卷工作之基石,但还须其他程序配合。这些程序包括以下方面。
1.核卷安排
一般而言,核卷工作由试卷主席统领,并有若干名助理试卷主席参与。每名助理试卷主席可协调及监察10~15位评卷员的工作。核卷是监察评卷工作的重要步骤。每份试卷的评分过程最少有两个核卷阶段。第一阶段的核卷通常在评卷员会议数天后进行,评卷员须将部分已评阅的答卷送交试卷主席复核,结果令人满意并得到试卷主席同意,他方可开始评阅其他真正答卷。此举旨在确保评卷员能正确理解评卷参考。第二阶段核卷在阅卷的中段进行,试卷主席从评卷员交回的一批答卷(约占全数的一半)中抽取样本复核,以确保评卷员的评分标准前后一致。
2.行政措施
为提高评卷工作的效率,可考虑设置一些配套措施,例如中央评卷及网上评卷。中央评卷是指把评卷员集中在某一段时间、某一处地方集体评卷。这个方法有不少优点。首先,可以提高评卷的效率,让评卷可以在预计的时间内完成。其次,由于评卷员都集中在一个地方如果评卷时发现任何问题,都可以及时处理。但是,并非每一个考评机构都可以作这样的安排,因为评卷员一般都有自己的工作,要把评卷员在一段较长时间内集中在一起并不容易。另外,评卷工作只被视为一项服务考生的兼职差事,个别学校领导并不希望教师因为替公开考试机构评卷而影响本身在学校的教学工作。中央评卷虽是一个好方法,但仍需视客观条件能否配合。
#p#副标题#e#
随着科技发展日新月异,很多考评机构近年开始引入网上评卷系统以进一步提升效率。为实施网上评卷,考评机构一般会采用条码技术,辨识考生的基本资料,经电脑扫描后答卷影像便可存档于系统之中,再进行评卷及记录资料。透过内联网,网上评卷系统可把答卷不同部分的答题影像分发予评卷员评分。整个流程如图一。
图一:网上评卷过程
网上评卷提升了评卷的效率,更有效及快捷地处理答卷,更快速地计算考生得分,并可同步分发答卷给两名评卷员以双评方式评卷。这样大大减低了输入分数,及记录或计算考生分数时出错的机会。
3.统计支援
一些考评机构发给评卷员评阅的答卷都是全部答卷的一个随机样本,因而评卷员评卷分数所得的数据便可互相比较。
#p#副标题#e#
在随机派卷的安排下,每位评卷员名下的答卷理应包括各种不同水平的考生在内。由于各评卷员获发的答卷应是整体考生的缩影,可以相信各评卷员名下答卷统计资料的特征可反映整体考生的表现,包括平均分、标准差及百分位数。各评卷员积分①的百分位数分布可以用图表列出(见附件一),电脑把评卷员的积分相对累积频率曲线(由“○”号代表)印制出来,并加添两条边界曲线(由“?”号代表)以表示整体积分的分布情况。两条边界曲线的中间区域,可称为“容忍地带”。根据设计,评卷员的积分分布曲线出现在‘容忍地带’内的机会是百分之九十九。此地带的宽度,随着评卷员的卷数增长而缩小。假如评卷员的分数曲线超出“容忍地带”的范围时,试卷主席或助理试卷主席将会进一步复核该评卷员的试卷。此项统计资料旨在协助试卷主席在众多的评卷员中找出评卷过宽或过严者,并藉此了解在哪些分数范围内出现问题。
有时候,评卷员的积分统计资料可能与整体的相当接近,其曲线亦可能出现在“容忍地带”内,但其评卷水准仍可能宽严不定。要找出这种偏差,必须依赖另一项统计资料,但它只适用于设有多项选择题试卷的科目。这项资料包括各评卷员名下问答试卷(主观题)的平均分及标准差,该批考生在多项选择题试卷(客观题)的平均分及标准差,以及两组分数的相关系数。而整体考生的上述各项资料亦同样罗列出来,以供比较。一般而言,各评卷员的名下考生在多项选择题试卷平均分及标准差无甚分别,反映出各人所负责评阅的试卷水准理应相当均匀。在同一科中,两卷的积分应有一定的相关。至于相关程度,则根据科目所测试考生的要求而定。故此,假如某评卷员的相关系数远较整体的为低,则显示该评卷员有可能未掌握评卷尺度,给予成绩差者高分,成绩优异者反而误给低分,使得考生的优劣排列与多项选择题试卷者背道而驰,因而出现相关系数过低的情况。在此情况下,试卷主席或助理试卷主席将会复核该评卷员的试卷,以寻求真相。如有需要,更须安排重阅该批试卷。此统计资料对查找评卷宽严不定的评卷员至为有效,有关数据表可参见附件二。
#p#副标题#e#
一般考评机构比较重视命题及考务的细节,而可能忽略评卷的培训工作。参考有关外国评卷工作的研究,我们认为评卷信度受以下因素影响:(1)光环效应(halo effect)或尖角效应(horn effect),(2)分数过分集中,(3)不知如何处理不完整的答案,(4)不知如何处理异常情况,(5)评卷员采用自己的标准,(6)评分过宽或过紧。为使评卷员多些了解评卷时所遇到的问题,考评机构平时可考虑多办工作坊,让教师参与模拟的评卷工作,更多地了解如何给予考生合理的分数。评卷工作坊的内容可分为三个部分。首先,为避免教师对所任教课程要求未能完全掌握,应该先向他们解说课程及考试的要求。这方面的有关资料并不匮乏,关键在于如何
表达。例如,可以使用考纲内的等级描述及样本示例,以及过往的考试报告等不同资料向教师说明。另外,答题中的一些基本要求学校教师与学生倘仍未完全掌握,可在工作坊内再加解说,这对教师的评卷工作将有一定帮助。
其次,要清楚说明如何根据评卷参考来评分的细节。评卷参考有两种模式:一种是把考生的答题步骤分成若干工序,每一个工序都有指定的分数,即使考生未能做到最后的工序,仍可因已完成部分获得部分分数。另一种是把要求的答案分成多个不同的范畴,每个范畴都有不同的重点,而且可将答题要求分为数个等级,答对高等第的要求者得较高分数。
最后,应该提醒教师经常反思评卷易犯的问题,提高认识。上述易影响评卷效果的因素,也可以在工作坊内跟教师讨论。现稍作分析。
#p#副标题#e#
(1)评卷水平因光环效应(halo effect)或尖角效应(horn effect)而出现误差
这是指评卷时因已知道考生以前的表现,而对考生答卷产生正面效应(光环效应)或负面效应(尖角效应)。也有一种情况,就是评卷员评阅一些欠理想的答卷后,在评阅一份只具一般水平的答卷时,会倾向给予较高的分数。在公开考试的安排下,这种情况应可避免,因为考生答卷是一个随机样本,包含着不同能力的考生答卷,而且评卷前可作特别安排,避免教师评阅自己学校考生的答卷。不过在培训教师时,可提醒教师这种情况有时会影响评卷时的判断。
(2)分数过分集中
评卷时评卷员有时会出现分数过分集中的现象。把分数集中在一个分数范围,除了会使区分度不足之外,也可能产生其他问题。例如,需要把不同卷别分数加起来时会出现分数标准差较大的卷别所产生的实际影响加大。这点可在评核培训时与老师讨论,让其正视有关问题,在评卷时避免出现分数区域太窄的情况。
(3)不完整答案的处理
评卷工作最难掌握的问题之一,就是如何评判不完整的答案。在评卷过程中,可找到完全错误的考生答卷,亦可以找到几乎完美的答卷,不过这些都占少数。大部分考生的答卷都不尽完美,但亦非全错。那么如何评定分数,就要靠评卷员作一个合适而一致的判断。所以评卷参考应做出一些说明,答案不完整时应如何处理。例如是运算类型的问题,可分析考生运算是在哪部分出错,即使最后答案不正确,但仍可在步骤上给予一定的分数。以下是香港中学会考数学科的评卷指引,供读者参考。
#p#副标题#e#
在评卷参考中,分数会分为下列三类:
“M”分使用正确方法的得分;
“A”分正确答案的得分;
没有“M”或“A”的部分正确地完成证题或推演得题目所给的答案的分数。
某些题目由数部分组成,而较后部分的答案却需倚赖较前部分所得的结果。在这情况下,若考生因为前部分错误的结果而导致后部分的答案错误,但却能运用正确的方法去解题,则方法正确的步骤可给“M”分,而相应的答案将没有“A”分。
为方便评卷员评卷,评卷参考已尽量详尽。当然,考生的答案多不会如评卷参考般清楚列写出来,诸如欠缺某几个步骤或将步骤隐含于字里行间。如遇到类似情况,评卷员应运用他们的专业知识去判断是否给分。一般来说,如考生的答案已运用相关的概念或技巧,则该部分应予给分。
(4)异常情况的处理
当发生某些异常情况时,各评卷员一般不能私自处理,否则会导致不公。考试的异常情况常因地区不同而有所差异。在香港,语文科的作文卷是评分中容易出现异常的情况的领域。例如,有的考生背诵范文作为自己写作的文章。对于这类异常情况的试卷,评分中应有统一的做法,避免由各评卷员自行决定。以下是香港考评局多年前的一个案例,案例中最终规定了评分的统一做法,有利于让评卷员依照指引处理。
“今年考试发生一宗令人遗憾的事件。在评卷期间,有教师与考生投函考评局,怀疑有部分考生背默某补习社的“模拟作文”,感到对其他考生不公平,有违本试卷考查写作能力的目的。因此决定为了维护考试公平,也鉴于考试课程已清楚说明该考卷的考查目标为写作能力,绝不能由背默能力代替。处理的方法是剔除每卷背默“模拟作文”的部分,然后就其余的文句评分。”
这个做法沿用至今,并在评卷员会议上加以说明。不同地区的考评机构都会遇到不同的异常问题,故此可利用评卷培训工作坊向教师说明。
#p#副标题#e#
(5)评卷员采用自己的标准
这种情况容易在开放式试题中发生,因为这类题目鼓励考生尽量表达自己的意见。Grant Wiggins曾有一段文字,表达对评卷指引规限的不满:
“看看以下有关评阅作文的指引(符合拿到最高分数的要求):
文章有引言及结尾部分,内容须配合题目的课题及有明确的主题,而且有组织及逻辑性……
多沉闷啊!指引内没有分数属于写作的形态、想象力和如何吸引读者。”
可见在评开放式答卷时,评卷员可能增加了“想象力”的元素。为了克服这个困难,也为了维持评卷信度,采用明确及清晰的分类表来评分较为可取。有些考评机构把有关的详细资料写成等级描述,在考试前公布,供教师及学生为准备考试时参考。这些描述和准则若可以在平日向教师说明,便会节省评卷员会议所耗费的时间。附件三为香港高级程度会考生物科有关文章题的评分准则。
(6)评分过宽或过紧
即使已将要求清楚分类,评卷员在评分时也可能会有差异。例如,写作的试题评分《考试研究》2012年第2期(总第31期) 中通常会考虑不同方面,包括内容、组织、结构、文法等,而每一个环节都有一个分数范围,那么该如何在这个分数范围打分呢?为克服这个困难除了紧谨评卷参考指引评卷及在评卷员会议上详细讨论外,试改考生答卷样本也是一个重要的做法。首先,试卷主席及助理试卷主席在评卷员会议之前先举行筹备会议,并评阅这些答卷样本,以便划一分数。凡此种种,均应在即将举行的评卷员会议上提出讨论。与此同时,其他评卷员亦须在评卷员会议前试改试卷样本。故此在日常举办的评卷工作坊内,可安排评阅答卷样本的环节,方便教师多练习、多讨论,寻找达成共识之道,使评分标准更趋一致。
评卷工作完成后,要将各卷分数加起来,然后公布成绩。不同地区的公开考试都有不同公布成绩的方法,可用分数、也可用等级来公布成绩,两种方法各有优劣,可留待以后再详加讨论。
#p#副标题#e#
参考文献:
[1]Nitko,A.J.& Brookhart,S.M.,Educational Assessment of Students(5th Edition),Upper Saddle River: Pearson,2007.
[2]Popham,W.J.,Classroom Assessment: What Teachers Need to Know(6th Edition),Boston,M.A.:Allyn and Bacon/Merrill Education,2011.
[3]Wiggins,G.P.,Assessing Student Performance: Exploring the Purpose and Limits of Testing,San Francisco: Jossey-Bass,1993.
ZhangGuangyuan
Hong Kong Examinations and Assessment Authority,Hong Kong
Abstract: An assessment process consists of three elements: the design of the scheme for gathering information,the preparation of the tasks for the students and the reporting of the out comes. The marking of students’work creates a mammoth problem for examination boards.For subjects with large entries,a large number of markers are engaged to cope with the workload.To be fair to all candidates,it is necessary to institute measures to control the marking standard so that uniformity can be achieved.The marking of scripts involves the professional judgement of markers.How can examination boards ensure that candidates’ work can be treated in a fair and object way? This article aims to describe three major processes: the check marking procedures,the administrative support procedures and the professional training of teacher markers,adopted in the Hong Kong Examinations and Assessment Authority to maintain the reliability of marking standards.
Key words: Public Examinations,Marking of Scripts