大规模学业测评中开放性分级计分问答题的命制与评分
副标题#e#
开放性分级计分问答题在检测学生的思维过程方面,有着以选择题为代表的客观题不可比拟的优势,在要求考试评价能更细致、更深入和更本质地反映教育质量的今天,它正越来越受到青睐。
在“建立中小学生学业质量分析、反馈与指导系统”项目(简称SAAE项目)的科学学科8年级学业水平测试中,自2005年起一直有约40%的试题采用了开放性分级计分问答题的题型。连续5年的探索,突破了在大规模测评中采用该题型所面临的障碍,解决了评分的准确性和可行性难题,使“注重学生知识理解深度和思维过程”的目标得以实现。本文将以一道具体试题为例,报告试题的命制与评分过程。
一、分级计分题的特征及功能
开放性分级计分问答题,在PISA、TIMSS、NAEP等著名大型学业测评项目的科学测试中早已采用。它如今越来越受到青睐,这一方面缘于以选择题为代表的所谓客观题的固有缺陷日益凸显,另一方面也是考试评价为更细致、更深人地反映教育质量而做出的选择。开放性分级计分问答题在检测学生的思维过程方面有着客观题不可比拟的优势。
所谓“开放性分级计分问答题(以下简称‘分级计分题’)”,顾名思义,它具有以下几个特征:
(1) 问题的开放性。相对于问题指向高度集中、答案唯一的封闭性试题而言,这类问题具有一定的宽广度和综合性,相应的答案或结论常常是非固定或非唯一的,这就给了学生多角度思考和回答问题的空间。
(2) 答案的丰富性和过程性。由于问题的开放性,不同能力层次的学生都可以做出不同水平的回答,因此学生的作答非常丰富;同时由于试题要求学生呈现出自己的思考、解释和结论的具体内容,因而能反映其解答问题的过程,而不只是单一的结果。
(3) 评分的层次性和精准性。对这样的试题进行评分时,采用的是按学生回答的水平分级计分的办法。具体来说,是对学生丰富多样的答案进行分类,然后根据学生回答的水平,对各类回答赋以对应一定分值的编码(由于采用了专门的编码区别表示学生不同水平和质量的回答,使得分级评分不仅具有层次性,而且精准地反映了学生作答类型的数量情况)。具体的编码层次和类别结构如下:
#p#副标题#e#
显然,上述特征与以选择题为代表的客观题的特征正好形成鲜明对照。后者所涉问题和答案往往是封闭性的、非对即错的,而且学生是以选择选项的方式作答,其思考过程和表达均得不到区分,评分反映的实际上只是学生解答的结果与试题预定标准答案的一致程度。从教学质量的本质意义来看,客观题的这些不足正好能被分级计分题所弥补。分级计分题因而具有独特的教学功能,主要体现在:
(l) 有利于对学生高级认知能力的测评。理解、应用等较高一级的认知能力,在简单的知识呈现问题情境中是难以表现的,需要设置相对复杂的问题情境。而这正是开放性分级计分问答题的优势所在。
(2) 有利于了解学生的思维过程、理解程度和科学表达能力。题海战术的盛行,一定程度上与只看结果不看过程、只评对错不分程度、只需选择不需表达的考试题有关。由于对答题过程的强调、对解答质量的看重以及对学生表达的要求,使开放性分级计分问答题具有了注重学生思维过程、真正理解和科学表达的教学导向功能。
(3) 有利于学生从多个角度来思考问题。用问题开放、计分分级和个性表达的试题评价学生,实质上是承认了学生理解的丰富性、层次性和多元性,淡化了标谁答案的唯一性,在一定程度上可以消解对标准答案的盲目崇拜,给学生的作答以发挥和展示的空间。
(4) 有利于教学诊断并提取改进教学的线索。分级计分题评分的层次和类别,为诊断教与学中可能存在的问题提供了丰富的第一手资料,为总结和挖掘教学中的普遍现象和规律提供了量化的证据。运用得当,将为改进教学提供可靠的线索。
总之,设计良好的开放性分级计分问答题,通过设置具有一定开放性的问题情境,让不同知识水平和能力层次的学生在回答时都表现出有区分价值的回答,能更细致、更准确地测查出学生的思维过程和水平,体现出考试评价注重过程和个性的教育价值导向。
#p#副标题#e#
二、分级计分题的命制
分级计分题的命制过程一般分为以下几个步骤:
第一步,根据命题要求选取命题素材。这项工作的基础是广泛收集命题素材并对素材进行初步筛选和分析,逐步建立和不断丰富命题素材库。
第二步,对素材所隐含的价值进行分析,遴选出合适的命题素材。
第三步,对选定素材所设置的问题情境进行反复打磨,在不断尝试中确定最佳提问角度。在此基础上初步形成试题。
第四步,仔细斟酌题目情境所含的信息是否适度,对学生答案的丰富性程度进行预测,考量该题为不同知识和能力水平的学生都提供了怎样的思维空间,并在此过程中不断修改和完善试题。
下面以SAAE项目2009年8年级学生科学测试中使用的一道试题为例,说明开放性分级计分题的命制过程。
例题从冰箱的冷冻室中取出一袋冰冻的汤圆,倒进一个碟子里,然后将碟子放在电子砰上,每隔20分钟记录一次电子砰的示数,得到下表所示的数据:
从上表的数据中,你看出了什么趋势?你认为其可能的原因是什么?
这是经过上述几个命题阶段后,最后在正式测试中使用的一道开放性分级计分问答题。该题通过学生对所给数据的解读和对冰冻汤圆拿出冰箱后质量变化原因的解释,考查学生分析简单实验数据和运用知识解释实验现象的能力。后来的测试发现,近一半学生虽然能够根据试题所给的实验数据得出冰冻汤圆拿出冰箱后的质量随时间增加的结论,却不能给出质量增加的科学解释。
三、评分标准的制定
一个科学合理的分级计分题的评分标准从初步制定、修改完善到最终定稿,需要经历一个严谨、细致的工作过程。
在命题的过程中,根据对题目中情境的设置与设定的提问方式,命题者初步对学生可能作出的回答进行估计。按照知识掌握程度和能力水平,将各类型的答案划分为高低不同的层次和类型,并各赋予一个编码,制定出初步的评分标准。
从样例“冰冻汤圆”这道题来看,可能的答案类型有:
较高水平的学生应该能够看懂表中数据变化的趋势,并且使用关于液化的知识对汤圆质量增加的过程进行详细解释。中上水平的学生应该也能够看懂表中数据的变化趋势,但是对汤圆质量增加原因的解释不够充分。中下水平的学生,可能仅仅能够看懂数据表中的变化趋势,基本上不能对之做出合理的解释。低水平的学生看不懂表中数据变化趋势,也无法做出合理解释。
以上这些考虑,在命题初期只是一个大概的设想,初步的评分标准框架也就是在此基础上构建的。
试题编制完成以后,需要经过一次较小规模(一般要求不少于30名学生)和一次较大规模(约300名学生)的预测,借助两次预测的结果来对试题进行修改,同时对最初的评分标准进行补充,对其层次和类别的框架结构进行调整;并对每个类别添加典型样例,作为对类别描述的进一步说明,同时也为下一步的评卷提供参考。
评分标准修订工作期望达到的目标是:①各“层次”由低到高表现出明显的梯次;②各“类别”的描述界定清晰;③每个类别下的“样例”都准确无误,能够对类别描述进行进一步的说明,从而尽可能使每一种作答类型都能够被清晰地判别,正确地赋予相应的编码。
在大规模测试以后,因为样本量大大增加,所以需要对评分标准进行再次修订并最终定稿,作为大规模测试的阅卷标淮。
在大规模测试完成后,从所有的试卷中随机抽取试卷(一般应不少于500份)进行试评,检验已经修订的评分标准能否应用于大规模测试试卷样本的评分。
根据前述工作目标继续修订评分标准,完成后根据修订后的评分标准再次试评2%~3%的试卷(一般不少于300份)。若没有发现问题,则把修订后的评分标准提交专家组讨论,由相关专家对评分标准的框架结构和细节进行把关,评分标准的修订者需要面对专家组的质疑和提问。若讨论后认为,该评分标准可以在大规模试卷评阅中使用,则完成定稿;若讨论后认为,该评分标准存在重大问题,则返回试评和修改环节。
定稿中最终的评分标准,需要对所有各编码的界定进行逐字逐句的精雕细琢,并重新审查所有编码下的答案样例,以保证每个编码都界定清晰,且每个例子都适合该编码的描述。
只有这样,才能保证阅卷员不会出现理解歧义,避免或尽可能地减少对一些难以判断的试卷做出错误的评分。