试题命制的理论和技术（一）

2012-08-31 |浏览:3821次 | 编辑:

副标题#e#

每年高考和中考结束后，只要仔细推敲各省市的试题，就可以发现许问题。针对这些问题，作者试图从考试命题的心理学基础入手，根据试题的定义，提出试题的基本要素，以及试题命制的基本技术。

大规模教育考试以若干个心理学假设为理论基础。

（一）人的心理特质是存在的

心理特质是心理学上用来描述人的心理特征的一个抽象概念，它是指一个个体与其他个体不同的、可以识别的、相对稳定的特征（Cohen R.J.等2005）。例如，人的智力、认知方式、适应性、兴趣、态度、价值观、一般个性、特殊个性等，都属于心理特质的范畴。大规模教育考试中常常将心理特质称为心理结构或能力。考试的目的就是要推测考生的能力，或者说推测考生的心理结构。如果没有这样一条心理学假设，考试就失去了目标，就没有存在的必要。

心理特质、心理结构或能力是抽象的心理学概念，是看不见、摸不着的，但是我们可以通过观察的方式，识别人的心理结构或能力的存在及存在的强度。观察的方法有多种多样，大规模教育考试就是通过测试（Testing）的方法，即通过考生的应答过程和应答结果来推测考生心理结构或能力的存在强度。

心理结构或能力是人相对稳定的特征，是指人表现出某种心理结构或能力具有环境依赖性，即人并非在任何环境下，都能表现出某种心理结构或能力，只有在特定的环境下，人才能表现出某种心理结构或能力。因此，当我们用测试的方法来推测考生的心理结构或能力时，必须创设某种环境，让考生在这种环境中，顺利地表现出我们期望其表现的心理结构或能力。这种环境就是试题的题干。本文后面提出的关于命制试题的若干要求，其理论基础也在于此。

（二）心理特质是可以量化、可以测量的

如果心理特质，或者心理结构或能力，不可以量化，不可以测量，大规模教育考试就不能通过考试给考生赋分，也就不能以考试结果作为选择学生的依据之一。

既然心理结构或能力是可以量化、可以测量的，那么在进行量化或测量时，首先需要对测量的心理结构或能力进行定义，以便对考试结果――分数的内涵作出合理的解释，同时也需要进一步向考生说明，将从哪些方面来观察考生是否具备这些心理结构或能力，或者依据什么证据来推测考生是否具备这些心理结构或能力，即必须对考试的行为目标或认知目标进行定义。同时要确定如何观察，用客观题观察，还是用主观题观察。用什么规则对考生的应答过程和应答结果――考生在考试中的表现――进行赋分，哪些认知目标是高级的目标，是否需要给予其更大的权重，即是否要赋予其更高的分值。

（三）与考试相关的行为可以预测非考试相关的行为

根据考生在考试中的表现，推测考生的心理结构或能力，目的是要预测考生在非考试环境下的表现或行为。高校招生中，以高考分数为依据，就是认为高分的考生能力强，能够适应未来高校的学习环境。如果考试不能预测非考试相关的行为，那么大规模考试就没有存在的必要了。

当然，要使考试能够预测非考试相关的行为，考试创设的环境就必须与非考试环境相联系。例如，高考是为高校录取新生服务的，根据考生在高考中的表现，可以预测考生未来在高等教育环境下的行为，那么高考创设的环境必须与未来高等教育的环境相联系。因此，大规模教育考试的命题中，我们不但对试题要有能力方面的要求。也还要有学科知识方面的要求。如果考试仅仅考虑行为目标，或认知能力，而不考虑学科知识，试题以及考试创设的环境就不可能真正地与未来高等教育的环境相联系。

#p#副标题#e#

（四）每一种测试方法或技术都有其优势和局限

推测考生心理结构或能力时，可以采用不同的观察方法，如纸笔考试、面试、表现性测试、课堂观察、活动观察等。每一种观察方法都有其优势和局限，没有一种方法绝对优于另外一种方法，关键在于考试分数的使用者关注什么。例如，纸笔考试的结果可比性很好，但相对而言，不太容易考察考生思维的发散性、思维的敏捷性等素质；而面试正好相反。究竟是纸笔考试好，还是面试好，不能一概而论，如果考试结果的使用者关注的是可比性，那么可能就需要选择纸笔考试，这就是纸笔考试一直受到青睐的原因之一。同样，纸笔考试中，不同的测试方法也各有千秋。客观题有客观题的优势和局限，主观题也有其优点和不足。认识这一点，可以使考试的设计者、命题者科学地使用不同的考试方法和题型。

（五）测量过程中必然会产生误差

在大规模教育考试中，误差是指考试欲测量的心理结构或能力以外的因素所产生的效应。大规模教育考试中，考生的行为表现――考试得分――除受到欲测量的心理结构影响外，还受到其他一些因素的影响，如考试当天考生生理状况，评分教师评分误差的影响等。

大规模教育考试中，测量误差是客观存在的，只能尽量减小，但不能最终消除。因此，在考试设计、命题、考试结果的使用和评价，必须考虑测量误差。

（六）测试和评价可以是公平的、无偏的

这是教育考试和心理测量领域争议最大的一个假设。公平、无偏就是要平等地对待每一个考生，无论其性别、民族、居住地如何，要使考生与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响。公平、无偏的关键在于让所有考生同等地获得关于考试的信息，在于考试中要尽可能采用多种方法对考生进行测量，在于命题时选择的材料不偏不倚，在于试题的表述简单、明了。

（一）试题的基本定义

根据Osterlinter（1990A），试题的定义为：在教育和心理特质测试中，试题是一个测量单元，它具有刺激情境和对应答形式的规定，它的目的是要获得被试的应答，并根据应答对考生的某些心理特质方面的表现（如知识、能力等）进行推测。（A test item in an examination of mental attributes is a unit of measurement with a stimulus and a prescriptive form for answering；and，it is intended to yield a response from which performance in some psychological construct（such as an knowledge，ability，predisposition，or trait）may be inferred.）

这个定义包含了试题的全部条件，是比较完整的，它既可以满足心理测量中试题的要求，也可以满足教育测量中试题的要求，并且该定义适合于所有题型试题的要求。因此，是普遍承认的一个试题定义。

对这个试题定义，我们可以从三个方面理解。首先“，试题是一个测量单元”关注的是试题的测量功能。测量就是要定量化（quantification），能够以某种方式生产出定量的数据。因此，任何一道试题要对考生的行为表现进行赋分，并且应该按照心理结构或能力的行为表现目标进行赋分，否则，就不可能对考生的心理结构进行有效的推测。

其次，“试题具有刺激情境和对应答形式的规定”意指考生心理结构或能力的表现具有环境依赖性，命题者必须创造一个让考生心理结构或能力得以表现的环境。试题的刺激情境，就是这样的一个环境。此外，考生对试题作出应答必须按照试题的要求进行，因为考生对某种刺激产生的反应可能是多种多样的，如果不规定考生应该作出什么样的反应，就难以获得需要的推测考生心理结构或能力的数据，包括应答过程和结果的资料，以及考试分数数据。

第三，“根据应答对考生的某些心理特质方面的表现（如知识、能力等）进行推测”说明了试题的根本目的。心理结构或能力是理论上的概念，我们必须找到一种方式来推测某一心理结构或能力的存在以及考生展示这一心理结构或能力的相对程度。试题就起到了这一作用。如果一个试题的刺激情境不能提供推测某一心理结构或能力的数据，或者试题没有明确的要测量的心理结构或能力，就不能称之为试题。

#p#副标题#e#

（二）试题的基本要素

根据上述试题的基本定义，可以确定一道试题必须要有三个基本要素。

1.测量的心理特质――测量目标

试题测量哪一种或两种行为目标或认知目标，完成这些行为目标需要涉及哪些学科的知识内容，这是试题的第一要素，缺失了这个要素，试题就缺失了灵魂，失去了测量学意义，测量的结果即是与测量的心理结构或能力无关的结构或能力，对考试结果的解释和使用也就没有价值。

2.刺激情境――情境材料

情境材料也是试题的基本要素，它的作用是对考生进行刺激，产生让考生表现心理结构或能力的环境。

3.对应答的规定――设问

情景材料对考生产生的刺激可能是多方面的、多样的，考试不可能让考生将所有这些反应都写出来，时间不允许，也没有必要。我们只需要考生将我们期望能够推测其心理结构或能力的反应写出来即可。因此，必须通过设问来引导考生作出规定的应答。好的设问能够恰当地引导考生表现出期望的行为，而不恰当的设问可能达不到这个效果，甚至会引导考生表现出其他的，非期望的行为，从而不能对要测量的心理结构或能力进行推测。

本文以最常用的选择题为例，讨论客观题的基本命题技术。

（一）客观题题干基本要求

根据试题的定义和基本要素，命制选择题时，对题干应该遵循下列基本要求。

1.每一道试题必须涉及一定的内容领域和单一的认知行为考试效度的最大威胁来自试题测量无关的心理结构。如果一道试题没有确定的行为目标，或者行为目标与考试预设的测量目标及其行为目标不一致，那么这道试题不但对提高考试的效度无补，反而会降低考试的效度。

同理，高考是为高校选拔人才服务的，考试创设的环境必须与未来高等教育的环境相联系，因此，每道试题需要考生在一定的学科领域完成任务，表现出一定的认知能力。如果完成任务过程不能使用一定的学科知识，那么该试题创设的环境就不能与未来的高等教育环境相联系，也就是一道无效的试题。因此，试题必须能够测量某一认知行为，涉及一定的学科内容领域，这是命制试题时必须认真考虑的。

按照这一要求，例1就是一道无效的试题。

例1：下列叙述正确的是

A.同主族金属的原子半径越大熔点越高

B.稀有气体原子序数越大沸点越高

C.分子间作用力越弱分子晶体的熔点越低

D.同周期元素的原子半径越小越易失去电子

这道题的主要问题是没有测量目标，没有刺激情境，按照试题的定义，不能构成为试题。

2.试题考查的应该是重要内容，不要考很次要或不重要，或大家几乎都会的内容

大规模教育考试是抽样测评，理论上我们应该要求考生尽可能多地完成试题，这样才能对考生的心理结构或能力作出比较有效的推测。但是，由于时间的限制，我们要求考生完成的试题仅仅是所有可能的学科试题集合中很少的一部分。我们需要用这很少一部分试题来推测考生的心理结构或能力。从测量的角度看，就是用一个相对较小的样本作出推测。因此，选择的样本必须有代表性，即试题涉及的内容领域应该是学科的重要内容，如果涉及的是次要或不重要的内容领域，那么就很难将考试结果解释为学科能力的标志。同样，如果试题涉及的内容领域都集中在少数重要的内容领域上，试题样本也缺乏代表性，对考试结果解释也存在局限。

3.用新情境材料考查高水平的认知能力，不要用与教材语言相同的材料，以免考查学生的简单记忆能力

高水平的认知能力是指分析、概括、综合、推测、评价等能力。一般考查考生这些高水平能力时，需要将考生置于新情境材料中，让考生对其进行分析、概括、综合、推测和评价。如果用考生熟悉的情境材料或用与教材语言相同的材料，考生很可能会凭着记忆，完成所要求完成的任务，导致仅仅考查考生的简单记忆能力，考试结果不能反映考生的高水平认知能力。

4.每道试题内容要互相独立

试题之间互相独立是教育测量学的一个基本要求，所谓互相独立是指试题之间不要有互相提示和互相依赖关系。互相提示关系比较容易理解，命题教师一般容易接受，但往往不被重视。例如，有些英语试卷中，在阅读理解部分的阅读材料的某些句型、结构等会对前面的语法词汇部分的某些正确选择起提示作用，也可能会对某些句子的翻译起提示作用。这对于相关内容的考查是不利的，应引起命运人员的关注。

#p#副标题#e#

5.避免过于专门或过于一般的内容

大规模教育考试涉及的内容应该以考生高中阶段所学的学科知识为基础。过于专门的内容往往容易超过大多数考生的认知范围，而过于一般的内容考生往往不需要经过思考，凭常识就可作出应答，这样的试题实际上都降低了试题的效度，考查的是与考试无关的心理结构或能力。例2是一道过于专门的试题，氢作为一种能源，其制作工艺特点，现在的考生一般无从知晓。

例2：氢能是一种高效、干净的新能源，用氢作能源的燃料电池汽车备受青睐。我国拥有完全自主知识产权的氢燃料电池轿车“超越三号”，已达到世界先进水平。氢能具有的优点是

①原料来源广　　　　　　②易燃烧、热值高

③储存方便　　　　　　　④制备工艺价廉易行

A.①②　　　　　　　　B.①③

C.③④ D.②④

例3是一道过于一般的试题，考生几乎均可以凭借常识，判断正确选项是D。

例3：右图喻示管理学中经典的“木桶原理”，即木桶的蓄水量是由最短的那块木板决定的。它蕴涵的哲理是

试题命制的理论和技术（一）

专题