首页> 详情

试题命制的理论和技术(一)

2012-08-31 |浏览:3821次 | 编辑: 加载失败
分享到: 
副标题#e#

每年高考和中考结束后只要仔细推敲各省市的试题就可以发现许问题。针对这些问题作者试图从考试命题的心理学基础入手根据试题的定义提出试题的基本要素以及试题命制的基本技术。

大规模教育考试以若干个心理学假设为理论基础。

人的心理特质是存在的

心理特质是心理学上用来描述人的心理特征的一个抽象概念它是指一个个体与其他个体不同的、可以识别的、相对稳定的特征Cohen R.J.2005。例如人的智力、认知方式、适应性、兴趣、态度、价值观、一般个性、特殊个性等都属于心理特质的范畴。大规模教育考试中常常将心理特质称为心理结构或能力。考试的目的就是要推测考生的能力或者说推测考生的心理结构。如果没有这样一条心理学假设考试就失去了目标就没有存在的必要。

心理特质、心理结构或能力是抽象的心理学概念是看不见、摸不着的但是我们可以通过观察的方式识别人的心理结构或能力的存在及存在的强度。观察的方法有多种多样大规模教育考试就是通过测试Testing的方法即通过考生的应答过程和应答结果来推测考生心理结构或能力的存在强度。

心理结构或能力是人相对稳定的特征是指人表现出某种心理结构或能力具有环境依赖性即人并非在任何环境下都能表现出某种心理结构或能力只有在特定的环境下人才能表现出某种心理结构或能力。因此当我们用测试的方法来推测考生的心理结构或能力时必须创设某种环境让考生在这种环境中顺利地表现出我们期望其表现的心理结构或能力。这种环境就是试题的题干。本文后面提出的关于命制试题的若干要求其理论基础也在于此。

心理特质是可以量化、可以测量的

如果心理特质或者心理结构或能力不可以量化不可以测量大规模教育考试就不能通过考试给考生赋分也就不能以考试结果作为选择学生的依据之一。

既然心理结构或能力是可以量化、可以测量的那么在进行量化或测量时首先需要对测量的心理结构或能力进行定义以便对考试结果――分数的内涵作出合理的解释同时也需要进一步向考生说明将从哪些方面来观察考生是否具备这些心理结构或能力或者依据什么证据来推测考生是否具备这些心理结构或能力即必须对考试的行为目标或认知目标进行定义。同时要确定如何观察用客观题观察还是用主观题观察。用什么规则对考生的应答过程和应答结果――考生在考试中的表现――进行赋分哪些认知目标是高级的目标是否需要给予其更大的权重即是否要赋予其更高的分值。

与考试相关的行为可以预测非考试相关的行为

根据考生在考试中的表现推测考生的心理结构或能力目的是要预测考生在非考试环境下的表现或行为。高校招生中以高考分数为依据就是认为高分的考生能力强能够适应未来高校的学习环境。如果考试不能预测非考试相关的行为那么大规模考试就没有存在的必要了。

当然要使考试能够预测非考试相关的行为考试创设的环境就必须与非考试环境相联系。例如高考是为高校录取新生服务的根据考生在高考中的表现可以预测考生未来在高等教育环境下的行为那么高考创设的环境必须与未来高等教育的环境相联系。因此大规模教育考试的命题中我们不但对试题要有能力方面的要求。也还要有学科知识方面的要求。如果考试仅仅考虑行为目标或认知能力而不考虑学科知识试题以及考试创设的环境就不可能真正地与未来高等教育的环境相联系。

#p#副标题#e#

每一种测试方法或技术都有其优势和局限

推测考生心理结构或能力时可以采用不同的观察方法如纸笔考试、面试、表现性测试、课堂观察、活动观察等。每一种观察方法都有其优势和局限没有一种方法绝对优于另外一种方法关键在于考试分数的使用者关注什么。例如纸笔考试的结果可比性很好但相对而言不太容易考察考生思维的发散性、思维的敏捷性等素质而面试正好相反。究竟是纸笔考试好还是面试好不能一概而论如果考试结果的使用者关注的是可比性那么可能就需要选择纸笔考试这就是纸笔考试一直受到青睐的原因之一。同样纸笔考试中不同的测试方法也各有千秋。客观题有客观题的优势和局限主观题也有其优点和不足。认识这一点可以使考试的设计者、命题者科学地使用不同的考试方法和题型。

测量过程中必然会产生误差

在大规模教育考试中误差是指考试欲测量的心理结构或能力以外的因素所产生的效应。大规模教育考试中考生的行为表现――考试得分――除受到欲测量的心理结构影响外还受到其他一些因素的影响如考试当天考生生理状况评分教师评分误差的影响等。

大规模教育考试中测量误差是客观存在的只能尽量减小但不能最终消除。因此在考试设计、命题、考试结果的使用和评价必须考虑测量误差。

测试和评价可以是公平的、无偏的

这是教育考试和心理测量领域争议最大的一个假设。公平、无偏就是要平等地对待每一个考生无论其性别、民族、居住地如何要使考生与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响。公平、无偏的关键在于让所有考生同等地获得关于考试的信息在于考试中要尽可能采用多种方法对考生进行测量在于命题时选择的材料不偏不倚在于试题的表述简单、明了。

试题的基本定义

根据Osterlinter1990A),试题的定义为在教育和心理特质测试中试题是一个测量单元它具有刺激情境和对应答形式的规定它的目的是要获得被试的应答并根据应答对考生的某些心理特质方面的表现如知识、能力等进行推测。A test item in an examination of mental attributes is a unit of measurement with a stimulus and a prescriptive form for answeringandit is intended to yield a response from which performance in some psychological constructsuch as an knowledgeabilitypredispositionor traitmay be inferred.

这个定义包含了试题的全部条件是比较完整的它既可以满足心理测量中试题的要求也可以满足教育测量中试题的要求并且该定义适合于所有题型试题的要求。因此是普遍承认的一个试题定义。

对这个试题定义我们可以从三个方面理解。首先试题是一个测量单元关注的是试题的测量功能。测量就是要定量化quantification),能够以某种方式生产出定量的数据。因此任何一道试题要对考生的行为表现进行赋分并且应该按照心理结构或能力的行为表现目标进行赋分否则就不可能对考生的心理结构进行有效的推测。

其次试题具有刺激情境和对应答形式的规定意指考生心理结构或能力的表现具有环境依赖性命题者必须创造一个让考生心理结构或能力得以表现的环境。试题的刺激情境就是这样的一个环境。此外考生对试题作出应答必须按照试题的要求进行因为考生对某种刺激产生的反应可能是多种多样的如果不规定考生应该作出什么样的反应就难以获得需要的推测考生心理结构或能力的数据包括应答过程和结果的资料以及考试分数数据。

第三根据应答对考生的某些心理特质方面的表现如知识、能力等进行推测说明了试题的根本目的。心理结构或能力是理论上的概念我们必须找到一种方式来推测某一心理结构或能力的存在以及考生展示这一心理结构或能力的相对程度。试题就起到了这一作用。如果一个试题的刺激情境不能提供推测某一心理结构或能力的数据或者试题没有明确的要测量的心理结构或能力就不能称之为试题。

#p#副标题#e#

试题的基本要素

根据上述试题的基本定义可以确定一道试题必须要有三个基本要素。

1.测量的心理特质――测量目标

试题测量哪一种或两种行为目标或认知目标完成这些行为目标需要涉及哪些学科的知识内容这是试题的第一要素缺失了这个要素试题就缺失了灵魂失去了测量学意义测量的结果即是与测量的心理结构或能力无关的结构或能力对考试结果的解释和使用也就没有价值。

2.刺激情境――情境材料

情境材料也是试题的基本要素它的作用是对考生进行刺激产生让考生表现心理结构或能力的环境。

3.对应答的规定――设问

情景材料对考生产生的刺激可能是多方面的、多样的考试不可能让考生将所有这些反应都写出来时间不允许也没有必要。我们只需要考生将我们期望能够推测其心理结构或能力的反应写出来即可。因此必须通过设问来引导考生作出规定的应答。好的设问能够恰当地引导考生表现出期望的行为而不恰当的设问可能达不到这个效果甚至会引导考生表现出其他的非期望的行为从而不能对要测量的心理结构或能力进行推测。

本文以最常用的选择题为例讨论客观题的基本命题技术。

客观题题干基本要求

根据试题的定义和基本要素命制选择题时对题干应该遵循下列基本要求。

1.每一道试题必须涉及一定的内容领域和单一的认知行为考试效度的最大威胁来自试题测量无关的心理结构。如果一道试题没有确定的行为目标或者行为目标与考试预设的测量目标及其行为目标不一致那么这道试题不但对提高考试的效度无补反而会降低考试的效度。

同理高考是为高校选拔人才服务的考试创设的环境必须与未来高等教育的环境相联系因此每道试题需要考生在一定的学科领域完成任务表现出一定的认知能力。如果完成任务过程不能使用一定的学科知识那么该试题创设的环境就不能与未来的高等教育环境相联系也就是一道无效的试题。因此试题必须能够测量某一认知行为涉及一定的学科内容领域这是命制试题时必须认真考虑的。

按照这一要求1就是一道无效的试题。

1下列叙述正确的是

A.同主族金属的原子半径越大熔点越高

B.稀有气体原子序数越大沸点越高

C.分子间作用力越弱分子晶体的熔点越低

D.同周期元素的原子半径越小越易失去电子

这道题的主要问题是没有测量目标没有刺激情境按照试题的定义不能构成为试题。

2.试题考查的应该是重要内容不要考很次要或不重要或大家几乎都会的内容

大规模教育考试是抽样测评理论上我们应该要求考生尽可能多地完成试题这样才能对考生的心理结构或能力作出比较有效的推测。但是由于时间的限制我们要求考生完成的试题仅仅是所有可能的学科试题集合中很少的一部分。我们需要用这很少一部分试题来推测考生的心理结构或能力。从测量的角度看就是用一个相对较小的样本作出推测。因此选择的样本必须有代表性即试题涉及的内容领域应该是学科的重要内容如果涉及的是次要或不重要的内容领域那么就很难将考试结果解释为学科能力的标志。同样如果试题涉及的内容领域都集中在少数重要的内容领域上试题样本也缺乏代表性对考试结果解释也存在局限。

3.用新情境材料考查高水平的认知能力不要用与教材语言相同的材料以免考查学生的简单记忆能力

高水平的认知能力是指分析、概括、综合、推测、评价等能力。一般考查考生这些高水平能力时需要将考生置于新情境材料中让考生对其进行分析、概括、综合、推测和评价。如果用考生熟悉的情境材料或用与教材语言相同的材料考生很可能会凭着记忆完成所要求完成的任务导致仅仅考查考生的简单记忆能力考试结果不能反映考生的高水平认知能力。

4.每道试题内容要互相独立

试题之间互相独立是教育测量学的一个基本要求所谓互相独立是指试题之间不要有互相提示和互相依赖关系。互相提示关系比较容易理解命题教师一般容易接受但往往不被重视。例如有些英语试卷中在阅读理解部分的阅读材料的某些句型、结构等会对前面的语法词汇部分的某些正确选择起提示作用也可能会对某些句子的翻译起提示作用。这对于相关内容的考查是不利的应引起命运人员的关注。

#p#副标题#e#

5.避免过于专门或过于一般的内容

大规模教育考试涉及的内容应该以考生高中阶段所学的学科知识为基础。过于专门的内容往往容易超过大多数考生的认知范围而过于一般的内容考生往往不需要经过思考凭常识就可作出应答这样的试题实际上都降低了试题的效度考查的是与考试无关的心理结构或能力。例2是一道过于专门的试题氢作为一种能源其制作工艺特点现在的考生一般无从知晓。

2氢能是一种高效、干净的新能源用氢作能源的燃料电池汽车备受青睐。我国拥有完全自主知识产权的氢燃料电池轿车超越三号已达到世界先进水平。氢能具有的优点是

①原料来源广      ②易燃烧、热值高

③储存方便       ④制备工艺价廉易行

A.①②        B.①③

C.③④                D.②④

3是一道过于一般的试题考生几乎均可以凭借常识判断正确选项是D

3右图喻示管理学中经典的木桶原理即木桶的蓄水量是由最短的那块木板决定的。它蕴涵的哲理是


(责任编辑:王翔)


声明:文章版权归原作者所有,本文摘编仅作学习交流,非商业用途,所有文章都会注明来源,如有异议,请联系我们快速处理或删除,谢谢支持。


(原文章信息:标题:,作者:雷新勇 周群  &n,来源:《考试研究》2008年1月   ,来源地址:)

上一篇: 抓住机遇 迎接挑战 寻求发展――考试评价的探索与展望

下一篇: 试题命制的理论和技术(二)

专题

-----主办-----

河南省乡村振兴协会

-----承办-----

河南省乡村振兴协会产业与信息化专业委员会

河南金农达供应链管理有限公司

河南全息农业科技有限公司 

-----协办-----

全息数字科技