首页> 详情

抓住机遇迎接挑战寻求发展――考试评价的探索与展望

2012-08-31 |浏览:4005次 | 编辑:

副标题#e#

原载：《考试与招生》2008年第4期

胡锦涛总书记在党的十七大报告上指出：“更新教育观念，深化教学内容方式、考试招生制度、质量评价制度等改革，减轻中小学生课业负担，提高学生综合素质。”

教育部考试中心“十一五”事业发展规划提出：“拓展服务空间，构建考试评价服务体系”“探索开发个性化、多样化考试评价服务，为个人学习与职业发展提供咨询服务；积极探索初等、中等、高等教育的相互衔接问题，为各级各类教育机构提供教育测量、评价及咨询服务。”“加强考试制度、考试的标准体系、考试信度和效度、自适应性考试、诊断性考试等方面的研究，建立公正、科学的考试评价体系。”

教育评价是对教育活动满足社会与个体需要的程度做出判断的活动，是对教育活动现实的（已经取得的）或潜在的（还未取得，但可能取得的）价值做出判断，以期达到教育价值增的过程。教育评价具有鉴定、导向、激励、诊断、调节、监督和管理功能。教育评价的功能决定了，它既能为领导决策提供参考依据，在教育发展中发挥积极的促进作用，引导教育活动朝正确方向发展；又可以调节、控制、规范我们的行为，以此保证教育评价实施者的目标实现；同时，它还可以使被评价者充分了解自己，找出存在的问题及原因，使被评价者更加努力更加主动，以保持或取得更大的成绩。

评价=测量（量的记述）或非测量（质的记述）+价值的判断

教育测量属于事实判断的范畴，而评价是在此基础上，进一步做出好与坏、对与错、优势与劣势的判断。

1.为决策提供依据。教育政策的调整，人力、财力的补充，都需要充分了解教育现状，通过评价，决策者才能清楚地了解教育的现状和问题，才能有目的地调整教育决策，才能在人力和财力上更合理地布局。

2.为教师改进教学提供参考。教师是教育计划的执行者，他们需要了解学生已经掌握什么和没有掌握什么，教学的薄弱环节以及学生存在的问题是什么。通过评价，教师才能准确地了解教与学中的问题，从而改进教学。

3. 为家长提供咨询。家长需要了解学生在学校的学习状况，但是由于他们不能直接参与学校教育，不能看到学生在教学中的反应。通过评价，他们才能了解学生在校学习的状况，才能更好地配合学校教育。

4.为学生提供服务。一段教学之后，学生需要了解自己学习的情况，需要知道今后努力的方向，评价可以更好的帮助学生了解和认识自我。

作者简介：作者系教育部考试中心评价处处长，中国教育学会统计测量分会常务理事、秘书长。曾任教育部考试中心科研处副处长、处长，办公室副主任（正处级）。从事教育考试科研、评价工作多年。发表论文几十篇，其中核心期刊发表论文8篇，编著学术图书6部。

#p#副标题#e#

1.以测量为标志的第一代教育评价(1900-1930）

第一代教育评价出现在十九世纪后期至20世纪30年代。英国的高尔顿通过对个体差异的长期研究，于1869年发表了《遗传的天才》一书，揭开了教育测量的序幕。1879年，德国的冯特在莱比锡首创了心理实验室，实验心理学家逐步摸索出了一套测量方法，对教育测量的发展产生了积极影响。十九世纪最后十年，各种测量随着心理实验的发展层出不穷。1897年，美国的莱斯发表了他对20个学校的1600名学生所作的拼字测验的结果，更引起了人们对测验方法的普遍关注，对后来教育测量的发展产生了深远的影响。在这种背景下，1904年，美国的桑代克发表了《心理与社会测量导论》一书，系统地介绍了统计方法和编制测验的基本原理。该书提出了“凡存在的东西都有数量，凡有数量的东西都可以测量”的基本观点，为教育测量奠定了理论基础，对教育测量学的建设与发展做出了巨大贡献。以后的几年中，比纳·西蒙智力量表、斯坦福·比纳量表等心理测验的日趋定型对教育测量的标准化也产生了极其深刻的影响。所以，这时期评价就是选择测量工具、组织和实施测量、提供测量数据。为此，这一时期被称为“测量”时期。

2.以描述为标志的第二代教育评价(1930-1940）

第二代教育评价盛行于20世纪30到40年代。30年代以前，现代教育评价的概念尚未形成，教育测量与教育评价几乎是同义语。无论是我国的科举，还是西方的心理测验和教育测量，所关心的仅是个体学力状况，追求的是量的大小，而对人的全面了解和把握对学校乃至整个教育成就的评价并未正式提出来。1933年罗斯福实行了“经济的社会化政策”，这一经济政策的实行导致了大批青年没有就业的机会，只能涌向中学。而当时美国的高中课程都是为升大学服务的，于是，中学课程和失业青年的需要之间产生了尖锐的矛盾。为了促进和保证课程改革的进行，美国进步主义教育协会进行了一项课程内容改革的实验研究，从1932年到1940年历经八年完成，史称“八年研究”。为了评价其研究成果，组成了以泰勒为领导的教育评价委员会。通过这场研究，泰勒和他的同事们正式提出了教育评价的概念，即教育评价就是衡量实际活动达到教育目标的程度，测量是它的手段。同时，还提出评价的原则和方法，即“泰勒模式”。“八年研究”实际上宣告测量运动的终结，使人们在思想上和行动上接受了采用教育评价方法来描述教育效果这一观点，形成了一个以“描述”为特征的评价时代。

3.以判断为标志的第三代教育评价(1940-1970）

第三代教育评价出现在20世纪40年代末50年代初到70年代。1957年，前苏联第一颗人造卫星上天使美国大为震惊，促使美国投入大量的人力和财力进行大规模的教育改革，从而对教育评价也提出了新的要求。政府十分关注教育评价的开展，民众也迫切要求对学校的办学成效进行鉴定和报告，使教育评价成了官方和民间共同关心的课题。1963年，克龙巴赫发表了一篇题为《通过评价改进课程》的文章，1967年斯克里芬发表了《评价方法论》。他们一方面对原先的评价理论与方法提出质疑，同时对评价理论与方法进行了更广泛和更深刻的研究和开拓。他们认为评价不仅要以目标为中心，而且更要注重对决策的评价。也就是说，评价者不仅要关心课程制定者规定的目标，检验这些目标达到的程度，更应注意对目标的合理性的判断，关心所作的决策和决策的依据。1967年，斯泰克发表了《评价的面貌》一文，肯定了判断是评价的两大基本活动之一，同时提出了一个完整的、包含描述与判断两个方面的评价模式。这样，判断就成了第三代教育评价的标志。正如著名教育评价专家顾巴所说的：“60年代或者更确切地说1967年以后，判断成了第三代评价的标记。”

4.以同构为标志的第四代教育评价(1970-至今）

20世纪80年代，由美国印第安纳大学教育学院枯巴教授和维德比尔大学高等教育学院副教授林肯创立了“第四代教育评价”理论。“第四代教育评价”的初步思想最早出现在他们合写的《有效的评价》(1981）和《自然主义的研究》(1985）两篇重要文章中。经过几年的潜心研究，1989年他们出版了名为《第四代教育评价》的专著。在这本书中，枯巴和林肯较为系统地阐述了这种新理论的基本观点和理论构架。“第四代教育评价”理论提出后，在美国引起了很大的反响，整个教育界几乎都为之震动了。主要内容包括以下几点：

①把评价看作是所有参与评价活动的人们，特别是评价者与评价对象双方交互作用、共同建构统一观点的过程，评价结果也是其双方交互作用的“产物”。

②提倡在评价中形成“全面参与”的意识和气氛。主张让参与评价的所有人都有机会发表自己的意见，并要求评价者在评价中充分尊重每个人的尊严、人格与隐私，所有参与评价的人都应是平等、合作的关系。

③他们提出在评价中存在“价值差异”。认为，参与评价的人们的价值观是各不相同的、价值标准是存在差异的。这种“差异”观点将纠正传统评价理论价值是一致的、单一的观点。第四代评价观点的提出，在全世界教育领域中产生了很大的反响。

#p#副标题#e#

5.多元评价理论的出现

多元智能理论是一种全新的有关人类智能结构的理论，它的悄然兴起，不仅有力诠释了素质教育的基本理念，而且给我们的课程改革提供了有力的理论支撑。该理论的提出者霍华德·加德纳教授认为：人的智力是由言语/语言智能、音乐/节奏智能、逻辑/数理智能，视觉/空间智能、身体/运动智能、交往/人际关系智能、自知/自我认知智能、自然观察者智能等8种以上智能构成。加德纳提出：世界上并不存在谁聪明谁不聪明的问题，而是存在哪一方面聪明以及怎样聪明的问题。非智力的心理因素如兴趣、情感、意志等对学习效果的关系极大，把非智力因素作为一个与知识能力平行的领域来评价，是现代社会对多元化人才的需求。

1.TIMSS

TIMSS是由国际教育成就评价协会（IEA）在1995年以后进行的第三次数学和科学成就比较。选择了澳大利亚、韩国、美国、日本、奥地利、德国等41个国家，5种不同年级水平的50万学生的数学和科学知识进行了测试和调查。除了测试和问卷调查之外，它还包括课程分析、数学课堂的录像、观察和有关政策的研究，它是一个能够帮助参与国家在数学和科学教育方面取得进步的诊断工具。TIMSS的设计集中在学生的三个不同的学校阶段：小学后阶段，中学低年级阶段和中学的末尾阶段。因为每个国家学生的入学年龄不完全相同，学生被测试时必须考虑年龄和年级两个因素。

A.数学和科学评价

数学包括以下一些内容：a.代数；b.数据表示、数据分析和概率论；c.分数和数的性质；d.几何；e.测量；f.比例。

科学测试包括以下一些内容：a.化学；b.地球科学；c.环境问题和科学本质；d.生命科学；e.物理。

B.学校、教师和学生的问卷调查

学生问卷主要调查学生的数学和科学学习的情况以及对数学、科学学习的信念；教师问卷主要调查教师对数学、科学的信念和关于教学实践的信念；学校问卷主要调查校长对学校政策和实践问题的看法。

C.课程分析

主要对数学和科学课程的指导书和教科书进行比较，研究科目的内容、内容的衔接和对学生成绩的期望等。TIMSS是从国际范围内进行的一项教学质量的比较研究，各国站在国际的角度，来审视自己国家的教育教学质量，确实体现了他们的远见卓识。

2.PIRLS

IEA的国际阅读素养进展研究（PIRLS）以5年为一个周期，2001年进行了第一次国际阅读素养进展研究，2006年进行了第二次，2011年为第三次。2001年，全球35个国家和地区进行了第一轮的阅读素养测评。2006年，共有47个国家和地区参加，中国也首次参与了该项目。PIRLS将9岁左右的学生确定为测试对象，这相当于大部分参加国的四年级。之所以选择这样的群体，是因为9-10岁是儿童作为阅读者的发展过程中一个十分重要的转折点，大多数国家都要求四年级末的学生能够知道如何阅读，并且可以通过阅读来进行学习。基于此项研究的目的和评价对象的特点，PIRLS对“阅读素养”进行了界定，并构建了相应的阅读评价体系，其中包括阅读测试和调查问卷两部分。

#p#副标题#e#

3.PISA

学生能力国际评价（PISA）是经济合作与发展组织（OECD）发起并组织实施的评价项目。该评价的目标是建立常规的、可靠的、与政策相关的学生成就评价指标体系，帮助各国政府和决策者评价和监控国家的教育成效。

PISA2006有58个国家和地区参与，约1.4万所学校样本的超过39万的学生参加了测试。评价的群体为15岁在校生（义务教育结束阶段），评价的领域为阅读、数学、科学，评价工具是13套经过等值的试题册：每个学生一套（2小时题量）和调查问卷：学生问卷（半小时）、家长问卷、学校问卷。

PISA 评价内容和时间表

PISA2000	PISA2003	PISA2006	PISA2009	PISA2012
阅读	阅读	阅读	阅读	阅读
数学	数学	数学	数学	数学
科学	科学	科学	科学	科学
	问题解决

PISA的建立是基于终身学习的理念。它认为要拥有终身学习的能力，学生需要在阅读、数学及科学能力方面有稳固的基础；同时他们也需懂得组织及调节自己的学习进度，学会如何独立学习，如何集体学习，以及如何解决学习过程中所遇到的困难，还必须注意思考方式、学习策略及方法。为全面评估学生以上能力，PISA除了评估15岁学生的知识及技能外，还要求学生报告学习情况，从而了解他们的学习动机及学习模式。在测试内容方面，也不局限于学生的课程内容、学生在学校获得的知识，而是把着眼点放在实际社会生活情境中。

4.美国的评价项目

美国教育进展评价（NAEP）是美国惟一的全国性的、代表性和持续性的评价学生学业成就的一种评价。这项由美国国会授权、由教育部所属的全国教育统计资料中心管理、由教育考试服务中心（ETS）实施的评价，定期向公众报告四年级、八年级和十二年级学生的教育进展情况。

在评价目的上，作为全国的成绩单，它的目的不是指导教师如何进行教学，而是向公众、政策制定者和教育者提供学生在各个学科方面能力的描述性信息。在评价工具的设计上，NAEP通过分层抽样的方法对全国的学校进行抽样测量学生的成绩，也用矩阵的方法对试题进行设计。设计的试题分成很多小的项目，分别由不同的社区、地区、州的学生来完成，每个学生完成的题目数量有严格的限定。评价的内容既包括学生在数学、阅读、写作、历史、科学等学科学业水平的发展趋势，也包括对影响学生能力发展的各种因素进行大规模的调查，包括学校教育的情况、家庭教育背景等等，调查的对象包括学生、教师、校长，当调查结果与学生在学科学业水平的平均分和成就水平相关时，NAEP就作为普遍的趋势进行报告，这样就为公众、政策制定者提供更全面的信息。

5.英国的评价项目

《1988年教育改革法》规定，把义务教育阶段划分为四个关键阶段，即：KS1，5-7岁；KS2，7-11岁；KS3，11-14岁；KS4，14-16岁；分别对学生在7、11、14和16岁时学习国家课程各科目的情况进行全国统一评定。也就是在7岁时，所有学生都要参加国家的语文和数学测试；在11岁时，除了参加语文和数学测试外，还增加了科学测试；在14岁时，参加与第二阶段相同科目的测试；在16岁时，参加剑桥评价等机构举办中等教育证书考试（GCSE）。考试科目不再限于语文、数学和科学，多达50多种。学生在其中任选9门参加考试，国家要求所有考生至少要达到C级水平。

6.澳大利亚的评价项目

①NAP

澳大利亚的教育进展评价（NAP）是澳大利亚政府2008年准备推出的全国性评价项目。NAP由联邦政府批准设立并划拨专款，对中小学3、5、7、9年级的各个学科情况进行全面的测评，以对全澳各地的教育水平和发展做出定期的、系统的评价。从明年开始全澳洲所有学生均要参加NAP，统一阅卷，统一进行统计分析。它由澳大利亚采用招标方式委托澳大利亚教育研究所（ACER）和澳大利亚考试中心（EAA）等机构分别承担的。题型有选择题、简答题和问答题。科学学科还有2道实验题，作答方式是采取学生先集体分班分组做实验，收集数据，然后再单独回答的作答方式。考试时间45分钟。生成的结果报告有公共报告和技术报告两种，主要提供给政府和学校。

②ICAS

由EAA举办的ICAS是对学校系统最为全面的评价项目。每年大洋洲各国有170万的学生参加考试，另外有来自新加坡、香港、马来西亚、中国大陆、南非、印尼和印度的70万海外学生在本国参加此项考试。ICAS考试科目有：英文（3～12年级）、数学（3～12年级）、写作（3～12年级）、拼写（3～7年级）、科学（3～12年级）和计算机（3～10年级），最近EAA又推出了一套一般成就测验（GAT），作为ICAS系列的综合科目考试。每年在ICAS考试中的前1%的学生获得大学金牌，前10%的学生获得优秀证书，其他学生也将获得各类参赛证书，标明其成绩水平。ICAS不仅仅是一项竞赛项目，随着不断发展和数据库积累，它已经越来越成为一项诊断性测验，能比较全面地评价中小学生各年级阶段的知识和能力。由于经过等值处理，考试后，EAA每年对不同国家进行纵向和横向比较，将不同年级学生的表现放在同一量表上去进行分析，为学校教学和学生学习提供反馈信息。EAA为学生提供的诊断报告，明确地指出其优势和劣势的地方，以及和总体学生比较的大概位置；EAA还为参加测评的各个学校提供一份结果报告，为评价该校各科教学状况和各个年度的发展情况提供依据。

待续

（责任编辑：王翔）

声明：文章版权归原作者所有，本文摘编仅作学习交流，非商业用途，所有文章都会注明来源，如有异议，请联系我们快速处理或删除，谢谢支持。

(原文章信息：标题：，作者：马世晔，来源：转载，来源地址：)

上一篇：能力测试题库的建构――来自PISA的启示

下一篇：试题命制的理论和技术（一）

抓住机遇 迎接挑战 寻求发展――考试评价的探索与展望

专题

抓住机遇迎接挑战寻求发展――考试评价的探索与展望