能力测试题库的建构――来自PISA的启示

2012-08-31 |浏览:4745次 | 编辑:

副标题#e#

原载：《中国考试》2007年第12期

国内关于能力测试和题库的探讨有很多，但能力测试和题库的有效结合并没有达成普遍共识。PISA的一大特色就是对15岁学生在阅读、数学、科学领域的能力测试做了深度解析，对各领域的素养内涵做了明确界定，制定了多维度的建构图作为题库建设的框架。PISA能力测试题库的建构为改进我国能力考查和题库建设提供了参考借鉴。

随着教育的普及和发展，教育质量日益受到关注，教育评价也得到了越来越多的重视和运用。我国教育评价的改革与创新将如何适应经济全球化和科技进步加快的国际环境，适应深化教育体制改革、全面实施素质教育、建设创新型国家的新形势；如何使教育评价成为促进教育发展和提高教育质量的有效途径，目前在我国还缺乏系统的理论研究和成功的科学实践。

教育评价活动中如何建构科学、有效、精准的测试题库，测试学生的综合能力，有效监测教育成效更是教育评价研究的重点。尽管我国高考命题、中考命题已经从单纯的知识考核发展到能力与知识考查并重，但如何通过纸笔测试考查学生综合素养，一直没有找到良好的途径。而学生综合素养评价有助于提高学生运用知识解决实际问题的能力，有助于培养学生的创新精神与人文精神、能使学生更关注和思考社会问题是不争的事实。

单从教育测量学角度，题库的试题全部经过包括预试在内的各个环节的检测，最大程度保证了试题的质量，增强了试题的稳定性，提高了测试信度。题库从形式上只是测量工具的载体，测量工具使用的目的和背景是题库的灵魂。题库的建设是在从难到易两个极端之间用现代教育测量理论校准试题参数，涵盖完整难易度的题目，测量不同层次受试者的水平所在。

在此以国际上颇具影响力的学生能力国际评价PISA素养测试工具为例，分析和展示了国际水准的综合能力测试题库建构，以期对我国正在方兴未艾开展的不同层次能力测试题库的开发有所启示和借鉴。

学生能力国际评价（Programme for International Student Assessment，PISA）是经济合作与发展组织（The Organization for Economic Co-operation and Development，OECD）发起并组织实施的教育成效评价研究项目。PISA通过高品质的试卷，测试义务教育结束后15岁学生在阅读、数学和科学领域运用知识和技能解决现实问题的能力。PISA除试卷测试外还通过收集学生、学校的背景信息，从个体学习者、教学、学校及教育体制四个层面进行深层次分析。^[1]PISA已发展出了常规的、可靠的，与政策相关的学生成就指标。基于PISA提供的指标，各参与国可以更好地评价和监控本国教育体制的效力与发展，从而达到关于国家教育体制的质量、公平性和效率的评价目标。

PISA在2000年首次开始在参与国家与地区正式实施评价，每3年一次，以评价正式实施当年命名。PISA2000的评价有32个国家参与，评价的重点是阅读素养；PISA2003有41个国家和地区参与，评价的重点是数学素养；PISA2006有56个国家和地区参与，评价的重点是科学素养^[2]。PISA2009评价的重点又轮回到阅读素养，预计将有66个国家与地区参与。参与PISA2006的56个国家和地区的国民生产总值占到世界经济的90%，PISA教育成效国际比较代表了当今世界发达国家水平，吸引了越来越多的国家与地区参与，确立了在国际上的影响地位。

#p#副标题#e#

PISA能力测试题库提供了精准的测试工具测量义务教育结束阶段15岁在校生科学、数学、阅读素养。PISA测量的素养^[3]是指15岁在校学生，为迎接当今不断变化的现实世界的挑战，应用知识和技能解决问题的能力，以及在日常生活情境下做出良好判断和决策的能力。它不同于且高于对于学校课程所设置的学科相关知识的理解或记忆能力。

PISA阅读素养主要是指为了达到自己的目的、为了拓展知识、发展潜能以及为了参与社会生活所需要的理解、应用和反思书面材料的个人能力。数学素养主要是指识别和理解数学在现实世界中所起作用的个人能力，做出有理有据的数学判断的个人能力，以及作为一个有独创精神、关心社会、善于思考的公民，利用数学并参与其中以满足个人生活中各种需要的能力。科学素养主要是指：应用科学知识识别问题，获得新的知识，科学地解释现象并基于证据，对与科学有关的问题得出相应的结论；理解科学作为人类知识和探究的一种形式的典型特征；意识到科学和技术如何塑造了我们的物质、精神和文化环境；作为一个有思想的公民，积极参与与科学有关的议题^[4]。

PISA2006评价的重点是科学素养，评价学生科学知识的题目同时评价了学生识别科学问题、科学地解释现象、使用科学证据能力中的一种。这种设计能够通过对科学知识及关于科学的知识两种类型题目的考查为每一科学能力建构并描述其能力水平的层次等级（见图1）。

#p#副标题#e#

PISA研究的目的是形成一套指示，用来说明为把15岁的学生培养成为积极的、善于思考的、有智慧的公民，从他们运用科学、数学、阅读的角度看，各个国家的教育成效如何。为了达到这个目的，PISA创立了科学、数学、阅读评价框架，评价的焦点是确定学生运用所学知识的能力水平。

PISA项目自1997年以来就在世界范围汇集专家，其评价框架的建立是一个不断努力的过程：首先明确评价领域的测量目的和描述测量目的背后的种种假设；利用建立在现有文献基础上及大规模测试经验基础上的测量目的定义，为测试设计中将使用的关键测量目的特征制定操作性说明；为各评价领域制定建构图^[6]并通过现代教育测量理论检验其效度和信度。建构图提供了一种通用语言，同时也提供了一种讨论评价目的和评价会测量出什么内容的载体。这种讨论会激励形成围绕着建构图和测量目的的统一意见；分析和测试与成绩相联系的知识和技能，为确立能力水平层次打下基础。

PISA描述的15岁在校生科学素养从高到低分6个能力水平，也即PISA科学素养的建构。处于最高水平6的学生能够识别科学问题、解释科学现象，能够在各种复杂的生活情境中应用科学知识和关于科学的知识。他们能够将各种不同的信息来源与解释联系起来，并使用这些信息源的证据证明自己决策的正确性。而处于最低水平1的学生科学知识有限，仅能够将这些科学知识应用于少量的熟悉情境。他们能够提供较为明显，能够直接从给定证据中推理出的科学解释^[7]。

能力水平是潜在的而不是外显的，并且这个潜在的能力水平是连续的。概括地说，一个建构图可以被看成是一个一维的潜在变量。事实上，许多的测量可能是多维度的。如PISA科学素养又分为“识别科学问题”、“科学地解释现象”和“使用科学证据”3个能力维度^[7]。PISA的做法为每一个维度制定一个建构图。

建构图的制定是题库建设的第一步。我们必须清楚界定我们所欲测量的变量。在此变量上发展良好的学生，会有怎样的外显行为？发展普通的学生会有怎样的行为？发展欠佳的学生，又会怎样？理清了这个变量的意义和行为之后，就要规划题目。哪些题目可以反映出发展良好的学生的水平，哪些题目可以反映出发展普通或欠佳的学生的水平？然后将行为与题目放在一起，如图2使用科学证据建构图所示。图2中的直线就是代表使用科学证据这个变量，越上方表示发展越好，越熟练。左边是每个水平上学生应该达到的精熟程度，右边是相对应的学生应该能够完成的特定任务，这就是所谓的建构图。有了建构图，题库建设者必须考虑使用一些方法，使得理论上的测量目的可以在现实世界的情境中显现出来，题目就是测量目的的实现形式。

#p#副标题#e#

PISA科学素养测试为“识别科学问题”、“科学地解释现象”和“使用科学证据”三个能力维度分别制定了建构图。在此，限于篇幅仅列出使用科学证据建构图（见图2）。

建构图制定的主要动机就是让它充当评价的框架和制订度量的可能方法。PISA侧重于测量广义的“素养”，评价内容取自于更广泛的领域，即不局限于在校学习的基于课程的已经掌握的单一知识，而是强调知识在不同情境中的应用和形成面对实际生活挑战的能力。

每个水平上学生应该达到的精熟程度

处于水平6的学生能够通过检查支持性的证据，比较并区分几个竞争性的解释。他们能够综合多个来源的证据形成自己的观点。

处于水平5的学生能够解释以各种形式呈现的来自相关数据集的数据。他们能够识别并且解释数据集中的相异与相似之处。并且基于这些数据集中所呈现的联合的证据做出结论。

处于水平4的学生能够通过总结数据，解释相关模式来理解通过多个形式表达的数据，例如表格的，图表的和图样的。他们能够使用数据得出相关结论。学生还能够确定数据是否支持关于某个现象的论断。

处于水平3的学生在回答问题，证明或否定某个给定的结论时，能够从数据中选择一个相关的信息。他们能够从数据集不复杂的、简单的模式中做出结论。在简单的情况中，如果信息充分的话，他们还能够支持某个结论。

处于水平2的学生，在给出合适线索的情况下，能够识别出图标的一般特征；在给出陈述的情况下，能够指出图标或简单表格的某个明显特征。在对日常用品的功能进行选择时，他们能够识别出这些物品的功能。

处于水平1的学生从与日常生活背景相联系的事实表或图标中抽取相关的信息。当需要对柱状图中柱子的高度进行简单比较时，他们能够从中抽取信息。在常见的、经验性的情境中，处于这个水平的学生能够进行归因。

高熟练

程度

PISA测试强调在现实生活中的能力考查。PISA测试不在集中于学校里传授的知识和技能的考查，而是重在测量学生在实际生活中创造性地运用学校教授的知识和技能的能力。PISA测试更加关注学生的能力的提高，关注学生的可持续发展，评价学生能否积极参与社会活动，关注那些有利于成为终身学习者的知识和技能以及与未来生活有关的基本知识和技能的考查。

#p#副标题#e#

PISA测试题目多项选择题，复合多选题，开放性回答题目各占l/3。测试题目通过单元的形式成组地编排为题组，每个单元创设了一个真实的生活情景。

PISA所有开放性回答题目，都由培训合格的编码评分员根据评分标准给出相应编码的方式来评分。其中，编码所代表的分数有三种：满分、部分得分、零分；编码有双位编码和一位编码两种。编码的评分方式有利于把握学生解题思维的性质和学生对于更高层次的思维方法的掌握情况。其双位编码首位给出了学生应得的分数，末位则按照学生在解决给定问题的过程中所使用的策略、或是按照阻碍学生得出正确解决方案的错误概念给出特定代码，这种评分方式有利于后期数据分析的进行以及最终评价结果报告的生成。

PISA开放性回答的命题和编码评分，题目设计精巧，评分标准宽泛，不是简单地检查知识的记忆，而是考查学生在题目背景信息下，运用自己的知识和技能可不可以最方便地解决实际的问题。PISA的试题和编码评分设计体现让利于学生原则，重视学生的思维品质，不同的思维过程，值得我们在能力测试中借鉴和应用。

以下以PISA2006科学素养测试真题温室效应^[9]为例，展示PISA单元题目形式，单元中各个问题与建构图的对应关系、双位编码的考查方式。评分标准每个编码后均有大量学生反应样例，在此，限于篇幅略过。

阅读下文并回答问题。

温室效应：事实还是幻想？

生物需要能量才能生存，而维持地球生命的能量来自太阳。太阳非常炽热，将能量辐射到太空中，但只有一小部分的能量会到达地球。

地球表面的大气层，就像包裹着我们的星球表面的毯子一样，保护着地球，使它不会像真空的世界那样，有极端的温差变化。

大部分来自太阳的辐射能量，会穿过大气层进人地球。地球吸收了部分能量，其他则由地球表面反射回去。部分反射回去的能量，会被大气层吸收。

由于这个效应，地球表面的平均温度比没有大气层吸收能量时的温度高。大气层的作用就像温室一样，因此有了“温室效应”一词。

温室效应在20世纪越来越显著。

事实表明，地球大气层的平均温度不断上升。报刊杂志上常说，二氧化碳排放量增加，是20世纪气温上升的主要原因。

小德有兴趣研究地球大气层的平均温度和地球上二氧化碳排放量之间的关系。

他在图书馆找到下面两幅曲线图。

#p#副标题#e#

曲线图中有什么数据支持小德的结论？

满分

编码为11：指出（平均）温度与二氧化碳排放量均上升。

编码为12：指出一般而言，气温与二氧化碳的排放量有正相关。

零分

编码为01：指出（平均）温度或二氧化碳排放量其中一项有上升。

编码为02：指出气温与二氧化碳之间有关系，但没有清楚表明两者有什么关系。

编码为99：没有作答。

小德的同学小妮却不同意他的结论。她比较两幅曲线图，指出其中有些资料并不符合小德的结论。

请从曲线图中举出一项不符合小德结论之处，并说明理由。

满分

编码为2：能够指出两幅图中，有哪一部分的曲线不是同时上升或下降，并作解释。

部分得分

编码为1：指出了正确的时期，但没有给予解释。

或

举出了证据，证明小德的结论不是正确的，但却写错了时期。

零分

编码为0：仅仅就其中一条曲线的改变趋势作出描述，而没有把改变与两幅图联系在一起。

编码为9：没有作答。

#p#副标题#e#

小德坚持自己的结论，即地球平均温度的升高，是由于二氧化碳排放的增加而引起的，但小妮则认为他的结论太草率。她说：“在接受这个结论之前，你必须确定在大气层内其他会影响温室效应的因素维持不变。”

请写出小妮所指的其中一个因素。

满分

编码为11：能够写出一个因素，该因素与太阳发出的能量或辐射有关。

编码为12：写出一个自然成分，或污染物。

零分

编码为01：写出影响二氧化碳浓度的因素。

编码为02：不够明确或不够具体的因素。

编码为03：其他错误因素或其他答案。

编码为99：没有作答。

本题以当前世界上日益严重的环境问题——温室效应为入手点，考查了观察图像并从图中获取信息，以及对图形、数据进行分析并得到相关结论的能力。具体情况如下表所示：

题目

题目形式

能力及其层次

科学知识

关于科学的知识

问题l

问题2

问题3

开放性回答

使用科学证据（水平3）

使用科学证据（水平5）

科学解释现象（水平6）

地球和空间系统

科学解释

（l）试题突出考查了学生从图中获取信息的自学能力。

题中所有的证据都是以图像的形式给出的，学生需要在读懂图像的基础上，发挥自己进行比较、归纳，分析得出自己的结论，因此本题较好地考查了学生的思维能力。

（2）试题鼓励学生的创造性思维。

本题的问题1和问题3都是双位编码，其特点是学生作答的情况虽然均可得满分或零分，但可清晰地反映出其思维过程的差异性，对科学证据理解的差异性。这种编码方式区分度较高，可使优秀学生脱颖而出或深入挖掘未答对题目的学生的问题所在，在一定程度上鼓励了学生的创造性思维。

PISA题库采用建构图这一形象的标淮将学生和题目归入各个能力水平同一把量尺。以图2使用科学证据建构图简单比喻，建构图直线左边是学生，右边是题目，题目就是这把量尺的刻度，题目要在量尺上均匀分布。PISA2000打磨的是阅读素养“提取信息”、“解释说明”、“反思并评估”^[l0]量尺；PISA2003打磨的是数学素养的“变化和关系”、“数量”、“空间和形状”、“不确定性”^[11]量尺；PISA2006打磨的是科学素养的“识别科学问题”、“科学地解释现象”、“使用科学证据”量尺。而拥有精确刻度，覆盖所有量尺的就是PISA5000多道由各参与国家与地区贡献，并经过现代教育测量理论检定的题库。

建构图显示出PISA如同测量学生身高一样，用通过现代教育测量理论建构的试题题库打造了测量学生素养的精准量尺。PISA打造的是一把钢性的量尺，试题难度不会像传统测试的弹性量尺随受试人群样本的能力不同而变化。各参与国一致认同PISA客观等距量尺测量出的学生素养，其高品质保障的取样、测试管理机制和最新的数据后期分析使PISA跨国和跨年度的比较具有高度的有效性和可信性，同时又如同比较学生身高一样简单明了。

能力测试题库建设是一项巨大的系统工程，要集中大量的学科专家和教育测量专家进行能力测试测量目的的制定，建构图的描述，试题和评分标准的编制、审定、预试和调整等。PISA的经验来看，加强测量专家、学科专家和命题人员的结合，发挥各自所长，是加速能力测试题库建设的关键因素。

#p#副标题#e#

[1][3]OECD. Learning for Tomorrow's World： First Results from PISA2003[M]. Paris： OECD，2004.23-25.

[2][4][5] OECD. Assessing Scientific， Reading and Mathematical Literacy： A Framework for PISA 2006[M].Paris： OECD. 2006.8-44.

[6]Wilson， M. Constructing measures：An item response modeling approach [M]. Hillsdale， NJ： Lawrence Erlbaum Associates， 2005.3.

[7][8][9] First Results from PISA2006 [M]. Paris： OECD，2007.30-75.

[10]OECD. Measuring Student Knowledge and Skills： The 2000 PISA Assessment of Reading， Mathematical and Scientific Literacy [M]. Pans：OECD. 2000.17.

[11] OECD. The PISA2003 Assessment Framework： Mathematics， Reading， Science and Problem Solving knowledge and Skills [M].Paris：OECD，2003.8.

（责任编辑：王翔）

声明：文章版权归原作者所有，本文摘编仅作学习交流，非商业用途，所有文章都会注明来源，如有异议，请联系我们快速处理或删除，谢谢支持。

(原文章信息：标题：，作者：王蕾，来源：转载，来源地址：)

上一篇：我国大规模教育评价项目探究与实践

下一篇：抓住机遇迎接挑战寻求发展――考试评价的探索与展望

专题

-----主办-----

河南省乡村振兴协会

-----承办-----

河南省乡村振兴协会产业与信息化专业委员会

河南金农达供应链管理有限公司

河南全息农业科技有限公司

-----协办-----

全息数字科技