基于经典测量理论和项目反应理论的等值与连接（二）-新联合

导言

笔者连续写作了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题等，本文是这一系列论文的第二篇。本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(A Practitioner's Introduction to Equating with Primers on Classical Test Theory and Item Response Theory，Ryan＆Brockmann，2009)。第一篇文章(编者注:此文已发表于《考试研究》2011年第1期)探讨了效度的核心问题，以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时，该文还介绍了等值和连接的主要概念和基本术语，并概述了经典测量理论(CTT)和项目反应理论(IRT)。本文将重点介绍连接和等值的取样及等值设计，并探讨建立题库步骤和基于CTT的等值程序。第三篇将介绍基于IRT的等值技术程序，同时讨论一些普遍的等值问题。

本系列论文是面向开发、维护和改进教育测量项目的教育工作者而作的，其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然，对于其他想对连接与等值作一些基础的了解，从而进行更深入的技术学习的人来说，这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章，其中阐述了这系列文章的背景及思路。

一、等值设计:基本概念和术语

要运用等值程序对学生的测试成绩进行等值，首先应采用特定的方法采集学生的测试成绩。实施连接和等值运算所使用的成绩数据是依据既定的准则采集的，这个准则即称为数据采集设计或者等值设计。选择使用哪些成绩数据必须具有很强的目的性，并要非常慎重。此外，数据采集必须符合一定的要求并在技术上可行。本文着重讨论下列等值设计及相关主题:

l 随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design);

l 单组设计(Single Group Design);

l 平衡单组设计(Single Group Design with Counterbalancing);

l 锚题测试设计(Anchor Test Design);

l 创建题库(Item Bank Development);

l 矩阵型取样测试(Matrix Sampling of Items)。

1．随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design)

等值组群设计，也叫随机组群设计，其建立在随机取样的原理上。如果在测试人群中能获得两个足够大的随机样本，那么就可以说这两个样本在学生成就上是“等值”的。也正如《教育测量》(第四版)所述的“达到了同一人群中两个随机样本所能达到的等值”(Brennan，2006)。

在此种设计中，两个随机取样的小组使用了不同试卷。使用试卷A和试卷B的小组称为随机等值组。这种设计的取样可以采用分层按比例随机取样法(a stratifiedproportional random sampling)，使用的分层变量和学生的相关特征相匹配。相对于简单随机取样法(simple random sampling)而言，这种设计的取样方法更具有可比性(等值性)。

随机组群设计通常采用螺旋测试(spiraled test)以获得随机取样等值组。在图1所示的例子中，试卷A和试卷B是以这样的顺序打包的:A/B/A/B……，指示考官按照试卷A和试卷B交替发放给学生。这种随机发放试卷的方式在每个班级建立了两个随机取样组。如果采用的是多套试卷，那么打包顺序不一定都是以试卷A开头。试卷叠放顺序的数量与试卷的数量相等，包裹(packet)1以试卷A开头，包裹2以试卷B开头，以此类推。随机发放试卷的方式在每个班级建立了多个随机取样组。在网络机考(the computer-based online test)管理中，使用经过仔细测试的随机数字生成算法(random number generating algorithm)来随机发放试卷是非常重要的。

图1 等值组群（随机组群）设计

随机组群设计的优点之一是其对单个考生的影响相对较小，并不要求每个考生都做试卷A和试卷B，因此避免了像其他设计那样有时会受顺序问题的影响。顺序影响指的是学生因做试卷的顺序不同而表现出成绩差异，即如果学生需要做两份试卷，做完了第一套试卷可能会影响做第二套试卷的表现。

如果“随机”是通过在班级和学校里螺旋发放所有试卷的方式实现，那么这种设计就存在一个缺点。在这种情况下，所有试卷中的全部题目在同一环境中都曝光了，因此，整套题目和试卷的泄密风险升高。这种设计的另一个潜在缺点是需要获得相对较大的样本以显示试卷A和试卷B的题目是稳定可靠的。在某些情况下，对大样本的要求可能使这种设计变得困难或者不可行。这种数据采集设计支持线性等值、等百分位等值以及多种不同的IRT等值法(将在后面介绍)。

2．单组设计(Single Group Design)

单组设计法是理解大多数等值设计非常有用的出发点，并且是后面提及的平衡单组设计法(Single Group with Counterbalancing Design)的基础。单组设计法要求同一考生既做试卷A，也做试卷B。如果全部考生都做待等值的两份试卷，可以采用这种设计，但实际操作中更方便可行的是从整个考生群中选择一个随机小组。这种设计方法如图2所示。

图2 单组设计

在这个设计中，采用一个随机取样组，并让该组考生做试卷A和试卷B。相对于试卷B时，学生做试卷A得到的成绩可能受到某些因素的影响，这些因素包括如做过一些仅仅针对试卷B的练习题，或者通过参加试卷A来着手准备试卷B的部分具体内容等。单组设计法假设这些因素的影响是可以忽略的。

单组设计的优点之一是做两份不同试卷的学生的能力是相似的，实际上应该说不只是相似，因为他们就是同一群学生。在技术术语上，这叫做“考生熟练差异控制”(controlling for differential examinee proficiency)。

单组设计并非仅用来进行典型的试卷间连接或等值。在一组考生完成某一份完整版的试卷后，可以将整份试卷分为几个部分，建立一些压缩版的试卷，然后让这些试卷两两等值。同样，在对完整版试卷量表化后，可以删除一些题目，得到一份较短的试卷，然后与完整版试卷等值起来。

单组设计法有个明显且严重的缺点，就是对同组考生实施两个不同的测试不太现实。很少有测试项目能安排考生做两套完整的试卷。同时，把两套试卷的题目都暴露给每个考生，这对测试安全也是很不利的。另外，考生在做完第一套试卷后会产生疲劳，再做第二套试卷，也会影响测试的效度。

与一般的标准程序相比，单组设计法通常要求采用一种特别的施测程序，这样也可能产生暗示作用，让考生觉得不必要对其中的一份试卷或者两份试卷太认真。试卷顺序不同也通常会影响学生成绩，故大型测试项目中一般不采用这种设计。因此，等值设计应尽量避免采用这种数据采集法。如果一定要用，应该同时采用平衡设计(counterbalance design)。

3．平衡单组设计(Single Group Desigwith Counterbalancing)

在使用单组设计法对两份试卷的成绩进行等值或者连接时，对考试顺序采用平衡法非常重要，即随机选择一半的考生先考试卷A，而另一半先考试卷B。与单组设计不同的是，平衡法采用了两个而不是一个随机取样组。如果把这种设计看做是“两个单组”，每组都做两份试卷，但要求不同组做试卷的顺序不同，这样可能会更好理解。这种设计如图3所示。

既然同样的考生都做了两份试卷，考试成绩的差异应该归于命制平行或等值试卷产生的试卷难度的差异。

平衡单组设计的优点在于它消除了考试顺序的影响，即考生考完试卷A后对再考试卷B的成绩会产生影响。这是平衡法一个重要和有价值的特点，但它仍然没有解决对同组考生实施两个不同测试不现实的问题。

4．锚题测试设计(Anchor Test Design)

锚题测试设计也叫“共同题非等组设计”(the Common-Item Nonequivalent Groups Design，Kolen＆Brennan，2004)，或“非等组锚题设计”(the Nonequivalent Groups with Anchor Test，von Davier，2004)。这种设计在每份待等值的试卷中采用了同组题目(锚题)，如图4所示。为方便说明，图4所示的锚题位于试卷的末端，但我们并不提倡把锚题放在试卷的末端。

锚题测试设计中每个样本考生只做一份试卷，但所有的试卷都包含两类试题，即每份试卷都有独立的题目，同时也有其他试卷都有的共同题。所有试卷都共有的题目称为“锚题”、“共同题”或者“连接题”，这三个术语通常可以替换使用。当使用锚题测试设计来对试卷进行等值时，心理测量专家的工作就是要辨别总体成绩的差异是由学生差异、题目差异，还是二者共同引起的。Kolen和Brennan(2004)把这项任务称为区分组群差异和试卷差异。锚题是理解这些差异的基础，如果试卷出现很大的差异，则要求对试题层面的各种影响因素进行深入研究(例如，评分差异、组卷问题或者失误、不同次测试实施中的巨大差别等)，因为这些因素会使等值过程和成绩的可比性变得更复杂。如果组群出现很大的差异，则需要仔细检查取样方法，或者调查影响整个组的暗藏的因素，如施测或者考试时出现作弊行为。

(1)锚题测试概述

从试题中选出锚题的步骤是极其重要的，不同考查内容的试题在锚题中的比例与在整个试卷中的比例应该相似，也就是说可以把整个锚题组看做整份试卷的一个“微型版本”(Kolen和Brennan，2004，第19页)虽然IRT的某些方法并没严格按照这个步骤和策略也能获得不错的效果，但在实践中，锚题应该尽可能与整份试卷在考查内容、认知要求、题目格式等方面相似。图5显示的即是一个“微型版本考试”的例子。

图5 “微型版本考试”锚题组

图5阐述了一个精心选择的锚题组。应该注意到，在比较整份试卷和锚题组时，每个内容标准里的题目比例是一样的。锚题的选择通常比图5所示的例子要复杂得多。例如，通常会有其他的因素要考虑，如题目难度、内容标准下的目标范围、使用同一组材料的题组等等。Kolen和Brennan建议在相对较长的试卷中有20%的锚题，测量心理学家则建议在更长的试卷中应该至少有15～20道锚题。

(2)锚题作用和位置

锚题可以计入考生的成绩，有时也可以不计入。其位置可以是嵌入整份试卷中，或者增补在试卷末端。用来计算学生成绩的锚题称为“内部锚题(internal anchor items)”，只用作等值目的而不计入学生成绩的锚题称为“外部锚题(external anchor items)”。对于锚题在试卷中的位置，一般的测量经验和技术是将锚题嵌入或散布在整份试卷中。在多份试卷中，锚题应该放置在尽量相同的位置(即题目顺序)上。某些情况下，“外部锚题”会增补在试卷的末端，因而考生可以不用在做完前面计入成绩的题目之前去花时间和精力做不计入成绩的锚题。但是放在试卷末端的题目的成绩效度通常会因此有所损害，因为如果考生没有时间完成所有试题或者作答疲劳，都会影响考试发挥。

图6显示的是两份试卷中有5道嵌入锚题(当然一个锚题组只有5道题目是不够的)。每道锚题在两份试卷中的位置正好相同。这个例子是个理想的情景，而实际中由于不同题目涉及的材料和内容不同，要把锚题放在不同试卷同样的位置也是不太现实的。

图6 嵌入锚题设计图例

图7显示的是两份试卷里有5道增补锚题。锚题组是试卷的一部分，同一道锚题在两份试卷的位置是一样的，都在试卷末端它们有可能会，也有可能不会计入考生的成绩。这种锚题设计在试卷的准备和生成中有实践上的优点，但其缺点是由于考生作答疲劳或动力下降会影响其在做锚题时的表现，因而尽量不要选择这种设计。

图7 增补锚题设计图例

有时，通过一组题目把试卷连接起来是必要的，这组题目通常在另外的一份文件中或者在“外部试卷”里。如果没有“内部锚题”的话，通常会使用这种连接方法。有时这种方法也是必要的，因为往往是在试卷命制完成后才决定要把它们连接起来。但笔者建议，实际操作中应尽量避免使用这种方法，因为考生会觉得另外文件中的题目不如“正常”试卷中的题目重要，这种感觉会使考生在做外部连接题目时动机明显不足。

综上所述，锚题组应该是能代表整份试卷的一个“微型版本”，锚题在试卷A和试卷B的位置(题号)应大致相同，试卷A和试卷B的锚题应该完全一样，不能修改文字、答案选项顺序、题目材料，也不能出现不同的提示语，或者其他任何可能影响考生在不同试卷中表现的材料。同时，如果条件允许的话，在使用选择题、简答题、延伸题等题型时，锚题组应该与整份试卷具有大致相同的比例。

(3)锚题测试设计的优缺点

锚题测试设计的一个主要优点是在连接和等值试卷时，考生可以不必是绝对“等值”的。例如，在图6中，试卷A可以用于今年的考生，而试卷B可以用于明年的考生。同一学校、同一年级中不同年份的学生一般比较相似，但不如同一年份随机选择的等值组或随机发放试卷“等值”。

锚题测试设计的第二个优点是每年只要进行一次测试，这样可以在通常使用的考试日程下实施。不像单组设计或平衡单组设计那样，要求每个考生做不止一套试卷。

在评价项目中，计入考生成绩的嵌入锚题(内部锚题)内容应该和整份试卷的内容相匹配，这样可以增加测试结果的信度和效度。同时，因为锚题通常嵌入整份试卷中，考生无从辨别，就不会故意漏掉(Brennan，2006)。

锚题测试设计的缺点主要表现在这种设计下统计分析受潜在的情境因素影响大，即先做其他题目会影响考生再做锚题时的表现。虽然锚题在两份试卷中是一样的，但其他的题目却不相同。例如，试卷A的非锚题可能轻微影响学生在锚题中的表现，而导致学生做试卷A和B的锚题时出现不同的结果。为控制潜在的情境因素的影响，锚题测试设计必须谨慎实施，命制试卷和放置锚题时应指明并应用明确的规则。

嵌入锚题最大的缺点在于其潜在的情境因素影响考试安全。含有“内部锚题”的试卷，其安全隐患将可能危及测试成绩的效度，而这种隐患几乎难以避免，因为整个锚题组都出现在待等值的试卷中。由于具体的测试试卷的安全在那些设计、发行和实施考试的人员控制范围之外，安全问题非常难以控制。有时可以用含有极少或几乎没有与正式卷相同的题目的试卷作为代替版本，以减轻安全隐患(这种试卷称为“疏漏试卷(breach forms)”)。

含有外部锚题组(不计入考生成绩的锚题)的试卷，其问题之一就是在试卷长短一定时，这些题占了实测试题(operational items)或预测试题(field test items)的篇幅。额外的实测试题可以扩大考查内容的覆盖范围，增强测试的信度，而预测试题可以为将来实施的试卷提供更多的有用题目。

5．创建题库(Item Bank Development)

到现在为止对连接和等值的介绍主要以两份待等值的试卷或它们的成绩连接为例，这样等值的试卷将可以替换使用。然而在很多大型评价项目中，等值设计通常要用来处理多份试卷的等值，从而建立题库。题库是指一定数量经过校准和量表化，并反映内容标准的范围、深度和细节的试题。创建题库通常要对大量试题进行预测，这些试题包括一组或者多组锚题。题库的主要作用是为命制待等值的试卷提供大量的试题。本文中提到的每个等值设计和方法都可以用来建立一个初始题库。建立一个适用的题库，最基本的策略是使用多份试卷进行预测。如图8所示。

图8 含有共同题和非共同题的10份试卷的预测设计

图8所示的预测设计有10份试卷。每份试卷均含有30道锚题。必须说明的是，为方便表达，它们作为一组都放在试卷的前面，而实际上它们都会嵌入每份试卷里。每份试卷同时含有30道非共同题。对参加预测的所有考生，这个设计提供了300道(30道×10套试卷)预测试题和30道共同题的信息。使用本文(或该系列文章的第三篇)介绍的一些步骤可以把每份试卷里的题目放在一个共同的量表上。因此，预测将可能提供330道题目用于组卷，并预先实现多份试卷的等值。

在为预测和建立题库收集数据时，考虑考生样本的特性是非常关键的。许多IRT程序在分析样本特性方面有很强的功能，但使用与目标人群尽可能相似的样本对建立题库至关重要。实施预测以及利用所有可能的考生样本(根据人口统计数据)来建立题库是最理想的，但由于资源的限制和其他因素，这一设想不是总能实现。如果不能获取所有考生的数据，那么仔细选择样本则非常关键。理想的情况下，用来建立题库的试卷应该随机地在最小的样本单位内实行(如学生或者班级)，这样可以使样本尽可能随机等值。然而，这种方法有可能把所有试题暴露给一个学校或者学区，测量心理学家和教育政策制定者必须考虑并预测其风险。

(1)使用螺旋法对学生取样

使用螺旋法来发放试卷，建立“随机等值组群”，即使各组包含不同学生，这些样本也可以被视做相同(等值)的组群。使用螺旋测试，随机发放不同试卷给一个班级里的考生，其结是每个考生与下一个考生的试卷都不相同。

图9阐述了一个共同题等值设计，使用螺旋法发放试卷给一个小班级的12个考生，每个考生做40道题。虽然图中没说明，但每份试卷包含15道共同题和25道非共同题。

Kolen和Brennan(2004)认为，螺旋发放法通常可以让可比较的、随机等值的组群完成试卷A、B、C、D。在大多数情况下，理想的方法是在班级里学生间使用螺旋发放试卷，因为同一班级的学生比不同班级、学校或学区间更相似(等值)。如果不可行的话，就退而求其次，在一个学校的各个班级间或者在一个学区的各个学校间使用螺旋法。

(2)利用螺旋法发放试卷的优缺点

使用螺旋法发放试卷的一个主要优点是，它可以尽量保证形成随机等值组群，而且这种取样法可以为大量等值法的使用提供有力支持。同时，它还能在预测测试中比其他方法获得更多有效的题目。

采用螺旋法对班级里的学生发放试卷，其问题在于所有的试题都暴露给每个班级。如果出现不适当的行为，每道可能成为将来正式试卷的题目都会受到影响，使用这些题目也将受到质疑。同时，使用螺旋法发放试卷也会使考试的组织实施面临挑战，使用多份试卷意味着主考必须应付在考试中多份不同试卷可能出现的问题。此外，在评分以及匹配矩阵型取样试卷的答案时也必须非常仔细。

6．矩阵型取样测试(Matrix Sampling of Items)

到目前为止，前面的讨论都集中在根据测试框架和蓝本规定的内容实施的考试以及为每个考生提供分数。然而在某些测试中，测试的内容(范围)非常广，需要更大量的题目，但是不同的考生只考其中的一小块或少部分题目。这种评价方法的目的是从广泛的内容测试中来推断一组考生(不是单个考生)的表现。使用矩阵取样可以达到这个目的，这里取样指的是从试题中取样而非从学生中取样。矩阵取样就是根据不同的测试内容从大量的题目里组配几小套(组)题目，并随机把各组题目发放给不同的学生。这种矩阵取样法减轻了单个考生的负担，而且可以让大量覆盖所有内容的试题在整组考生中施测。

图10是一个矩阵取样的简例。图中矩阵取样模型共有80道题，每个考生要完成的试题不超过40道。理论上，试卷A在一个学校中发放，试卷B在另一个学校中发放，或是在学生、班级、学校层次中螺旋发放。考卷的数目受限于题目的数目和考生的数目。实际操作中，矩阵取样通常和螺旋法一同使用。

全美教育进展评估(NAEP)使用的就是矩阵设计，即把全部考题分成不重复的几块，然后合成考卷，每块都和其他的相匹配。这是个很有效的测试和等值设计，因为它可以减轻每个考生的负担，而且仍能够在广泛的测试内容下预测整体学生的表现。

虽然这种方法可以提供一个广阔、综合的视角来了解作为一个整体的考生的表现，但并没有得出单个考生的成绩。这对一些学生、家长以及教育管理者而言比较麻烦，因为考试占用了教学的时间，但却没有提供单个考生的成绩。同时，在使用矩阵取样设计时，命题、实测和管理考卷及考生的答题数据也是非常复杂的。

二、等值机制

经典测量理论(CTT)与项目反应理论(IRT)都有相应的等值程序与方法。本文后半部分将介绍CTT语境下的三种等值程序。本系列论文的第三篇将介绍IRT的等值程序。本文和第三篇文章提供的信息，目的在于使读者熟悉等值程序的基本原理，而这些都是测量学家在大型测试项目中经常使用的。

1．平均值等值(Mean Equating)

周密的考试开发、设计和试卷命制要考虑采用一种叫“平均值等值”的程序。使用这种设计，可计算两份试卷的平均值之差。这两份试卷是由随机等值组或平衡单组设计取样的考生完成的。使用平均值之差作为调整，如在一份试卷的成绩加上(或者减去)平均值之差，可以把两份试卷的成绩放到同一量表上。两份试卷都可以作为基础试卷，然后再调整另一份试卷的量表。

要判断得到的平均值之差是由于取样的不同，还是由于试卷的不同产生的，通常是比较困难的。因此，命题与组卷过程要非常谨慎，以控制试卷的差异。这种方法是以此为假设条件的，即由平均值之差预测的试卷量表之差与试卷各个点的成绩分布之差是相同的。这个假设在成绩分布的中心部分是比较合理的，但在高分数段和低分数段范围内，并不总是符合条件。

2．线性等值(Linear Equating)

线性等值是经典测量理论中常用的一种方法，用来决定两份平行试卷的等值分数。线性等值是基于这样的假设，两份待等值的试卷除了它们的平均值和标准差不同外有相似的成绩分布(Crocker＆Algina，1986)。

如果两份试卷的成绩和它们各自的平均值距离相等，就可以进行线性等值的成绩匹配，成绩到平均值的距离为标准差(standard deviation)单位。如果两份试卷的原始成绩转化并表示在标准正态Z分数量表上(平均值=0，标准差SD=1)，那么线性法就把两个具有相同Z分数的原始分数等值起来。这个步骤比较简单直观，带有很强的假设条件，也比平均值等值更灵活，并且应用了更多的统计信息。

如果转化在标准正态Z分数量表上的成绩一样，那么线性等值法就把试卷A里的成绩“a”和试卷B里的成绩“b”等值起来，即Z(a)=Z(b)。两个分数间的标准线性关系如下:

分数(a)=斜率*［分数(b)］+截距

这里斜率是标准差的比率，截距是试卷A的成绩平均值减去斜率乘试卷B的成绩平均值。线性等值顾名思义就是试卷A的成绩和试卷B的成绩的关系可以用标准线性公式来表示，因此可以在图中用一条直线表达出来。这条直线代表所有成绩之间的等值关系。如图11所示，由平均成绩可以看出，试卷B(新的10道题的试卷)比试卷A(旧的10道题的试卷)显得要难。该例中的平均值之差为2(试卷A平均值=7，试卷B平均值=5)。

图11 线性等值图例

线性等值法假设两份试卷之间仅是平均值和方差的差别。在图11中，各自试卷的成绩如果与平均值(mean)之间的距离(以标准差为单位)相同，就可以视为等值的成绩。线性等值有四个特征会影响对程序的评估以及对结果适当的解释。

第一，试卷A的成绩放在试卷B的量表上(或者反之)的线性转化得到的两份试卷各自成绩之间的等值是一样的，这也称为等值函数具有对称性。因此，必须注意虽然线性等值的方程和回归方程相似，但线性等值并没有像回归方程一样涉及两变量间的相关，而且是对称的。相反，用回归方程法由试卷B的成绩预测试卷A的成绩时，会得到与从试卷A预测试卷B的成绩不同的数值。除非是在两份试卷的分数相关为1时，才是一样的。

第二，在线性等值中各自试卷的成绩为整数，但是等值的成绩很少是整数，而是含有小数位。为处理等值成绩非整数问题，测量心理学家使用了各种方法，把等值成绩取整，以使它们可以报告离散成绩。但是取整也会产生自身的等值误差。

第三，如图11所示，试卷B有个非常高的分数，与之对应的试卷A的分数却在试卷A可能得到的分数的范围之外。图中显示试卷B的10分将与试卷A的11分或者更高分数等值，但这在实际中是不可能的。同样的问题也会出现在成绩量表的低分数端。虽然这些分数没有非常确切合适的等值数值，但是对那些得到满分(或将近满分)或得0分(或将近0分)的考生作出决定是不难的。不管怎样，这都是一个问题，特别是专业人员在解释结果，或者利用整体的统计数据来评估学生进步以及项目的有效性时都需要面对和解决。

第四，线性等值的恰当性(appropriateness)是基于这样的假设，即两份试卷的成绩分布只是在各自的平均值和标准差上不同。但是这个假设条件有时是不成立的，因为成绩分布可以在它们的偏度和峰度发生变化。线性等值精确度在平均值附近相对要稳定，但在高端和低端的成绩量表上会产生变化。

3．等百分位等值(Equipercentile Equating)

等百分位等值的基础是，如果每个成绩在各自测试中的百分等级相同，就可以对两份试卷的成绩进行匹配。等百分位等值法可以在整个成绩量表上提供相同精确度的等值结果，而且如果试卷在整体难度上不一样，它可以得到比线性等值更精确的结果(Kolen＆Brennan)。

利用等百分位等值法是否能得到等值的成绩很大程度上取决于命制试卷时实现等值的程度。“等百分位等值”一词通常用来泛指“匹配成绩”或“两两对应成绩”(matching or pairing score)时采用的方法。但是这个术语应谨慎使用，使用的前提是题目和试卷命制过程满足了等值要求。

等百分位等值的第一步是确定两份待等值试卷的成绩的百分等级(Crocker ＆Algina)，并将在各自试卷上百分等级相同的成绩两两配对等值。表1提供了一个简例，两份10道题的试卷(试卷A和试卷B)采用这种方法实现等值。试卷原始成绩范围为1到10。表中同时显示试卷A和试卷B原始成绩的百分等级。其假设在平衡单组设计条件下，同样的学生做了两份试卷，或者由随机等值组做了两份试卷。

表1的数据表明，如果考生能在试卷A中10题答对7题，那么他的成绩的百分等级是80；而要在试卷B中达到80的百分等级，考生必须答对10题中的8题。这些数据表明，试卷B比试卷A要容易，因为要达到相同的百分位，试卷B要求更高的原始分。同样，考生在试卷A中达到25的百分等级需要答对4题，而在试卷B中则需要答对5题。因此，试卷A的4分等值于试卷B的5分，因为这两个成绩代表各自考试相同的百分等级(等百分位由此得名)。

等百分位等值法是基于表1所示的数据类型，由百分等级来推断两份试卷的等值分。实际操作中常用计算机软件的算法来匹配分数，而考试往往会远超过10道题，同时样本量也通常较大。

等百分位等值的基本原理如图12所示。图12显示试卷A和试卷B分数各自的百分等级。试卷B的6分的百分等级刚达到40，而试卷A的4．75分则可以达到相同的百分位(40)。

图12 等百分位等值图例

为清楚说明涉及的主要概念，上面的论述简化了等百分位等值法。但同时，必须认清一些复杂的问题。

第一，尽管按照答对题数目得到的学生的成绩是离散的，但这些成绩的分布不是连续的。例如，图12中试卷A的6分等值于试卷B的4．75分，但4．75分这个成绩实际上是不存在的。因此，要解决这样的问题，关键是要取一个整数原始成绩。如原始分4分可以看做一个班级区间在从3．5到4．5之间的中点。4分的百分等级，准确讲就是4分以下的考生比率加上得4分的考生比率的一半(0．5)。用0．5这个系数是因为4分是这个区间的中点，同时假设在这个区间分数分布是均匀的。同样，在其他的整数之间的分数虽然实际上也不存在，但也可以准确地处理。这些步骤涉及到去掉小数位，或取整，都不可避免地会产生一定的误差。

第二，在等百分位等值中偶尔会发生这样的情况，任何考生都没有拿到某个特定的分数，相邻的(0频率和刚好在它之上或之下的)分数具有相同的百分等级。结果，这两个不同的原始分数将在每个测试中等值成同一分数。解决这一问题的普遍做法就是把它们共同(共享)的百分等级放在两个原始分的中点，即原始分的平均值上。Kolen和Brennan提供了0频率问题的另一个解决方案，即在各个成绩上加上一个很小的相对频率，然后调整相对频率，使之总和为1。

第三，在使用等百分位等值法时有一个或两个考试的成绩分布是不规则的。与假设的平滑分布不同，实际分数分布通常显得“崎岖不平”或呈“锯齿状”。这种情况下，随着等值的精度提高，应该使用一些使分数分布平滑的技术。在分数分布中使用平滑技术称为“预先平滑”，而在等值成绩中使用平滑技术称为“事后平滑”。这些步骤在Kolen和Brennan的著作中有详细介绍。

(1)线性等值和等百分位等值的优缺点比较

等百分位等值把两个考试中的所有可能成绩范围等值起来，这解决了线性等值的最大问题(Kolen＆Brennan)。另外，在解释试卷A和试卷B的成绩分布的差异上，等百分位等值比线性等值的假设条件更少。但同时，等百分位等值的误差通常比线性等值大(Crocker＆Algina)。

使用线性等值或等百分位等值都可以得到等值分数，如果试卷A和试卷B“以相同的信度测量相同的特征，并且与原始分数对应的百分等级相同”(Crocker＆Algina)，那么试卷A的成绩可以认为是与试卷B的成绩等值的。由于这两种方法具有很多相似性，一些专家认为线性法近似于等百分位法(Hambleton，1991)。

使用二者之中的哪一种取决于很多因素，其中一个主要的考虑是线性等值的假设是否可靠。也就是说，两个待等值的考试之间是否仅是平均值和标准差的差别。较线性等值而言，等百分位等值假设条件更少。所以，如果线性等值的假设不可靠，等百分位等值就可能更精确一些。但是，如果成绩分布相近，线性等值则比等百分位等值更准确(Crocker＆Algina)。虽然成绩分布只是平均值和方差的不同，它们也会出现相似的结果。

(2)等值误差:统计和测量心理学程序中的误差方差

连接和等值程序在应用教育测量领域中被广泛使用，但实际上在拟定题目、命制试卷、实施考试、数据分析、使用等值程序等过程中，每一步都使数据发生了变异，产生了众所周知的“误差方差”(error variance)。误差方差的来源至少包括以下方面:题干及问题的表述、测量误差、违反IRT和统计假设的条件、取样误差、等值方差等。

Kolen与Brennan(2004)把在等值中的误差分为“系统误差”和“随机误差”。系统误差指方差来源为试题或试卷命制的差异、违反统计或测量心理学假设的条件以及在考试实施中出现的异常。随机误差指实施等值时采用的考生取样法引起的误差。等值误差通常指取样引起的随机变量误差。

实践中，等值程序通常使用于一个更大的群体。谨慎设计的取样法，如分层按比例随机取样法可以减少取样方差。但是，除非是在所有的考生中使用等值，取样变量误差是难以避免的。预测这个等值误差有两种方法:经验法和分析法。Kolen和Brennan(2004)提出了Bootstrap经验法。在这个方法中，等值步骤在重复的(有所替换)取样中不停复制，所得出的等值成绩的变异可以作为等值误差的估计。这种方法需要大量的计算，而且精确度取决于考生群体大小、样本大小、等值设计和步骤及其他因素。

预测等值误差的分析法也称为Delta法。Delta法为不同的等值设计提供了等值误差的预测公式，其等值程序以统计为基础，如平均值、标准差和累计分布等，并且带有一定的预测误差。Delta法推导出的公式为等值法中涉及的统计标准误差的函数。Kolen和Brennan描述了估计各种等值设计和等值方法的误差的分析步骤。

参考文献：

［1］Brennan，R．L．(Ed)，Educational Measurement，4^th ed，Westport，CT:Praeger Publishers 2006．

［2］Crocker，L．，＆Algina，J．，Introduction to Classical and Modern Test Theory，Belmont CA:Wadsworth Group，1986．

［3］Dorans，N．J．，Pommerich，M．，＆Holland，P．，W．，Linking and Aligning Scores and Scales，Statistics for Social and Behavioral Sciences，New York:Springer，2007．

［4］Hambleton，R．，Swaminathan，H．，＆Rogers，H．， Fundamentals of Item Response Theory，Newberry Park，CA:Sage，1991．

［5］Kolen，M．J．，＆Brennan，R．L．，Test Equating，Scaling，and Linking:Methods and Practices，2nd ed．，New York，NY:Springer，2004．

［6］Ryan，J．，＆Brockmann，F，Practitioner's Introductions to Equating with Primers on Classical Test Theory and Item Response Theory，Washing，DC:Council of Chief State School Officers，2009．

［7］Ryan，J．，A Practitioners'Introduction to Equating and Linking with a Primer on Classical Test Theory and Item Response Theory:Major Concepts and Basic Terms，Examination Research，2011(1):80－94．

［8］Sinharay，S．，＆Holland，P．，Is It Necessary to Make Anchor Tests Mini-Versions of the Tests Being Equated or Can Some Restrictions Be Relaxed?Journal of Educational Measurement，2007(44):249－275．

［9］Von Davier，A．A．，Holland，P．W．，＆Thayer，D．T， The Kernel Method of Test Equating，New York:Springer，2004．

责任编辑：付雷

基于经典测量理论和项目反应理论的等值与连接（二）

专题