基于经典测量理论和项目反应理论的等值与连接（三）-新联合

导　言

笔者连续撰写了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题。第一篇文章(发表在《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,介绍了等值和连接的主要概念和基本术语,概述了经典测量理论(CTT)和项目反应理论(IRT)。第二篇文章(发表在《考试研究》2011年第2期)重点介绍了连接和等值的取样及等值设计,并探讨了建立题库的步骤和基于CTT的等值方法。本文是这一系列的最后一篇文章,主要介绍基于IRT的等值方法,同时就当前教育测量中的多级IRT模型的使用、纵向量表化、计算机化测试以及等值误差四个重要问题进行简单讨论。

本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(A Practitioner＇s Introduction to Equating with Primers on Classical Test Theory and Item Response Theory, Ryan&Brockmann,2009),是面向开发、维护和改进教育测量项目的教育工作者而作的,其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然,对于其他想对连接与等值作一些基础的了解,从而更深入学习等值技术的人来说,这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章,其中阐述了这一系列文章的背景及思路。

一、基于IRT的基本等值方法

在应用IRT模型进行等值时,有一些基础概念非常重要,本文介绍IRT等值的目的就在揭示这些概念。IRT等值可以通过出现在两个或两个以上的测试中的一组题目(称为共同题),或者参加了这两个或两个以上测试的一组样本考生(称为共同组)来实现。在测量心理学上,我们可以认为随机等值组群就是同样的一群人去作不同种类的测试。本文主要介绍建立在共同题基础上的IRT等值方法,并简要说明这种基于共同题的等值的逻辑及基本做法是如何应用于共同组的等值。在共同题等值中常用的四种方法有:

l 应用等值常数(applying an equating constant)

l 利用固定校正估计题目参数( estimating item parameters with fixed calibration)

l 利用同时校准估计题目参数(estimating item parameters with concurrent/simultaneous calibration)

l 应用测试特征曲线法( the Test Characteristic Curve procedure, TCC)

作为本文基础(也是在不同等值方法中使用的)的共同题(锚题),笔者认为有必要再进一步明确其主要特性,这在本系列论文的第二篇中已作过介绍了。这里就共同题的使用准则再作一个简要的回顾,即:

……锚题组应该是能代表整份试卷的一个“微型版本”,锚题在试卷A和试卷B的位置(题号)应大致相同,试卷A和试卷B的锚题应该完全一样。不能修改文字、答案选项顺序、题目材料,也不能出现不同的提示语,或者做出其他任何可能影响考生在不同试卷中表现的修改。同时,如果条件允许的话,在使用选择题、简答题、延伸题等题型时,锚题组应该与整份试卷具有大致相同的比例。

如果有读者想更加详细地了解基于IRT的等值,可以参考以下资料,如Best Test Design Test(Wright& Stone, 1979),Equating, Scaling, and Linking: 2nd Edition (Kolen &Brennan, 2004), Educational Measurement, 4^th Ed., (Brennan, 2006),Linking and Aligning Scores and Scales( Dorans, Pommerich, &Holland, 2007 ),以及A Practitioner’s Introduction to Equating with Primers on Classical Test Theory and Item Response Theory (Ryan& Brockmann, 2009)等。

图1所示的是一份虚拟的试卷X,共有20道题目。其中A、B、C 3道题是锚题,也是另一份试卷Y中的共同题。另外17道题目在试卷X中有而在试卷Y中没有。图1中所示的3道共同题都位于原点(0)的左侧,也就是说这3道题的难度都低于试卷X的平均题目难度。

由于3道共同题在全部20道题目中属于相对容易的,因此试卷X中其余17道非共同题的平均难度肯定要高于A、B、C组成的共同题组。由图1可知,题目A、B和C的难度估计值分别为-1.5、-1.0和-0.5, 3道题的平均难度要比试卷的平均题目难度低1.0。

图2是另一份虚拟的试卷Y,题量为20题。在这个例子中,除了由题目A、B、C组成的共同题组外,另外17道题目都与试卷X中的题目不同。在图2中, 3道共同题都位于原点(0)的右侧,也就是说它们的难度相对于整份试卷的平均题目难度要更高一些。

在试卷Y中, 3道共同题在全部20道题目中属于相对较难的,因此试卷Y中其余17道非共同题的平均难度肯定要低于A、B、C组成的共同题组。由图2可知,题目A、B和C的难度估值分别为+0.5, +1.0和+1.5。那么,这3道题的平均难度要比整份试卷的平均题目难度高出1.0。

表1列出了试卷Y和试卷X中题目的难度,以及两份试卷中难度估计值上的平均差异。对试卷X和试卷Y中的题目进行等值的关键在于要理解:由于两份试卷中共同题的平均难度的计算与仅在该份试卷中出现的其他题目的难度是紧密相关的,所以两份试卷共同题的平均相对难度是不同的。在表1所示的例子中,我们把试卷Y当做原点,此时只要将试卷X的分数量表调整两个单位就可以等值到试卷Y的量表上去。当然,以Y作为原点是任意确定的,我们也可以把试卷X的量表作为原点。

共同题的难度平均值由试卷Y中的+1.0变成了试卷X中的-1.0,这里有两个单位的差距。试卷X和试卷Y中其他题目在难度上的不同造成了共同题平均难度上的变化,这个变化值也就是把试卷X等值到试卷Y的量表上所需要作出的调整量,即等值常数。上述案例中的等值常数是+2.0。当我们把这2.0的等值常数加到试卷X的难度值上以后,就可以得到一个共同的量表,这个共同量表的原点是试卷Y,共有37道题目分布在这个量表上,其中包括3道共同题、试卷Y独有的17道题目以及试卷X独有的17道题目。等值的过程如图3所示,对试卷X作出+2.0的调整以后, 3道共同题的难度就和试卷Y中的难度一致了。

通过调整,试卷X中锚题的平均难度现在也是+1. 0,也就是说与试卷Y中的共同题平均难度相等(即实现了等值)。更为重要的是,通过对共同题之间难度差距的调整,试卷X中所有的题目都等值到了试卷Y的量表上去。图4所示的即是这一过程的最终结果。

在这个图中,试卷Y被确定为量表的原点,试卷X则进行了+2.0的调整,这样一来共同题的平均难度就相同了,试卷X和试卷Y得以等值,两份试卷中所有的题目都出现在同一量表上,其中包括试卷Y独有的17道题目、3道共同题和试卷X独有的17道题目。

笔者用上述案例说明了应用等值常数对有共同题的两份试卷进行等值的基本过程,这是一个经过简化的案例,目的是为了使这些基本过程看起来更加清楚。然而,在实际应用中这一案例是不切实际的,要想把这个案例中的方法与实际情况相结合,需要明确以下几点:

l 不同的试卷不能仅通过3道共同题就进行等值。我们很难具体地规定一个共同题的数量或者比例,但是在通常的实际操作中,一份题量约为40~60题的试卷,至少要有15~20道共同题用来等值。

l 像案例中试卷X和试卷Y这样难度差别较大的试卷,只能在某些特定的情况下才能进行等值或连接,如跨年级(纵向)连接,或是对大范围的群体能力进行等值等。

l 在命制试卷时,共同题一定要在更大范围内选择,覆盖整份试卷不同难度的题目,而不能像案例中那样。只要有可能,共同题组应当尽可能地涵盖易、中、难等各个难度层次的题目。此外,共同题组还应该能体现整份试卷的内容和题目形式。

或许有一些题目单独放在试卷X或试卷Y里能发挥很好的作用,但并不意味着其可以作为对两者进行等值的共同题。在检验某些题目能否成为好的共同题时,有大量可用的相关程序。此外,当一道题目被用作连接题目时,一定要就其可靠性和稳定性进行测试。稍后笔者会详细阐述这个问题。

在上文中笔者使用了一个虚拟的案例来说明等值常数的应用过程,在这个案例中两份试卷之间有一组共同的题目。当我们从题库中抽取出这组共同题,再将其应用到另一份试卷中去时,依然还可以直接使用上文的方法进行等值。如果我们能得到一组共同题的题库参数值,就可以将它们当作量表的原点,而把其他试卷中题目参数值不明的题目都等值到题库中去。

表2显示的是在实际测试过程中应用等值常数方法的结果。在这个案例中,我们从题库中提取了一组数量为13道题目的共同题组。在2008年的测试中,这13道共同题和另外27道题目共同组成了一份40道题目的试卷。研究者的任务是应用Rasch模型,将27道新题目等值到题库的量表上去。

步骤1:表中第一列说明的是试卷中共同题分布的位置,我们可以看出共同题广泛分散在整份试卷中。

步骤2:如第二列所示, 2008年的试卷经过校准,所有的题目难度值都进行了估计。试卷中共同题的难度平均值是-0.382,说明共同题组相对于试卷中其余27道题目来说偏容易。

步骤3:第三列是13道共同题的题库难度值,此时其难度平均值为-0.254,这说明相对于题库中其他题目,这组共同题也更容易。

步骤4:第四列是2008年试卷中共同题的平均难度与其题库平均难度的差值,这一差值的平均值为-0.128,即是我们要的等值常数。

步骤5:将2008年试卷的题目难度值减去这个等值常数,就可以把2008年试卷的量表等值到题库量表上去。第五列中所示即是调整后相应题目的题库难度值。

步骤6:将调整后的题库难度值(第五列)和其原始的题库难度值(第三列)对比,得到的差值即是第六列中数值。

当用调整等值常数的方法进行试卷间的等值,或者将一份试卷等值到题库中去时,我们可以通过评估用于估计等值常数的题目自身的稳定性来衡量这次等值过程的充分性。理论上讲,经过调整之后,共同题的难度应该与其在题库中的难度相等。当然,理论上能够适用于IRT模型及模型参数,实际统计的参数却并非如此。表2中第六列的数据即提供了衡量题目稳定性的信息。

至于为什么一道(或更多)共同题在经过难度调整后,题目难度和题库中的难度有着较大的差距,笔者可以列出很多原因。这样的差值反映了该题目稳定性不足,甚至可能导致专业人员决定把某一道题从计算等值常数的题组中去掉。一道题目中任何一点改变,哪怕微不足道的,如命题的用语或者选项排列顺序的改变,都可能造成题目参数估计值的不同。预测(field test)中得到的题目参数可能与实际测试中的参数值大不相同,因为学生觉得前者的测试结果对他们没有什么影响,而后者可能对他们会产生决定性的作用。一道题目出现在试卷中的位置也可能会对题目参数值产生影响。在预测中出现在试卷开头部分的题目也许在正式测试时会出现在靠近结束的位置,而这两者的题目参数值有可能就有一定的差别。一般来说,出现在试卷末端的题目都会更难一些,使用过多次的题目会相对容易一些。此外,题目参数估计值也可能受到试卷中其他题目的影响。通常来讲,我们很难为题目参数偏离找到一个确切的原因。

表2最后一列最后一行显示的是共同题经过等值常数(-0.128)调整后的难度与其原始题库难度之间差值的平均值。我们可以看到在平均值上这个差值是0,但这个结果是多个题目之间的差值经过代数运算之后得到的平均值。在实践中,题目稳定性测量所关注的恰恰就是每道题目的调整后参数值与原始题库参数值之间的差值。从表2的最后一列中我们可以看出,最大的正偏离为0.293(第11题),而最大的负偏离为-0.258(第18题)。

许多研究者都就调整后的题目参数与其等值目标参数(可能是题库参数,也可能是另一份试卷的题目参数)之间的差值提出了一些数字化标准,而且大部分实际测试项目也采用了其中一些标准。如Wright与Douglas(1975)和Wright(1977)提出,在计算等值常数时,应该以0.20和0.30(绝对值)作为调整值的基础,将不适合的题目排除在计算范围之外。这个标准被称为“0.3标准”(the. 3 criterion),它和它的一些变体,如分步算法(a step-wise algorithm)在许多测试项目中都得到了使用。Huynh与Meyer(2010)也针对调整后的参数值与题库参数值的差异提出了统计学标准。他们建议以三种指标为基础将一些题目排除在题库之外,这三种指标是:稳健z统计量( the robust z-statistic)(>+1.645)、调整值和题库值之间的相关(r>0.95)及标准差(介于0.90到1.10之间)。Huynh与Meyer还建议说,无论统计分析的结果如何,从共同题组中删除的题目不应该超过全组的20%。Cohen, Jiang和Yu(2008)提出了一套程序,通过每道题目提供的统计信息来衡量这道题在等值中的作用。从效果上看,估计标准误差越大的题目对等值造成的影响就会越小。当然,也有一些研究人员和业界人士建议,只要是设计用来做共同题的题目就都应该参与到等值计算中来,他们相信通过细致的命题和仔细的预测,共同题组中所有题目的实际效果都会很好。

无论用怎样的标准来分辨不稳定的题目,人们还是需要作出一个决定。在一些项目中,这样的题目会被自动排除在等值常数的计算之外,但仍会保留下来作为普通题目使用。而在另外一些情况下,统计标准可以用来辨别题目,为更进一步研究服务,但是不会仅根据统计标准把不符合的题目自动排除在共同题组之外。如果后续的研究能够发现某道题目出现参数值偏离的原因,那么这道题就可以从共同题组中删掉。如果没有具有说服力的解释,那么在计算等值常数时仍然要包含这道题。从共同题组中删除的题目仍然可在试卷中作为普通题目使用。

2.应用固定参数进行等值

在不同试卷之间或试卷与题库之间进行等值的另一种方法是固定参数法( the fixed parameter),这种方法需要试卷中有一套符合标准的共同题。以下笔者以试卷X和试卷Y为例说明固定参数等值的应用步骤。虚拟的试卷X代表题库,试卷Y代表待等值的试卷,共同题是题库与试卷之间的共同题。图5所示就是这一方法的总设计图,具体步骤如下。

步骤1:在两份试卷中选择一份作为基准,这份基准试卷中的共同题的题目参数值也就是等值量表的原点;

步骤2:估计基准试卷中所有题目的参数值(包括难度,区分度,猜测度等等);

步骤3:将基准试卷中共同题的题目参数值挑选出来,作为固定(或已知)参数值;

步骤4:将试卷X与试卷Y的共同题的参数值分别对应起来;

步骤5:估计试卷Y中其他题目(非共同题)的参数值,在校准这些题目的参数值时,试卷Y中共同题的参数值是固定的,固定值即试卷X共同题的参数估计值;

步骤6:通过将试卷Y中非共同题等值到试卷X上,试卷Y的题目参数值就和试卷X处在同一个量表上了。

在固定参数的应用中应该注意几个问题,最重要的是审核、分析两份试卷在构成上是否相同,或者说有多大的相同性。这是进行试卷间的等值或者试卷与题库的等值时,人们关心的一个问题。测试框架、题目编制和试卷结构的可比性是审核与分析过程中最关键的因素。

在检验固定参数是否适用时,一项重要的步骤是检验等值的数据与使用的IRT模型是否匹配。因为即使用某一IRT模型能够估计出题目的参数值,也不能保证这个模型就适合在这次等值中应用。

共同题的参数值的稳定性也可以采用固定参数来检验。除了表2提及的技术,还涉及其他的步骤。具体来说,试卷Y中所有的题目(包括共同题和非共同题)都需要进行校准,并保证其题目参数值可以自由变化。这一校准的过程有可能得到一组新的共同题参数,把这个参数与试卷X中校准得到的参数相比较,就可以得出固定参数中题目的稳定性。这项分析所采用的就是上文有关等值常数等值时提到的方法。在常用的W insteps(Linacre, 2006)软件中,不稳定的题目难度指数通常用“题目位移”( item displacement)来表示。

固定参数的应用可以用下面图6进行说明,该图示说明的是预测中的共同题的设计。

图中共有10份预测试卷,每份试卷中都有含有30道共同题。为了方便说明,笔者将共同题整体放在试卷的前半部分,但在实际命题中共同题应该分散地嵌入试卷的不同地方。除了共同题外,每份试卷还含有30道独立题目。因此,预测总共有300道独立题目,每份试卷由1000名学生作答。

使用固定参数来分析这些数据时,首先要把全部10份试卷中学生对共同题的反应综合起来,得出一份容量为10000的样本。在这个样本数据的基础上,研究人员可以估计30道共同题的IRT题目参数值,这也就是共同题的固定参数值。接下来,在将共同题参数值固定的前提下,研究人员可以开始分析每一份预测试卷,估计其中独立题目的参数值。这样的分析步骤会在10套试卷中依次进行,最终得到一个容量为330道题目的题库,题库中的题目都处于同一个由共同题确定的量表上。

3.应用同时校准进行等值与连接

如图7所示,应用同时校准进行等值时,试卷和题目的配置与固定参数分析设计非常相似。在此设计中,测试试卷X包含25道独立题以及与试卷Y相同的15道共同题;同样,测试试卷Y包含25道独立题和15道共同题。因此,所有学生实际上回答40道测试题目。

使用同时校准方法分析处理数据时,学生群体参加了65题的测试,包括试卷X中的25题、试卷Y中的25题以及15道共同题。假设有500名学生使用试卷X,另外500名学生使用试卷Y,表3显示了这种设计的数据分析情况。

尽管两部分学生都没有参加另一试卷独立题目的作答,但是我们可以把它当成是学生们都回答了这些题,只是学生回答的数据缺失了,即选择试卷X的500名学生在试卷Y的25道独立题上的作答数据缺失,选择试卷Y的500名学生在试卷X的25道独立题上的作答数据缺失。对这1000名学生进行IRT分析,题目和学生参数从包含丢失数据的数据矩阵中估计。IRT软件可以提供对题目参数和学生能力参数的估计,即使并非所有学生都回答了所有题目。更为关键的是IRT软件不把缺失数据处理成学生作出了错误的反应。

对题目和学生参数进行IRT校准的结果可以放在同一个量表上,因为所有数据都是被当成1000名学生以及65道题的单一测试来分析和校正的。所有的IRT分析量表的原点是任意的,可以为共同题参数的均值、能力估计的均值,或是其他适宜值。

解释和使用同时校准产生结果时必须十分谨慎,这一设计方法将试卷置于同一量表中,但结果并不能保证是否构成了真正的等值试卷。要对两个测试试卷的IRT假设的适合程度进行评估,并且在评估共同题的参数值的稳定性时,应该比较这些共同题分别在试卷X与试卷Y中的参数估计值的作用。前述有关等值常数方法中评估参数稳定性的方法,完全适用于同时校准等值。

图6和图7中的设计也可以通过前面的固定参数等值进行分析。使用固定参数等值首先要将所有的数据组合,并在所有的1000个参与答题的学生中仅分析15道共同题。对这15道共同题,每题的参数值将基于1000位考生来估计,这些对共同题的参数估计值将被当做是共同题的固定值,然后通过使用共同题的固定参数值及对试卷X中25道独立题目进行校准分析的估计参数值来分析试卷X。同样,以类似的方式使用共同题的固定参数值及对试卷Y中25道独立题目进行校准分析的估计参数值来分析试卷Y。

在很多情况下,应用同步校准和固定参数的结果差别微乎其微。例如,如果测试试卷被设计成平行卷并使用随机等值组时,那么在横向的等值上两个方法将产生非常相似的结果。但是,在纵向的连接上这两个方法会产生不同的结果。有关纵向的连接或者量表化,将在后面讨论。

4.使用共同题的测试特征曲线等值

测试特征曲线(TestCharacteristicCurve,TCC)是在使用共同题等值的试卷中一种非常灵活并广泛使用的方法。测试特征曲线根据Stocking和Lord(1983)所描述的程序,频繁地与双参数和三参数IRT模型的数据分析一起使用,这种方法的基本算法在很多情况下相当有效。与所有的等值程序一样,它假设涉及的测试试卷都是平行命制的。

Stocking和Lord提出的该方法,其关键是使用IRT测试特征曲线。一个测试特征曲线显示了学生在测试中的IRT能力和预期原始分数的关系。如图8所示,具有更高IRT能力估计值的学生将比那些具有低能力的学生得到更高的原始分数。测试特征曲线反映了在原始分数和IRT能力之间的一个逻辑关系,可以认为这种关系是所有题目特征曲线的总和。

在图8所示的例子中,两份试卷有共同题,并且每份试卷都有一组独立题。试卷A为图中右侧的测试特征曲线。在水平轴方向上能力值为1的位置,回答试卷A的学生预期将会比回答试卷B的学生得到更低的分数,这样表明试卷A比试卷B更难。试卷A的独立题相对于试卷B的独立题也必定更难,因为测试特征曲线基于两份试卷的共同题是一样的。

利用测试特征曲线等值的基础是基于IRT模型的某些特征。IRT量表没有一个固定的原点,而是使用一个主观的原点或是一个主观的量表变量或间隔等。在实际的数据分析中,原点可以选择并固定在量表上任何方便的位置,并且可以扩大或者缩小量表变量。一般来讲,如果两个量表的原点及间隔不同,可以对其中的一个量表采用线性转换,使其处于另一量表上。选择使用哪种量表需要考虑题目的使用目的、试卷或者题库特征。

在应用IRT方法分析时,对同一题目采用两个独立的校准来估计参数值结果是不一样的,这是因为两个校准方法有不同的主观的原点和量表。另外,题目参数值也会受到其他各试卷独立题的题目特征、取样方法以及估计误差的影响。

要把一份试卷中共同题的参数值转换为另一份试卷(目标试卷)量表中相对应的参数值需要使用两个常量:一个是通过乘法来调整比例差异的常量,另一个是通过加法来调整量表原点的常量。在一般情况下,这个过程首先要非常仔细地选择常量的初始值,然后重新优化常量,以使转换试卷和目标试卷的估计分数差异最小。

在使用测试特征曲线方法时,研究人员将决定是否由试卷A作为原点并保持不变,然后将试卷B等值到试卷A的量表上;或者相反,将试卷B作为原点并保持不变,然后将试卷A等值到试卷B的量表上。选择将哪个试卷作为原点取决于测量的背景。如果一个测试项目每年均举行,每份新年度的试卷要被等值到上年度的试卷中,上年度的试卷就可以作为等值原点并固定下来。这种方法中,相邻年度的试卷都被两两连在一起。在其他情况下,通常将已经设有表现标准的试卷作为量表的原点使用,以便将其他试卷等值到这份试卷上。在这种方式下,标准或者临界分数(cutsocres,采用IRT单位)可以通过等值保持不变。图8中,试卷B的量表被等值到试卷A的原点。实际操作时,试卷A和B的平均值可以被当做原点,或者它们都可以被等值到第三份试卷或一个事先存在的题库量表上,只要题库中的共同题存在参数值即可。

该方法要对共同题进行参数估计,并采取一系列步骤找到可用于估计试卷B中共同题的题目参数的权重,这些权重是估计题目参数的标准误差的函数。使用这些权重,可以使试卷B中共同题的区分度、难度和猜测参数与试卷A中对应的共同题的参数值非常接近。当所有的权重都被应用到试卷B的题目参数中时,试卷B就可以等值到试卷A的量表上。衡量该方法是否适用,一个有效的方法是在IRT能力范围内,选择具体的几个点(points)来比较试卷B和试卷A中共同题目的测试特征曲线。

用测试特征曲线进行等值在很多情况下都很有效。然而,与其他程序一样,该方法的应用并不是不存在问题。如图9所示,试卷A和试卷B的特征曲线出现了相交,在交点之下试卷A比试卷B更难,但是在交点之上,试卷B比试卷A更难。在这种情况下,两份试卷可被等值到一个假设的第三份试卷上,其测试特征曲线应该在试卷A和试卷B之间。这种方法在大部分情况下都是合理有效的,然而,两条测试特征曲线如果交点超过一个时可能就会出现问题,因为用一条直线来表示两条测试特征曲线之间的差异效果就很差。

5.共同组IRT等值

参加两个不同测试的一组考生或者两个随机等值组,可以被认为是一组共同组(common people),就如同一组出现在两个不同测试中的题目可以被认为是一组共同题。基于一组共同题等值时,可以用等值常数进行调整,也可以在参数校准时固定共同题的参数,这是连接和等值的基本逻辑,这个逻辑也可以以几乎完全一样的方式应用到一个共同组中。在此情况下,共同组IRT等值在利用IRT分析的能力和灵活性上非常类似于共同题等值。与共同题等值不同,共同组等值使用基于一个测试获得学生的已知IRT能力估计值,然后连接到第二个测试上,而共同题等值是使用基于一个测试获得的题目参数值,然后连接到第二个测试中。为了进行共同组等值,学生IRT能力的估计要以一个测试为基础,当学生参加第二个测试时,这些能力估计值随后被用来估计等值常量,或是固定、稳定初始的估计值。

以下是一个实例。5000位考生参加了一项50道题目的测试,利用IRT模型进行数据分析,把对学生的能力估计值和题目的参数估计值放在同一量表上。接下来,在参加原有50道题目测试的基础上,这5000名学生将再参加一轮新的30道题目的测试,以此获得基于30道题目的能力估计值。这样,对每个学生而言,都有两份能力估计值,而这两份能力估计的差异即提供了一个等值常量,从而将一个测试调整到另一个测试的量表上。而在固定校正中,学生IRT的能力估计值在最初50道题目测试中被固定下来,然后对新的30道题目的参数值进行估计,以便于它们能够产生对学生来说尽可能接近的能力估计值。

上文提及的共同题等值的案例(如图1,图2,表1等)同样也能使用共同组等值。在共同组等值过程中,同样的学生,或者是在重要特征方面相似的两个小组作答试卷X和试卷Y,这两组试卷没有共同题。考后,两份试卷被单独分析,对学生或是题目的参数值不进行固定,并且将各自试卷题目难度的平均值定位原点。试卷X上学生平均能力的估计值为-1. 0(低能力),而试卷Y上学生平均能力的估计值为+1. 0(高能力)。但是学生能力之间的差别不能解释他们在测试平均表现上的差别,因为同样的学生都参加了两个测试。既然学生能力估计值的差别不能归因于他们在能力上的实际差别,那么这些差别一定是由测试难度上的差异引起的。因此,以下是这个例子中的关键点:

l 在试卷X上,平均值为-1.0,学生看起来能力差

l 在试卷Y上,平均值+1.0,学生看起来能力强

l 试卷X一定比试卷Y更难,因为它使学生看起来能力差,并且两份试卷在难度上相差+2.0个单位。

l +2.0个单位的差异被用作连接常量,就像从共同题上获得的连接常量一样,对将两份试卷进行调整,从而统一到同一量表上。

上述对共同组等值的简短描述和解释都是相当简化的,以此来反映整个方法的基本思想和逻辑。实际操作中,还有很多方法,如使用一组学生或者随机等值组来进行等值,分析中要综合考虑学生的平均能力以及组间的差异。通常来说,共同组的等值过程需要建立一个转换方程,实现从第一个测试转换到第二个测试的分数转换。尽管关于转换方程中系数计算有很多方法,但也存在很多问题。

6.其他基于IRT等值的方法

本文主要描述的是普遍使用的基于IRT的等值方法,目的在于阐述其基本逻辑、做法以及在IRT等值过程中存在的问题。然而,文中涉及的等值方法仅仅是用IRT程序来进行试卷等值和建立题库方法的样例。Kolen和Brennan(2004)提供了一个针对IRT等值方法的综合评估,其对IRT量表转换方法、真实分数和观察分数等值以及使用多级IRT模型等值等的描述是非常有用并让人受益的(Kolen and Brennan, 2004)。

三、对等值若干重要问题的简要回顾

连续三篇文章已经广泛探讨了关于等值与连接的概念、问题和方法。在此简要回顾大型评估项目中非常受关注的四个问题,分别是多级IRT模型(polytomous IRTmodels)、纵向量表化(vertical scales)、计算机化测试(computers to administer tests)和等值误差(errors in equating)。

1.多级IRT模型的使用

这一组三篇文章集中于等值(0-1)记分的测验,用来阐述不同等值方法的图表和例证都直接或间接地反映了这一记分特点。然而,许多评估项目会采用多级计分题,如顺序评分等级(ordered rating categories)或分部评分模型(partial credit scoring models)。多级计分题的关键特征在于,心理测量的关注点集中在考生的有序反应( the ordered response)或评级等级(rating categories)之间的阈值。举例来说,一个有4个顺序等级(1、2、3、4分)的题目有三个阈值,分别是介于1分和2分之间的阈值、2分和3分之间的阈值、3分和4分之间的阈值。这些阈值代表着在IRT量表上的位置,当学生的能力越高时,他们就会获得覆盖阈值的更高等级。IRT等值的重点是关注这些阈值,而不是整体题目的难度。例如,如果一个题库的多级计分题采用固定校正等值,题库题目的阈值参数将被固定下来,并且用这些题库题目的阈值作为“锚”进行校准,从而将新的题目置于题库的量表上。

对多级计分题目进行等值涉及很多技术问题,必须依靠专业知识和经验来妥善解决。Nering和Ostini(2010)对多级计分IRT模型进行了非常全面的阐述。而且,很多成功的测试项目也使用多级计分题目,并与(0-1)计分题目相结合,以更全面地评价学生掌握预期的知识和技能的情况。

2.纵向量表化

测量学生一段时间的变化或进步是一个常见的问题,解决这个问题涉及纵向量表化的创建与使用。纵向量表是一个简单的测量量表,横跨两个或多个教学年级。本文阐述的大部分等值方法都可应用于建立纵向量表。例如,图7、表3所示的同时校准等值(连接),该例中提到了试卷X和试卷Y,但没有关于试卷的其他信息。然而,在纵向连接设计中,试卷X可以用在一些特定年级,而试卷Y用在相邻的较高年级,同时用一组15道的共同题来测试两个年级重叠或交叉部分的课程内容,这些共同题目对低年级学生来说可能是较难的,而对高年级同学较容易。当对学生的反应矩阵进行量表化和同时校准后,所有横跨两个年级的题目就在同一量表上。同理,再加入一个更高年级的试卷Z,就可以把三个年级的量表构成一个更广的纵向量表。

本文中描述的任何等值方法的基本程序都可以用来建构横跨两个或多个年级的量表。构建这样量表面临着很多问题和挑战,最基本的问题在本系列论文的第一篇中已指出,即关于等值试卷和连接量表之间的区别。一般而言,等值测试测量的是同样的内容、技能或结构,这在同一个年级测试(横向等值)和两个相邻年级(特别是低年级)的测试可以实现。但是,要对来自多个年级的数据的测试进行“等值”,更准确地描述应该是“连接量表”而不是等值。涉及纵向连接有很多有意义的且有挑战性的技术问题已经超出了本文讨论的范围,但需要强调的重要问题是,不能想当然地认为跨年级的连接测试量表就是等值试卷。纵向连接的量表有着广泛的用途,但不能就说其已经在不同年级试卷中实现了等值。

3.计算机化测试

目前,许多测试项目都在使用计算机来管理题目或试卷,用计算机来辅助测试有两种基本方法,一是基于计算机的测评(Computer Based Assessment, CBA),指的是所有学生都在计算机上完成完整的试卷,可能所有学生都做同样的试卷,也可能不同学生随机抽取了不同的完整测试卷。其特点是学生或学生样本做完整份具有同样题目的试卷,且试卷中题目的顺序相同。

第二种方法是计算机适应性测试(Computer Adaptive Testing, CAT),指的是在测试中不同学生按不同的顺序分配到不同的测试题目。CAT的关键特点在于它是动态的,会根据之前的信息以及学生在事先小部分题目测试中的反应,判断出他们的能力,并分配给学生与他们能力相匹配的题目。以学生在预测阶段小部分题目中反映出的信息或数据来估计其在测量量表的位置,这样,再从经过等值校准的题库中选出的题目也就与学生的能力相接近了。在大多数CAT中,挑选出的题目也要确保满足基本的测试内容要求和测试目的。

CAT中动态的、适应性的选题使学生作答符合他们能力的题目,与所有学生做整套相同的题目相比,适应性地分配给学生一组题目能够提供关于该生更多精确的信息。适应性测试对学生有着积极的影响,避免了他们因题目过难而受挫败,或因题目过于简单而觉得无聊。

CAT的实施需要一个非常庞大的题库做支撑,这个题库要满足测试项目的内容框架,并且题目还要与一个共同量表等值或连接。本文中描述的方法可以用来创建这种题库,但要创建一个满足内容覆盖全、题目难度范围广,且题量足够大的题库仍是一个非常具有挑战性的任务。CAT系统也需要大量的计算机基础设施,包括空间、计算机终端以及软件支持等。尽管面临挑战,与CBA和纸笔测试相比, CAT系统有着很多心理测量学和实践上的优势。

4.等值误差

所有测量活动,包括等值的结果都存在一定程度的误差变量。这种误差有很多来源,包括抽样误差、测量误差、IRT参数估计误差以及等值误差等。本系列论文的第二篇阐述了等值中误差估计的分析和经验法,这些方法在正确解释基于IRT的等值中是适用且重要的。这里就不再重复讨论了。

基于经典测量理论和项目反应理论的等值与连接（三）

专题