基于经典测量理论和项目反应理论的等值与连接(三)
副标题#e#
导 言
笔者连续撰写了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题。第一篇文章(发表在《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,介绍了等值和连接的主要概念和基本术语,概述了经典测量理论(CTT)和项目反应理论(IRT)。第二篇文章(发表在《考试研究》2011年第2期)重点介绍了连接和等值的取样及等值设计,并探讨了建立题库的步骤和基于CTT的等值方法。本文是这一系列的最后一篇文章,主要介绍基于IRT的等值方法,同时就当前教育测量中的多级IRT模型的使用、纵向量表化、计算机化测试以及等值误差四个重要问题进行简单讨论。
本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(A Practitioner's Introduction to Equating with Primers on Classical Test Theory and Item Response Theory, Ryan&Brockmann,2009),是面向开发、维护和改进教育测量项目的教育工作者而作的,其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然,对于其他想对连接与等值作一些基础的了解,从而更深入学习等值技术的人来说,这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章,其中阐述了这一系列文章的背景及思路。
#p#副标题#e#
一、基于IRT的基本等值方法
在应用IRT模型进行等值时,有一些基础概念非常重要,本文介绍IRT等值的目的就在揭示这些概念。IRT等值可以通过出现在两个或两个以上的测试中的一组题目(称为共同题),或者参加了这两个或两个以上测试的一组样本考生(称为共同组)来实现。在测量心理学上,我们可以认为随机等值组群就是同样的一群人去作不同种类的测试。本文主要介绍建立在共同题基础上的IRT等值方法,并简要说明这种基于共同题的等值的逻辑及基本做法是如何应用于共同组的等值。在共同题等值中常用的四种方法有:
l 应用等值常数(applying an equating constant)
l 利用固定校正估计题目参数( estimating item parameters with fixed calibration)
l 利用同时校准估计题目参数(estimating item parameters with concurrent/simultaneous calibration)
l 应用测试特征曲线法( the Test Characteristic Curve procedure, TCC)
作为本文基础(也是在不同等值方法中使用的)的共同题(锚题),笔者认为有必要再进一步明确其主要特性,这在本系列论文的第二篇中已作过介绍了。这里就共同题的使用准则再作一个简要的回顾,即:
……锚题组应该是能代表整份试卷的一个“微型版本”,锚题在试卷A和试卷B的位置(题号)应大致相同,试卷A和试卷B的锚题应该完全一样。不能修改文字、答案选项顺序、题目材料,也不能出现不同的提示语,或者做出其他任何可能影响考生在不同试卷中表现的修改。同时,如果条件允许的话,在使用选择题、简答题、延伸题等题型时,锚题组应该与整份试卷具有大致相同的比例。
如果有读者想更加详细地了解基于IRT的等值,可以参考以下资料,如Best Test Design Test(Wright& Stone, 1979),Equating, Scaling, and Linking: 2nd Edition (Kolen &Brennan, 2004), Educational Measurement, 4th Ed., (Brennan, 2006),Linking and Aligning Scores and Scales( Dorans, Pommerich, &Holland, 2007 ),以及A Practitioner’s Introduction to Equating with Primers on Classical Test Theory and Item Response Theory (Ryan& Brockmann, 2009)等。
#p#副标题#e#
图1所示的是一份虚拟的试卷X,共有20道题目。其中A、B、C 3道题是锚题,也是另一份试卷Y中的共同题。另外17道题目在试卷X中有而在试卷Y中没有。图1中所示的3道共同题都位于原点(0)的左侧,也就是说这3道题的难度都低于试卷X的平均题目难度。
由于3道共同题在全部20道题目中属于相对容易的,因此试卷X中其余17道非共同题的平均难度肯定要高于A、B、C组成的共同题组。由图1可知,题目A、B和C的难度估计值分别为-1.5、-1.0和-0.5, 3道题的平均难度要比试卷的平均题目难度低1.0。
图2是另一份虚拟的试卷Y,题量为20题。在这个例子中,除了由题目A、B、C组成的共同题组外,另外17道题目都与试卷X中的题目不同。在图2中, 3道共同题都位于原点(0)的右侧,也就是说它们的难度相对于整份试卷的平均题目难度要更高一些。
在试卷Y中, 3道共同题在全部20道题目中属于相对较难的,因此试卷Y中其余17道非共同题的平均难度肯定要低于A、B、C组成的共同题组。由图2可知,题目A、B和C的难度估值分别为+0.5, +1.0和+1.5。那么,这3道题的平均难度要比整份试卷的平均题目难度高出1.0。
表1列出了试卷Y和试卷X中题目的难度,以及两份试卷中难度估计值上的平均差异。对试卷X和试卷Y中的题目进行等值的关键在于要理解:由于两份试卷中共同题的平均难度的计算与仅在该份试卷中出现的其他题目的难度是紧密相关的,所以两份试卷共同题的平均相对难度是不同的。在表1所示的例子中,我们把试卷Y当做原点,此时只要将试卷X的分数量表调整两个单位就可以等值到试卷Y的量表上去。当然,以Y作为原点是任意确定的,我们也可以把试卷X的量表作为原点。
共同题的难度平均值由试卷Y中的+1.0变成了试卷X中的-1.0,这里有两个单位的差距。试卷X和试卷Y中其他题目在难度上的不同造成了共同题平均难度上的变化,这个变化值也就是把试卷X等值到试卷Y的量表上所需要作出的调整量,即等值常数。上述案例中的等值常数是+2.0。当我们把这2.0的等值常数加到试卷X的难度值上以后,就可以得到一个共同的量表,这个共同量表的原点是试卷Y,共有37道题目分布在这个量表上,其中包括3道共同题、试卷Y独有的17道题目以及试卷X独有的17道题目。等值的过程如图3所示,对试卷X作出+2.0的调整以后, 3道共同题的难度就和试卷Y中的难度一致了。
通过调整,试卷X中锚题的平均难度现在也是+1. 0,也就是说与试卷Y中的共同题平均难度相等(即实现了等值)。更为重要的是,通过对共同题之间难度差距的调整,试卷X中所有的题目都等值到了试卷Y的量表上去。图4所示的即是这一过程的最终结果。
在这个图中,试卷Y被确定为量表的原点,试卷X则进行了+2.0的调整,这样一来共同题的平均难度就相同了,试卷X和试卷Y得以等值,两份试卷中所有的题目都出现在同一量表上,其中包括试卷Y独有的17道题目、3道共同题和试卷X独有的17道题目。
笔者用上述案例说明了应用等值常数对有共同题的两份试卷进行等值的基本过程,这是一个经过简化的案例,目的是为了使这些基本过程看起来更加清楚。然而,在实际应用中这一案例是不切实际的,要想把这个案例中的方法与实际情况相结合,需要明确以下几点:
l 不同的试卷不能仅通过3道共同题就进行等值。我们很难具体地规定一个共同题的数量或者比例,但是在通常的实际操作中,一份题量约为40~60题的试卷,至少要有15~20道共同题用来等值。
l 像案例中试卷X和试卷Y这样难度差别较大的试卷,只能在某些特定的情况下才能进行等值或连接,如跨年级(纵向)连接,或是对大范围的群体能力进行等值等。
l 在命制试卷时,共同题一定要在更大范围内选择,覆盖整份试卷不同难度的题目,而不能像案例中那样。只要有可能,共同题组应当尽可能地涵盖易、中、难等各个难度层次的题目。此外,共同题组还应该能体现整份试卷的内容和题目形式。
或许有一些题目单独放在试卷X或试卷Y里能发挥很好的作用,但并不意味着其可以作为对两者进行等值的共同题。在检验某些题目能否成为好的共同题时,有大量可用的相关程序。此外,当一道题目被用作连接题目时,一定要就其可靠性和稳定性进行测试。稍后笔者会详细阐述这个问题。
在上文中笔者使用了一个虚拟的案例来说明等值常数的应用过程,在这个案例中两份试卷之间有一组共同的题目。当我们从题库中抽取出这组共同题,再将其应用到另一份试卷中去时,依然还可以直接使用上文的方法进行等值。如果我们能得到一组共同题的题库参数值,就可以将它们当作量表的原点,而把其他试卷中题目参数值不明的题目都等值到题库中去。
表2显示的是在实际测试过程中应用等值常数方法的结果。在这个案例中,我们从题库中提取了一组数量为13道题目的共同题组。在2008年的测试中,这13道共同题和另外27道题目共同组成了一份40道题目的试卷。研究者的任务是应用Rasch模型,将27道新题目等值到题库的量表上去。
步骤1:表中第一列说明的是试卷中共同题分布的位置,我们可以看出共同题广泛分散在整份试卷中。
步骤2:如第二列所示, 2008年的试卷经过校准,所有的题目难度值都进行了估计。试卷中共同题的难度平均值是-0.382,说明共同题组相对于试卷中其余27道题目来说偏容易。
步骤3:第三列是13道共同题的题库难度值,此时其难度平均值为-0.254,这说明相对于题库中其他题目,这组共同题也更容易。
步骤4:第四列是2008年试卷中共同题的平均难度与其题库平均难度的差值,这一差值的平均值为-0.128,即是我们要的等值常数。
步骤5:将2008年试卷的题目难度值减去这个等值常数,就可以把2008年试卷的量表等值到题库量表上去。第五列中所示即是调整后相应题目的题库难度值。
步骤6:将调整后的题库难度值(第五列)和其原始的题库难度值(第三列)对比,得到的差值即是第六列中数值。
当用调整等值常数的方法进行试卷间的等值,或者将一份试卷等值到题库中去时,我们可以通过评估用于估计等值常数的题目自身的稳定性来衡量这次等值过程的充分性。理论上讲,经过调整之后,共同题的难度应该与其在题库中的难度相等。当然,理论上能够适用于IRT模型及模型参数,实际统计的参数却并非如此。表2中第六列的数据即提供了衡量题目稳定性的信息。
至于为什么一道(或更多)共同题在经过难度调整后,题目难度和题库中的难度有着较大的差距,笔者可以列出很多原因。这样的差值反映了该题目稳定性不足,甚至可能导致专业人员决定把某一道题从计算等值常数的题组中去掉。一道题目中任何一点改变,哪怕微不足道的,如命题的用语或者选项排列顺序的改变,都可能造成题目参数估计值的不同。预测(field test)中得到的题目参数可能与实际测试中的参数值大不相同,因为学生觉得前者的测试结果对他们没有什么影响,而后者可能对他们会产生决定性的作用。一道题目出现在试卷中的位置也可能会对题目参数值产生影响。在预测中出现在试卷开头部分的题目也许在正式测试时会出现在靠近结束的位置,而这两者的题目参数值有可能就有一定的差别。一般来说,出现在试卷末端的题目都会更难一些,使用过多次的题目会相对容易一些。此外,题目参数估计值也可能受到试卷中其他题目的影响。通常来讲,我们很难为题目参数偏离找到一个确切的原因。
表2最后一列最后一行显示的是共同题经过等值常数(-0.128)调整后的难度与其原始题库难度之间差值的平均值。我们可以看到在平均值上这个差值是0,但这个结果是多个题目之间的差值经过代数运算之后得到的平均值。在实践中,题目稳定性测量所关注的恰恰就是每道题目的调整后参数值与原始题库参数值之间的差值。从表2的最后一列中我们可以看出,最大的正偏离为0.293(第11题),而最大的负偏离为-0.258(第18题)。
许多研究者都就调整后的题目参数与其等值目标参数(可能是题库参数,也可能是另一份试卷的题目参数)之间的差值提出了一些数字化标准,而且大部分实际测试项目也采用了其中一些标准。如Wright与Douglas(1975)和Wright(1977)提出,在计算等值常数时,应该以0.20和0.30(绝对值)作为调整值的基础,将不适合的题目排除在计算范围之外。这个标准被称为“0.3标准”(the. 3 criterion),它和它的一些变体,如分步算法(a step-wise algorithm)在许多测试项目中都得到了使用。Huynh与Meyer(2010)也针对调整后的参数值与题库参数值的差异提出了统计学标准。他们建议以三种指标为基础将一些题目排除在题库之外,这三种指标是:稳健z统计量( the robust z-statistic)(>+1.645)、调整值和题库值之间的相关(r>0.95)及标准差(介于0.90到1.10之间)。Huynh与Meyer还建议说,无论统计分析的结果如何,从共同题组中删除的题目不应该超过全组的20%。Cohen, Jiang和Yu(2008)提出了一套程序,通过每道题目提供的统计信息来衡量这道题在等值中的作用。从效果上看,估计标准误差越大的题目对等值造成的影响就会越小。当然,也有一些研究人员和业界人士建议,只要是设计用来做共同题的题目就都应该参与到等值计算中来,他们相信通过细致的命题和仔细的预测,共同题组中所有题目的实际效果都会很好。
无论用怎样的标准来分辨不稳定的题目,人们还是需要作出一个决定。在一些项目中,这样的题目会被自动排除在等值常数的计算之外,但仍会保留下来作为普通题目使用。而在另外一些情况下,统计标准可以用来辨别题目,为更进一步研究服务,但是不会仅根据统计标准把不符合的题目自动排除在共同题组之外。如果后续的研究能够发现某道题目出现参数值偏离的原因,那么这道题就可以从共同题组中删掉。如果没有具有说服力的解释,那么在计算等值常数时仍然要包含这道题。从共同题组中删除的题目仍然可在试卷中作为普通题目使用。