首页> 详情

基于经典测量理论和项目反应理论的等值与连接(一)

2012-08-31 |浏览:3502次 | 编辑: 加载失败
分享到: 
副标题#e#

约瑟夫·M·瑞安(Joseph M Ryan)博士,1968年毕业于美国波士顿学院的数学系,1969年获得该校教育心理学硕士学位,1977年获得芝加哥大学教育测量、评价及统计分析博士学位。1974—2006年先后供职于美国南卡罗来纳大学及亚利桑那州立大学,分别担任过这两所大学教育学院和教师学院的系主任、中心主任。

瑞安教授从事教育评价和测量咨询专家工作已超过20年。他与美国中小学、学区、州教育部以及考试机构密切合作,为其开展了广泛的教育咨询服务。目前,瑞安博士仍担任了包括阿拉斯加、爱德华、康涅狄格、俄亥俄,德克萨斯,以及华盛顿在内的美国多个州的教育技术顾问委员会(the Technical Advisory Committees)的委员,并参与了超过12个州的教育评价与测试工作。瑞安博士的研究专长有量化、等值、成绩报告、标准设立、偏差或者项目功能差异(DIF)分析。他对教育机构提供给学生、教师、父母等的有指导信息的报告的程序和方式非常感兴趣。

瑞安博士学术成就卓著,发表了上百篇论文与多部重要专著。近年来他在教育测量与评价领域的重要著作包括A practitioner’s introduction to linking and equating the Council of Chief State School Officers2010 Practices issues and trends in student test score reporting S. Downing T. Haladyana Eds.2006 The Handbook of Test DevelopmentLawrence Earlbaum Associates MahwahNJ.2006 Large-scale assessment programs for all students Validity technical adequacy and implementation Lawrence Earlbaum AssociatesMahwahNJ.2002 )等。

#p#副标题#e#

 

笔者连续写作了三篇论文来审视测验等值和连接中涉及的概念、程序、应用以及碰到的问题等本文是这一系列论文的开篇之作。本系列论文是面向开发、维护和改进教育测量项目的教育工作者所创作的其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然对于其他想对连接与等值做一些基础的了解从而进行更深入的技术学习的人士来说这些论文也是非常实用的基础知识。

文中使用了许多教育测量的实例来说明涉及的概念与程序这些实例和说明都是在美国以及世界其他地区常见的实践和方法。这些情况说明在教育测量中等值已经发展成为了能够应用于特定的目标、满足特定要求的手段。然而我们也需要认识到这些教育测量的案例并非放之四海而皆准而且其仅仅是说明性的而非规定性的。例如这些论文很大程度上是以美国教育研究协会American Educational Research Association简称AERA、美国心理协会American Psychological Association简称APA和美国教育测量学会 National Council on Measurement in Education简称NCME编制的《教育与心理测试标准》1999为基础的其中收录的内容都是一些得到了广泛认可的书面准则和教育测量中的惯例但是其应用必须要和教育测量中的教育与文化背景结合起来。

#p#副标题#e#

一、等值与连接中的效度概念、测试目的与测试规范

效度的概念

在所有的测评项目中效度都是人们最关心的问题。在构建测评过程中的每一个阶段人们都必须对效度证明作出正式的记录。《教育与心理测试标准》中给效度的定义是:“在测试目标要求之下证据和理论能够支持对测试成绩进行解释的程度。”(AERAAPANCME 19999该标准还指出,“逻辑上说效度测量开始于对测试成绩的解释给出明确的说明”,而且这样的解释需要能够体现测试意图考察的构想或者概念”(AERA9

在许多测评项目中针对效度的此种观点可以这样理解即要求考试开发者对学生需要在考试中掌握的知识和技能作出清晰、明确的解释从而确保测试的可靠性。假如没有一个清晰、明确的对学生的要求一项测试想要有效地衡量学生的学习水平虽然不是完全不可能却也是相当困难的。

Linn2008阐述了效度的含义指出虽然人们常常随意地讨论测试的效度问题一项测试中真正有效的其实并不是测试结果本身而是这一结果的应用、解读和要求

也许一些证据可以说明对测试结果特定的应用会得到较高的效度然而同样的一个测试结果如果用于其他的目的就可能毫无效度可言。例如某一项测试或许能够显示出学生在某一个特定领域内所具备的知识和技能从而对制定教学计划有所帮助但是如果把这项测试成绩用于颁发高中毕业证书这样的高风险决定时它的效度就不够充足了。

Sireci2009针对效度这个概念的历史作过一个颇为有趣而发人深省的叙述他对效度作了三个和Linn颇为相似的评论

1效度并不是一项测试的内在属性

2效度与对测试成绩作出的解读和应用息息相关

3衡量效度必须要考虑到测试的目的和应用。

以上是笔者对目前有关效度的观点做的一个简要的综述我们从中能够看出目前主张把效度看作测试结果解读和应用中的一个属性。这和传统观点中把效度看作一项测试的特征大不相同而且这对等值”这个概念的理解和评估有非常重要的意义。

#p#副标题#e#

测试目的

教育测评项目中的测试成绩通常含有多方面的目的其中包括但不局限于以下方面利用测试成绩增强教师教学、学生学习的效果衡量学生取得的进步评估不同课程体系和教学方法的效率。此外将测试成绩与其他一些信息相结合可以对学生未来的学术和其他成就作出预测。因此要对两个不同的测试版本进行等值实际上就是要求这两个测试版本能够同样有效、完满地实现该项测评的目的。

对于大规模的测试项目来说等值是非常重要的。因为同一考试机构会使用大量不同的试卷而且这些试卷每年甚至更频繁还都会有所变化。这样的测试项目面临的主要挑战在于由于不同的测试版本所考查的内容和目的是一致的它们之间的评分标准和意义需要保持一致。这就是对测试的效度提出的考验因此在构建不同版本的测试时保证测试成绩具有一致的解释并能一样完美地服务于相同测试目的是非常关键的。

测试规范test specifications

在这一系列论文中笔者所关注的焦点是测试等值与连接中技术上、心理测量上的概念和程序。然而要想取得测试等值的成功最有价值的步骤却不在统计或者心理测量的范围之内。事实上测试等值中最关键的环节一是在于为不同的测试版本准备相似的题目二是在不同的试卷版本中有同等的涵盖考查内容相同、认知水平相同、试题模式相同的题目。

编制试题和测试规范的活动本身就是一项制定规范的过程而且这项活动所需要的东西往往会超出心理测量专家的经验和专业知识。在目前对于学生应该掌握的知识和技能所进行的系统性描述中存在很多不同的框架。Bloom1956所著的《教育目标分类》也许是其中最知名的经典原型在该书所提出的框架中对学习的定义是从知识的认知过程角度进行的包括识记、理解、应用、分析、综合、评估。想要构建等值的测试版本各个版本中就需要等量地涵盖考查以上几个认知层次的题目而且所考查的内容也要相同。Anderson& Krathwohl2001在他们的大作《学习、教学、评估分类 Bloom的教育目标分类的修改》中针对Bloom的观点提出了很有意义的补充。另外还有一些有影响力的机构和学者也提出了他们自己对学习分类的框架包括美国教育进展评估National Assessment of Educational Progress NAEPRobert MarzanoJohn Kendall2007Norman Webb1997这些框架都提出了一组与认知过程或知识内容有关的学习维度。

最关键的问题并不是该采用哪一种框架而是人们必须编制出一套清晰、明确、通俗易懂的方法来说明试题和测试所考查的具体是什么而且要将这一套说明方法当作编制试题和试卷的蓝本。假如不能对测试的考核内容作出清晰的定义我们无法想象这个测试的效度将如何评价。

测试规范中除了内容和认知过程以外还包括试题的形式和呈现方式。试题的呈现方式包括纸笔测试、计算机化测试computer based administration of fixed test和计算机适应性测试三种Mills 2002。试题形式则包括选择答案题型如选择题、判断题、连线题等、自拟答案题型如简答题、延伸题等和完成任务题型如编制图表、完成实验等。测试规范中有必要包括对试题形式和呈现方式的说明这样一来测试规范就包括学习内容、认知过程、试题形式和呈现模式四个部分。

对试题和测试规范的讨论并不总是出现在对等值与连接的论述中。然而在试题命制的过程中尽可能地保持试题和试卷的相似性是实现等值的重要环节。如果不同的测试版本在内容、认知过程、试题形式、呈现方式上都很匹配那么对成绩进行的等值实际上就是在试题命制阶段的等值的基础上进行的细微改良。反之如果测试在以上几个重要方面都不相匹配学生的测试成绩就会受到影响等值操作仍然能够得出一个数字上的结果但是这个结果却无法使试卷实现等值

#p#副标题#e#

二、等值与连接意义和困惑

等值与连接的基本概念

等值”(equating是一个测量术语指的是为了在两个及以上的测试版本的成绩之间建立成对关联使之具有同样的意义而设计的一系列程序。在将两个不同测试版本的成绩进行等值时包含两重意义第一层就是简简单单地让不同测试版本的原始成绩或者衍生成绩之间可以转化、对应或者相提并论从而能够替换使用第二层意义则远不止对应成绩那么简单它让不同的成绩通过等值后能够体现对考生知识、能力相同的解读和推断而且在此基础上能够进一步采取相同的适当的行动。

等值是一个能够在同一项测试的不同版本之间构建具有相同意义的并可比较成绩的技术程序有了它不同的考卷就可以替换使用。只要进行过确实的等值操作某个学生或者某组考生用哪一套试卷进行测试就变得无关紧要了。在许多大规模的测试项目中等值都有非常关键的作用因为这一类测试都需要使用不止一套试卷。在各种现实原因的影响下同一个测试机构可能会使用大量不同的试卷。此外试卷的形式也会逐年发生变化甚至频率要更高。

人们对连接linking和等值equating两个术语经常混淆有时还替换使用。连接是更广泛的术语对两个测试版本建立相配或者成对的关系并没有要求该成对的成绩具有相同的实质含义。连接和等值是不同概念连接对成绩的解释能力弱于等值。人们的困惑有些可能源于它们两个都采用相同的技术步骤。同时某些步骤如等百分位等值”(equipercentile equating已经成为测量和心理测量学常用的词组。连接测试即使采用等百分位等值也不一定导致形成等值的测试版本。

在连接与等值中一份试卷得出的成绩要和另一份试卷的成绩建立相配或者成对的关系。换句话说一份试卷的成绩需要转化到与另一份成绩相同的量表或者一份通用量表上去。例如在标准型测试standards-based assessmentt简称SBA即以检验固定的标准内容为目的的测试中得出的成绩将能够连接或者对应到标准的常模参照测试norm-referenced test简称NRT成绩上去。通过这样的连接我们可以得到一个两列的表格其中的每一行都将一个标准型测试SBA成绩与一个常模参照测试NRT成绩联系起来反之亦然),这样就将两个测试成绩连接起来了如表1

 

这样的连接可以用如下的短语进行恰当地描述

在标准型测试中得分为325的学生将极有可能在常模参照测试中得到422分。”“在常模参照测试中得到437分的学生很可能在标准型测试中得到341分。

相比于仅仅将两个测试的成绩连接在一起对两个测试所做的等值具有更强的意义。例如如果我们成功地将一项于2009年进行的五年级数学考试与2010年进行的相同的考试等值起来我们可以说:“就所考查内容的范围来说在两次测试中取得相同成绩的学生所掌握的知识与技能的水平也是相同的。

当我们说这两份试卷是等值的我们所表达的意思就是它们考查的是相同的内容和认知程度对学生掌握的知识、技能作出了相同的解读和推断。有了这些强有力的断言我们就能够在包括一些对学生和其他人意义重大的测试中替换使用等值的试题版本。

但是如果我们说两份试卷是连接的”,那意义就大不一样了。连接能够说明不同测试的成绩之间是相互关联的但是却无法说明这些测试具有相同的解读、推断以及成绩的互相使用是有效的。和连接一样等值也可以说明两个测试之间的关联但是它还具有更深一层的含义那就是这一对成绩含有相同的实质意义。

要想区别连接与等值我们可以把等值看做连接这个连续统一体上的一个极端如图1所示。

这个连续统一体的右侧所表现出的就是在有意构建的等值测试中所表现出的测量状况。此时两个甚至多个不同的测试就可以正式沿着一定的程序进行等值具体操作在本系列论文的另外篇章中将作交代。针对同一内容、属于同一年级的测试将会被设计成尽可能的相似这样一来所得出的运算数据就可以直接用于等值之中。图1的左侧所表示的则是另外的情况——两个不同的测试成绩的连接此时我们不能说某一个测试的成绩与另一个测试成绩具有相同的意义。

分布在这个连续统一体两端之间的则是一些严格意义上说近似于等值的测量状况但是这些状况仍不能完全满足等值的要求。Mislevy1992对这一分布作出了说明他将测试之间的连接分成了四类调整moderation 、推算projection、校准calibration和等值equating Mislevy199221~26。在他的模型中调整是最弱的一类连接而等值则是最强的可以让不同的测试成绩最大程度地替换使用这四个术语将在后面的文章中详细说明

如图2所示右侧的等值是最强的一种连接其他较弱的连接则都在图的左侧。在这个图中达到等值一侧的连接需要更严格的要求以使两个或者多个测试版本能够替换使用那些无法达到这些严格标准的连接可以说是像右侧运动”,但是仍旧不算是等值。

#p#副标题#e#

等值与连接中的基本术语

这一部分中笔者将对等值与连接中一些重要术语作简要的定义以期能够用大众的、简单的语言来理解等值与连接中更多的细节。以下所有术语和程序都会在系列中的另一篇文章里作详细的论述。这里所收录的术语并没有网罗全部主要集中于等值中所有最基础、最重要的术语和概念。

1.锚题、共同题、连接题anchor items/common items/linking items。这三个术语经常替换使用在本系列论文中将通称锚题。所谓锚题是指在两份或两份以上的试卷中出现的一组相同的题目。这些题目会像锚”一样起到稳定等值所需的测量量表的作用。这些在两份及以上的试卷中通用的题目还能够把不同的试卷连接到同一个量表上。

锚题的特征。锚题需要在内容和形式上与整个测试保持相近还需要在题目顺序上与待等值的考卷相似。

增补锚题与嵌入锚题appended and embedded anchor items。出现在试卷末端的锚题是增补锚题出现在试卷中不同位置的锚题是嵌入锚题。在等值中嵌入锚题会比增补锚题发挥更大的作用。

锚题等值法。当使用锚题等值法时等值方法包括等值常数法the application of an equating constant、固定校准法 the fixed calibration method、同步校准法the concurrent calibration method、测试特征曲线法the test characteristic curve method等。

2.随机等值群random equivalent groups。这种随机选择学生参加不同考试的方法是一种很有价值的抽样方法。把从中得到的数据当做是同一个学生参加不同测试的情况因而可以支持多种等值方法。

3.螺旋测试形式spiraling test forms。所谓螺旋是指在一个学生群体一个班或一所学校内发放多种试卷形式。当不同的试卷例如试卷ABCD在同一个被测群体中随机发放时往往就会出现螺旋。通常的做法是把不同的试卷按照比如ABCDABCDABCD这样的顺序放好然后按顺序分发拿到不同试卷的组群可以看做是随机等值组。

4.矩阵抽样matrix sampling。将题库中的题目分成不同的题组再将它们分发给学生作答。不同的题组由不同的学生完成这样每个人都不需要做完所有的题目同时所有的题目都由足够多的学生做过了。这样的结果能够支持经典测量理论和项目反应理论的分析也能够用于等值之中。

5.题库item bank。通常来说题库指的是一组仔细归纳起来的试题其中包括题目文字表述、阅读文段、图表、特别的题目属性、答案以及从题目的预测和正式施测中得到的统计信息。在一个安全的题库中只有命题人在命题时才能接触到其中的题目。也可以将一组题目或题库应用于平时测试、基准测验或者形成性评价。在等值的语境下题库中的题目会以某种等值或连接的形式放置到一个通用的量表上。

6.预测field testing。预测是指用对学生进行不计分测试的方式检查试题的整体质量并获得IRT题目参数的估计值。预测常用来开发原始题库和试用版的试卷。IRT值是否有用、建立在预测基础上的等值是否有效这些都取决于预测和正式考试之间的相似度有多少。

7.多试卷版本、通用锚题multiple forms common anchors。多试卷版本通常和一套通用的锚题一起使用。例如如果需要等值的是试卷ABCD那么这四套题需要采用同一套锚题。

8.试卷间等值form-to-form equating。这种等值的方法就是将一系列试卷以两两结对的方式等值起来。例如试卷A和试卷B可以由一套共用的锚题等值起来试卷B和试卷C又可以由另一套共用的锚题等值起来试卷C和试卷D也同理进行下去。理论上说通过这种方法可以将所有的试卷都统一到一个测量量表上来。有时候它也被称做将所有的试卷串联”起来。

9.横向等值horizontal equating。在大规模测试项目中最普遍的需求就是在较长的时间里保持每个年级量表和行为评定标准的稳定。在同一年级或年龄阶段内的测试间进行的等值就是横向等值横向等值是一种试卷间等值。

10.纵向量表化vertical scaling。纵向量表化是一个建立题库或者一系列试卷使用等值程序建立跨年级或年龄的测试量表的过程。虽然它有时也称为纵向等值但是在严格的等值定义下例如应用环境和测试构念等值),它还达不到这样的要求。然而如果把它看做不同年级测试之间的连接则比较合适Patz 20076

11.预先等值pre-equating。预先等值是指利用提前确定的题目参数值从题库中的题目里组建construct新的试卷的过程。新的试卷需要在IRT难度、内容、形式等方面符合测试规范的要求。在使用新试卷前需要建立一张成绩对照表格这张表格是基于现有的IRT题库值显示量表的成绩和新试卷原始成绩的对应关系。

12.事后等值post-equating。事后等值顾名思义就是在学生参加测试之后对得到的成绩进行等值。事后等值最好取参加测试的全体考生的成绩进行不过如果出成绩的时间要求比较紧也可以选择一个早期回收”(early return的样本但应选择一些有代表性的考生成绩进行。在时间和资源允许的情况下我们强烈推荐使用事后等值而非预先等值。

13.试题参数偏离item parameter drift。当新试卷用到题库里或者别的试卷的试题时通常会使用题目难度、区分度和猜测参数后面将作介绍IRT参数估值前提是这些参数保持稳定不变。然而在某些情况下IRT参数值会发生变化或者偏离其题库值而使用IRT方法时任何大的试题参数发生偏离都可能损害等值。试题参数偏离通常是在这种情况下发生的题目已经使用了多次因而对目标考生群已经不陌生。

14.等值误差equating error。等值操作中的每一个步骤都会有来源不同的误差变量。除了试题参数偏离之外还有试题本身的测量误差、样本误差、参数估算误差以及应用等值过程中产生的误差变量等。造成等值误差的变量来源很难确定而且它们之间的关系是相互叠加而非相互消除的。以上是对笔者选出的若干重点术语、概念所作的简要介绍在随后的文章中我们还会再次重点讨论。笔者将会通过更多的细节解释以上提到的术语、概念也会继续介绍一些、解释一些新的术语和概念。有关连接与等值的细节问题的讨论可以参看KolenBrennan2004),HollandDorans2006),以及DoransPommerichHolland2007等相关文献。

#p#副标题#e#

三、经典测量理论和项目反应理论的基本概念

从技术角度看适当的等值和连接程序都是建立在经典测量理论CTT和项目反应理论IRT基础上的。鉴于它们是所有等值程序的基础笔者将在接下来的行文中简要介绍这两种测量学经典。在所有大规模测试项目中CTT都具有非常重要的地位即使大部分的测试主要是在IRT方法的基础上建立的。本文会在非常基础的层面上介绍CTTIRT中最主要的元素因此感兴趣的读者可以参考CrockerAlgina 1986 Hambleton SwaminathanRogers1991),以及YenFitzpatrick2006的论著以了解更深层的讨论。受过教育测量方面训练、特别是技术方面训练的读者应该会对这些概念感到很熟悉因此您可以选择略过以下的章节。

经典测量理论的基础概念

CTT指的是一系列植根于20世纪早期的统计测量方法中的知识。与IRT形成鲜明对比的是早期的CTT方法的重心在于观测分数。CTT的基础模型认为观测分数是由两部分组成的真分数即在完美的测量条件下个体应得到的成绩和误差即题目或者测试中可能出现的不足、具体试题中的特质、学生水平发挥的差别或者其他真实成绩模型没有考虑到的因素

基础的CTT模型是这样的学生在测试中的观测分数是由假设的无错误真分数加上若干随机误差组成的Crocker& Algina107。这个基础模型可以用下面这个等式表达

Observed score= True score + Error

其中O代表观测分数T代表真分数E代表随机误差。关于这个模型中误差这一部分学者提出了一些假设即误差是随机的与真分数没有关系相互之间也不关联。

真分数模型及其假设直接导致信度的计算。信度是真分数方差与误差方差的比值。信度是衡量测量质量的一个重要指标。信度是成绩一致性的一个指标。经典方法把信度分成了三类跨时间一致性consistency over time也叫测试——再测试test-retest),跨试题信度consistency over test forms也叫交替测试信度alternate form reliability和试题内信度consistency within form也叫内在一致信度internal consistency reliability。除了信度之外CTT还非常强调效度的概念。CTT的效度概念运用于测试本身也分成三类内容效度、效标关联效度criterion related和构念效度。

在对测试题目进行分析时 CTT关注三个统计属性或者说题目特征:(1难度即正确回答一道题目的考生比例;(2区分度即题目难度在高水平样本和低水平样本之间的区别;(3错误选项分析item distractor analysis),即分析在选择题中选择单个错误答案的考生比例。在选择题目组成需要等值的平行试卷时这三个属性是非常关键的。

经典测量理论和经典试题统计有许多优点其中之一就是其计算程序非常简单易懂。此外CTT方法已经在教育测量领域使用了数十年了富有经验的测量专家和心理测量专家都对CTT很熟悉也很了解其本质。CTT曾一度是测试和考生分析的标准测量范例而且至今在试题命制、题目分析甚至在以IRT为主的环境下仍得到非常广泛地应用。经典测量理论是为了支持对测试进行常模参照解读而建立的。当时几乎所有的测试都以对学生进行分层、按成绩反映他们相对的成就等级为目的。在这一目标下CTT对于支持和引导试题的命制和使用发挥了非常重要的作用。

CTT天生就带有一个重大的不足它会在试题特征和考生特征之间建立起一种不可分离的相互依赖关系而二者都建立在具体的测试题目和考生样本的基础上。经典统计或许能够体现一名学生的整体成绩但也仅仅是就那一项测试的成绩而言。同样有关试题的统计也只在特定的一群考生中才有效。举个例子假如有一名学生在50道题中答对了48就此信息这名学生的正确率达到了96% 判断我们可以说该测试对于这名学生来说很简单或者说该生将这项测试的内容学得很好。Hambleton等人1991这样说明了CTT的不足

考生的能力是由某项具体测试来定义的。当测试很他就会显得能力较低当测试较容易他又会显得能力较高。那么我们说的又是什么意思呢?一道题目的难度的定义是同类考生中答题正确的比例。试题的难易取决于受试学生的水平而考生的水平高低则反过来又由试题的难易决定。HambletonSwaminathan&Rogers 19912~3

CTT相关的群体水平依赖性group-level dependencies也会对命题人产生很重要的影响因为如果未来要参加测试的学生和目前的考生很不相同命制试题对他们来说就很具有挑战性

很难把参加不同测试的考生放到一起对比也很难对考生群体不同的测试进行对比。并不是说这种对比是不可能的测量专家已经在实践中设计出了处理这种问题的程序但是概念性的问题依然存在Hambleton3

#p#副标题#e#

项目反应理论的基本概念

项目反应理论IRT是指一系列基于考生的题目反应来分析测试题目并为考生制定量表的技术程序。IRT考虑的是考生所做的题目的特点以及他们对此作出的反应并由其评价学生的能力。IRT能力测评要考虑学生的原始成绩但是也会体现学生作答的题目的特点。例如在使用IRT方法时一名在20道较难的测试中做对了8道的考生他所获得的能力评价就有可能比另一名在较简单的测试中答对了12道的考生高。

IRTCTT做比较有助于我们理解IRT的基础假设。在之前的论述中笔者强调了CTT样本依赖sample-dependent的本质是其一个严重的不足。相比之下IRT是建立在题目层面的统计与测量理论并不依赖于一个特定的群体。更为重要的是IRT分析中人和试题可以放在同一个量表上进行衡量而且他们彼此之间相互独立。有时候人们也把IRT称为现代测量理论以区别于经典测量理论。

1.基础IRT模型

所有IRT模型都描述了考生做对一道题目的概率此概率是由其与测试目的相关的个人能力决定的。根据不同的IRT模型一道题目最多体现出三种特征或者说参数。所有的IRT模型都假设认为对于考生和试题的衡量都建立在其单维度的特质上而且测试题目都是相互独立的。每个常见的IRT模型都会对等值的过程和主要等值决策带来不同的影响。目前最常用的三种IRT模型是

·单参数Logistic模型有时简称1PL或者Rasch模型”)

·双参数Logistic模型有时简称2PL”)

·三参数Logistic模型有时简称3PL”)

由于单参数模型简单易见地体现了IRT方法共通的一些特性笔者将以其为例简要介绍IRT模型主要的基本特征。Georg Rasch1980最先提出了这一基础模型因此单参数模型经常也被称做Rasch模型。

单参数模型的得名是因为它仅从难度这一个方面厘定测试题目的特点。当使用这一模型时衡量相关能力的原始分数可能从0100全对都有分布。得到相同分数的学生就说明他们的能力相同此时并不考虑他们答对的是哪几道题。图3所示的就是一个理想的单参数测量情境。笔者稍后还会用这类图形来说明一种常见的等值方法。在这个图表中试题1代表简单试题试题2代表中等难度的试题试题3则代表较难的试题。

学生1的能力较差学生2能力在中等水平学生3和学生4的能力分别为较强和极强。在单维性的假设条件下像学生4这样能力最强的学生答对试题3的概率就要大于学生2学生2有可能答不对试题3。同样虽然学生123都可能答不对试题3但是其中学生1出错的可能性最大。最后我们无法推论学生2能否正确回答试题2因为试题2和学生2在量表上处于同一个位置也就是说学生2答对题目的概率是0.5即答对答错的可能性各占一半。

3说明的是单参数模型的情况也就是仅仅考虑试题难度这一个特征时的情况。与之不同的是双参数模型会考虑难度和区分度三参数模型则会考虑难度、区分度和猜测。笔者稍后还会继续讨论这些模型。

IRT模型中的题目特征曲线

IRT分析中非常重要的一个图表就是所谓题目特征曲线item characteristic curve简称ICC。在图4中所展示的即是在单参数模型条件下假想的两条题目特征曲线。

在图4纵轴表示的是学生答题正确的概率01横轴体现的是考生的能力水平按照logit测量轴划定原点为0。这两条曲线体现的是随着考生能力的提高他们答题的正确率也随之上升。

在图4中确定一道题目的难度的方法就是在ICC曲线上找到对应纵轴即正确答题的概率0. 5的点然后再将这个点垂直投射到横轴上找到相应的位置。例如图4中曲线1所代表的试题1curve1曲线1的难度为0试题2curve2曲线2的难度为1。说明试题2比试题1要难。也就是说要想在做试题2时达到0. 5的正确率考生的能力需要达到横轴上1的位置。

 

 4中的曲线和由之产生的概率结论体现了单参数IRT模型的关键。在这个模型中只有题目难度这一个试题特征或者叫参数影响学生正确作答的概率。然而在某些情况下测试成绩并不遵从单参数模型。在这种情况下很多心理测量专家就会建议使用双参数或者三参数模型来解释这些成绩。

双参数模型使用了试题的两个参量难度和区分度。这时试题的区分度就是ICC上正确率为0.5时曲线的斜率。当考生能力即图4和图5中的X的提高程度不变而题目的区分度越高时考生正确作答的概率体现在图4和图5中的Y轴上也会提高的更快。在大多数的实际情况中有数据显示有一些试题在区分较高能力和较低能力的考生时的效果更加明显。如图4中两条ICC曲线说明两道题目的区分度是一样的而在图5中的三条曲线则分别表示了三道区分度不同的题目。试题1的区分度最低试题3区分度最高而试题2的区分度则介乎于两者之间。

在图4ICC的例子中随着学生能力的不断降低正确作答的概率越来越接近于0。然而在真实情境下能力水平较低的学生也许会碰巧或者通过利用部分信息猜出正确的答案。三参数模型就在双参数模型的难度和区分度之外又加入了一个调整ICC曲线低端的第三参量——可能的猜测guessing。图5中显示试题3ICC曲线对低端进行调整就考虑了学生答题中的瞎蒙”这一行为。

测试特征曲线

测试特征曲线Test Characteristic Curve简称TCCIRT中使用的一种非常重要的视觉表达手段对最有用的等值方法之一意义重大。对所有的IRT模型来说TCC就是测试中所有ICC的总和。TCC反映的是一项测试的期望原始成绩纵轴所示和以logit测量轴形式表现的IRT能力横轴所示之间的关系。图6展示了两条TCC曲线它们表示了期望原始分数会随着IRT能力水平的提高而单调递增。在图6IRT能力值为1试卷B的期望分数比试卷A的分数要高这说明试卷B比试卷A要简单。换而言之当横轴IRT能力水平上同一个值在试卷B的曲线上所对应的纵轴原始成绩值大于试卷A就可以说试卷B比试卷A简单。

 

#p#副标题#e#

2. IRT模型中的参数不变性和量表不定性

IRT程序的一个重要特点就是所谓参数不变性”(parameter invarianceIRT的参数不变性假设认为学生的能力和试题的特征难度、区分度、猜测都是稳定的、一致的即使在同一个人群里选择不同的样本也不会发生变化。

参数不变性parameter invarianceIRT的一个属性其在现实中或多或少也是真实的。当然试题的参数值仍然会出现变化这可能由多种原因引起。例如试题的参数值可能由于题目措辞或形式的细微变化而发生改变。此外题目的位置变化、该题之前的题目顺序的改变、更多的集中提示等等这些因素还有很多可能不好发现都可能造成参数值的一些变化。通过对模型拟合的检验可以判定一组特定数据是否符合参数不变性的要求。

对于所有利用IRT模型进行等值的测试来说其参数不变性的特征非常关键。它使得量表可以经由某个固定的原点以及稳定的考生和试题参数值建立。在这些值已知的前提下后续的测试可以借由量表上的试题进行连接或等值。当对考生进行测量时也就意味着只要量表确定了无论采取哪一组试题学生能力参数都不再变化。

量表不定性scale indeterminacy是指IRT分析要求赋予参数一个固定的初始值Hambleton Swaminathan Rogers 1991。这个IRT量表固定的初始值可以是在量表上的任何一个有用的位置。实际操作中如果用单参数模型通常把中等难度的题目放在量表正中间如果用三参数模型通常把平均能力的学生放在量表正中间。量表也可以固定在某一方便的位置比如代表熟练水平的一点上。固定量表位置既解决了量表不定性同时又定义了可以推算稳定或者不变估算的量表。从任何量表转化到另一个量表是相对比较简单的通常的方法是乘以或加上一些常数以改变方差和平均值或者原点。在IRT分析中固定一些数值以解决量表不定性是非常关键的特别是对一些以IRT为主的等值步骤。

3.数值、量表、量表化

在经典测量理论和项目反应理论中一个重要问题就是采用什么数值或者量表来报告考试结果。最直接的量表也是大家都很熟悉的即原始分数量表简单讲就是测试中的成绩。同样大家也很熟悉的另一种就是把原始分数重新量化成百分比即百分比量表。

原始分数量表和百分比量表都有很多局限其中最主要的问题就是它们都依赖试卷中某个特定系列的题目并且容易引起不合适或者不准确的比较。用原始分数或者简单重新量表化的原始分数来判断学生的知识和能力可能导致错误的结论。

像前面文章里所述的IRT分析和IRT量表在推断学生们的知识能力以及哪些题目较难或者较容易是非常有用的。例如 IRT软件在数学量表上使用logit这个单位进行计算,“logit量表在数学运算上很方便但也有一些缺点。首先目前很少有人在使用此外没有IRT参数的固定自然原点或者0。因此只有固定初始参数值才能改正这种不确定性。

一旦用固定量表数值来解决IRT的不确定性就可以预测题目参数和考生的logit值。但是这些结果仍然在logistic量表上而这种量表大多数教育工作者并不熟悉。最后一步量表可以很方便地转化为任何想要的报告量表可以根据需要选择报告量表的平均值、标准差和范围参阅CrockerAlgina1986,“转化成绩的步骤一览”)

4.常见的IRT应用

在为新的试卷挑选题目时基于IRT的计算能够提供很多详细的、题目相关的信息这些都是非常有用的。如前文所述 IRT能够让命题人分析、解读学生和试题的特征且不依赖于试题或群组的选择。与经典测量理论相比其可以让命题人对考生可能的反应作出更好的预测。

IRT常被用来

提供可同时确定考生和试题在量表上位置的测量量表

可以将参加不同测试的考生定位在同一张量表上

有助于对试题质量、学生反应效度做出细致的检查。

最常见的IRT应用有

评价、审查试题和试卷

建立题库

对试卷进行连接或等值

根据题库建立等值试卷

制定内容参照型学生水平标准

提供内容参照型成绩解读

对试题的项目功能差异意即对于不同组群的学生体现出来的成绩偏差进行调查

支持计算机适应性测试。

IRT在以下领域具有较大的灵活性

设计不同的平行试卷

实施很适合学生水平的测试使得能力较低的学生不会负荷过重而能力较高的学生不会感觉太枯燥无聊

建立能力等级跨度范围更大的相关测试可能跨两个或者更多年级);

在试卷里插入或嵌入用于预测的新题因而新题可以获得具有可比性的题目参数最终用来组成新试卷

需要特别注意的是上述说明和解释都非常概念化对于CTTIRT的简介也只包括其中最基本的概念还有许多其他问题尚未涉及建议想更深理解经典和现代测量理论的基础和技术的读者参阅文中提供的参考文献。

#p#副标题#e#

感谢

笔者以《一名业界人士对等值与连接的介绍及经典测验理论和项目反应理论入门》A Practitioner’s Introduction to Equating with Primers on Classical Test Theory and Item Response TheoryRyan&Brockmann2009一书和在美国教育测量协会National Council on Measurement in Education简称NCME年度网络研讨会上的同名报告科罗拉多州丹佛 2010为基础撰写了本系列论文。文中所使用的全部材料都得到了美国华盛顿特区的州重点学校管理者委员会Council of Chief State School Officers简称CCSSO的许可,CCSSO对这些材料保有权利并将在《考试研究》刊发这几篇论文之后刊载其英文版本。

在此笔者想向美国华盛顿特区的州重点学校管理者委员会CCSSO给予本系列论文的慷慨支持表示感谢这三篇论文正是建立在这种支持的基础上的。特别要感谢道格·兰多恩Doug Rindone和邓肯·麦奎利Duncan MacQuarrie),因为他们在推进华盛顿特区大规模评价的技术问题”(CCSSO Technical Issues in Large Scale AssessmentTILSA这个项目中发挥了重要的作用。笔者还要特别向弗兰克·布罗克曼Frank Brockmann),即《一名业界人士对等值与连接的介绍及经典测验理论和项目反应理论入门》一书的联合作者表示感谢他细心地为本文做了审阅而且文中所有数据和图表都是他准备的。莎伦·奥斯本·波普Sharon Osborn Popp和戴维·沙耶尔David Chayer博士也对本文做了细致的审阅并提出了许多宝贵的意见在此一并致以谢意。

#p#副标题#e#

参考文献

[1]AERAAPA&NCMEStandards for educational and psychological testingWashingtonD.C. Author1999.

[2]AndersonL.& Krathwohl D.Eds.),A taxonomy for learningteachingand assessing A revision of Bloom’s taxonomy of educational objectives[Complete Edition] New YorkLongman Publishing Group2000.

[3]Bloom B. S. Taxonomy of educational objectivesNew YorkNYLongmansGreen& Co1956.

[4]CrockerL.& AlginaJ.Introduction to classical and modern test theoryBelmontCAWadsworth Group1986.

[5]DoransN. J.PommerichM.& Holland P.W. Linking and aligning scores and scalesStatistics for social and behavioral sciencesNew York Springer2007.

[6 ]Hambleton R. Swaminathan H. & Rogers H.Fundamentals of item response theoryNewberry ParkCA Sage1991.

[7]Holland P.& DoransN. Linking and equating In Brennan R. L. Ed),Educational Measurement4thed.WestportCT Praeger Publishers2006187-220.

[8 ] KolenM. J.& Brennan R. L.Test equatingscalingand linkingMethods and practices,(2nd ed.), New YorkNYSpringer2004.

[9]LinnR.Validation of uses and interpretations of state assessmentsWashington DC Council of Chief State School Officers2008.

[10]Marzano R. J. & Kendall J. S.A new taxonomy of educational objectives2nded.), Thousand OaksCACorwin Press2007.

[11]Mills C. N. Potenza M. T. Fremer J. J. and WardW. C.Computer-based testing Building the foundation for future assessmentsMahwah NJ Lawrence Earlbaum Associates 2002.

[12 ] Mislevy R. J.Linking educational assessments Concepts issues methods and prospectsPrinceton NJ Educational Testing Service 1992.

[13 ] Patz R. J.Vertical scaling in standards-based educational assessment and accountability systemsWashingtonDCCouncil of Chief State School Officers 2007.

[14]Rasch G.Probabilistic models for some intelligence and attainment testsChicago University of Chicago Press1980.

[ 15 ] Ryan J. & Brockmann F.A practitioner s introduction to equating with primers on classical test theory and item response theoryWashington DC Council of Chief State School Officers 2009.

[16]Sireci S. Packing and unpacking sources of validity evidenceHistory repeats itself again In R.W. Lissitz Ed.), The concept of validity Revisions new directions and applicationsCharlotte NC Information Age Publishing 200919-37.

[17]WebbNorman L.Criteria for alignment of expectations and assessments in mathematics and science educationNational Institute for Science EducationUniversity of Wisconsin-MadisonWashingtonDC the Council of Chief State School Officers1997.

[18]YenW. N. and Fitzpatrick A. R. Item response theory In Brennan R. L. Ed),Educational Measurement4th ed.WestportCT Praeger Publishers2006111-153.


(责任编辑:王翔)


声明:文章版权归原作者所有,本文摘编仅作学习交流,非商业用途,所有文章都会注明来源,如有异议,请联系我们快速处理或删除,谢谢支持。


(原文章信息:标题:,作者:约瑟夫•M•瑞安,来源:考试研究 2011.1   &,来源地址:)

上一篇: 基于标准的考试命题技术(一)

下一篇: 基于标准的考试命题技术(二)

专题

-----主办-----

河南省乡村振兴协会

-----承办-----

河南省乡村振兴协会产业与信息化专业委员会

河南金农达供应链管理有限公司

河南全息农业科技有限公司 

-----协办-----

全息数字科技