国家教育进展评估的效度研究-新联合

[]作为一项得到广泛认可的教育绩效指标，国家教育进展评估(NAEP)是美国数十年来用于跟踪和了解教育进展的重要工具，也是全美初等教育与中等教育状况的晴雨表。它是美国当前唯一一项定期对小学、初中和高中学生的教育成就进行的全国性调查，在新测试技术的发展过程中发挥着重要的作用。本文对NAEP的发展历史进行综述和总结，同时对当前NAEP所面临的效度问题，如跨年级(纵向)量表以及在分数报告中使用表现水平的做法等进行评论。

[]美国国家教育进展评估(NAEP)；发展历史；抽样；量表；表现水平

[]G40—058.1[] A

[]1673-1654(2012)02-066-011

美国国家教育进展评估(NAEP)是一种得到广泛认可的教育绩效指标(Becton and Zwick,1992)。借助其量表可以将评估结果进行全国性的比较，并为公众提供有关教育发展历时变化的信息“事实已经证明，在跟踪和了解美国教育进展上NAEP是一种很有价值的土具。它建立于1969年，是美国唯一定期对小学、初中和高中学生的教育成就进行的全国性调查。设计NAEP是为了建立一项教育指标，并使其成为全美初等教育与中等教育状况的晴雨表。NAEP仅仅提供团体数据，不提供学生的个人成绩。”(美国国会技术评价处，U.S.Congress,OTA,1992)

1.早期NAEP(20世纪60年代-1983)

Jones (1996)曾概述了NAEP的发展历程，之后又与Olkin (2004)合作对该评估40年的发展历史进行了长篇总结。NAEP最早设计于20世纪60年代，70年代开始启用。早期的NAEP与现今的NAEP在许多方面都存在很大差异。而两者的共同点是均采用全国抽样，并在科学、数学和阅读评估中使用精心设计的多项选择题和建构反应题，这些题目又被称为“练习(exercises)”。但早期的评估没有使用量表、分数或者表现水平等，而是通常以人口统计学的几个主要变量作为分组依据，报告何一个题目的作答情况，标出正确作答的人数的百分比，或是选择何一个选项的人数的百分比。全国抽样是以年龄为依据的，目的是取得全国范围内9岁、13岁和17岁学生的样木，有时一候会将取样范围扩大到全体适龄年轻人以进行比较。但由于经费问题，早期的NAEP对非在校就读群体的取样从未能完全达到预期目标。

NAEP在建立初期并没有得到广泛的应用。20世纪80年代初，为了给教育政策制定者提供更多的有效信息，改革NAEP的呼声日益高涨。在经过激烈的提案竞争后，ETS取代美国联邦教育委员会(The Educational Commission of the States)成为该评估的主要承办者。ETS提出要以一种所谓的“新设计”(The New Design)为依托改造NAEP。这种新设计的NAEP在20世纪80年代中期和末期开始使用。

2.“新设计”时期的NAEP(1983-)

ETS提议并采用的NAEP新设计有着一系列的特点，它使NAEP与教育政策的关联性更大。最为明显的是，新设计把抽样的依据从年龄(9岁、13岁、17岁)改为年级(4年级、8年级和12年级)。测试的总分通过一个满分为500分的量表进行报告。在进行评估的年份，通过这个量表报告每一个抽样群组的平均分数和各分位点(quantiles)，并与以前的评估结果进行对比。

为了实现这些明显的变化，NAEP进行了许多技术调整。调整之一是使用不完全平衡组(Balanced Incomplete Block，BIB)设计来进行题目管理。这一做法在很大程度上催生了“国家教育进展评估机制”(NAEP Machinery)。这种方式既限定了每一个学生需作答的题目数量，同时又保证了测试所包含的大量题目覆盖了相应测试科目的全部领域。

上述设计要求计算使用不同试题组的学生的成绩。由于不同题组的难度不同，NAEP使用了项目反应理论来进行必要的修正。然而，就项目反应理论而言，评估中使用的题组仍然太短，仅仅依靠题目反应数据很难进行有效的估值。所以，又在标准项目反应理论中加入了一个系统。这个系统以学生背景变量和人口学变量为依据，对实测结果进行统计学调整“推断测试值”(plausible values)，也称多重随机插补值(multiple random imputations)即被用于计算评估报告中的汇总统计。

ETS最初的“新设计”采用“行为锚定量表分”(behaviorally anchored scale points)作为分数解释的工具，其量表类似150，200，250.....但实际上，很少有人真正了解"500分量表”的含义，毕竟没有一个考试里包含了500个题目。“500分量表”实际上是项目反应理论量表的线性转换。后来，随着国家评估管理委员会(the National Achievement Governing Board)开始使用表现水平(Achievement levels)方法，“行为锚定量表分”被停止使用。尽管如此，早期“新设计”中的其他要素依然存在于当前的NAEP中。

3.国家评估管理员会(NAGB)时期的NAEP(1988-)

1986年，研究NAEP的亚历山大·詹姆斯研究小组(Alexander James Study Group)建议成立国家评估管理委员会(NAGB)，并通过该委员会对NAEP进行监督。同时，该研究小组还建议进行州一级的教育进展评估，以将不同州的成绩进行比较。随后，国家评估管理委员会成立。成立初期，国家评估管理委员会即在美国国会指导下，创建了“试验性州级评估(Trial State Assessment，TSA)”或称为“州级国家教育进展评估”(State NAEP)。使用“试验性”这个词是因为授权法案建议这一评估应为“试验”或“实验”性质。但目前“试验性州级评估”已经成为NAEP“永久的”和“基础的”组成部分。

同时，国家评估管理委员会将“表现水平”的概念引入NAEP。通过一个分数划界程序，将NAEP量表划分为四个水平，即精通水平、熟练水平、基础水平和基础水平之下。由此，NAEP结果报告采用的基本模式是报告达到每一水平的学生的百分比。但是这种做法引起了一些争议，这将在后面详细论述。

随着州一级NAEP取得政治上的成功，近期新出现的“试验性城市区划评估”(Trial Urban Distract Assessments，TUDAs)受到了很多评估管理机构的欢迎。多个美国较大城区的国家教育评估管理部门加入此项目。该评估为这些城区提供相应的评估结果。目前参与该计划的共有21个城区。

4.当代的NAEP

当前，NAEP是一项大型事业，涉及很多的参与者和利益相关者。美国国会批准并实际上制定评估计划表(含预算)。国家评估管理委员会制定政策，并负责研发和批准评估框架。国家教育统计中心(The National Center for Education Statistics，NCES)是负责实施和报告评估结果的政府机构，但它主要通过雇佣承办方来完成此项工。从1983年开始，ETS即成为研发、评分和数据分析的主要承办者。Westat是ETS的合作方，负责该评估项目的样本设计和实地施测。ACT是国家评估管理委员会有关标准设定土作的主要承担者。其他机构，如美国研究协会(AIR)和HumROO等，也参与了令家委员会的组建和评估等土作。

1.依据年龄抽样(目前用十“长期趋势评估”中)

为了获得美国年轻人在基本学业成就方面的变化信息，NAEP开发了长期趋势评估(Long Term Trend)。它被用于监测40年前设定的趋势线(trend lines)的走向。在过去几十年中，长期趋势评估曾定期报告9岁、13岁和17岁学生的数学、阅读和科学成绩及4年级、8年级和11年级学生的写作成绩。

1999年，由于技术原因NAEP停止了写作评估。2004年，国家评估管理委员会考虑到科学领域的最新进展和内容变化，认为科学评估需要调整，因而又停止了科学学科的长期趋势评估。

但是NAEP仍然继续对阅读和数学进行长期趋势评估，并保留了“旧”评估的试题形式以及依据年龄抽样的做法。NAEP在采用“新设计”之初，长期趋势评估也使用了与NAEP主评估相似的项目反应理论量表。而早期的数据则通过一种非项目反应理论程序进行连接。

2004年，为了恢复长期趋势评估的活力，NAEP进行了以下改变。包括：

·取消科学和写作题目；

·接受残疾学生和英语学习者参加评估；

·取消内容过时的题目；

·开发独立的问卷；

·在多项选择题中去掉“我不知道”这个选项；

·使用与某一学科领域相关的评估手册；

由于评估设计以及具体的操作程序发生了变化，NAEP还进行了一项特别的过渡性研究，来评估这种变化会对评估结果产生怎样的影响。

2.以年级为基础的抽样

采用新设计的NAEP将原来对9岁、13岁和17岁学生的评估改为对4年级、8年级和12年级学生进行评估。对于教育政策的制定者来说，与年级相关的评估结果更便于对学校的绩效进行推断。但是，由于难以获得学生在作答时更为积极的动机水平，12年级的评估在过去几十年里一直面临困难。因此，NAEP的重点主要是在4年级和8年级。

3.全国教育进展评估(National NAEP)，试验性州级评估(Trial State Assessment，TSA)，试验性城市区划评估(TUDA)

在NAEP实行早期，教育者担心受到州级评估结果的影响，政府官员也一直在抵制州级评估。直到20世纪80年代末，人们才逐渐意识到州级评估的政治作用。1988年，国会授权NAEP进行“试验性州级评估”(TSA)。1990年“试验性州级评估”正式启动。2001年《一个孩子也不能落后》(NO Child Left Behind)法案通过后，州级评估已成为该法案不可或缺的组成部分。

4.“全样本”(Full)或“扩大样本”(Expanded)估值

由于NAEP的评估结果越来越多地被用来进行比较(历时比较、不同行政辖区间的比较等)，公众开始担心，评估结果之间的差异并非完全是由学生的学业成就差异所造成的，而是还受到了抽样误差的影响(即不同评估年度间或不同行政辖区间未被抽取到参加评估的群体不同)。由此，NAEP提出了全样本和扩大样本进行估计的方法，试图依据学生的背景数据以及学校数据等来虚拟未参加测试的学生的得分，从而修正差异。但是这种结果很难在“官方”报告中得以体现，至少到目前为止还未进入“官方”报告。(Karr，2009)

2004年，国家评估管理委员会采用了一种新的阅读测试框架，并于2009年正式使用。这是现代NAEP首次在阅读或数学测试中采用全新的测试框架和题目。数学评估的趋势线可追溯到1990年(四年级和八年级)，而阅读评估当前的趋势线可追溯至1992年。

国家评估管理委员会采用的新阅读测试框架与当时使用的框架存在许多明显的差异。国家评估管理委员会对NAEP 2009年阅读测试框架进行了说明。同时，国家教育统计中心在线(National Center for Education Statistics，2011)提供了新旧两个框架的对比。

国家评估管理委员会在设计新的测试框架时，曾计划在2009年的阅读评估中启用一种新的趋势线。测试框架文件中指出:

“与1992年以来一直使用的框架相比，2009年NAEP阅读测试框架有重大改变……由于这些改变，1992年以来的评估趋势线将被打破。2009年NAEP阅读测试框架实施后，将会有新的趋势线反应学生在阅读方面的表现”

很多人担心，如果一种具有新性能的评估被强加在旧的(跨年级)量表上，会导致心理测量的不良结果，同时一也会造成趋势变化数据的“丢失”。

从2004年到2010年，几个相关的委员会认真研究了上述问题，但多数研究结果并未公布。2009年，国家教育统计中心进行了“过渡研究”，并就这一问题作出简要说明。在2009年进行的阅读趋势研究中，学生被安排随机使用旧的测试框架(2007)和新的测试框架(2009)，或是“混合版”的测试框架，即糅合新、旧两种测试框架而成。通过2009年进行的新、旧两种评估以及两种框架的混合版评估，研究者根据实证数据来判断新、旧两种测试框架的关系。如果分析结果表明新、旧两种测试框架是相似的，就可以将2009年的评估结果与之前的结果直接进行对比。

总体说来，专门分析的结果表明，在题目和量表特性以及根据人口学分类的学生群组等方面，新、旧评估有相似之处。此外，可以将2009年阅读评估的结果与之前的结果进行比较，从而保留1992年确立的趋势线。2009年的评估结果报告是基于当年评估中使用的所有题目，阅读评估的量表由参加旧框架、新框架以及“混合版”框架评估的学生的成绩决定。

现行NAEP的实施与结果报告是一项非常复杂的工作，需要一系列的程序来支持。通常这些程序被整体称为“NAEP机制”(NAEP Machinery)。NAEP的实施与结果报告过程非常特殊，因为该评估不提供应试者-个体的分数，而是把一个复杂的抽样设计与项目反应理论的模型、方法相结合，最终生成反映学生总体熟练程度的各种统计量，如平均值、不同的分位点以及达到表现水平量表上不同程度的群体的百分比。教育统计学杂志(Journal of Educational Statistics，1992)曾专门做了一期特刊介绍NAEP。文章内容包括NAEP的综述(Becton and Zwick，1992)，NAEP的抽样(Rust and Johnson，1992)，项目反应理论量表化与连接(Mislevy，Johnson，and Muraki，1992；Yamamoto and Mazzeo，1992)，总体推论与变量(Johnson and Rust，1992)及其他相关文章。

NAEP是一项全国范围内的调查，评估的抽样方式设计至关重要。20世纪八九十年代，“国家级的NAEP”与“试验性州级评估”完全分离。全国的抽样计划分为三个阶段:第一阶段是根据地理位置选择初级抽样单位(primary sampling units，PSUs)，第二个阶段是在PSUs内选择学校，第三个阶段是在选定的学校中选择学生。近年来，NAEP通过合并州级抽样的结果来进行国家级评估的抽样。在州级评估中，抽样工作只有两个阶段:第一个阶段是选择学校，第二个阶段就是在学校中进行学生抽样。在计算NAEP结果的统计数据时，抽样权重被用来解释由于抽样不同而产生的不同概率，并调节未参加评估的学校和学生对评估结果产生的影响(Rust and Johnson，1992)。

项目反应理论模型被用来估计组均值、方差和分数报告的各分位点。同时，利用不完全平衡组设计(BIB)进行题目管理，每个学生只需要作答一个不完全平衡组里的一部分试题。尽管评估中使用的是单维IRT模型，某些评估还是使用了多个量表。例如，数学评估就使用了五个量表。多年来，考试管理中在连接不同层次NAEP量表时，都是使用相同的项目反应理论模型(Yamamoto and Mazzeo，1992)。其中一些试题也被反复使用。

随着每一道试题的特征值在各自的IRT量表中被校准，每个学生的“推断测试值”(plausible values)就能够得以计算(Mislevy，Johnson，and Muraki，1992)。每个学生的推断测试值通过IRT的后验分布多项随机计算获得(Mislevy，Johnson，and Muraki，1992)。推断测试值被用来计算组均值、方差和各分位点。每个学生的推断测试值都是由其IRT后验分布得出的，而该分布依赖于大量背景变量的主成分分析(Mislevy，Johnson and Muraki，1992)。分析过程中通常使用的是Sheehan(1985) M-GROUP软件，或M-GROUP软件的升级版。

NAEP统计结果的标准误是通过一个重复复制的抽样程序(jackknife repeated replication procedure)来计算的，这个程序还同时考虑到了样本的权重(Johnson and Rust，1992)。在NAEP报告的许多表格中都直接或间接地包含了各种比较，如州平均值的比较。为了控制这些比较发生错误的概率(False Discovery Rate)，NAEP采用了Benjamini-Hochherg(1995)程序。(Williams，Jones&Tukey，1999)

本节对NAEP机制中有关统计的内容进行了简要综述。当然，其他部分，如测试框架和题目的开发、手册汇编、背景问卷的开发、专业人员的实地培训和管理等，也都应被考虑到。

五、(有争议的)效度问题

1.跨年级量表

20世纪80年代初期，当ETS成为NAEP的承办者时，,已提出的“新设计”的主要特点之一就是跨年级量表(cross-grade scales)。NAEP在1984年首次建立了阅读的跨年级量表，1986年公布了完整的跨年级阅读量表，并与1984年的量表相连接。1986年建立新的数学和科学跨年级量表。1988年的NAEP阅读也与1984-1986年阅读量表相连接(Beaton,1988)。

1990年的NAEP看起来比较复杂，该年的阅读与1984年和1988年的阅读进行了连接。数学和科学出现了新的跨领域(cross-sectional)、跨年级的多维量表，而单维的量表又与1986年的量表相连接。目前使用的阅读量表可以追溯至1992年。而在这之前更早的量表则作为分数报告体系重新设计的一部分被替代了。

然而，20世纪90年代初，NAEP的分数报告不再使用跨年级量表。1991年，国家评估管理委员会决定“在所有可行的时候使用同年龄量表”(Haertel，1991)，用这种相对“正面”的措词说明跨年级量表不该再继续使用。而NAEP独立进行的一次评估(Shepard，Glaser，Linn，and Bohrnstedt，1993)也推荐“年级内报告(within grade reporting)”方式，从而取代跨年级的量表。

在《关于NAEP同年龄量表与跨年龄量表相关问题的分析报告》(Report on TRP Analyses of Issues Concerning Within-age versus Cross-age Scales for the National Assessment of Educational Progress，Haertel，1991)中，Haertel阐述了一系列观点。该报告讨论了量表和分数报告过程的细节。然而，所有围绕跨年级量表的争议中，有关采用此量表进行结果解释的效度问题最为突出。Thissen(待版)对跨年级量表的批评进行了总结，以下将对此进行讨论。

一般认为，跨年级量表主要在以下两种情况下用于对测试结果作出解释:

(1)“学生一年中的进步(大约)是xx NAEP量表分”；

(2)“X年级的A小组学生与Y年级的B小组学生表现相近”。

Haertel在其报名中总结认为，跨年级量表对上述两种情况的解释都存在问题。目前，仍有很多人赞同他这一观点。Thissen(待版)则对跨年级量表持略为积极态度，他主张:(1)跨年级量表对上述两种情况下的解释性说明仍需要不同的证据来支持；(2)而现有的证据均不足以支持NAEP报告中的上述任何一种解释性说明。

Thissen(待版)建议，应该而且能够整合更准确的证据去支持第一种情况下对测试结果的解释性说明(即“一年中的进步”)；而跨年级量表在第二种情况下(即跨越四个年度的年级间比较)对测试结果的解释效果可能会令人失望。

在1991年发表的评论文章中，Haertel针对跨年级量表的一个显著特点提出假设:

跨年级量表上的同一个分数，如300，应该代表拥有相同的熟练程度或综合技能水平，即9岁、13岁或是17岁孩子的水平是相同的。当然，小孩子的成就和大孩子的成就可能会有不同的解释。4年级学生的优秀水平对于一个13岁的孩子来说，也许仅仅是刚达标。因此，如果有一个共同的量表，那么这个量表中的某一个分数就应该有确定的含义，例如能说明孩子学到了什么，懂了什么，会做什么。

关于跨年级量表对“一年中的进步是xx NAEP量表分”的解释性描述，Haertel(1991)认为:

这一解释与其他几个解释一样，在很大程度上依赖于跨年级量表的线性假设。也许NAEP1986年阅读评估中的某些异常是对此最好的说明。那次评估中17岁考生答对某个阅读题目的概率发生了3%的变化，这在报告中被解读成1984年到1986年间17岁考生的阅读能力“整体下降”。这个结论是这样得出来的：通过评估13岁和17岁考生整体量表均值的差距，并把这一差距当成是学生在四年中应取得的进步，然后除以4得到平均每年应该达到的进步程度。这样，“年级水平”标尺就放大了学生表现的微小变化，并将其年度的进步程度绝对化。由于13岁学生和17岁学生参加测试的内容不同，仅仅依据17岁学生(12年级阅读)与13岁学生(8年级的阅读)量表分数的变化从而推断1984年到1986年17岁学生(同为12年级学生)表现水平的差距，这种推论包含了过多的假设。

实际上，Haertel(1991)也曾对跨年级量表提出质疑。他指出:

有关数学进步状况曾有如下说明: 一般认为，12年级的学生比8年级学生的平均熟练水平要高，而8年级学生的水平高于4年级学生的水平。然而量表显示，一般情况下，8年级学生的平均成绩比4年级学生高50分，而12年级学生的平均成绩只比8年级学生高30分。这一说明暗示至少从4年级到8年级，学生数学能力提高的速度要比从8年级到12年级快。由于没有更多的解释，这样的描述将人们的注意力集中到量表分上。如量表上的200，250，300和350可以用来表示学生的不同水平，但如何能够说明从200到250的距离与从250到300的距离是一样的呢?因此，上述描述仅仅说明了8年级学生与4年级学生的差距大于12年级学生与8年级学生的差距。除此之外，并没有说明任何其他有用的信息。

也有一些评论者对跨年级(或“纵向”)量表采取一种更为灵活的态度。Wendy Yen(2007)曾说道:

“在过去的25年中，我对纵向量表一直都很有兴趣。在我5岁的时候，每次爸爸在家里修理东西，我都跟在他后面。他有一根折尺，我很喜欢拿来玩。这根折尺是黄色的，折起来有1英尺，打开的长度有6英尺。如果我把尺子打开，握住一头，尺子就会在空中折来折去。可是让我失望的是，如果我太偏向一边，靠近手的部分就会突然折起来。纵向量表就像是一根折尺。尽管教育成就测试结果的差异主要由学生水平的差异决定，这些考试仍然是多维的，依然有一些其他因素(如学生受教育过程的差异)影响着测试结果的差异，这些因素被称为“课程中的多维平行变化”。这种维度的变化可能发生在某一水平之内或者跨越几个测试水平。因此，量表的方向性(即不同维度的相对重要性)会随着测试难度的增加而变化。因此，量表会发生空间上的弯折。某几个水平之间的连接会比其他几个水平之间的连接更强。如果水平间的连接太松弛，就很难保持连接的稳定性。

Yen’s的比喻形象地解释了为什么“一年中的进步”是一个很有趣的概念，而跨越四个年度的比较则难以引起人们的兴趣。“一年中的进步”就像是折尺的一截，呈现出线性的直线变化。而如果跨越几个年度，这就像折尺中的几截，其变化是不容易控制的。那么这几截间的不同连接角度，即测试表现出的不同的多维性，则会对测试结果产生重要的影响。

或许整合效度证据能够支持跨年级量表在第一种情况下对分数结果的解释(即“一年中的进步”)，并使其更精准。而对于使用NAEP量表的人而言，“一年中的进步在NAEP的量表上应该表现为上升多少分”这个问题更重要。对此，NAEP必须作出回答。

跨年级量表在第二种情况下对分数的解释(即跨越四个年度的组间比较)或许更令人失望。即便是保留了有用的跨年级量表，但对于4年级和8年级的学生来说，仍有足够的证据表明同样的分数代表不一样的表现水平。这样的争议降低了诸如“得分较低的这组8年级学生与4年级普通学生的成绩相似”这类结论的有效性。不仅如此，它还可能干扰其他更为有用的分数解释(例如，通过表现水平或题目地图对分数进行解释)。

2004年，国家评估管理委员会通过了《NAEP2009年阅读测试框架决议》(Resolution on the NAEP 2009 Reading Framework)，指出在某种程度上“2009年NAEP阅读评估将会确立新的趋势线……将采用完全的跨年级量表来报告成绩。这样，NAEP就可以展示学生在校学习的几年间阅读技能的进步，同时报告长期的发展趋势”。2004年10月，“NAEP 2009阅读评估年级内和跨年级量表的技术小组会议”(Technical Panel Meeting to Discuss the Implementation of Within-and Cross-grade Scaling for the NAEP 2009 Reading Assessment)召开(Wise and Hoffman，2004)。2004至2010年，ETS进行了大量的回顾研究，分析了2009年的数据，并得出结论，认为2009年的阅读评估能够与1992年的最初的量表关联。因此，NAEP阅读的跨年级量表重新开始(有限制地)使用。

NAEP网站称，“越是高年级的学生，测试中要考查的技能与使用的材料就越难、越复杂”。这种说法与Haertel认为的“同一个分数……应该代表同样的总体熟练程度与技能水平，即9岁、13岁或是17岁孩子的水平是相同的”有很大不同。Haertel发现，NAEP试图使用他对跨年级量表的解释，但结果差强人意。NAEP目前的阅读评估使用了跨年级量表，并对这个量表的意义作出了很不一样的说明。

实际上，NAEP报告中很少真正使用该量表的“跨年级”这一属性。

2．表现水平(Achievement Levels)

20世纪90年代初，国家评估管理委员会引入“表现水平”的概念，从此表现水平就饱受诟病。这一概念的引入代表着NAEP结果报告的重点在发生变化。最初，“全国评估的主要目的是衡量孩子和年轻人在知和做方面的变化”(Tukey，Abelson，Coffman，Jones，and Mosteller，1971)。20世纪90年代初，国家评估管理委员会重新界定NAEP的目的，“表现水平设定是一种划定NAEP量表分数的过程，它代表了刚刚达到某一标准的学生应该具有该标准表现水平描述中说明的知识和能力(National Assessment Governing Board，2011)。其中加入的“应该”这个词，把NAEP分数报告从最初的“描述性”变成了“指导性”。

表现水平标准至少有两个目的:

(1)它使得测试结果能够被这样报告:“达到或高于某一水平的百分比是……”这种形式的报告对某些使用者(如新闻记者)很具吸引力。

(2)(有些人相信)利用表现水平可以将测试结果报告为达到某个客观标准的学生的百分比。

第二个目的在原则上很有争议。不过，批评利用表现水平来进行结果报告的焦点一直集中于确定划界分数的技术上。

起初，NAEP确定表现水平划界分数时使用的是“安戈夫法”，目前使用的是自定义版的“书签法”。这两种对“题目的判断”方法都基于一个事实，即每一道试题的IRT估计难度值都会被统一到学生的能力表现量表上。表现水平概念引入之初，Shepard，Glaser，Linn和Bohrnstedt(1993)指出，“安戈夫法在根本上是存在缺陷的，不适合用来设定表现水平。”在对NAEP的评估过程中，Shepard，Glaser，Linn和Bohrnstedt(1993)建议国家评估管理委员会:

·停止使用安戈夫法；

·停止使用1992年的表现水平报告；

·邀请课程内容专家、商业领袖和标准委员会对NAEP结果的意义、理想的表现标准等进行讨论；

·将1994年确定的表现水平与NAEP官方报告分开公布，声明这些都是草案或尚在完善中；

·使用1990年和1992年的百分位分数来监测未来评估的成绩；

·使用或参照国际比较为美国的教育状况设定基准。

尽管上述建议都未被执行，但后来的安戈夫法的标准设定仍然进行了一些调整。此后，Pellegrina，Jones和Mitchell(1999)在总结与评估NAEP时提出以下建议:

·现行设定表现水平的方法应该被取代；

·NAEP现行的表现水平可以继续使用，但还是需要不断完善；

·国家评估管理委员会应该申明，表现水平是通过主观判断程序设定的。

上述建议也都没有得以实施。国家评估管理委员会仍然强调表现水平是NAEP分数报告的主要方式。Cizek和Bunch(2007)在书中肯定了标准设定的方法，同时介绍了其他多种方法。Cizek(2001)的另一本书也深入总结了国家评估管理委员会对于目前标准

设定方法的正面支持态度。(Loomis and Bourque，2001)

表现水平仍然是NAEP分数报告系统的主要基础。用什么方法来取代表现水平，依旧是NVS专家小组会议经常讨论的问题。目前，可能的替代方法或者是在某个基准年份使用任意给定分数(arbitrary scores)的量表锚定法(scale anchoring)，这种方法在20世纪80年代曾使用过，其量表分数可以是150，200，250等，或者是使用百分等级分数，如第25 百分位、第50 百分位、第75 百分位、第90 百分位等。

NAEP是一项巨大的工程，每年需花费几千万美金，并依靠众多相关机构的合作来完成。在美国，它是唯一一个明确地对教育成就进行描述和说明的评估，适用于全美适龄学生群体。在新测试技术发展过程中，NAEP已经克服了国家管理大规模评估所固有的挑战，发挥着重要的作用。当然，随着教育状况的变化，NAEP的效度问题也面临着挑战。然而，公众还是期待NAEP能够在未来一段时间内继续为教育提供信息，并成为教育评估的一个重要例证。

参考文献:

［1］Beaton，A．E．(Ed．) (1988)．Expanding the new design: The NAEP 1985－86 technical report (No．17－TR－20)．Princeton，NJ: Educational Testing Service，National Assessment of Educational Progress．

［2］Beaton，A．E．，＆ Zwick，R．(1992)．Overview of the National Assessment of Educational Progress．Journal of Educational Statistics，17，95－109．

［3］Benjamini，Y．，＆ Hochberg，Y．(1995)．Controlling the false discovery rate: A practical and powerful approach to multiple testing．Journal of the Royal Statistical Society，Series B，57，289－300．

［4］Cizek，G．J．＆ Bunch，M．B．(Eds) (2007)．Standard setting: A guide to establishing and evaluating performance standards on tests．Thousand Oaks，CA: Sage．

［5］Cizek，G．J．(Ed．) (2001)．Setting performance standards: Concepts，methods，and perspectives．Mahwah，NJ: Lawrence Erlbaum Associates．

［6］Haertel，E．H．(1991)．Report on TRP analyses of issues concerning within－age versus cross－age scales for the National Assessment of Educational Progress．Washington，DC: National Center for Educational Statistics．(online at http://www．eric．ed．gov:80/ERICWebPortal/search/detailmini．jsp?_nfpb=true＆_＆ERICExtSearch_SearchValue_0=ED404367＆ERICExtSearch_SearchType_0=no＆ accno=ED404367)

［7］Johnson，E．G．，＆ Rust，K．F．(1992)．Population inferences and variance estimation for NAEP data．Journal of Educational Statistics，17，175－190．

［8］Jones，L．V．(1996)．A history of the National Assessment of Educational Progress and some questions about its future．Educational Researcher，25，15－22．

［9］Jones，L．V．，＆ Olkin，I．(2004) ．The nation’s report card: evolution and perspectives．Bloomington，IN: Phi

Delta Kappa Educational Foundation．

［10］Karr，A．(2009)．NISS/NESSI Task force on Full Population Estimates for NAEP: Final Report．Research Triangle Park，NC: National Institute of Statistical Sciences．(online at http: //www．niss．org/sites/default/files/tr172．pdf)

［11］Loomis，S．C．，＆ Bourque，M．L．(2001)．From tradition to innovation: Standard setting on the National Assessment of Educational Progress．in G．J．Cizek(Ed．)，Setting performance standards: Concepts，methods，and perspectives (Pp．175 －217)．Mahwah，NJ: Lawrence Erlbaum Associates．

［12］Mislevy，R．J．，Johnson，E．G．，＆ Muraki，E．(1992)．Scaling procedures in NAEP．Journal of Educational Statistics，17，131－154．

［13］National Assessment Governing Board．(2004)．Resolution on the NAEP 2009 reading framework．Retrieved from http: //www．nagb．org/what－we－do/resolution－09．htm

［14］National Assessment Governing Board．(2008)．Reading framework for the 2009 National Assessment of Educational Progress．Washington，DC: National Assessment Governing Board．(available online at http://www．nagb．org/publications /frameworks/reading09．pdf)

［15］National Assessment Governing Board．(2011)．Statement of objectives．Retrieved from http://www．nagb．org /what-we-do/20110104/Attachment _A_ Statement _ of _Objectives．pdf

［16］National Center for Education Statistics(2010)．Understanding the 2009 reading trend study．Retrieved from

http://nces．ed．gov/nations report card/reading/trend _ study．asp

［17］National Center for Education Statistics(2011)．What does the NAEP reading assessment measure? Retrieved from http://nces．ed．gov/nations report card/reading/what measure．asp

［18］Pellegrino，J．W．，Jones，L．R．，＆ Mitchell，K．J．，(1999)．Grading the nation’s report card: Evaluating NAEP and transforming the assessment of educational progress．Washington，DC: National Academy Press．

［19］Rust，K．F．，＆ Johnson，E．G．(1992)．Sampling and weighting in the national assessment．Journal of Educational Statistics，17，111－130．

［20］Sheehan，K．M．(1985)．M-GROUP: Estimation of group effects in multivariate models［computer program］．Princeton: Educational Testing Service．

［21］Shepard，L．，Glaser，R．，Linn，R．，＆ Bohrnstedt，G．(1993)．Setting Performance Standards for Student Achievement: A Report of the National Academy of Education Panel on the Evaluation of the NAEP Trial State—75—

Assessment: An Evaluation of the 1992 Achievement Levels．

Stanford，CA: National Academy of Education．

［22］Thissen，D．(in press)．Validity Issues Involved in Cross-Grade Statements about NAEP Results．Washington，

DC: American Institutes for Research，NAEP Validity Studies Panel．

［23］Tukey，J．，Abelson，R．，Coffman，W．，Jones，L．，and Mosteller，F．(1971)．National assessment report 41969 1970 Science: Group results for sex，region，and size of community．Washington，DC: Government Printing Office．

［24］U．S．Congress，Office of Technology Assessment．(1992)．Testing in American schools: Asking the right questions．Washington，DC: U．S．Government Printing Office．

［25］Williams，V．S．L，Jones，L．V．，Tukey，J．W．(1999)．Controlling error in multiple comparisons，with examples from state-to-state differences in educational achievement．Journal of Educational Statistics，24，42 － 69．

［26］Wise，L．，＆ Hoffman，R．G．(2004)．Technical Panel Meeting to Discuss the Implementation of Within- and Cross-grade Scaling for the NAEP 2009 Reading Assessment: Meeting notes(DFR-04-74)．Alexandria，VA: Human Resources Research Organization．

［27］Yamamoto，K，＆ Mazzeo，J．(1992)．Item response theory scale linking in NAEP．Journal of Educational Statistics，17，155 － 174．

David Thissen

Department of Psychology，University of North Carolina at Chapel Hill，

Chapel Hill，NC，USA，27599 － 3270

As the only regularly conducted national survey of educational achievement at the elementary，middle，and high school levels，the National Assessment of Educational Progress(NAEP)is a valuable tool to track and understand educational progress in the United States． It has become an educational indicator，a barometer of the Nation’s elementary and secondary educational condition，and has served as a leading influence in the development of new testing technology． This article provides an overview and brief summary of the history of the NAEP，as well as commentary on selected challenges to the validity of NAEP results，including the use of cross － grade(or vertical)scales，and the use of achievement levels in score reporting．

The National Assessment of Educational Progress(NAEP)，History，Sampling，Scales，Achievement Levels

国家教育进展评估的效度研究

专题