首页> 详情

关于三项著名国际学生评价项目的比较

2012-08-31 |浏览:4629次 | 编辑: 加载失败
分享到: 
副标题#e#

 

福建师范大学教育科学与技术学院  黄慧娟  王 睎  许 明

(原载:《福建师范大学学报》(哲学社会科学版)2004年第4期)

  全国教育进展评价(简称NAEP)、第三次国际数学和科学教育的再研究(简称TIMSS-R)和国际学生评价项目(简称PISA)是当前国际间最为著名的学生评价项目,本文拟就2000NAEP8年级评估、TIMSS-R8年级评估和PISA三项评价项目的数学和科学领域评估做一比较,以便我们了解这些评估的实施背景、基本框架和评估内容。

全国教育进展评价(NAEP);第三次国际数学和科学教育的再研究(TIMSS-R);国际学生评价项目(PISA

由美国全国教育进展评议中心组织的全国教育进展评价(简称NAEP)、国际教育成就评价协会(IEA)主持的第三次国际数学和科学教育的再研究(简称TIMSS-R)以及国际经济合作与发展组织(OECD)主持的国际学生评价项目(简称PISA),是当前国际间最为著名的学生评价项目,它们所提供的指标在国际上具有广泛的影响,已经引起世界各国的高度重视。这些评价项目分别涉及数学、科学、阅读等领域,代表国际学生评价的最先进水平。如何认识这些评价并合理使用其数据,就成为人们关注的课题。因此,充分地理解不同的评价所确定的评估目标,明确这些评估之间的相似点、不同点,以及各自在不同的内容、知识类型上相对强调的重点,有助于我们更好地使用这些评估的结果。本文拟就2000NAEP8年级评估、TIMSS-R8年级评估和PISA三项评价项目的数学和科学领域评估做一比较,以便我们了解这些评估的实施背景、基本框架和评估内容。

NAEP是从1969年起定期实施的评估,测评美国学生各种主题领域的知识和技能,为教育者和政策制定者提供当前美国学生成就水平的最新状况,并基于以前评估比较分析得出学生成就的变化趋势。NAEP4年级、8年级和12年级的学生为测评对象,主要评估学校课程和国家课程共同包括的知识和技能,即特定的内容主题和广泛的思考技能。在4年级和8年级的阅读、写作、数学、科学评估中,参与的各州可以对有代表性的样本进行建构,将评价结果与州的目标相比较,与其它州或国家的学生平均水平相比较。2000年, NAEP对数学、科学和阅读领域实施评估,对8年级实施的科学评估总共有195个题目,数学评估总共有165个题目,每个学生只做其中的一部分题目,科学和数学评估主要采用笔试,科学评估中有些题目要求学生进行实验,数学评估中有些题目允许学生使用计算器、直尺和量角器等。2001年, NAEP实施的是美国历史和地理领域的评估,2004年评估的是数学和科学领域。由于PISA的研究对象只有一个学生群体,所以下文中如无特殊说明,本文提供的是8年级学生群体的评估资料。

TIMSS-R1999IEA实施的第三次国际数学和科学教育的再研究。1995年, IEA在世界41个国家开始实施数学和科学评价,即第三次国际数学和科学教育研究(TIMSS),测评对象包括三类:第一类是9岁的学生(多数国家是3年级和4年级),第二类是13岁的学生(多数国家是7年级和8年级),第三类是中学最后一个年级的学生。TIMSS-R38个国家参加,主要是研究第二类学生群体,其基本评价框架与TIMSS一样,科学评估共有144个题目、数学评估有164个题目,其中约有三分之一的测评题目与TIMSS第二类学生群体的测评题目是一样的。与NAEP一样,被TIMSS-R测评的学生只需做其中的一部分题目,但TIMSS-RNAEP不同的是, TIMSS-R是综合测评科学和数学,而NAEP的科学和数学评估则是独立进行的。

PISA是于2000年起第一次开始,面向32个国家的15岁学生实施的教育评价。它的目标是为了测量教育系统的“积累成果”,即测量学生在临近初中毕业时的知识和能力,关注的是学生在一个数字化的文化社会中、成人生活的情境中生存并发挥作用的能力,而不是学生对各个具体课程内容的掌握。PISA的特征是在阅读素养、数学素养和科学素养领域内有各自的评估,每轮PISA评估都在这三个领域中选择一个确定为主要领域,并用三分之二左右的时间评估主要领域。2000PISA评价中,阅读素养是主要领域, 2003年数学素养是主要领域, 2006年科学素养是主要领域。由于用于评估次要领域的时间较少,次要领域的评估不会包括已有评估框架的各个方面。如数学素养包括系列的6个“主要观点”,但2000PISA评估中只涉及“空间和形状”、“变化和增长”2个。同时,数学领域和科学领域在这轮PISA评估中的题量远比NAEPTIMSS-R中的少。PISANAEPTIMSS-R的不同在于它是根据由文本、表格或图形组成的材料提出2个到4个不等的问题,这些问题的难度或复杂性是逐步提高的。

 

#p#副标题#e#

 

 

NAEPTIMSS-RPISA的评估都建立了多维度的工作框架,这些框架概括了评估所包含的重要事实、观点、技能以及题目的可描述性特征。

 

科学领域

数学领域

NAEP

*科学:①地球科学:土壤、水、空气、地球空间;②物理科学:物质及其转化、能量及其转化、运动;③生命科学:变化和进化、细胞及其作用、有机体、生态学。

*理解并做科学:理解观点;科学调查;实践推理。

*主题:模型;系统;变化方式。

*科学的性质

*内容因素:数的意义、性质、运算;测量;几何学和空间感;数据的分析、统计和概率;代数和函数。

*数学技能:理解观点;程序性的知识;解决问题。

*数学能力:推理;联系;交流。

 

TIMSS-R

*内容:地球科学;生命科学;物理科学;科学、科技和数学;科学和科技的历史;科学的性质;环境和资源问题;科学和其它原理。

*行为期望:理解;推论、分析和解决问题;应用工具的一般步骤和科学方法;探索自然世界;交流。

*观点:对科学、数学和科技的态度;在科学、数学和科技上的经历;参与非代表性群体的科学和数学活动;科学、数学和科技对增加利润的影响;科学的心理倾向;科学行为的安全性。

*内容:数;测量;几何学(包含位置、想象、形状、对称、全集、相似);比例;函数和方程式;数的表示、概率和统计;初步分析;变量和结构;其它内容。

*行为期望:识别;应用一般步骤;调查和解决问题;数学推理;比例;交流。

*观点:对科学、数学和科技的态度;在科学、数学和科技上的经历;参与非代表性群体的科学和数学活动;科学、数学和科技对增加利润的影响;科学和数学的心理倾向。

PISA

*科学方法:对科学问题的认识;对证据的识别;结论的形成;对各种结论的表达;对所了解的科学概念的论证。

*科学概念:①科学主题:事物的结构及特征;气压变化;化学变化和物理变化;能量转化;力和运动;结构和功能;人类生态学;生理变化;生物动力学;遗传控制;生态系统;地球及其在宇宙中的位置;地质变化。②应用领域:生命和健康科学;地球和环境科学;技术科学。

*情境:个人的;社区的;全球的;历史的。

*主要方面:①数学能力等级:能力等级1:再现、定义、计算;能力等级2:为解决数学问题而进行的联系;能力等级3:以数学角度进行思考、归纳和提示能力。②数学的主要观点:机会;变化和增长;空间和形式;数量推理;不定性;从属性关系。

*次要方面:①数学的课程因素:数;测量;判断;代数;函数;几何;概率;统计;离散的数学。②情境:个人的;教育的;职业的;公共的;科学的。

 

 

#p#副标题#e#

 

在每个评估框架中,都包括由主题和次主题组成的维度,如NAEP科学领域评估中,科学维度包括地球科学、物理科学和生命科学3个主题,地球科学包括土壤、水、空气和地球空间4个次主题,而且每个评估框架至少有一个描述性、与主题内容无关的认知方法的维度,如PISA数学领域评估中的各个数学能力等级。不同维度使评估框架显得有些复杂,但同时反映了任何主题的重要性不仅来自于它自身的事实和观点,而且来自于与之相联系的方法和技能,即在要求学生掌握科学的事实和观点的同时,要求他们应用其科学知识去建构逻辑的推理方法。评估框架的不同维度有助于形成测评题目,即每个维度包含的不同主题必须在测评题目中有均衡的分布,如NAEP8年级数学评估中“测量”占15%,这些题目是平均分配在数学能力的3个种类中。同时,由于评估框架内的主题和认知技能一般是相互联系的,三项评价项目中的题目都包含着不止一个主题或认知技能。比较三个评估框架,除了发现许多相似之处,也有许多不同。首先,在评估目标上, NAEPTIMSS-R主要是测评学生对知识、技能、观点的掌握程度, PISA则是关注学生在校内外应用数学和科学的情况,关注学生科学地推理和思考的能力,学会阅读和解释可能在报纸或其它传媒中看到的文章、图表或图形等。其次,表现为在不同评估目标影响下,评估框架中的不同维度在评估中的具体作用不同。NAEPTIMSS-R评估框架中,详细阐释与学生应掌握内容相关的维度,这些维度是形成测评题目的主要依据; PISA则不同,其评估框架中没有详细阐释与学生应掌握内容相关的维度,且在形成测评题目时这些维度也不作为重要的依据。如就数学而言,它们是形成测评题目时考虑的次要因素。PISA中形成测评题目的主要依据是包括技能和能力的维度,这些维度的具体内涵在评估框架中得到详细阐释。最后,虽然每个评估框架都有几个相似维度,但各有其特征,如PISA的情境维度是NAEPTIMSS-R所没有的,即使有相同的维度,但在评估它们时各自所包含的内容也是不完全相同的,在评估中发挥的作用也是不完全一样的。

NAEPTIMSS-RPISA由于其各自的评估目标不同,形成的评估框架不同,所以三项评价项目在评估的内容上,如题型的选择、题目难度的确定、题目在所要评估的各个领域的分布及其比例等都有明显的不同。

(一) NAEPTIMSS-RPISA的题型

NAEPTIMSS-RPISA书面评估的主要题型是多项选择题、简答题、问答题及画图或其它非文字问答,选择题型的主要根据是要求学生掌握的知识及评估实施时的实际情况。一般地,对于多数学生来说,简答题总体上是简单的,多项选择题则要求较高层次的推理。但那些要求学生运用较高层次的推理技能去解释或证明自己所提出的观点并需要充分予以表达的题目,大多不会使用简答题或多项选择题。因为这些题目要求学生不仅会推理或猜测正确答案,而且要求学生对他们认可的正确答案做出解释。因此,选择不同题型的依据在于,不同的题型对应不同要求的思考技能。此外,题目的表达方式即题目的文本是否用数学或科学研究中特有的形式来表达,或是否使用了与校外生活相关的情境、语言或直觉信息等,也会直接影响学生对题目的理解,从而影响题目的难度。因为,如果文本要求学生将题目转化为科学或数学的术语或观点,那么,这与直接陈述的题型相比,就需要更多的思考。学生如果主要用学术化语言陈述的文本学习,通常在处理与现实世界相联系的文本时,容易产生困难,但如果与现实世界相联系的文本表达的内容是学生所熟悉的,那么这种文本就能帮助学生更好地解决问题,客观上降低了题目的难度。另一方面,那些使用与现实世界相联系的文本,及关注特定情境的富有实践内涵的题目,与主要关注潜在的科学观点和理论的题目相比,学生除了必须加工科学知识外,还必须考虑所描述情境的实践内涵,有些题目中的情境可能是学生在校外从事某一特定行为,在这些情境中学生的行为则更像科学调查,而不是学生在日常生活中的行为,这也必然增加了学生回答问题的难度。总之,合理设计题型,是保障评估质量的重要因素之一。表2和表3是三项评价项目中科学领域评估和数学领域评估的不同题型数量及其百分比。

 

#p#副标题#e#

 

 

多项选择题

简答题

扩展的开放性回答

要求证明的

开放性回答

具有多种答案的

开放性回答

 

百分比

题量

百分比

题量

百分比

题量

百分比

题量

NAEP

50

98

7

13

22

43

21

41

TIMSS-R

73

105

6

9

12

17

9

13

PISA

60

21

17

6

6

2

17

6

 

 

多项选择题

简答题

要求画图的

开放性回答

扩展的开放性回答

要求证明的

开放性回答

具有多种答案的

开放性回答

百分比

题量

百分比

题量

百分比

题量

百分比

题量

百分比

题量

NAEP

60

99

16

27

13

22

8

14

2

3

TIMSS-R

77

126

20

32

1

2

2

3

1

1

PISA

34

11

50

16

3

1

3

1

9

3

 

(二) NAEPTIMSS-RPISA的题目难度

题目难度是评估的重要特征之一。在三项评价项目中,题目难度表现在题中包括题目难度因素的数量,如前面谈到的,题目的文本形式、题目中体现的情境与学生的熟悉程度、是否用学术化的语言陈述与表达等,都将直接影响题目难度。此外,如果题目的内容是学生未接触、很少接触的或是特别复杂的,那么题目的内容就会增加难度,再有,某些题型会比较难,特别是要求学生解释或证明他们个人观点的题型;将题目设置在与现实世界相联系的文本中,并要求学生解释具体与抽象、陌生情境与他们已有知识之间的关系,这都会增加题目的难度。因此,影响题目难度的因素很多,各个因素在不同的情况下所起的作用大小可能各不相同,很难能有一个单独的指标能完全说明题目的难度。基于三项评价项目的特点,专家研究并提供了扩展性回答、文本、多重推理和数学技能4个因素,来评估题目难度,并以此判断测评的总体难度。如果在单个题目中这些因素出现越多,就表示这道题目越难,表4和表5说明了每项评估项目中,包括01234个因素的各类题目的具体题量和所占的比例。运用这种方法分析,不难判断,在三项评价项目中,以科学领域评估为例, PISA是最难的,有71%的题目包括2个或2个以上影响题目难度的因素,其次是NAEP37%,最后是TIMSS-R,只有17%

 

0个难度因素

1个难度因素

2个难度因素

3个难度因素

4个难度因素

百分比

题量

百分比

题量

百分比

题量

百分比

题量

百分比

题量

NAEP

36

70

27

52

19

38

18

35

0

0

TIMSS-R

56

81

26

38

8

12

8

12

1

1

PISA

14

5

14

5

51

18

11

4

9

3

 

 

0个难度因素

1个难度因素

2个难度因素

3个难度因素

4个难度因素

百分比

题量

百分比

题量

百分比

题量

百分比

题量

百分比

题量

NAEP

27

45

35

57

27

44

10

16

2

3

TIMSS-R

37

61

39

64

21

34

3

5

0

0

PISA

0

0

41

15

47

13

9

3

3

1

#p#副标题#e#

 

(三) NAEPTIMSS-RPISA的评估题目分布与比例

不同的分类标准会形成不同分类结果。在科学领域评估中,主要依据NAEP科学领域的分类标准,将三项评价项目的题目进行分类,在数学领域评估中,主要依据NAEP数学领域中内容因素的分类标准进行分类。

 

NAEP195道题目)

TIMSS-R144道题目)

PISA35道题目)

百分比

题目

数量

百分比

题目

数量

百分比

题目

数量

地球科学

土壤

18

35

9

13

3

1

3

6

3

5

9

3

空气

6

11

7

10

29

10

地球空间

5

10

3

5

11

4

合计

32

62

22

32

43

15

物理科学

物质及其转化

14

27

23

33

17

6

能量及其转化

7

13

11

16

9

3

运动

12

24

16

23

14

5

合计

33

64

50

72

37

13

生命科学

变化和进化

10

20

6

9

3

1

细胞及其作用

4

7

1

1

9

3

有机体

10

20

18

26

17

6

生态学

12

24

6

8

6

2

合计

35

69

30

43

34

12

:表格中百分比和题量总计不一定等于总数。因为, NAEPTIMSS-R的小部分题目及PISA的许多题目,可能不止归入一个主题或次主题,有的题目也可能不属于其中的任何一种。例如,在同一主题内,一道题目可以划分为2个不同的次主题,这时,这道题在次主题内按2次计算,但在主题内则按1次计算。

从上述对科学领域评估的统计中可以看出, NAEP的题目数量在三个主题中的分布是大致相等的, TIMSS-R则较强调物理科学,其题目总量占整个科学领域题目总量的50%。在PISA中,题目数量在三个主题中的分布较TIMSS-R平均,但与NAEP相比仍然显得不够均衡,关于地球科学的题量占43%,关于物理科学的题量占37%,关于生命科学的题量占34%。这并不说明NAEP的评估比其他两个更加优秀,如果我们用另一评估项目的内容框架为标准,可能NAEP的题量分布就不会显得这么均衡。三项评价项目在三个不同主题的不同分布情况反映了每项评估各有其侧重点。

在次主题的评估中,三项评价项目都有相对较多的题目设在“物质及其转化”上,这类题目在TIMSS-R中所占的百分比最高,占题量的23% PISANAEP中分别占17%14%。“运动”也是三项评价项目中题量相对较多的次主题,在NAEPTIMSS-RPISA中分别各占12%16%14%。至于其它的次主题就没有形成这样的共同趋势,即在一项评价中强调的某个次主题,在另一项评价中却较少的被评估,例如,“生态学”这一次主题在NAEP中占12%,但TIMSS-RPISA中都只占6%。值得关注的是,在NAEP次主题评估中,“土壤”题量最多,占18%;在TIMSS-R次领域评估中,“物质及其转化”题量最多,占23%;在PISA次领域评估中,“空气”题量最多,占29%。这表明了在不同的评价中各有其强调的次主题。虽然,三项评价项目各有其重点的主题和次主题,但三项评价项目在题目的设计上都形成共识或者说反映了共同的倾向,即主要强调的是科学的思考,而不是认识方法或关于科学性质的知识,这在PISA中体现的最为突出。如果某一学生群体参与了三个评价项目,那么他们在每项评价中的相对行为则较多的来自于科学教育的影响。

 

NAEP165道题目)

TIMSS-R164道题目)

PISA32道题目)

百分比

题目数量

百分比

题目数量

百分比

题目数量

数的意义、性质和运算

32

52

46

76

9

3

测量

15

24

15

24

25

8

几何和空间感

20

33

12

20

22

7

数据的分析、统计和概率

14

23

11

18

31

10

代数和函数

20

33

19

31

19

6

:百分比和题目数量合计起来不一定等于总数,因为有小部分题目可以归入多个主题,或者不属于任何主题。

 

#p#副标题#e#

 

如果以NAEP数学领域中内容因素的分类标准进行分类,评估这三项评价项目的题目,也可以明显地看出这三项评价项目中各自强调的内容有显著的不同。这三项评价项目都约有五分之一的题目用于评估代数和函数,但它们在其他因素中却有不同的侧重点。NAEP最强调的是数的意义、性质和运算,占题量的32%;在TIMSS-R中,这部分内容占的题量更多,达到46%;而在PISA中却仅占9%。在PISA中,评估最多的内容是数据的分析、统计和概率,为31%,而这部分内容在NAEPTIMSS-R中则是强调最少的主题,题量分别仅占14%11%。这部分地反映了在不同评估目标的影响下,评估内容的侧重点有所不同。如果进一步关注数学的次主题的评估,就会发现各个评价的差异会变得更加明显。总之,从对数学领域评估的题目分布比例看,PISA更关注学生在日常生活情境中应用数学技能和推理的能力,数学内容只是其考虑的次要因素; NAEPTIMSS-R在评估宏观的、变化的数学技能的同时,把评估重点放在数学内容这一方面。

通过对NAEPTIMSS-RPISA的讨论,可以看出每个评估的目标和哲学基础有着明显的不同,其中,最大的不同在于NAEPTIMSS-R是要了解学生基于课程基础之上掌握的科学和数学的知识和技能的情况,而PISA的目标则在于评估学生科学和数学的素养,也就是他们将科学和数学的观点、思考技能应用到日常生活和校外情境的能力。虽然每项评价项目都有其独特的构思和描述科学或数学的方法,并形成特定的题目类型,但是,有些题目也是可以适用于另一种评估框架。同时,从他们的不同评估中也反映了许多共同的主题,如使用的题型大致相同,注重解题中的思考技能,关注课程的框架等。这些也是值得我们共同关注的话题。

 

[1] OECD 1999), Measuring Student Knowledge and Skills: A New Framework for Assessment OECD Publications Service 2 rue Andre-pascal 75775 Paris Cedex 16 France.

[2] OECD 2000), Measuring Student Knowledge and Skills: The Pisa 2000 Assessment of Reading Mathematical and Scientific Literacy OECD Publications Service 2 rue Andre-pascal 75775 Paris Cedex 16 France.

[3] OECD 2000), Knowledge and Skill for Life: first Results from PISA 2000 OECD Publications Service 2 rue Andre-pascal 75775 Paris Cedex 16 France.

[4] Ina V. S. Mullis etc. eds 2002. PIRLS 2001 Encyclopedia: A Reference Guide to Reading Education in the Countries Participating in IEA’s Progress in International Reading Literacy Study PIRLS . International Association for the Evaluation of Educational Achievement IEA. [EB/OL] Http: //www. pirls. bc. edu.

[5] International Association for the Evaluation of Educational Achievement IEA. 2001. Framework and Specifications for PIRLS Assessment 2001. [EB/OL] Http: // www. pirls. org/pirls2001i/publications. Html

 

College of Educational Science and Technology Fujian Normal University Fuzhou350007 China

Nowadays the National Assessment of Educational Progress NAEP), the repeat of the Third International Mathematics and Science Study TIMSS-R and the Programme for International Student Assessment PISA are the most famous international programs of student assessment. By comparing the eighth-grade assessment of NAEP 2000 with TIMSS-R and the scientific and mathematics assessment of PISA this paper provides some ideas of the background frameworks and contents of the three assessments to us.

The National Assessment of Educational Progress NAEP); the repeat of the Third International Mathematics and Science Study TIMSS-R); the Programme for International Student Assessment PISA

(责编:杨达莉)


(责任编辑:王翔)


声明:文章版权归原作者所有,本文摘编仅作学习交流,非商业用途,所有文章都会注明来源,如有异议,请联系我们快速处理或删除,谢谢支持。


(原文章信息:标题:,作者:黄慧娟 王 睎 许 明 &,来源:转载    ,来源地址:)

上一篇: 国外教学质量监控与评价及其特点分析

下一篇: 学生能力国际评价项目(PISA)简介与香港PISA 2003评价报告的

专题

-----主办-----

河南省乡村振兴协会

-----承办-----

河南省乡村振兴协会产业与信息化专业委员会

河南金农达供应链管理有限公司

河南全息农业科技有限公司 

-----协办-----

全息数字科技