| |
| |
| 理论导航 |
|
什么样的评价是好评价?
-- -- 评价工作的反思与改进
北京师范大学心理学院 赵德成
|
当我们以研究人员的身份与教师一起去进行工作反思的时候,我们发现许多教师自我反思的意识和能力都比较欠缺,他们更愿意向他人介绍自己在评价改革方面的经验;即使发现了问题,在归因的时候,也常常是只关注外在的环境和制度原因,而忽略对自身内在问题的反思。造成这种状况的原因有很多,其中最重要的一点,就是教师还不太清楚什么样的评价是好的评价,不知道应该依据什么标准和要求去衡量评价的优劣。同时,还有一些教师反映,他们在评价实践中进行了某些大胆的尝试,但却不知道这种努力的方向是否正确,并经常为此感到迷惘。如果教师在评价实践当中已经走错了方向,而自己却浑然不觉,那就会在很大程度上影响评价改革的实施;如果教师的努力是符合课改精神的,而本人及其身边的同事又不敢肯定,那也会在某种程度上影响评价改革的实际效果。
从某种意义上讲,评价是一把“双刃剑”。科学的评价能对教育产生良好的促进作用,而不好的评价不仅耗费了宝贵的教育资源,还会导致诸多不良后果。[1] 正因为如此,对评价工作本身进行评价,确保评价的高质量,已成为教育界日益关注的问题。教师和研究人员要进一步明确对评价实践进行评价的评估标准,井依据这些标准,对方案进行经常性的评价、反思和改进。
在传统课程中,教师教的主要是知识与技能,教学方法以讲授式为主,所以评价的内容和手段也是比较单一的。而在新课程的背景下,教师要改变过去过分重视知识传授的倾向,帮助学生形成积极主动的学习态度,要在传授知识的过程中发展学生多种学科共通的能力(如搜索和处理信息的能力、批判性思考能力),培养学生的良好情感、态度与价值观。教学目标多元了,评价内容也就丰富了。教师使用的评价工具与手段是否体现了评判的特质,教师能否依据学生完成评价任务的过程或结果,得出准确、有效的结论,成为了一个值得教师关注的重要问题。
在教育测验与评价中,人们通常把测验或评价结果的准确性和有效性称为“效度”。“效度”是判断评价质量的重要指标之一。
应该说,对于多数教师(包括管理者在内)而言,评价的“效度”还是一个比较陌生的概念。为了帮助大家认识和理解“效度”及其意义,我们列举几个案例来加以说明。
比如:义务教育阶段的语文课程十分重视口语交际能力的教学与评价,某语文教师在单元教学结束后给学生布置了这样一个口语交际的评价任务:“我们每个人心中都有自己的秘密。今天晚上,请你回家后和父母进行交流,说说你心中的秘密。你会怎么说呢?请你把它写下来。”在这一案例中,用纸笔表达的形式来评价学生的口语交际能力,显然是不理想的。因为一个学生写得好,并不代表他口语交际的能力就强;一个学生写得不好,也不能说明他的口语交际能力就差。教师要想有效评价学生的口语交际能力,最好还是使用真实的口语交际过程来实现。从这一点来说,这一评价任务的“效度”,就不是很好。
又如:在某市的一次初中历史测验中,出现了这样一道题:“虎门销烟的故事大家都知道,鸦片的危害大家也清楚,请你做一幅宣传画,告诉更多的人要远离毒品。”出题者的意图是想通过这道题评价学生是否具备了相应的价值观,立意很好。但潜在的问题是,教师如何给学生的画评分?是不是画得好就可以得高分,就说明学生在价值观的某一方面已经达到了课程标准的要求呢?显然不能。这一评价的任务更多地反映了学生的绘画能力,而不是学生的价值观。从这一点来说,这个评价任务的“效度”,也不是很好。
在实践中,评判某一评价任务或方案的“效度”如何,通常采用逻辑分析或专家判断的方法。我们建议,教师在设计评价的任务或编制评价的方案之前,要明确评价的目的(评判与甄别学生的发展水平,或诊断学生的优势与不足)与评价的内容(学生对知识的掌握状况,或学生的批判性思考的能力);在任务设计或方案编制完成之后,教师应请专家或同事凭借经验进行逻辑分析,以评判任务或方案的“效度”如何。对于一个“效度”良好的评价任务,我们可以根据学生的表现或结果,得出一个比较准确而有效的评价结论。
“假定个体及群体的行为具有某种程度的稳定性,这是行为测量成立的前提。然而,对一个人行为的连续取样,在几次样本之间几乎不可能所有的方面都相同。即便是在严格控制的条件下,几次测验间个体的成绩、作品及对同一套测验题目的回答,也都会有质和量的差别。”[2] 这说明,通过测验或评价所得的分数总是有或多或少的误差。
在教育评价中,使分数免受误差影响的程度就是“信度”,它表示评价分数的稳定性和可靠性,是反映评价质量的又一重要指标。
一般说来,评价的“信度”可以区分为多种形式,包括“重评信度”、“复本信度”、“内部一致性信度”和“评分者信度”等。在日常评价实践中,任课教师对前三种“信度”形式只需有所了解即可,真正需要关注的是最后一种“信度”形式,也就是“评分者信度”。[3] 而所谓“评分者信度”,是指多个评分者给同一批人的答卷进行评分的一致性程度。当评分者人数为 2时,“评分者信度”等于两个评分者给同一批学生的答卷所评分数的相关系数,其值在0至l之间。0 表示两个评分者的分数完全不一致,1则表示两个评分者的分数完全一致。
新课程十分注重培养学生的多元素质,如沟通与合作能力、批判性思考能力、搜索和处理信息的能力等,但这些能力或素质的评价往往难以通过传统的客观题(如选择题、填空题)来进行,而需要有一些开放性的评价任务,以给学生自由表现和发挥的空间。比如:某高中在期末历史测验中,就出了这样一道题:“某电视台要拍一部历史剧《重庆谈判》,让你做编剧,请你为毛泽东设计一段到达重庆机场时的演讲稿。”增加测验题目的开放性,已成为中考和高考命题改革的趋势之一。
在各种开放性评价中,“评分者信度”是保证其科学性和有效性的重要前提。如果有一套评价方案或评价工具,由不同的评分者依据评价标准独立地对学生的表现进行评分,而得出的分数相差很大,那么这套评价方案或评价工具的质量就是值得怀疑的。[4]
那么,如何在评价实践中提高“评分者信度”呢?需要指出的是,让教师关注“评分者信度”,并不是要求教师在每一次评价中都起用两个或两个以上的评分者,并通过严格的数学统计求出评价的信度。因为那样做无疑会增加教师的实际工作负担,且对评价质量的提高帮助不大。提高“评分者信度”的关键在于制定评分标准,具体地说,就是要求教师在开放性任务评价中使用能被大家广泛接受的标准,并提出明确、可操作和可交流的评分细则。如果不能满足这些要求,教师在评分过程中缺乏明确的评分标准,或者这些标准的操作性不强,那么,不同的人在交流评分标准的时候,就有可能出现不同的理解。这在不同程度上会加剧评分的主观性,影响评价的客观性与公正性。
除了“效度”和“信度”,评判评价工作的质量还有一些其他的指标。比如评价工作的实效性,指评价是否切实有效地实现了评价的目的,是否取得了预期效果。又如:评价的公平问题,指某一评价任务或方案是否对某一特殊群体(如女性团体、经济弱势群体)构成冒犯或不公正待遇。当我们评判某一具体的评价活动时,还可以根据实际情况,将有关指标进一步具体化,以促进评价工作的反思与改进。
评价的反思与改进具有重要的现实意义。如果教师和研究人员只知道编制评价任务和评价方案,而不注重反思和改进,那就会使一些质量不高的评价对实践产生消极的影响。我们要将评价的反思与改进便由理论意识转变为实际行动,以最终提高评价的质量。
参考资料:
[1]金娣,王刚.教育评价与测量[M].北京:教育科学出版社,2002.
[2]W.James Popham (2002). Classroom Assessment:What Teachers Need to know [M]. Pearson Education, Inc.
[3][4]夏靖.新课程背景下日常作文评价的元评价[J].语文建设,2003,(9)。
|
| |
|
|