教育评价可靠性下降的因素及检验方法

时间：2022-10-30 14:05:05 来源：网友投稿

教育评价是评价者根据一定社会确定的教育目标和价值标准，对教育活动满足社会与受教育者需要的程度作出判断。教育评价是教育管理的重要手段，评价结果对作出科学决策，改进和提高工作、学习质量有着十分重要的意义。可靠性（信度），是指测量和评价结果的准确性、精确性。影响教育评价客观、公正的因素较多，因此，在教育评价活动中，应尽可能排除各种干扰因素，并对教育评价的可靠度进行检验，这样才能正确解释和应用评价结果。

一、教育评价可靠性下降因素

（一）受测方面

受测对象的身体、心理健康状况会影响测量的可靠性。一般情况下，当受测对象身心处于良好状态时，测量信度就会高一些，否则信度就会下降。另外受测对象对教育评价的重视程度、作答态度等都会影响测量信度。受测集体内部水平的离散程度以及平均水平也会影响测量信度。

（二）主测方面

评价者的身心健康、职业道德水准，评价者受外界干扰的程度，评价者对评价标准掌握的一致性程度会影响测量的可靠性。

（三）施测条件方面

施测条件的标准化，有利于减小随机误差的影响。在实施测验时，考场是否安静，光照和通风情况是否良好，设备是否安全可靠，桌凳是否合乎要求，设备、桌凳的摆放是否合理等等都可能影响到测量的信度。

（四）测试题方面

1. 测验长度在其他条件相等的情况下，测验长度（题目的多少）越长，信度值越高。因为测验越长，题目取样或内容取样就越充分，可能改进项目取样的代表性，从而能更好地反映受测者的真实水平,同时也避免猜测题目的影响；另外测验的项目越多，在每个项目上的随机误差就可以互相抵消。

2. 测验难度测验难度对信度也会产生影响。如果一个测验的难度太低或太高，测验分数会集中并聚在高分端或低分端。这样都会使测量到的分数分布太窄，导致信度降低。

3. 施测时间间隔方面在计算重测信度和复本信度时，两次测验相隔时间长了，被试的心理特征受影响的机会增多，使信度值降低；时间间隔短了，由于受第一次测评的影响，将造成信度值假性增大。

二、教育评价的可靠性检验方法

（一）重复检验

利用相同的评价指标体系，间隔一定的时间，对同一组被评对象进行两次评价，然后计算两次评价结果之间的相关系数，求得的相关系数称为重测信度。该法很有适用性，但要根据测验的性质和目的来控制合理的时间间隔，这样才有可能获得较好的稳定系数。一般情况下，重测相关系数达0.9以上时，才可认为一致性较好、可靠。

（二）复本检验（交错检验法）

复本信度又称为等值性系数，它是代表测评跨形式的一致性，即在对被试进行测评以后间隔一定的时间，运用复本再测评一次所获得的复本相关系数。复本是指在内容、数量、格式、难度、平均数、标准差等各方面与原测评一样的测评，即功能等值但题目内容不同。复本信度的优点在于适用于在长期追踪研究或调查某些干涉变量对测验成绩影响，同时减少了辅导或作弊的可能性。但在现实中，编制功能等值但题目内容不同的复本比较困难，有些测评则无法编制复本。另外，复本检验也会受练习的影响。

（三）内部一致性检验

重复检验和复本检验都需测评两次，费时费力，且第二次测评容易失真。内部一致性系数是通过分析同一测评内部各测评项目之间的相关系数的方法来估计信度系数，它只需要测评一次。内部一致性系数反映的是跨测题的一致性，即测评内部各部分之间是否具有同质性。主要方法有：

1. 分半法分半法是将评价指标按照序号奇数和偶数分为两半，评价后，分别计算每位被试对象在两半测验上的得分，再求出这两个分数的相关系数，从而来估计整个测评的信度。因为分半系数只是根据原测题的一半题目而来，所以分半系数常常要比原测验的信度低，常运用斯皮尔曼—布朗公式来校正这个差异。该公式可以估计增长或缩短一个测验对其信度系数的影响，用此公式的前提条件是：两半测验的方差相等。斯皮尔曼—布朗修正公式为：

其中，rhh：两半测验的相关系数；rxx：估计或修正后的信度。

当两半测验的方差不同时，可选用下面的方差法。

2. 方差法方差法是通过分别求出两半指标评价分数的方差或者分别求两半指标评价分数之差、之和的方差来求信度系数的方法。可选择下面公式：

其中， Sa2， Sb2分别为奇、偶两半指标评价分数的方差；St2为评价总分的方差；Sd2 为两半指标成对（对偶）分数之差的方差。

3. 库德—理查逊估计法同质性信度不需要把测评分为两半，它是指测验内部的各题目在多大程度上考察了同一内容。所谓的同质性是指所有的测验题目测量的只是单一的特质或内容，表现为所有测验题目得分的一致性。常用的计算方法是库德—理查逊估计方法。计算公式有库德—理查逊公式：

n为测验题目数，pi为通过i题的人数比例；qi为未通过该题的人数比例；pi+qi=1；∑piqi为所有题目答对与答错人数百分比乘积的总和。

库德—理查逊信度系数的运用需要满足几个条件：所有测题都采用二分法记分，即都采用0，1记分，答对记1分，答错记0分；测验的项目难度比较接近；项目间的组间相关相等。

4. α系数法当测验项目采用多重记分（如人格测验、态度量表），库德—理查逊信度就无法运用。克伦巴赫提出了适用于各种记分情况的α系数来估计信度。具体公式如下：

其中，Si2为每一项目的方差；SX2为测验总分方差。

（四）Ｗ系数检验

Ｗ系数法是肯德尔提出的检验评价意见一致性的方法，又称为肯德尔和谐系数法。如果多个评者同时评价多个对象（或指标），评价结果是以等级记录（也可以以分数记录，再转换为等级），那么衡量多个评价者掌握评价校准的一致性程度，要用肯德尔和谐系数。Ｗ系数的公式为

式中，Ｒ为某个被评对象被评价者评定的等级之和；Ｎ为被评对象的个数；Ｋ为评价者个数。

如果评价时，专家个人对评价对象的判断结果出现相同等级较多，在求Ｗ系数时应该使用校正公式，即

Ｗ系数越大，说明教育评价者评价意见的一致性越高，评价结果越可靠；Ｗ系数越小，则说明评价者的意见分歧越大，或把握评价指标不一致，评价结果的可靠性、客观性就差。

（东台市技工学校）

推荐访问: 可靠性 检验方法 下降因素评价