基于考试结果挖掘的教育评价：理论与实践

时间：2022-10-30 14:00:08 来源：网友投稿

打开文本图片集

摘要：考试分数的使用是评价工作的关键一环，它直接影响着教育决策部门、学校和学生对分数及其背后信息的使用。近些年来，随着现代统计与测量理论研究的不断深化，国内外考试机构在考试分数的使用方面基于认知诊断和多元智能理论的应用取得了长足的进步，为政府部门的决策、学校的教学改进和考生自主学习提供了科学依据。笔者结合我国大规模教育考试的实际，在总结国内外理论研究和实践经验的基础上，在高考、教师资格考试、NCRE等项考试中尝试进行了利用考试分数开展评价的探索。

关键词：高考；考试评价；诊断性分数报告

中图分类号：B841.2文献标识码：A文章编号：1003-5184（2012）05-0461-05

1 基本背景

考试是一种重要的学业评价方式，其是否科学合理，在很大程度上决定着教育的走向，影响着学生的素质发展，也关系到整个社会的教育公平与民族素质的提高。

考试自创立至今有1300年的历史了，人们常把考试比作一把尺子，通过考试分数可以测量出参加测试人的水平，但是，仅有一个考试总分又有多大意义呢？分数并不代表一切，考试分数只有结合具体实际观察加以解释和分析才更有意义。也就是说，考试不仅要测量出一个结果，更要结合结果进行有效地评价。对于不同的人，得到同一个相同的考试分数，其意义是不相同的。因此，对考试分数进行解释主要包括两个目的：第一，使分数有意义；第二，将有意义的信息传达给参与考试的所有当事人。传统的做法一般都是在解释分数时在参照标准上做文章，例如提供一个常模参照分数或标准参照分数。近年来，由于考试出现了“基于统计的测量向基于理论的测量，考试内容更加全面和深入，评价方式也呈现出多元化倾向，再者，由于运用了更多的现代测量理论和技术，面向诊断”等等转变，考试分数的解释也出现了一些有别于传统的新趋势。

目前考试结果的反馈形式，主要存在以下几方面的问题。第一，缺乏对不同科目试题所考核的能力层次和知识领域上不同属性的分析，从而减弱了教学评价的导向功能。第二，对考试数据本身所提供的信息挖掘不够。对于考生成绩的报告，往往只有各个科目的总分，没有对每个科目的不同能力层次或不同知识领域的分数的报告。第三，考试评价方式和数据反馈形式不利于各级教育行政部门对教育质量做出客观公正地评价。改变评价方式、充分挖掘考试数据本身提供的信息，将极大地丰富考试的评价功能，从而使得教育评价更好地为不同层次、不同群体的发展服务。

2 诊断性分数报告的研究与现状

评价的目的不是为了证明，而是为了改进（Stufflebeam，1983）。这句表述已经得到了理论和实践工作者的高度认可，更彰显了教育评价内在价值的回归。作为教育评价的主要形式，考试的诊断、反馈与矫正功能日益被关注，这直接推动了诊断性测验及其分数报告模型的快速发展。其中，分数报告的地位和作用是显而易见的，它即承载了各种先进的测量、评价技术，又是教学主体采取干预、改进措施的主要依据。同时，理想的分数报告还需要符合国家教育制度关于课程、教学以及质量要求的规范，并赋予教育教学的内涵。因而，结果的科学性和精确性、呈现结果的通俗性、内容上与上位教育质量框架的契合性，是衡量分数报告可资参考的三个标准。在此，结果的科学性和精确性是基本前提。目前，不少研究集中在如何改进评价模型以准确评估考生的知识和能力水平。

从20世纪80年代开始，围绕如何让测验提供更多的诊断性信息，研究者进行深入地探讨，提出了一系列具体的方法，力图科学准确地反映出个体在知识结构、能力水平方面的人际差异。Yen（1987）提出了目标表现指数（Objective Performance Index）的算法，采用了根据测验总体表现来估计子分数的方法，得出基于次级考查目标观测分数与整体表现的加权平均分。目前该方法在CBT的考试项目中得到了广泛的应用。Wainer等（2001）提出了强化分数（Augmented subscore）的测量模型，与Yen不同，他坚持从各次级考查目标的表现而非整体表现来推导出子分数，其理由是：不同次级考查目标分数之间的相关性都比较高，即使是中等程度的相关，也需要将之纳入对相应子分数的估计中，这一点，在数学、科学中尤为明显。因而，Wainer进一步认为可以根据各次级考查目标分数之间相关程度的大小来设置不同的权重，采用经验贝叶斯估计法来得出强化分数，这种算法类似于Kelley（1927）提出的回归算法，只是增加了多个次级考查目标分数作为估计时的变量。近年来，各种认知诊断模型大量涌现（RSM，Tatsuoka，1983，2009；DINA，NIDA，Junke & Sijtsma，2001；AHM，Leighton，Gierl，& Hunka，2004；RUM，Roussos et al.，2007；GDM，Von Davier，2008），把分数报告的研究和实践推向了一个新高度，虽然理论、模型各异，但其共同的目标在于对被试属性掌握情况进行更加细致的报告，包括能力层次、特定领域的表现、学习的强弱，这些方法和技术算法上比较复杂，对数据的要求较高，短时间内还难以在大规模考试中广泛应用。最后，在测量理论的选择上，诊断性分数报告主要采用了CTT、UIRT和MIRT（Gessaroli，2004）。对于测量目标具有层次性的测验（如pisa、naep的评价框架），HO-IRT模型（Higher-order IRT）也开始引起了研究者的关注（De la Torre & Hong，2010），而且不少研究都显示：从模型匹配度的指标（Akaike信息准则、Bayes信息准则）来看，HO-IRT模型更加适用。且以均方根差（RMSE）指标，HO-IRT模型对被试能力参数、试题参数的估计精度（特别是在分测试题目数量较少时）优于UIRT和MIRT。然而，在教育考试实践中，提供诊断性分数报告也面临不少批评。有关的行业标准明确要求（AERA，APA，& NCME，1999），只有在信度、效度和结果可比性明确的前提下，分数报告才可以进行。批评者认为，诊断性分数的信度难以保证，而且对诊断性分数的使用容易带来难以预计的结果，可能完全违背测验的目的。支持者认为，如果对命题、考试方式进行调整，并用于过程性评价或以群体为单位的评价，其风险则要小一些，毕竟它们提供的诊断性信息对于改进教学具有无法替代的作用。

3 国内外的实践与经验

就考试评价本身来讲，其功能主要体现在三个方面：一是通过考试结果反馈教学情况，激励和改进教师教学、学生学习能力的功能；二是通过考试结果评价学生学习成绩，对学生进行选拔、安置，以及衍生出来的对教师、教材等相关问题的评价功能。三是通过不同群体和区域的考生结果的比较，挖掘影响学生学业能力的因素，为国家和地区制定相应政策提供服务的功能。因而，能否充分挖掘考试信息，全面的反馈考试结果，是考试能否充分发挥功能的关键。

3.1 国外研究现状

3.1.1 SAT和ACT的分数报告

在美国与我国高考最相似的大规模考试就是大学入学考试SAT和ACT，它们都属于常模参照的高利害性考试。其中，SAT提供给学生的结果报告的框架包括：（1）学生的分数；（2）学生在每个类型的问题上表现；（3）分数汇总（累积分数记录）；（4）ID信息；（5）学生个人及大学的基本信息；（6）学生提供的信息。如表1所示，SAT提供学生的分数，包括学生在SAT1和SAT2上每个分量表的量表分数（标准分），分数区间〖ZW（DY*〗

量表分数是学生能力的近似值而非精确测量值，这里提供的是其精确测量值所属的分数段。〖ZW）〗及该分数在国家参照群体或者州参照群体中的位置（百分位数）。另外，还提供学生在每个类型的问题上的分数，包括在每种题型的试题总量、学生回答正确的数量、错误的数量，原始分数，以及百分位数的估计值，见表2。

SAT和ACT测验在提供个人分数时，除了提供原始分数（或量表分数）外，还有百分位数和区间估计，同时提供考生在各知识领域（子测验）以及题型上的分数和百分位数，对学生的掌握程度有了详细的分析。另外，美国学生在完成SAT和ACT测验时，需要同时填写大量的个人背景、入学意愿等相关信息，考试机构会据此对学生的大学选择和职业发展提供详细的指导，因而报告的内容非常丰富。 

另外，美国推出的其他一些考试，如托福，于2004年推出了新的分数解释，它不仅给考生提供分数，还给考生提供了达到各个分数学生能力的描述。

3.1.2 澳大利亚EAA的分数报告

受美国教育考试行业发展的影响，澳大利亚教育评价中心（Educational Assessment Australia，EAA）在一些考试项目的分数报告中，也开始积极的尝试。其基本的指导思想也是尽可能提供丰富的诊断性信息。不仅报告考生的考试分数，还针对每个考生明确报告他的优势和弱点、每道题所测量的能力、考生所在的位置以及其他考生和他自己的答题情况。

随着计算机网络技术的发展，EAA还研制了网上成绩报告系统，这个系统允许考生和家长、学校根据不同的ID和密码从网上查阅和打印成绩报告以及证书。报告内容包含了州、学校、考生各个年级、各个知识、能力表现以及考生不同年级的变化情况；不仅报告考生的优势，也向考生提供劣势分析，帮助学生诊断学习障碍。由于其具有强大的数据库支持，并且提供了进一步统计和制图软件系统，允许学校和教师利用数据形成自己感兴趣的分析报告。其数据和图形还可以导出用于研究。

3.1.3 PISA的有关报告

PISA是学生能力国际评估项目的缩写。它是一项由经济合作与发展组织（OECD）发起的学生能力国际评估计划。旨在评估15岁学生在即将完成或完成义务教育之后，是否能够掌握参与社会所需的知识与技能。PISA在2000年首次开始评价，其后每三年进行一次，根据评价年命名。PISA2000、PISA2003、PISA2006和2009已经完成。2012年测试工作仍在进行中。PISA测试评估主要分为3个领域：阅读素养、数学素养及科学素养，由这3项组成一个循环，如2000年测试重点为阅读素养，2003年、2006年将分别以数学与科学素养为测试重点，2009年又回到阅读素养的测试重点。在每一个评核周期里，有2/3的时间会对其中一项领域进行深入评估，其他两项则进行综合评测。PISA除测验之外，还包括了学生问卷和学校问卷，目的是收集有关社会、文化、经济和教育因素的指标，这些指标与学生的成绩相联系。它超越了对各参与国家或地区在三个主要领域的相对排名，涉及更广范围的教育成果，如学生的学习动机、对自己的自信心以及学习策略等，以获得来自学生、教师、学校和家长的综合看法和观点。需要指出的是，PISA目的不是指导教师如何进行教学，而是向公众、政策制定者和教育者提供学生在各个学科方面的能力的描述性信息，并对各参加国的教育质量进行横向比较，其分析框架中包含了个体、教学、学校以及教育体制四个分析层面，这样就为公众、政策制定者和教育者提供更全面的信息。

3.2 国内的现状

目前，国内对于考试成绩的报告仍然停留在总体成绩报告上，缺乏对不同科目试题所考核的能力层次和知识领域上不同属性的分析，从而减弱了教育评价的导向功能。如何充分挖掘考试数据的信息，改进评价方式，逐步形成适合我国教育实践的从命题到试卷分析的整个过程的标准化的程序尚没有系统的研究。

现存的考试评价方式和考试信息的报告，主要存在以下几方面的问题：首先，现有的考试功能比较单一。现有的考试在绝大多数情况下只起到了对考生进行排序的功能，通过考试将考生的成绩由好到坏排队，这在一定程度上助长了“应试教育”的盛行。第二，考试的内容和考核能力层次人为性和主观性明显，考试以能力为导向的特点不明显，对各科目所考核的认知能力层次没有明确的反馈和说明。第三，对考试数据本身所提供的信息挖掘不够，对考生测试结果反馈形势比较单一。对于考生成绩的报告，往往只有各个科目的总分，没有针对不同科目的不同能力层次或不同知识领域的分数的报告，很难全面客观评价学生的学业状况。第四，以往的评价方式和反馈信息不利于各级教育行政管理部门对不同群体教育质量和特点进行合理、公正的评价。第五，目前考试数据的反馈报告形式，不足以为国家决策机关提供有效的决策依据。

考试除了能帮助我们用来选拔和甄别以外，本来有一个很重要的作用就是可以帮助教学管理者、教师、考生了解考生已经掌握的知识水平，区别出不同考生的学习潜能，诊断出教师在教学中、考生在学习中存在的困难和问题，从而，帮助教学管理者调整教学投入，帮助教师改进教学，帮助学生进行更有针对性的学习。

从近来国外考试分数报告的变化，我们看出考试工作者需要进一步完善我们的考试，社会现在需要我们对考试分数有一个更合理的解释。其实，人们很早就认识到了考试分数本身并没有任何意义，仅有一个简单的分数，我们很难去解释它，任何考试分数必须有参照才具有实际意义。大规模考试产生以后，人们逐渐地认识到考试只有与团体或预定的标准去比较才更有意义，于是人们开始使用常模的概念，把分数与常模进行比较来进行解释；同时，人们发现还有不少考试需要与预定的目标进行比较，看考生是否达到了规定的标准。这样就出现了以常模为参照和以标准为参照的分数解释体系。但是，在现实中，我们也常常发现，对考生的实际水平的评价，有时不仅要借助与特定的标准作为参照系，而且还要借助于在一定程度上标准的样本组，即借助常模来建立参照系。并且，为了使考试对实际教师教学和学生学习有促进作用，往往还需要提供更为详尽的诊断性信息。基于以上的认识，结合我国大规模考试的实际，我们认为改革我国考试分数报告形式势在必行。

4 探索与尝试

为了尝试开展自己的分数报告形式，在深入研究和学习国外经验的基础上，我们从2007年开始在全国计算机等级考试（NCRE）MS-Office和全国高等学校入学统一考试、中小学幼儿园教师资格考试进行了试点，以期达到完善我国考试分数报告体系的工作，为后续在高考中的改革奠定了良好的基础。2011年，教育部考试中心在云南、海南两省开展了高考评价改革的试点工作。试点工作旨在利用现代教育评价的理念和方法，改革传统的高考分数报告方式，依托现代网络技术，向学生、中学、教育行政部门和命题部门，提供内涵丰富的分析报告。

面向学生提供的高考成绩分析报告单都是个性化的，内容也更加丰富。报告单除了记录考生本人的单科成绩和总分或综合分外，还列有每个科目的成绩在全省同类考生中的百分等级、考生各科成绩的均衡状况以及在各科目内容分项上的表现。通过提供升学指导测验的专业性向结果，帮助考生结合自己的兴趣、特长理性地选择专业。这些分析结果，为考生提供了内涵更加丰富、具有诊断与发展导向功能的重要信息，帮助考生更加全面、清晰地认识自己，更好地规划自己的学业。另外，面向学生的成绩报告成为网络时代的“成绩报告单”，不光从技术上改变了传统的“一张纸条几个分数”的分数报告办法，而且较纸质报告单可以容纳更多的内容，从更多的维度解释考试分数的含义。

面向中学的成绩报告包含了大量经过专业分析后的图表，帮助中学分析考试数据，发现教学中的长处和不足，以有针对性地改进教学组织工作。同时，利用考试机构的历史数据，帮助中学分析不同年度间教学质量的变化趋势。并且引入了“增值评价”等先进工具和理念，尝试建立纵向的学科能力量表，加大对学生进行发展性评价的力度，引导与改进教育教学评价办法。

面向教育行政部门的分析报告从不同维度提供了高考的基本情况分析，而不仅仅是“升学率”和“平均分”，同时，提供各种专题评价报告，供教育行政部门决策参考。

最后，面向命题部门的分析包括考试的基本情况、成绩分布、信度、效度、区分度以及各道题的专业统计指标值，能够帮助命题人员了解试题的质量，不断提高命题的水平，促进自身的专业发展。

去年试点工作在两省高考中推出后，取得了不小的社会反响，这为考试评价改革开了一个很好的头。其意义体现在以下几方面：一是迈出了在大规模考试中进行考试评价工作的第一步，进行了有益的尝试，对教育考试行业起到了积极的引领作用。二是丰富了考试评价的方式方法，将考试与非考试手段结合，来对不同群体、考生、命题工作进行评价。三是推动了由单一一个点的评价到形成性评价的开展，有利于积极引导中学教学。四是拓展了考试评价的服务领域，在为政府决策咨询、改进教育教学、帮助考生全面认识自己等方面积累了经验（李光明，2012）。

参考文献

李光明.（2012）.探索考试评价，促进高考改革.北京师范大学学报，增刊，5-9.

De la Torre，J.，& Hong，Y.（2010）.Parameter estimation with small sample size：A higher-order IRT model approach.Applied Psychological Measurement， 34，267-285.

Gessaroli，M.E.（2004）.Using hierarchical multidimensional item response theory to estimate augmented subscores.Paper presented at the annual meeting of the National Council on Measurement in Education.San Diego，CA.

Junker，B.W.，& Sijtsma，K.（2001）.Cognitive assessment models with few assumptions，and connections with nonparametric item response theory.Applied Psychological Measurement， 25，258-272.

Kelley，T.L.（1927）.The interpretation of educational measurements.New York：Word Book. Leighton，J.P.，Gierl，M.J.，& Hunka，S.M.（2004）.The attribute hierarchy model for cognitive assessment：A variation on Tatsuoka"s rule-space approach.Journal of Educational Measurement， 41，205-237.

Roussos，L.A.，DiBello，L.V.，Stout，W.F.，Hartz，S.M.，Henson，R.A.，& Templin，J.H.（2007）.The fusion model skills diagnostic system.In J.Leighton & M.Gierl （Ed.）， Cognitive diagnostic assessment for education：Theory and applications.New York：Cambridge University Press.

Stufflebeam，D.L.（1983）.The CIPP model for program evaluation.In G.F.Madaus，M.S.Scriven，& D.L.Stufflebeam（Eds.）， Evaluation models：viewpoints on educational and human services evaluation（pp.117-141）.Boston：Kluwer-Nijhoff Publising.

Tatsuoka，K.K.（1983）.Rule space：An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement， 20，345-354.

Von Davier，M.（2008）.A general diagnostic model applied to language testing data.British Journal of Mathematical and Statistical Psychology， 61，287-307.

Wainer，H.，Vevea，J.L.，Camacho，F.，Reeve，B.，Rosa，K.，Nelson，L.，Swygert，K.，& Thissen，D.（2001）.Augmented scores—“borrowing strength” to compute scores based on small numbers of items.In D.Thissen & H.Wainer（Eds.）， Test Scoring（pp.343-387）.Mahwah，NJ：Lawrence Erlbaum Associates.

Yen，W.M.（1987）. A Bayesian/IRT index of objective performance.Paper presented at the meeting of the Psychometric Society.Montreal.

Education Evaluation based on Data Mining into Examination：Theory and Practice

Ma Shiye Zhang Jianshi

（The National Education Examinations Authority，Beijing 100084）

Abstract：The use of test scores is the key part of the evaluation.It has a direct impact on how the educational administration departments，schools and students use the scores and the information behind them.In recent years，with the development of modern statistics and measurement theory，considerable progress has been made in terms of the use of test scores based on the application of cognitive diagnosis and multiple intelligences theory.This provides a scientific basis for the decision-making of the government organizations，teaching and study.In accordance with the reality of large-scale examination in our country，the authors summed up the domestic and international theoretical research and practical experience，and tried to use test scores to carry out evaluation in college entrance examination，teacher qualification exam and NCRE.

Key words：Gaokao；Examination Assessment；Diagnostic Score Report

推荐访问: 挖掘实践评价理论考试