咱们一说到教育,就不可避免地会谈到中考、高考,这些高风险考试(high-stakes tests)。虽然你们对“教育测量”这个概念可能不那么熟悉,但关心教育行业的伙伴对如下问题可能会比较有共鸣。好比:咱们如何决定一张试卷是否是适合当年、当地的考生?咱们如何为不一样学科的试题赋值,应该使用等级、原始分数仍是转换分数?新高考的计分逻辑和原始分数有什么不一样?选科高考后,你们选择的科目都不同,分数可比性怎么解决?这些问题背后的逻辑都与教育测量学密不可分。微信
其实,教育测量的理论和技术,不只仅会应用在大型高风险考试,还能够应用在老师们平常教学的闭环中。好比,在面对一个新生的时候,咱们如何知道学生初始的知识掌握水平?在教学期间,咱们如何知道学生对一个知识点有没有掌握、掌握到什么程度?在一段学习以后,咱们如何知道学生相比较刚来报班的时候有没有水平的进步或变化?学科能力水平这样的抽象概念,咱们很难一眼看到,不像咱们的身高、体重那么直观。因此咱们就要依赖测量工具来对这些抽象、潜在的心理维度进行外化和量化,得到关键的学情信息,让咱们直观地透过学生的做答信息和做答结果来回答这些问题,牵引着老师们在平常教学过程当中的每一步动做。架构
那么,教育测量(Educational Measurement)究竟是干什么的呢?实际上,教育测量要作的事儿就是对各类与教育相关的事物进行量化,给这些事物指派数字,最终来实现不一样的教育决策(例如:选拔、评价、因材施教等)。以评价为例,咱们能够经过各类不一样形式的“考试”把学生的学习表现量化,用数字或者等级来表明,进而评价学生的学习效果。咱们也能够经过对老师平时的教学行为进行量化,用数字或者等级来表明,来评价老师的教学效果。中国著名心理学家张厚粲老师说,“一我的的经验再丰富,也不免带有必定的局限性。再好的售货员不用尺或秤,而仅凭经验卖布卖糖时也会出错”。教育测量学就是但愿能够用科学方法保证试卷的质量,确保能够精准地测量与教育相关的事务,保证根据分数作出的决策是合理的、公平的。 框架
在教育测量学中,衡量测评工具最重要的两个指标是信度(reliability)和效度(validity)。其中,信度是指这个测量工具要可靠、稳定地测查咱们关注的维度,好比:学生的学科能力。效度是指这个测量工具确实是在测试咱们所关注的维度,而不是其余不相关的维度。好比:数学考试就是测试学生的数学能力,而不是学生的英语能力。这两个概念,会在咱们后续的文章中为你们详细介绍。运维
在这篇文章中,咱们将具体介绍在教育测量领域中被普遍使用和研究的一种现代测量理论,名为项目反应理论(Item Response Theory,IRT)以及这个理论下的经常使用技术和模型,让咱们从一个科学、技术的眼光看看考试背后的故事。函数
在介绍测验理论以前,咱们先从你们的作题和考试经验来入手体会一下不一样理论的差别。传统考试里你们作一份题,作完之后老师反馈试卷总分,若是咱们忽略每一个题目的分值,其实每一个人的考分能够表达为做答正确的百分比。好比,一份试卷20题,对了15题,那么最后试卷得分就是75%。那么,75%的正确率表明什么呢?首先,咱们平常在出试卷的时候,必定不是只关心学生在这张试卷上表现怎么样,而是咱们想经过这张试卷的20题,去推断他能力到底怎么样。这张试卷的20题是对学生知识掌握状况的抽样,若是再给这位学员40题,他是否能够作对75%的试题,也就是30题?若是是80题,他是否可以作对60题(依然是75%正确率)?这里隐含的假设是,咱们老师抽选的20个题是无穷无尽的题海中的一个有表明性的样本。 工具
可是,当老师们组出的20个题并非对于一个年级有表明性的样本时,或者试卷间考察的知识点自己就不一样时,则没有办法认为一个考生在试卷A的正确率是75%,他在试卷B上的正确率也是75%。这样只经过整体试卷正确率去评价学生的方法是有一个测量理论支持的,叫作经典测验模型(Classical Test Theory,CTT)。源码分析
要了解项目反应理论(Item Response Theory, IRT),咱们首先须要认识一下CTT——由于正是CTT的局限性,才有了IRT产生的契机。CTT是在随机抽样理论基础上创建的一套心理与教育测量理论体系,其核心假定是:在测验水平上,观察得分(observed score;也就是咱们一般的考试得分)等于真分数(true score;真实能力应该体现的分数)加上随机偏差分数(error score;其余不相干因素致使的偏差)。因为咱们假设偏差是正态分布上的随机变量(均值为0的),所以,若是同一个测验或平行测验能够反复测量同一我的足够屡次,观察分数的均值就会接近考生的真分数,随机偏差的均值为0。那这样的理论主要有如下几个局限性:学习
既然CTT存在那么多局限性,是否有更科学、更实用的测量理论来弥补这些不足呢?咱们接下来要介绍的项目反应理论(IRT)就是为解决这些局限应运而生的。测试
2.1 IRT的基本框架动画
IRT全称为Item Response Theory, 译为项目反应理论。其中所谓“项目”(item)其实就是指的咱们试卷中的题目,“项目反应”(item response)就是考生在具体题目上的做答。简而言之,IRT就是创建在学生能力和做答正确率的关系上的。咱们知道,影响考生在项目上做答结果的主要因素有两个方面:第一个方面是考生自己的能力水平;第二个方面是试题项目的测量学属性,如项目难度、区分度、猜想性。在平常教学活动中,咱们都有这样的经验:对于一道编制质量很好的题目,全卷总分较低的考生在该题目上的正确做答几率较小,而全卷总分较高的考生在该题目上的正确做答几率相应较高。这种伴随着总分的由低到高,题目正确做答几率由小到大变化的过程基本上是一种连续性变化的曲线。在经典测量理论中(CTT),卷面总分能够被视做学生能力的表明,可是学生卷面总分是随测验的许多特性而变的。例如,随着试卷难度的改变,同一考生的卷面总分也会随之改变。那么可否用一种稳定反映考生水平的潜在特质(latent traits)变量来代替卷面总分呢?
假设这种潜在特质(即考生的能力)是存在且可被测量的,咱们用θ来表示,那么随着考生的能力水平的变化,考生答对某题目的几率P(θ)也相应变化。这种描述考生能力水平与项目做答结果之间关系的数学模型被称为项目特征函数(item characteristic function, ICF),以图像表示则称为项目特征曲线(item characteristic curve, ICC)。下图1为一典型的ICC:横轴表示考生的能力水平,纵轴表示答对某题目的几率。每个题目会有本身的ICC。
图1. 项目特征曲线(ICC)
考生潜在特质θ在特征函数ICF中是一个自变量,从理论上说θ的定义域是无穷的,从负无穷到正无穷均可取。P(θ)的值随着θ的增大而增大,但以P(θ) = 1为它的上渐近线。参数θ与卷面总分有必定的联系,正常状况下二者呈正相关。可是,θ是考生水平更为本质、精确的描写。习惯上θ采用标准Z分数的表达形式,其上下限通常设定为[-3,3]。
ICC的走势除了受到考生潜在特质的影响外,还受到三个反映测验试题特征的未知题目参数alphaα、betaβ、c的影响,这三个参数决定了S形曲线的走向 (图2)。alphaα参数被称为题目的区分度,它刻画了测验题目对考生水平区分能力的高低。在题目的ICC中,alphaα值是曲线拐点处切线斜率的函数值。曲线在拐点处越陡峭,值则越大,同时意味着能力θ在拐点处稍有变化,则在该题目上正确做答的几率差异较大,所以也就说明该试题起到了精细区分考生的做用。
图2. 不一样参数在项目特征曲线上的含义
参数c被称为猜想参数,是指实际测验中考生纯凭猜想而做答成功的几率。直线P(θ) = c是ICC的下渐近线。若题目的猜想参数为c,则意味着θ为负无穷的考生在该题上正确做答的几率也为c。
betaβ参数被称为题目难度。难度为betaβ的题目,若排除c的影响,潜在特质θ刚好等于betaβ的考生,TA在该题目上正确做答的几率为0.5。随着题目betaβ值的升高,ICC在横轴方向上向右平移,这时只有潜在特质更高的考生才可能在新题目上得到相同的正确做答几率。所以,betaβ值肯定了,ICC在横轴上的位置也就肯定了。与CTT中的难度参数不一样,这里的位置参数是定义在考生能力量尺下的,而不是单纯考虑题目的做答状况。
2.2 IRT理论下的不一样模型
项目反应理论(IRT)中题目参数和潜在特质水平参数共同影响测验的结果和精度。题目参数越多,对题目性质刻画越精细,但相对来讲,模型也就越复杂,应用越困难。那么什么样的函数形式能够整合考生潜在特质和题目特征呢?研究者根据大量、可观测到的做答反应曲线,拟合提出了IRT的两个基础模型——正态肩型模型(the normal ogive model)和逻辑回归模型(logistic model)。
因为正态几率分布曲线是一S形曲线,所以研究者(Lord, 1952)首先想到了用它来拟合ICC,而正态肩型模型也从理论上奠基了IRT初始模型的基本形式。可是因为其模型中采用了积分函数的形式,在实际参数估计和使用中不方便,所以在1957年,Birnbaum将其改换成了logistic形式 (以下公式)。
其中, θ为考生能力,alphaα为题目区分度参数,betaβ为题目难度参数,c为猜想参数,D为常量。P为能力为θ的考生正确做答某题目的几率。当D取值为1.702时,此函数的几率密度与正态肩型曲线的差别小于0.01。因为计算方便,目前多用此函数形式来描述ICC曲线。以上方程被称为三参数模型,当c=0时,该方程简化为双参数模型;当c=0且alphaα值一致时,该方程只有项目难度参数betaβ,所以被简化为单参数模型。有一种特殊并被普遍应用的单参数项目特征曲线被称为Rasch模型,由丹麦学者Rasch (1960)独立提出,对于不一样的题目,其alphaα值恒定为1。
2.3 IRT模型参数估计
当咱们精心设计了一张试卷,并大费周章地获得学员的做答数据后,应该怎样利用这些数据估计学员的能力呢?针对具体的模型,IRT参数估计的过程就是要经过实测数据(即考生的做答数据),有时可能还须要借助一些人们积累的经验信息,获取测验中每一个项目参数的估计值,以及参加测验的考生能力水平参数估计值。然而,在参数估计中,咱们只有考生的得分矩阵和一些先验信息,考生的能力参数和项目参数均未知,咱们要如何估计这些参数呢?一种经典的估计方法须要用到一种名为联合极大似然估计(Joint Maximum Likelihood Estimation, JMLE)的方法对考生能力水平参数和项目参数进行联合估计。
所谓联合估计,具体来讲就是首先以考生能力初始估计值做为已知条件,利用极大似然估计的方法估计项目参数;而后以该估计的项目参数为已知条件,从新校订初始考生能力参数;将能力估计值标准化,而且将项目参数作相应变换,即将两类参数放到同一量尺下;而后又以校订后的能力参数进一步校准项目参数,如此循环递推新值,直至两类参数达到某个预先设定的标准为止。
尽管JMLE的方法能够同时估计考生参数和项目参数,但这种方法在实际运用中也存在很大的问题。例如:为了更精确地估计项目参数,一个经常使用的方法是增长项目样本量,可是增长样本量的同时也会致使考生参数估计量的增长,所以就会有更多没有额外项目信息的考生参数须要估计。同时,把考生参数和项目参数绑定在一块儿也不是一种有效的计算方法,由于只要一个项目的模型拟合没有作好,就须要从新进行整个项目参数和考生参数的估计。所以,在实际操做中,研究者广泛采用一种更有效的项目参数估计方法——边际极大似然估计(Marginal Maximum Likelihood Estimation, MMLE)。MMLE的方法是把考生当作是来自于某个已知分布整体的表明性随机群体,能够经过基于对该已知分布进行积分的方式来估计项目参数。
已有考生做答数据信息,且项目参数肯定的情形下,一种经常使用的能力参数估计方法为贝叶斯后验指望估计的方法 (Expected a Posterior Estimation, EAPE)。EAPE的方法与极大似然估计的过程不同,能够经过直接计算就获得指望估计值,所以计算过程更简单,速度更快,也符合传统的贝叶斯思想,使它成为能力参数估计的一个上佳选择。
2.4 IRT的优点
在以上内容中,咱们介绍了IRT的理论框架、相关模型以及参数估计的内容,能够看出IRT和CTT有很大的不一样,那么IRT是怎么克服CTT的局限的呢?它的优点又体如今哪里?
2.4.1 项目参数与考生能力参数具备不变性的特征
咱们在本节的开头提到CTT参数的估计对参测样本的依赖性很大,可是在IRT中测验的题目参数具备跨群体不变性,即题目参数估计独立于参测样本。具体来讲,只要测试同一特质的测验项目的参数具备足够宽的覆盖,也就是测验中既有难的题目,又有中等难的题目,也有容易的题目,那么无论题目分布形态如何,考生能力参数的估计就不依赖具体的题目。同时,只要在同一维度上考生的能力水平分布足够宽,也就是在考生样本中,既要有部分能答对该题目的考生,也要有些没法答对的考生。那么,无论考生分布形态如何,项目参数的估计也不会依赖于具体的考生样本群体及其分布形态。
2.4.2 项目参数与考生能力参数具备统一的量表
根据IRT模型估计出来的考生能力参数与项目难度参数具备统一的量表,即考生参数与项目参数能够被标定在同一个参照尺度上。例如,能力估计值为0.5的考生答对难度值为0.4的题目的几率大于答错的几率,而答对难度估计值为0.6的题目的几率则小于答错的几率。同时,在实际应用中,用于测试能力水平为0.5的考生的最佳题目的难度也应该在0.5左右。距离0.5太远的题目,对该考生来讲或者太容易或者太难,并不能有效测量出考生的水平。
2.4.3 能够针对不一样考生精确估计每一个项目和测验的测量偏差
IRT相比于CTT引进了题目信息函数的概念,并用信息量来替代信度的概念。信度与测量标准偏差之间存在反比关系,一个试题提供的信息函数越大,测试的偏差就越小。信息函数不只与参测题目性质有关,还与参测群体的水平有关,即对不一样能力的考生施测相同试题,其测验偏差并不相同。同时,测验题目信息函数具备可加性,一个测验包含多个题目,它们的信息函数的累加值能够被称为测验信息函数。有了不一样题目对不一样考生单独计算信息量值的方法,咱们就能够对每一个考生的特质水平估计偏差进行主动控制,从而更加有利于指导测验的编制。
综上,咱们为你们简单介绍了教育测量的含义,并深刻描述了教育测量中普遍应用的现代测验理论IRT(项目反应理论),包括其背后的逻辑和涵盖的不一样模型。相较于老师们主观组合、实施的考试和经典测验理论,应用IRT理论和技术能够更加精准地测量学生的学科水平。其实,关于IRT的相关技术还有不少,能帮助咱们实现各类不一样的测评目的,指引咱们的测评设计。而在应用场景方面,IRT除了应用在大型测评中的具体测验设计和计分中之外(如:我国大学英语四六级考试),IRT的技术理论还能够用于题库建设和自适应测评的开发,感兴趣的伙伴能够持续关注硅谷研发部发表的文章,咱们会在以后的专题文章中和你们分享不一样的测验理论和技术的应用。欢迎你们持续关注!
参考文献
招聘信息
好将来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位,你们可扫描下方二维码或微信搜索“好将来技术”,点击公众号“技术招聘”栏目了解详情,欢迎感兴趣的伙伴加入咱们!
也许你还想看
摩比秀换装游戏系统设计与实现(基于Egret+DragonBones龙骨动画)