自动做文评分与天然语言处理

自动做文评分与天然语言处理

  前些天一个学弟发邮件咨询有关自动做文评分的问题,在了解了这是他们导师布置的一个任务后,出于作统计机器翻译的惯性思惟,我立刻想到的是利用语言模型对做文进行流利度方面的打分,但也意识到这是一个粗糙的甚至是错误的评分系统,由于它连最基本的做文长度都没有考虑。
  因而找了一些这方面的中英文材料看了一下,才发现自动做文评分系统在国外研究的不少很热甚至都已应用到真实的考试任务中去,而国内的研究寥寥,至少说明这个学弟选了一个颇有应用前景和挑战性很强的方向。
  后来,我又与这个学弟在QQ上进一步作了交流,对于这个任务的界定清楚了一些。首先,他们将任务定为:四、6级考试的自动做文评分系统。有了明确的任务,就能够讨论一些具体的方法,这方面我也不懂,可是有一点基本达成了共识:自动做文评分能够归入到文本分类方法的范畴中,因此学弟应该关注一下文本分类的方法学习;若是采用文本分类的方法作这套自动做文评分系统,首先要收集一套已经评过度的四、6级做文素材。至此,我能提供的建议就仅限于此了,若是哪位读者对这方面比较在行,不妨给这位学弟提点建议?这里先谢过了!
工具

  关于自动做文评分,陈潇潇和葛诗利于2008年9月发表在《解放军外国语学院学报》的《自动做文评分研究综述》对于想初步了解自动做文评分的读者来讲是一个不错的阅读素材,这篇文章对国外成熟的6大自动做文评分系统进行了不一样程度的描述,而纵观这这些系统,无不与天然语言处理的相关技术紧密相连,如下是相关系统的一些简介:
  一、Project Essay Grade ( PEG)
  PEG是Ellis Page于1966年应美国大学委员会的请求而研发的, 其目的就是为了使大规模做文评分更加实际而高效。PEG彻底依靠对文章的浅层语言学特征的分析对做文进行评分, 根本没有涉及内容。它使用代理量度标准(proxy measures) 来衡量做文的内在质量以模拟人对做文的评分。做文评分本应该直接针对做文的内在质量进行评判。但内在质量, 如写做的流畅性、句子结构的复杂度、文章措辞的状况等难以用计算机直接测量。因而PEG采起了间接测量写做构念分项指标的方法, 即所谓的代理量度标准。好比: 做文长度表明了写做的流畅性; 介词、关系代词等代表了句子结构的复杂度; 词长的变化代表了文章措辞的状况(由于很是用词通常都较长)。
  PEG因为其对语义方面的忽视和更多地注重表面结构而遭受指责。因为对做文内容相关方面的忽视, 该系统不可以给出对学生有指导意义的反馈。另外, 该系统最大的问题, 就是对写做技巧的间接测量很容易被写做者利用, 如写出文理不通的长文以获取流畅性方面的高分, 欺骗计算机。
  二、Intelligent Essay Assessor ( IEA)
  IEA是上世纪90 年代末由Pearson Knowledge Analysis Technology 公司在潜在语义分析( latent semantic analysis) 技术的基础上开发的。潜在语义分析原本是一个用于文本索引和信息提取的复杂统计技术, 其定义为“一个单词用法的统计模型, 该模型容许对片段文本包含的信息之间的语义类似性进行比较”。其核心思想就是一个段落的意义, 在很大程度上取决于该段落所包含的词汇的意义, 即便只改动一个单词, 也可能使这个段落的意义发生改变。该思想能够总结为“词汇1的意义+词汇2的意义+ ⋯⋯词汇n的意义=段落的意义”。另外一方面, 两段由不一样词汇构成的段落, 其意义也可能很是类似。经过大量文本的数学计算能够发现, 当某些不一样的单词以较高的频率出现于相同或类似的语境时, 能够推算出这些词汇意义的相近。而由不相同但意义相近的单词构成的段落, 其意义也可能很是类似。
  在自动做文评分中, 该技术可以将学生的做文按照它所包含的单词投射成为可以表明做文意义(内容) 的数学形式, 而后在概念相关度和相关内容的含量两个方面与已知写做质量的参考文本进行比较, 从而得出学生做文的评分。
  三、Electronic Essay Rater (E-rater)
  E-rater是由Educational Testing Service ( ETS)的Burstein 等人在上世纪90 年代末开发的。目前ETS 正利用该系统对GMAT中Analytical Writing Assessment (AWA ) 部分进行评分, 并于2005年开始应用于托福考试的做文评分。在E-rater 付诸应用以前, GMAT 的AWA由两名评卷员在6分的范围内作出总体评分,若是两名评卷员的评分差别超过1分, 就须要第三名评卷员来处理。E-rater从1999 年2 月应用于AWA的评分。试卷的最终得分由E-rater和一名评卷员决定。同先前由两名评卷员共同阅卷的状况相似, 若是E2rater跟评卷员的评分差别超过1分, 第二名评卷员就参与解决这个问题。据Burstein 讲,自从E-rater应用于GMAT的AWA 的评分, E-rater与评卷员的分歧率一直低于3% , 这并不高于两名评卷员的分歧, 所以彻底能够用于各类标准化考试的做文评分。E-rater系统采用基于微软天然语言处理的工具包来分析文章, 包括词性标注器为文本中每个单词赋予词性; 句法分析器分析文本中的句法结构; 篇章分析器分析文本的篇章结构。采用词汇类似性度量器, 以统计技术中的简单关键词分析法分析文本中的词汇使用。另外, 采用了基于语料库的方法建模。使用统计与天然语言处理技术来提取待评分文章的语言学特征, 而后对照人工评分的标准做文集进行评分。评分过程主要由5个独立模块来进行。3个用来识别做为评分标准的特征, 包括: 句法模块、篇章模块和主题分析模块。这3个模块分别用来提取做文的句法多样性、思想的组织和词汇的使用方面的67个文本特征的特征值。第4个模块, 即模型构建模块, 用来选择和加权对做文评分具备预测力的特征。即把前3 个模块提取的数据做为自变量,人工评分的分数做为因变量进行逐步线性回归, 在67个变量中进行筛选, 创建回归方程。第5个模块用来计算待评分文章的最后得分, 即提取做文显著特征的特征值, 代入回归方程计算得分。
  四、IntelliMetricTM
  IntelliMetricTM是由Vantage Learning开发的, 第一套基于人工智能(AI) 的做文评分系统。它可以模仿人工评卷, 在1到4或者1到6的分值范围内对做文的内容、形式、组织和写做习惯进行评分。它集中了人工智能、天然语言处理和统计技术的长处, 是一种可以内化专家级评卷员集体智慧的学习机。其核心技术是Vantage Learning的CogniSearchTM和Quantum ReasoningTM 。前者是专门为IntelliMetricTM开发, 用来理解天然语言以支持做文的评分, 如它能分析词性和句法关系, 这使得IntelliMetricTM可以依据英语标准书面语的主要特征来评判做文。两者结合使得IntelliMetricTM可以内化做文中与某些特征相关的每个得分点, 并用于接下来的做文自动评分。
  IntelliMetricTM须要采用专家级评卷员已经评好分数的做文集进行训练。在评分过程当中, 系统采用了多个步骤。首先, 根据已评分数的训练集进行内化训练, 构建模型; 而后用较小的测试集检测模型的效度和归纳度。两项都获得确认后, 即可用于待评分做文的评判了。一旦根据标准美式英语或者先前训练获得的标准, 某些做文被评估为不正常, 系统会自动作出标注。
  IntelliMetricTM评估了做文中语义、句法、篇章3个层次的300多项特征。在性能方面据称可以跟专家级评卷员给出的分数同样准确, 与评卷员的一致率达到了97%至99%。另外, IntelliMetricTM可以评阅多种语言的做文, 如英语、西班牙语、以色列语和印度尼西亚语。对荷兰语、法语、葡萄牙语、德语、意大利语、阿拉伯语以及日语等多种语言文本的评价如今也可以作到了。
  五、Bayesian Essay Test Scoring sYstem(BETSY) 
  BETSY是由美国教育部投资, 由马里兰大学College Park的LawrenceM. Rudner开发的, 以几率论为指导, 基于训练语料对文本进行分类的程序(Valenti, et al. , 2003) 。该系统使用了包括内容与形式等多方面的一个大型特征集, 根据4点类型尺度(优、良、合格、不合格) 把一篇做文划分到一个最合适的集合中去。(Rudner & L iang, 2002) 文本分类所采用的底层模型是多元伯努利模型(MBM) 和伯努利模型(BM) , 二者都属于朴素贝叶斯模型,由于它们都以条件独立假设为前提。BETSY的计算量很是大, 但据其开发者声称, 因为该系统使用的方法可以整合PEG、LSA 和E2rater的最佳特征,“再加上自己所特有的长处, 使它具备如下特色:可以用于短文评测, 易于使用, 适用的内容范围宽广, 可以产生诊断性结果, 可以调节以用于多种技能的分类, 以及容易使非统计人员明白其中的道理”。值得一提的是,BETSY是做文自动评分领域惟一可免费下载使用的软件。
  六、Larkey的系统
  最先把文本统计分类方法用于做文自动评分的Larkey 以及Croft 在这个领域也作出了很大贡献。在他们的研究中, 采用了贝叶斯独立分类方法和最近邻分类方法( k-nearest-neighbor, 简称kNN) , 并提取11个文本复杂性特征用于线性的回归计算。在他们的实验中, 单独的贝叶斯独立分类方法有着稳定而良好的表现。然而, 加入文本复杂性特征和最近邻分类方法后, 系统性能并无获得显著的改善。在这种评分方法中, 做文长度的重要性不像其余自动评分系统那样明显。性能

相关文章
相关标签/搜索