中文文本信息处理的原理与应用读书笔记1

概论
天然语言理解的发展历史主要分为三个阶段
  • 以关键词匹配为主流的早期历史
使用模式匹配技术,一个输入模式对应着一个或多个输出模式。
例如模式
I remember * -> why do you remember *
优势是对输入句子的限制较小,但分析每每会不精准,没有真正考虑语义
让我想起了小黄鸡
  • 以句法-语义分析为主流的中期历史
          在限定情景中的天然语言处理,好比书中给出的语音控制机器手臂操做玩具积木
          我对这块没有太多想法,最讨厌语义分析了。
  • 以周向实用化和工程化为特征的近期历史
将来的发展趋势主要以下:
1.基于规则和基于统计的研究方法的结合
这个好理解,人工经验和数据分析的结合,不仅仅是天然语言处理,不少方向的发展都有这个趋势
2.天然语言理解在语义网中普遍应用
3.与生物信息学的结合
2和3表示不懂,略过
 
自动分词
中文分词是开发文本挖掘的核心技术,以支持对文本信息进行管理、分析、
检索等各类应用。其主要难点是分词歧义以及未登陆词的召回问题。
 
主要的切词方法以下:
基于多字符串匹配的分词方法
  • 根据匹配方向的不一样能够分为 正向匹配与逆向匹配
由于较多的分词歧义都是过段结束匹配形成的,因此逆向匹配准确率每每比正向高。
  • 根据匹配长度的优先级不一样能够分为 最长匹配和最短匹配
同理,最长匹配的准确率比最短匹配高
  • 双向最大匹配法
听说经过双向最大匹配能够进一步提高准确率,可能仍是由于上面的缘由
  • 最短路径法
这种方法将分词问题归结为图论中的最短路径问题,即一个词对应一条有向边,
词的一个序列对应一条有向路径。对给定的待分词的汉字串S,分词问题就是要找到一条最短的有向路径
使得这条路径上的边所对应的词的序列为S。这样就可用图论中的有关算法来求解。
路径最短意味着切分后词的数量最少。这种方法颇有新意,但我不太理解为何分的越少越好。
书上说符合汉语自身的规律。

基于预料统计的分词方法
  • 能够对语料中相邻共现的各个字的组合的频率进行统计,计算他们的互现信息。计算两个汉字X,Y相邻的共现几率,当大于某一阈值时,即可认为构成一个词。这种方法其实就至关于从语料库里构建词库。
  • 也能够根据语料计算各类分词结果的几率,取最大的
 
参考《中文文本信息处理的原理与应用》,苗夺谦
相关文章
相关标签/搜索