简单的概念
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中全部的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机能够很简单经过空格知道student是一个单词,可是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分红有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
对于搜索引擎来讲,最重要的并非找到全部结果,由于在上百亿的网页中找到全部结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,经常直接影响到对搜索结果的相关度排序。
分词算法
现有的分词算法可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。
基于理解的分词方法:是经过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
基于统计的分词方法:从形式上看,词是稳定的字的组合,所以在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。所以字与字相邻共现的频率或几率可以较好的反映成词的可信度。
分词中的难题
一、歧义识别——“表面的”能够分红“表+面的”,也能够是“表面+的”
二、新词识别——新词中除了人名之外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,并且这些又正好是人们常常使用的词,所以对于搜索引擎来讲,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在天然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是由于中文必需有分词这道工序。中文分词是其余中文信息处理的基础,搜索引擎只是中文分词的一个应用。其余的好比机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都须要用到分词。由于中文须要分词,可能会影响一些研究,但同时也为一些企业带来机会,由于国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来讲,中国人有十分明显的优点。
分词准确性对搜索引擎来讲十分重要,但若是分词速度太慢,即便准确性再高,对于搜索引擎来讲也是不可用的,由于搜索引擎须要处理数以亿计的网页,若是分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。所以对于搜索引擎来讲,分词的准确性和速度,两者都须要达到很高的要求。目前研究中文分词的大可能是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有本身的研究队伍,而真正专业研究中文分词的商业公司除了海量科技之外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
另外有关搜索引擎技术有一个知名的BLOG:
搜索引擎研究,有兴趣能够多关注一下。