文本分析之中文分词

在处理文本分析时,我们经常须要面临的一个问题就是分词,特别是在中国当前的IT环境下。大部分文本数据都是中文,中文和英文有一些不一样。中文字与字之间没有明显的分隔符。而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴,中文分词广泛应用于搜索引擎,在线机器翻译等领域。 分词经常使用的方法主要有下面三类,一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,另一个是基于概率统
相关文章
相关标签/搜索