中文分词原理与实现

存在意义 中文文本不存在边界,所以中文分词是专业处理中文信息的搜索引擎需首先面对的问题 1 Lucene中文切分 StandardTokenizer单子分词  CJKTokenizer二元覆盖 CnTokenizer   单子切分问题问题 搜索’上海’ 结果可能‘海上’ 二元覆盖可以解决‘上海‘和’海上‘混淆问题 适合小规模搜索网站 中文分词适用于大规模的搜索引擎 1.1 Lucene切分原理 T
相关文章
相关标签/搜索