jieba分词详解

语音识别中有一项任务就是训练语言模型,而对于中文的语言模型,需要事先进行分词。而语音识别中的语言模型还有个特殊的要求,就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词,哈工大分词等工具,因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词,和jieba分词(把hmm分词选项关了)。
相关文章
相关标签/搜索