jieba(杰巴)分词的三种模式

jieba(结巴)是一个强大的分词库,完美支持中文分词,作为最好的Python中文分词组件。搜索引擎

安装:pip install jiebaspa

特色

支持三种分词模式:code

  1.精确模式,试图将句子最精确地切开,适合文本分析;索引

    import jieba

    strings = '今每天气真好'
    seg = jieba.cut(strings,cut_all=False)
    print(','.join(seg))

        output :   今每天气,真,好ip

     cut_all参数默认为False,全部使用cut方法时默认为精确模式string


  2.全模式,把句子中全部的能够成词的词语都扫描出来,速度很是快,可是不能解决歧义;pip

    

      import jieba

    strings = '今每天气真好'
    seg = jieba.cut(strings,cut_all=True)
    print(','.join(seg))

        output :   今天,今每天气,每天,天气,真好import


  3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提升召回率,适合用于搜索引擎分词。基础

    

    import jieba

   strings = '今每天气真好'
   seg = jieba.cut_for_search(strings)
   print(','.join(seg))

      output : 今天,每天,天气,今每天气,真,好搜索

相关文章
相关标签/搜索