jieba 分词

时间 2020-11-23
标签 python app spa 3d code orm blog utf-8 get 栏目搜索引擎繁體版
原文原文链接
    import jieba
#添加jieba分词
mydict = ['琏二奶奶','凤哥儿','凤丫头','宝姑娘','颦儿','二姑娘','三姑娘','四姑娘','云妹妹','蓉大奶奶']
for item in mydict:
    jieba.add_word(item)
txt = open('红楼梦.txt',"r", encoding='utf-8').read()
#注意这里的路径要用\\，由于在python中\r表示表示将光标的位置回退到本行的开头
#定义别名列表
bieming = [["林妹妹","黛玉",'林姑娘','林黛玉'],[ "宝钗" ,'宝姑娘','宝丫头',\
'宝姐姐','薛宝钗'],['元春','大姑娘','娘娘','贵妃','元妃','贾元春'],\
['迎春','二姑娘','贾迎春'],['探春','三姑娘','贾探春'],['惜春','四姑娘',\
'贾惜春'],[ "王熙凤","凤丫头",'琏二奶奶','凤姐','凤哥儿','凤辣子'],['巧姐'],\
['湘云','云妹妹','史湘云'],['妙玉'],['李纨','大嫂子'],['秦可卿','可卿','蓉大奶奶']]
words=jieba.lcut(txt)
counts={}
for word in words:
    if len(word) ==1:
        continue
    else:
        counts[word] = counts.get(word,0)+1
#计算出场次数（各个别名的合计次数）
lst=list()
for i in range(12):
    lt=0
    for item in bieming[i]:
        lt += counts.get(item,0)
    lst.append(lt)
    
twelvechai= ['林黛玉','薛宝钗','贾元春','贾迎春','贾探春','贾惜春','王熙凤','巧姐','史湘云','妙玉','李纨','秦可卿']
items=list()
for i in range(12):
    items.append([twelvechai[i],lst[i]])
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(12):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))