几部电影的词云

时间 2019-12-14

标签几部繁體版

原文原文链接

前段时间，咱们爬取了几部热门的电影，分别是《三生三世》，《战狼》，《二十二》，咱们今天就以这几部为例，进行一个简单的词云的制做。app

咱们主要以《二十二》为例，来制做一个评论的词云。dom

首先须要安装几个必要的工具库:工具

Pandas 用来实现文件读取和存储，以及必要的数据转换。
jieba 一个强大的分词工具，用来实现分词，也是咱们实现词云的一个最重要的工具。
wordcloud 词云工具，用来实现最终的词云的制做，也是必要的工具。

下面咱们就开始。code

首先须要导入相应的库，并读取咱们下载的csv文件。blog

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df_ershier = pd.read_csv('ershier.csv', encoding='utf-8')
df_ershier.comment.fillna(' ')
df_ershier.comment = df_ershier.comment.astype(str)

下面就是实现词云的主要步骤。utf-8

import jieba
from wordcloud import WordCloud
import PIL

result = []  # 用来存放切分的词

def parse(raw_text):
    for word in jieba.cut(raw_text):  # raw_text是字符串，也就是咱们获取到的所有评论信息
        if len(word) > 1:
            result.append(word)
            

def wordcloudplot(data, file_name):   # data 是以空格分隔的字符串        
    path = 'msyh.ttf'
    alice_mask = np.array(PIL.Image.open('yuan.jpg'))
    stopwords = ['nan', '就是', '仍是', '可是', '没有','以为', '三生三世', '三生', '三世',
                '还有', '演员', '怎么', '这么', '电影', '这部']

    wordcloud = WordCloud(font_path=path, background_color="white",
                          margin=5,
                          width=1000, height=800,
                          mask=alice_mask, max_words=1000, max_font_size=100,
                          stopwords = stopwords, random_state=0)
                    
    wordcloud = wordcloud.generate(data)
    wordcloud.to_file(file_name)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

下面是执行部分字符串

raw_text = ' '.join(list(df_ershier.comment))
parse(raw_text)
text = ' '.join(result)
wordcloudplot(text, 'ershier_.jpg')

最后生成以下的词云pandas

一样的道理，生成以下的《战狼》，《三生三世》it