爆雷，抖音视频被曝，我连夜爬了微博评论，结果。。。

时间 2019-11-06

标签爆雷音视频连夜微博评论结果繁體版

原文原文链接

昨天娱乐圈又又又爆雷了，lixiaolu 和 pg1 的抖音视频疯传网络，看来嫂子就要成内子了。bash

警告：本教程仅用做学习交流，请勿用做商业盈利，违者后果自负！如本文有侵犯任何组织集团公司的隐私或利益，请告知联系删除！！！网络

挺好的，这很 pg1 啊app

今天咱们做为纯正的吃瓜群众，怎么能不来围观下呢，仍是到娱乐圣地“微博”搞起，无论它里面到底有多少xujia流量，反正我估计骂人的流量不会太假，啊哈哈哈哈工具

咱们使用的爬取工具仍是前面文章提到的微博轮子，具体的使用方法能够查看这里学习

轮子文章ui

而咱们爬取的微博就是“娱乐有饭”最新发的那个视频，若是你还没看，建议在饭前观看！spa

咱们先来简单看下这篇微博下的盛况吧3d

亲情演绎型code

哈哈，说过要饭前观看喽cdn

暴躁粗口型

说实在的，出不出娱乐圈和咱们瓜民有啥关系？

淡定吃瓜型

没事儿，生活那么平淡，不来点瓜怎么过的去呢

诗情画意型

骚年，要是在唐朝，你确定胜过李太白啊！

最后，一图胜千言，看尽人间百态

不过这么看，毕竟只能看到一小部分，下面就经过微博轮子，抓取该微博下全部的评论，看看广大群众们的吃瓜能量。

咱们经过程序，能够成功抓取对应的评论信息，并获得一个 csv 文件，里面的内容以下

接下来就是经过 jieba 作分词，而后生成词云

import jieba
import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image


font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回复", }


def wordcloud(file, name, pic=None):
    df = pd.read_csv(file, usecols=[1])
    df_copy = df.copy()
    df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split())  # 去掉空格
    df_list = df_copy.values.tolist()
    comment = jieba.cut(str(df_list), cut_all=False)
    words = ' '.join(comment)
    img = Image.open(pic)
    img_array = np.array(img)
    wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,
                   stopwords=STOPWORDS, contour_width=3, contour_color='steelblue')
    wc.generate(words)
    wc.to_file(name + '.png')


if __name__ == '__main__':
    wordcloud("1572486436comment.csv", "lixiaolu2", 'xinsui.jpg')
复制代码

咱们获得词云图以下

能够看到，在评论的高频词汇中，孩子占比仍是蛮高的，确实，不管如何孩子都是无辜的，事情到了这个地步，保护好孩子才是最重要的。至于究竟是作嫂子仍是作内子，who care？

最后我又打开了亮哥的微博，心疼，保重！