用Python获取多是全网最全的杰尼龟表情包（第一弹）

时间 2020-04-09

原文原文链接

杰尼龟系列表情包在广大网友之间传递快乐，红极一时。我想是杰尼龟可爱的外表以及憨憨的形态，圆圆的脸蛋大大的眼睛，且其常常在剧中摆出各式夸张表情，于是被广大网友制成各式各样的表情包，而且深受沙雕网友的喜好。编程

正好，我也是这沙雕网友大军中的一员，经过各类渠道收集了一些杰尼龟的表情包。但，我想要更多，只有拥有沙雕表情包最多的人才能在斗图中立于不败之地，因而便有了用Python获取多是全网最全的杰尼龟表情包这一系列。本系列旨在获取更多更多的杰尼龟表情包，传递更多欢乐。!网络

全系列一共三弹，每一弹都运用Python做为编程语言，主要涉及网络爬虫、数据图像处理以及机器学习这几个应用领域，今天即是这第一弹！机器学习

爬取视频

如何得到更多的杰尼龟表情包？编程语言

这些流传的表情包无非就是截取自动画片《精灵宝可梦》，而后有选择性地缩放或是剪切图片，再对应图片加上相关的文字。所以按照这个逻辑，咱们须要首先在这视频上作文章。ide

做为第一代御三家的一员，杰尼龟主要活跃在《精灵宝可梦》的第一部无印篇，于是咱们仅须要考虑第一部的视频，而这第一部中，不乏一些杰尼龟专集。学习

直接下载这第一部的视频费时费力，刚好B站有up主上传了全部含杰尼龟的集数合集，这里偷个小懒，我直接采用了@Henryhaohao写得很是棒的B站视频爬虫将该专辑合集的全部视频下载到本地。动画

视频切割

既然已经将全部视频下载，接下来即可以利用openCV将每一个视频切割为图片。这里fps即是帧率，意为每一秒刷新的图片数量，frames则是一整段视频中总的图片数量。spa

def vedio_to_pic(path):

    vedio_path=os.listdir(path)
    count=0
    for vedio in vedio_path: 
        videoCapture=cv2.VideoCapture()
        videoCapture.open(os.path.join(path,vedio,vedio+'.flv'))
        fps=videoCapture.get(cv2.CAP_PROP_FPS)
        frames = videoCapture.get(cv2.CAP_PROP_FRAME_COUNT)       
        print("fps=",fps,"frames=",frames)
        for i in range(int(frames)):
            ret,frame=videoCapture.read()
            if ret:
                if i%int(fps/5)==0:        
                    cv2.imwrite("pic/jieni{}_{}.jpg".format(count+1,i),frame)
        count+=1复制代码

这里每一帧仅保存1/5的图片，由于每一帧内的图片较为类似，帧内全部图片获取存在较大的冗余。code

至此，咱们便拥有了海量可能包含杰尼龟的图片，下一弹便来说讲如何使用机器学习来帮助咱们筛选那些包含杰尼龟的图片！orm