当暴走漫画gif图片赶上Python爬虫

时间 2019-11-29

标签 gif 图片赶上 python 爬虫栏目 HTML 繁體版

原文原文链接

这里介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是python3开发环境，主要用到了urllib、request和BeautifulSoup模块。（这里主要介绍下urllib和BeautifulSoup这两个比较重要的模块）html

urllib模块

该模块提供了从万维网中获取数据的高层接口，当咱们用urlopen()打开一个URL时，就至关于使用Python内设的open()打开一个文件。但不一样的是，urlopen()接收一个URL做为参数，而且操做的是socket，因此没有办法对打开的文件流进行seek操做，而Python内设的open()接收的是一个本地文件名。python

BeautifulSoup模块

这个模块能够帮助你实现HTML和XML的解析，通常写网页爬虫，步骤抓取网页的html源码等内容，而后分析，提取相应的内容。在分析内容时也能够用正则表达式去匹配，只是若是解析的内容稍微复杂点就会很头疼，使用BeautifulSoup模块去实现分析html源码的工做，就会变得十分简单，极大地提升了分析html源码的效率。正则表达式

爬虫源代码

1、经过模拟浏览器访问网站网页爬虫

import urllib.request
import bs4,os
 
page_sum = 1 # 下载页数设置，这里使用页数为1
 
path = os.getcwd()
path = os.path.join(path,'暴走GIF文件夹')
if not os.path.exists(path):
 os.mkdir(path) #建立文件夹
 
url = "http://baozoumanhua.com/gif/year" # 此处输入的是暴走漫画GIF网页的url地址
headers = { 
 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
 ' Chrome/32.0.1700.76 Safari/537.36'
 }
 
复制代码

2、经过爬虫获取图片信息及信息的整理解析浏览器

for count in range(page_sum):
 req = urllib.request.Request(
 url = url+str(count+1),
 headers = headers
 )
 print(req.full_url)
 content = urllib.request.urlopen(req).read()

 soup = bs4.BeautifulSoup(content) # BeautifulSoup
 img_content = soup.findAll('img',attrs={'style':'width:460px'})
 url_list = [img['src'] for img in img_content] # 列表推导 url
 title_list = [img['alt'] for img in img_content] # 图片名称
复制代码

3、图片文件的格式化和图片的下载python爬虫

for i in range(url_list.__len__()) :
 imgurl = url_list[i] # 经过迭代的方法获取图片的url
 filename = path + os.sep +title_list[i] + ".gif" # 格式化命名GIF图片文件
 print(filename+":"+imgurl) #打印下载信息，便于观察下载进度
 urllib.request.urlretrieve(imgurl,filename) #下载图片
复制代码

将此文件保存为pabaozougif.py，使用命令python pabaozougif.py运行后在同目录下会生成「暴走GIF文件夹」的文件夹，全部的GIF图片会自动下载保存到该目录下。socket

print('Python学习群')
# 908-382-745复制代码

以上所述是小编给你们介绍的python爬虫代码分析,但愿对你们有所帮助。看到这里各位迷茫的朋友是否是对python有了必定的了解了呢，感兴趣的同窗能够加下小编的python学习群，小编搜集了一套0基础系统性学习Python语言的资料，若是各位对Python语言感兴趣的话能够加裙便可免费领取一套学习资料哦！！！！