Python爬虫基础:爬取妹子图片并保存到本地

做为 Python 爬虫的入门教程,我想有必要来个爬虫程序压压惊,爬取性感美女的图片,而后保存到本身的电脑里面。爽歪歪~html

先看下效果吧,这是我把爬取的图片自动存储到的文件夹里边:python

图片已隐藏

爬虫三步骤:抓取分析存储正则表达式

抓取

首先咱们要有个目标对吧,咱们想要抓取美女照片,就去找找看哪里的网站妹纸多,那我们就从哪里下手呗。cookie

我发现这网站 http://www.meizitu.com 的妹纸图不错啊,那还等什么,抓取呗。python爬虫

在 python 中有个叫作 requests 模块,直接 pip install 就能够了,而后访问这个网址获取相应的源码:学习

response = requests.get(url)
return response

好比我想获取性感美女的源码,那么个人 url 就是 http://www.meizitu.com/a/sexy... 经过get请求咱们就能够获取返回的响应体了,咱们经过response.text就能够或源码。部分源码截图以下:网站

分析

抓取完了以后,咱们对咱们感兴趣的内容要进行分析了,这时候就涉及到「正则表达式」,根据咱们定义的一些规则,来获取咱们想要的内容。url

咱们如今固然是对返回源码中的美女图片感兴趣啦,从返回的源码中就能够看到,美女的图片都是包裹在 img 标签中的:spa

那么咱们就能够用 re 模块来匹配获取咱们想要的图片连接了:code

p = r'<img src="([^"]+\.jpg)"'

img_addrs = re.findall(p, html)

获取到的部分图片连接截图:

存储

既然获取到图片连接了,那么接下来就能够存储了,这里暂时存储到本身本地电脑上吧:

with open(filename,'wb') as f:
    img = url_open(each).content
    f.write(img)

ok,这样就完成了,是否是很简单?固然爬虫说简单也简单,说复杂也复杂,关键是要看本身想作什么事情,若是你从这个例子中发现本身对 python 又多了些许兴趣,那不妨多关注我,我日后给你写一些 python爬虫 所须要的知识点,例如其它的爬虫模块如Scrapy ,一些表单的请求参数,反爬虫,cookie,多进程抓取等等。

专门为 Python 开了个公众号:学习python的正确姿式 ,在里面发送 「meizi」获取抓美女的源代码吧。

不说了,我再去抓取多一点美女的图片了。

相关文章

相关文章
相关标签/搜索