手把手教你用Python爬虫煎蛋妹纸海量图片

咱们的目标是用爬虫来干一件略污事情

最近据说煎蛋上有好多可爱的妹子,并且爬虫从妹子图抓起练手最好,毕竟动力大嘛。并且如今网络上的妹子很黄很暴力,一下接受太多容易养分不量,可是本着有人身体就比较好的套路,特地分享下用点简单的技术去获取资源。
之后若是有机会,再给你们说说日本爱情动(大)做(雾)片的种子搜索爬取,多多关注。html

bigsec

请先准备做案工具

咱们只准备最简单的python

  • python 2.7.11
  • Google Chrome

安装的时候记得把pip带上,这样能够方便咱们安装一些好用的包,来方便咱们干坏事(学习)的过程。chrome

须要用到的包服务器

  • 包括更佳符合人类的HTTP库--requests
  • 用来解析html文件,快速提取咱们须要的内容--beautifulsoup4

也能够用下面的命令快速安装
pip install requests
pip install beautifulsoup4网络

干正事从一次正常需求提及

天天在互联网上冲来冲去,浏览着大量的信息,观看这各类鼻血喷发的图片,因而做为新时代青年的咱们,怎么能忍受被这些大量的垃圾信息充斥的互联网,咱们要反抗,咱们要下载!工具

请,看,下,图
学习

bigsec

当你在网上冲浪的时候遇到这样的图片,我就问你:
虐不虐?虐死了!
下不下?下!spa

开始吧获取图片的CSS选择器的规则

首先,咱们须要定位咱们须要的图片
(点开大图很清晰).net

bigsec

根据咱们以前的准备的做案工具,使用chrome来访问网页
http://jandan.net/ooxx
而后打开开发者工具菜单 -> 更多工具 -> 开发者工具
看下图右边的神器
(图都不点开还学个毛线)htm

bigsec

点击这个图标会出现块选择器,
鼠标移动咱们感兴趣的部分
(点开大图,你就看得见点哪里了)

bigsec

按照图片指示点击区域
(点开大图……我都懒得复述了)

bigsec

右边神器中就会出现咱们所须要的img标签
(开,大,图。科科)

bigsec

查看以前最后一个以#comments开头的标签,
它包含了全部img的子标签。

下面让咱们来一些神秘的事

打开cmd或者终端
输入python

bigsec

输入如下神秘代码

bigsec

如今偷偷看一下你的当前目录
是否是有不少(污)的图片

bigsec

名词解释:网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫的使用对不少工做都是颇有用的,可是对通常的社区,也须要付出代价。使用爬虫的代价包括:
网络资源:在很长一段时间,爬虫使用至关的带宽高度并行地工做。
服务器超载:尤为是对给定服务器的访问太高时。
质量糟糕的爬虫,可能致使服务器或者路由器瘫痪,或者会尝试下载本身没法处理的页面。
我的爬虫,若是过多的人使用,可能致使网络或者服务器阻塞。

是否是还不够
行踪不定的下期预告

看着上面规整的排版——先后有序、图文并茂,不就是练手爬虫技术最好的机会吗?今天就到这里了,读取下一页什么的就靠你本身探索,我将会在下个系列给你一个参考方法,但愿你持续关注。

相关文章
相关标签/搜索