浅谈网络爬虫

时间 2019-11-06

标签浅谈网络爬虫栏目系统网络繁體版

原文原文链接

公众号文章连接css

什么是网络爬虫？

爬虫，又称为 网页蜘蛛(spider)，就是可以在互联网中检索本身须要的信息的程序或脚本。

爬虫，简单的说就是一个http(https)请求，获取到对面网页的源码，而后从网页的源码中抓取本身须要的信息。而html代码的规则是基于xml的，因此能够经过必定解析规则和逻辑完成咱们的数据。html

爬虫能干什么

爬虫能干的事情比较多，而且有些领域和爬虫都有很大的关联。不一样深度，技术的爬虫工做者能干的事情也不一样。前端

搜索引擎

你熟知的谷歌、百度、360等搜索都是网络爬虫+算法+db存储造成的一套持久运行、相对稳定的系统。固然，这类爬虫并非大部分人都能接触的，一般这类对硬件成本和算法的要求较高，要知足必定的爬行速率、爬行策略而且你还要经过必定算法检索文本、挖掘文本 ，经过文本价值和外链数量等等判权信息给搜索排名加权。具体不作过多介绍。笔者也不会。可是若是有兴趣彻底能够运用开源软件或者工具作个站内搜索，或者局域搜索。这个若是有兴趣能够实现，虽然可能效果很差。

抢票、刷票等自动化软件

你可能见过一些抢票软件好比12306抢票。而购票的一个过程其实也就是一个http的请求(post)购票。在你手点时间卡的确定没有程序快。因此程序的优点在这里就出来了。
同理，遇到一些拉票，投票的几万票的，你能够根据写个爬虫小程序去完成。

部分破解软件

你会见到一些诸如pandownload、全网vip视频免费看、付费知识/文档下载、qq机器人等等。有经验的爬虫工程师不只仅可以解析http请求，而tcp-ip等请求涉及到的各类加密也能处理的很是得手。然而这些人就能开发出一些让人感到黑科技的东西。

金融等行业数据挖掘、分析数据来源

随着大数据热门，相关的系列领域和相关领域如数据挖掘、分析以及人工只能的。由于数据的生产者是有限的，好比新浪微博、淘宝、京东、金融等其余等就能够本身生产数据。而其余人若是想要这些数据集，那么要么经过官方可能给的部分可怜的api、数据。要么就是买(很贵)，要么就是本身爬。经过爬虫的数据能够作舆情分析，数据分析等等。数据自己是没有价值的，然而经过挖掘处理以后就极具商业、研究价值。

其余

数据是一个公司的核心。市面上有不少相似产品或者功能，有不少中小部分的数据核心来自于他人，因此爬虫对于他们公司相当重要。
而诸如校园辅助app，博客一键搬迁，新闻等咨询，等等非官方受权的应用却有着官网app的功能都是基于网络爬虫实现。还有不少就不具体介绍。

爬虫很简单

就拿一个csdn的我的主页来讲 blog.csdn.net/qq_40693171

语言的选择

对于初学者确定会对选择java和python有些java爱好者可能会有点难受。对于java和python的爬虫。不能全全论之。由于各个语言有各个语言的特点。
就爬虫而言，我的感受用python更方便，得益于python精简的语法和弱类型变量。可以伸缩自如。这样还有一点就是python的字典操做起来远比java的Map方便。而java的强变量让书写变得稍加繁琐。
可是若是遇到多线程，高并发问题其实仍是java占优。python只能用多进程来优化速度而假的多线程对性能提高有限。

对于python爬虫经常使用的库有java

名称	主要功能	依赖
requests	负责网页请求，代理等处理，封装urllib2(用起来麻烦)等库，使得操做简化。不须要考虑编码、解码等较麻烦的问题	pip install requests
Beautifulsoup	很是好用的dom解析器，还有css选择器。匹配正则等，而选用lxml当作解析	pip install bs4,pip install lxml
xpath	解析效率最高，和BeautifulSoup能够选择一个学习便可	pip install lxml
re	正则库，不少特殊匹配须要正则来完成	内置
Senlenuim/ChromeDriver+PhantomJS	模拟浏览器行为，执行点击事件，简单粗暴，可是速度慢	须要安装对应库和对应驱动

至于框架，scrapy流行。就不介绍 对于java爬虫经常使用的库有node

名称	主要功能
HttpURLConnection	java.net下包。不少其余包都基于此包进行封装
HttpClient	基于 HttpURLConnection进行封装，更加友好的解决参数，Cookie，Session等问题。
jsoup	基于HttpClient进行封装，更加方便的发送请求。此外jsoup的另外一个重大功能就是他是一个很是良好的dom解析器。使用起来很是简单。
Senlenuim+PhantomJS	解决动态渲染解析不了的问题，同上

至于框架，java的框架比较多，可是流行度却没python的scrapy高。本身能够查询各类框架进行对比。固然本身也可使用spring+mybatis进行封装。若是项目比较大。python

两种语言的小demo

对于上面的主页，若是用python来完成数据提取git

import requests
from bs4 import BeautifulSoup

url='https://blog.csdn.net/qq_40693171'
req=requests.get(url)
res=req.text#html 源码
soup=BeautifulSoup(res,'lxml')#转为bea--对象
node=soup.find(id='mainBox').find_all(attrs={'class':'article-item-box'})
for link in node:
    value=link.h4
    print(value.text)
复制代码

运行结果 github

若是用java来完成

package com.bigsai;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class test {
    public static void main(String[] args) throws IOException {
        String url="https://blog.csdn.net/qq_40693171";
        Document doc= Jsoup.connect(url).get();
        Elements elements=doc.getElementById("mainBox").select(".article-item-box");
        for(Element element:elements)
        {
            Element node=element.select("h4").get(0);
            System.out.println(node.text());
        }
    }
}
复制代码

运行结果 web

这样，一个简单的爬虫就完成了。是否勾起你对爬虫的兴趣？ajax

爬虫也不简单

可是不少公司，网站的网址他们的数据是不太想随便让人爬的。有的网站给了robot.txt文件。规定那些爬虫能够爬。可是这些又是很矛盾的。由于若是你想要搜索引擎收录你，你确定要容许百度，谷歌，360等爬虫程序访问你的网站，才能收录，搜索排名才能靠前。不然你的网站就成单机站点了。网站会处理或者拒绝非正常访问的请求。好比检索你的请求非人为。请求过快等等。

爬虫与反爬虫的斗争由此开始。

ip、浏览器头(User-Agent)、和cookie限制

一个http请求要携带不少头信息带给后台，后台也可以获取这些信息。那百度的首页打开F12刷新

可是网站大部分会根据你所在的公网ip进行封禁访问。若是你访问过快，就会招来403 forbidden。因此你须要使用代理ip来让对面认为你的ip没问题。
还有部分网站会针对User-Agent等其余信息进行判断。因此你须要多准备几个User-Agent，好比谷歌的，IE的，360的随机使用便可。
而有些网站会根据cookie进行封禁。由于有的cookie储存了用户的一些信息。若是网站根据cookie来进行限制，那么你不只要找的到这样cookie池维护，还要记得维持cookie的活性。而新浪微博的反扒策略就是基于cookie鉴定。因此你须要到淘宝购买已登陆过的cookie池才能拿到更多的数据。

需登陆的验证码限制、参数限制

有不少数据是开放能够查看的，可是也有不少数据须要注册登陆以后才能查看数据的，好比国内的各大招聘网站都须要你先登陆而后才能爬取。

对于普通验证码来讲，你大体有四个选择。

绕过验证码，直接手动登陆用网站，复制cookie放到请求的去抓取数据。这种最不智能也是最简单的方法。(pandownload就是内置一个浏览器driver而后你手动登陆后它获取你的cookie信息而后一波操做)
将验证码下载到本地(应用)，让用户识别填写而后登陆。
经过人工智能和数字图像相关技术，提早训练好验证码识别模型，在遇到验证码时候执行程序识别。对于简单的验证码识别。也有很多开源做品。
经过打码平台，让第三方专业打码。

而对于滑块以及其余奇葩如滑块，点选等等，那你要么借助第三方，要么就是本身研究其中js运转流程。以及交付方式。算法原理，仍是很复杂的。笔者这部分也不是特别了解。只是略知一二。

不只如此，在登陆环节，每每还会遇到一些其余参数的会放到JavaScript里面，这须要你抓到比较。有的还会针对你的数据进行加密传到后台。这就须要你娴熟的js解密能力了。

JavaScript渲染/ajax加密

有很多页面的数据是经过ajax或者JavaScript渲染进去的。而在数据上，爬虫没法识别、执行JavaScript代码，只能借助webdriver+phantomjs等模拟执行js获取数据。或者就是本身研究js流程。弄懂里面参数变化过程。可是实际是至关有难度的。毕竟人家一个团队写的逻辑，要你一我的(还不是搞前端的搞懂)真的是太困难的。因此，爬虫工程师的水平区别在解决这些复杂问题就体现出来了。
而异步传输若是借口暴露，或者能找到规则还好。若是作了加密限制，又是比较棘手的问题。

爬虫知识储备路线

虽然一些高难度的爬虫确实很难，没有必定的工做经验和时间研究确实很难变强。可是咱们仍是可以经过掌握一些大众知识可以知足生活、学习的平常需求和创意。

1.基础语法：

不管你使用java和python，爬虫也是程序，你首先要掌握这门编程语言的语法。而基础语法入门也不须要过久，可是仍是须要一点时间，不能急于求成。

2.正则和爬虫相关库，以及浏览器F12抓包和Fidder等抓包工具抓包

当掌握基础语法后，爬虫一些简单好用的基本库须要花时间学习。正如上面表格所列的库。须要熟练掌握。在其中必定要学会使用抓包。简单分析请求的参数和地址等信息。而fiddler是一款强大的抓包工具。经过配置你也能够尝试抓安卓的包，爬去app的数据。至于简单抓包浏览器就能够完成。推荐谷歌浏览器。

3.扎实的语法

由于一个爬虫项目它的数据是有层次的，因此你须要良好的逻辑和编程习惯，抓取这些数据可以清晰的存储而不混乱。而且url遍历也须要深度优先遍历或者广度有限遍历等策略。须要熟悉这些基本算法，熟悉语言中集合模块的使用。

4. 多线程、数据库、线程安全相关知识。

单线程的爬虫是没灵魂的爬虫，必定要试试多线程，多进程爬虫的快感，然而这个过程可能会遇到封ip等问题，须要你本身搭建一个ip池。

5. 分布式的概念和知识。

一直单机的爬虫是没灵魂的爬虫。要试试多台程序多线程跑一个爬虫任务。固然，这里就会遇到分布式锁的问题。须要你对该方面稍微了解。运用。

6. js进阶、逆向等知识.

随着先后端分离，js流行等等，网页其实对于爬虫变得复杂，难度和学习成本也在提高。试着找一些登陆网站模拟登陆，调用一些开源算法等等。这部分其实才是真正大佬能力体现。当可以识别这种加密，然而其余app协议也就能慢慢解开。完成一些牛逼的事情。

总结

爬虫虽然不少时候方便了咱们，可是这也是一道边缘产业。存在不少不肯定的因素。学习、娱乐，作个小demo还行。若是侵权请谨慎。(不过初学者的技术很难侵权哈哈)。
对于爬虫学习资源。淘宝的视频能够买。有些会比较陈旧。有不少优秀博主的博文、专栏均可以参考。
还有就是说一点，最近两年python很火，爬虫也很火，AI也很火。可是火归火，工做归工做。也不能太盲目从众。理性看待。(我的观点，不喜勿喷)

另外，若是文章有说的很差的地方还请大佬指出。我也写过一些爬虫和笔记。若是须要能够参考

Python爬虫

github爬虫代码和资料https://github.com/javasmall/python 在github上有个爬虫学习资料，gitbook格式感受很喜欢。大佬能够star下。

欢迎关注个人我的公众号：bigsai