爬虫（一）爬虫的介绍

时间 2021-08-15

标签 php java python c++ 浏览器服务器网络多线程框架 scrapy 栏目网络爬虫繁體版

原文原文链接

爬虫（一）爬虫的介绍

什么是爬虫

爬虫就是经过编写程序模拟浏览器上网，而后让其去互联网上抓取数据的过程。php

哪些语言能够实现爬虫

1.php：能够实现爬虫。php被号称是全世界最优美的语言（固然是其本身号称的，就是王婆卖瓜的意思），可是php在实现爬虫中支持多线程和多进程方面作的很差。java

2.java：能够实现爬虫。java能够很是好的处理和实现爬虫，是惟一能够与python并驾齐驱且是python的头号劲敌。可是java实现爬虫代码较为臃肿，重构成本较大。python

3.c、c++：能够实现爬虫。可是使用这种方式实现爬虫纯粹是是某些人（大佬们）能力的体现，却不是明智和合理的选择。c++

4.python：能够实现爬虫。python实现和处理爬虫语法简单，代码优美，支持的模块繁多，学习成本低，具备很是强大的框架（scrapy等）且一句难以言表的好！没有可是！浏览器

爬虫的分类

1.通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，造成一个互联网内容的镜像备份。简单来说就是尽量的；把互联网上的全部的网页下载下来，放到本地服务器里造成备分，在对这些网页作相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。服务器

搜索引擎如何抓取互联网上的网站数据？
- 门户网站主动向搜索引擎公司提供其网站的url
- 搜索引擎公司与DNS服务商合做，获取网站的url
- 门户网站主动挂靠在一些知名网站的友情连接中

2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中全部的数据值。网络

robots.txt协议

若是本身的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则能够经过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式能够观察淘宝网的robots（访问www.taobao.com/robots.txt便可）。可是须要注意的是，该协议只是至关于口头的协议，并无使用相关技术进行强制管制，因此该协议是防君子不防小人。可是咱们在学习爬虫阶段编写的爬虫程序能够先忽略robots协议。

反爬虫

门户网站经过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反反爬虫

爬虫程序经过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。