爬虫入门实战，知乎小爬虫

时间 2019-11-11

原文原文链接

相比于爬虫框架，知乎小爬虫，更加适合初学者，尤为是想要了解爬虫技术细节、实现本身编写爬虫需求的初学者。html

1. 谈爬虫工程师的价值redis

大数据时代已到，数据愈来愈具备价值了，没有数据步履维艰，有了数据好好利用，能够在诸多领域干不少事，好比很火的互联网金融。从互联网上爬来本身想要的数据，是数据的一个重要来源，并且每每是必不可少的来源。全部，目前，爬虫工程师是一个很是吃香的职位，工资每每都不低，就是要耐得住寂寞了。那爬虫工程师的价值也就是能稳定的、高效的和实时的带来数据。这里推荐看两篇文章：编程

http://www.hzzx.gov.cn/cshz/content/2014-08/25/content_5417124.htm设计模式

http://www.tuicool.com/articles/Fb6fy2f网络

2. 爬虫（或互联网数据采集）怎么入门框架

爬虫能够很快的入门，但要作的真正大神，还必须不断实践。由于，一旦真正爬数据的时候就会出现各类问题，由于爬虫本质是一种对抗性的工做，你须要和反爬人员斗智斗勇。不过，这个过程会充满无穷的乐趣，还会把你锤炼成真正的爬虫高手。工具

3. 专门为爬虫入门而写的知乎爬虫post

这里，耗费了很多的业余时间，专门为爬虫入门或初中级写了一个知乎爬虫。为何选择知乎呢？应为这里例子能够尽可能多的将爬虫涉及的技术点包含进去，同时又不至于那么复杂，学习和提高兼顾。下面说明知乎爬虫的源码和涉及主要技术点：学习

（1）程序package组织大数据

包结构

（2）模拟登陆（爬虫主要技术点1）

要爬去须要登陆的网站数据，模拟登陆是必要可少的一步，并且每每是难点。知乎爬虫的模拟登陆能够作一个很好的案例。要实现一个网站的模拟登陆，须要两大步骤是：（1）对登陆的请求过程进行分析，找到登陆的关键请求和步骤，分析工具能够有IE自带(快捷键F12)、Fiddler、HttpWatcher；（2）编写代码模拟登陆的过程。

模拟登陆

（3）网页下载（爬虫主要技术点2）

模拟登陆后，即可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络链接线程池，而且封装了经常使用的get和post两种网页下载的方法。

链接线程池

Get和post方法封装

下载网页

（4）自动获取网页编码（爬虫主要技术点3）

自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法能够解决绝大部分乱码下载网页乱码问题。

正确编码网页

（5）网页解析和提取（爬虫主要技术点4）

使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包Jsoup和正则。通常来讲，Jsoup就能够解决问题，极少出现Jsoup不能解析和提取的状况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。

利用Jsoup进行网页内容解析和提取

（6）正则匹配与提取（爬虫主要技术点5）

虽然知乎爬虫采用Jsoup来进行网页解析，可是仍然封装了正则匹配与提取数据的方法，由于正则还能够作其余的事情，如在知乎爬虫中使用正则来进行url地址的过滤和判断。

封装正则

（7）数据去重（爬虫主要技术点6）

对于爬虫，根据场景不一样，能够有不一样的去重方案。（1）少许数据，好比几万或者十几万条的状况，使用Map或Set即可；（2）中量数据，好比几百万或者上千万，使用BloomFilter（著名的布隆过滤器）能够解决；（3）大量数据，上亿或者几十亿，Redis能够解决。知乎爬虫给出了BloomFilter的实现，可是采用的Redis进行去重。

bloomfilter去重

redis去重

（8）设计模式等Java高级编程实践

除了以上爬虫主要的技术点以外，知乎爬虫的实现还涉及多种设计模式，主要有链模式、单例模式、组合模式等，同时还使用了Java反射。除了学习爬虫技术，这对学习设计模式和Java反射机制也是一个不错的案例。

4. 一些抓取结果展现