网络爬虫经验小结

时间 2019-11-20

标签网络爬虫经验小结栏目系统网络繁體版

原文原文链接

一知识域/学习路径php

1.1 初级阶段html

　　java: net(网络编程)、IO、多线程（含：线程池）、正则表达式、集合、JDBC/数据库等java

　　python: urllib.requestpython

　　NodeJs/JavaScript: httpweb

1.2 中级阶段正则表达式

　　java: Jsoup（优点：HTML DOM解析）、HttpClient（优点：下载/IP代理等）、OKHttp、HTML Parser（优点：解析）、JavaScript/HTML(函数、JSON、Ajax、JacaScript DOM)等算法

　　NodeJs/JavaScript: express数据库

1.3 进阶express

　　java: web自动化测试框架selenium【WebDriver/ChromeDriver】（优点：下载/解析）
编程

　　python: scrapy、web自动化测试框架selenium（WebDriver/ChromeDriver）

　　NodeJs/JavaScript: web自动化测试框架(PhantomJS/ selenium)

1.4 高级阶段

　　java: Heritrix网络爬虫框架

一个由 java 开发的、开源的网络爬虫，用户能够使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现本身的抓取逻辑。

1.5 涉及经验

　　计算机网络(网络编程/ HTTP&TCP协议)

　　　　HTTP报文

　　　　　　报文头:

　　　　　　　　请求方法: GET/POST .etc

　　　　　　　　遵循协议: HTTP / HTTPS .etc

　　　　　　请求体

　　　　网络抓包与调试: Chrome开发者工具、Fiddle、Postman等

　　　　IP代理

　　文件操做　　

　　数据库 / JDBC　　

　　数据结构（栈/队列/List/Set/Map/深度优先/广度优先等）

　　Cookie/Session

　　反爬虫机制、模拟登录

　　多线程编程

　　　　线程池/多线程爬行

　　分布式爬虫

　　可能涉及技巧：JS注入、模拟鼠标滑动、验证码识别（英文字母/数字/汉字/物品识别等）、延时请求（下降请求频率）等

　　可能涉及语言：Python、Java、JavaScript、HTML、CSS等

　　网页正文提取方法：Jsoup(基于 HTMLO DOM解析树)等、Html2Article(基于行块分布函数的通用正文抽取算法)

二入门级演示

2.1 Python简易Demo

因为Python3合并URLib与URLlib2统一为URLlib，Python3将urlopen方法放在了urllib.request对象下。

官方文档：https://docs.python.org/3/library/urllib.request.html#module-urllib.request

在实现爬取网页过程当中，多次执行如下脚本：

#coding:UTF-8
import random;
import urllib.request;# 不推荐使用 import urllib
rawdata =
urllib.request.urlopen('http://www.111cn.net/phper/python/68713.htm').read();

file = open("testfile","w+");
file.write(str(rawdata));

三参考文档

　　[1] Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)

　　[2] 基于行块分布函数的通用正文抽取算法.陈鑫.哈尔滨工业大学社会计算与信息检索研究中心

　　[3] 网页正文提取——Html2Article