Python开发爬虫之理论篇

时间 2019-11-12

标签 python 开发爬虫理论栏目 Python 繁體版

原文原文链接

爬虫简介

爬虫：一段自动抓取互联网信息的程序。html

什么意思呢？node

互联网是由各类各样的网页组成。每个网页对应一个URL，而URL的页面上又有不少指向其余页面的URL。这种URL之间相互的指向关系就造成了一个网络，这就是互联网。正则表达式

正常状况下就是咱们采用人工点击的方式，去获取互联网上指定的信息，这种方式的特色是覆盖面小。数据库

那有没有可能有一种方式，是当咱们设定了一个互联网上感兴趣的目标，而后自动地从互联网上去获取咱们所须要的数据呢？缓存

有，这就是爬虫。它能够从一个URL出发访问该URL所关联的全部URL，而且从每一个页面上提取出咱们所须要的价值数据。服务器

也就是说，爬虫就是自动访问互联网，而且提取数据的程序。cookie

爬虫技术的价值

互联网数据，为我所用。网络

Python简单爬虫架构

1）首先，咱们须要一个爬虫调度端。爬虫调度端的做用：启动爬虫，中止爬虫，监视爬虫运行状况。架构

2）在爬虫程序中有三个模块：URL管理器、网页下载器、网页解析器。eclipse

3）URL管理器：对将要爬取的和已经爬取过的URL进行管理；可取出待爬取的URL，将其传送给“网页下载器”。

4）网页下载器：将URL指定的网页下载，存储成一个字符串，在传送给“网页解析器”。

5）网页解析器：解析网页可解析出

　　　　①有价值的数据

　　　　②另外一方面，每一个网页都包含有指向其余网页的URL，解析出来后可补充进“URL管理器”

此时，这三个模块就造成了一个循环，只要有感兴趣的URL，这三个模块就会一直循环下去。

Python简单爬虫架构的动态运行流程（以时序图的方式展现）

Python爬虫URL管理

URL管理器：管理待抓取URL集合和已抓取URL集合。

目的：防止重复抓取、防止循环抓取。

Python爬虫URL管理器的实现方式

Python爬虫URL管理器的实现方式具体有三种：

1）使用内存，在Python中主要使用set集合（方便去除重复的元素）

2）使用关系数据库，使用两个字段：url和is_crawled（用来标记是否被爬取）

3）使用缓存数据库，一样使用set集合

其中，大型公司通常选择高性能的缓存数据库。我的，小公司通常使用内存。如果想永久存储，常使用关系数据库。

Python爬虫网页下载器简介

网页下载器：一个工具，经过URL将互联网上对应的的网页以HTML的形式下载到本地存储成本地文件或内存字符串，后进行后续处理；

Python有哪几种网页下载器：urllib2（Python官方模块，基础模块）、requests（第三方模块，功能强大）。

Python爬虫urlib2下载器网页的三种方法

1）urllib2下载网页方法1：最简洁方法

将url直接传给urllib2的urlopen()方法。

对应代码：

2）urllib2下载网页方法2：除url外，添加data、http header。

进行加强处理。

其中，data向服务器提交须要用户输入的数据。

http header用来向服务器提交http的头信息。

对应代码：

代码中request.add_data('a','1')　　#添加的数据类型为键值对，即a=1。

request.add_header()　　#能够对url请求进行假装

3）urllib2下载网页方法3：添加特殊情景的处理器

更大更强的功能处理能力。

对应代码（举例：加强cookie的处理）

Python爬虫urlib2实例代码演示

import urllib2, cookielib

url ="http://www.baidu.com"

print '第一种方法'
respones1 = urllib2.urlopen(url)
print respones1.getcode()
print len(respones1.read())

print "第二种方法"
request = urllib2.Request(url)
request.add_header("user-agent","Mozillla/5.0")
respones2 = urllib2.urlopen(request)
print respones2.getcode()
print len(respones2.read())

print '第三种方法'
cj =cookielib.CookieJar()
opener = urllib2.bulid_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
print respones3.getcode()
print cj
print respones3.read()

Python爬虫网页解析器简介

网页解析器：从网页中提取有价值数据的工具。

功能：

1）提取出新的待爬取URL列表；

2）解析出有价值的数据：

网页解析器会如下载好的html网页字符串做为输入，提取出有价值的数据以及新的待爬取的URL列表。

Python有哪些网页解析器呢？

1）正则表达式。最直观的一种。将网页文档down成一个字符串，采用模糊匹配的方式进行提取有价值的数据。虽然直观，可是当网页文档十分复杂的时候，这种方式将十分复杂。

2）使用Python自带的html.parser模块进行解析。

3）使用Beautiful Soup这个第三方插件来解析网页。功能强大的Beautiful Soup能够用html.parser或者lxml做为它的解析器。

4）使用lxml这个第三方插件来解析html网页或者xml文档。

结构化解析——DOM（DOcument Object Model）树

BeautifulSoup第三方模块

BeautifulSoup官网：https://www.crummy.com/software/BeautifulSoup/

安装BeautifulSoup：

若是你安装了pip，那么就简单了，无需从官网下载，打开命令提示符页面。

进入到Python安装目录下的Scripts文件夹路径下，输入“pip install beautifulsoup4”，便可进行自动安装。

安装完，在eclipse中进行测试，新建一个Python模块，输入：

import bs4
print bs4

输出为：

证实安装成功。

BeautifulSoup的语法

其中搜索节点的find_all()方法能够搜索出全部符合要求的节点，而find()方法则只是搜索出符合条件的第一个节点。可是两个函数的参数是彻底相同的。

对应代码：

1）建立BeautifulSoup对象

2）搜索节点（find_all、find）

其中红色部分为正则表达式形式。

最后一句之因此"class_"要加上下划线是由于要和Python的关键字"class"进行区分。

3）访问节点信息

4）BeautifulSoup的实例测试

# coding:utf-8
from bs4 import BeautifulSoup
import re
print("Python3 的代码以下")
html_doc = """
因字数限制，省略。请到 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree 复制吧
"""

soup = BeautifulSoup(html_doc, 'html.parser')
print("获取全部的连接")
links = soup.find_all('a')
for link in links:
 print(link.name, link['href'], link.get_text())

print("获取lacie的连接")
link_node = soup.find('a', href="http://example.com/lacie")
print(link_node.name, link_node['href'], link_node.get_text())
print("正则匹配")
link_node = soup.find('a', href=re.compile(r"ill"))
print(link_node.name, link_node['href'], link_node.get_text())

print("获取p段落文字")
p_node = soup.find('p', class_="title")
print(p_node.name, p_node.get_text())

实战演练：爬取百度百科1000个页面的数据

1）实例爬虫操做步骤

2）Python爬虫实例-分析目标

本篇博客参考慕课网课程：https://www.imooc.com/video/10683