网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,能够使用urllib.request和requests进行网页爬取。html
urllib库是python内置的,无需咱们额外安装,只要安装了Python就能够使用这个库。
requests库是第三方库,须要咱们本身安装。
requests库强大好用,因此本文使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requestspython
(1) requests安装
在cmd中,使用以下指令安装requests:git
pip install requests
1
或者:github
easy_install requests
1
(2) 简单实例
requests库的基础方法以下:服务器
官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html网络
requests库的开发者为咱们提供了详细的中文教程,查询起来很方便。本文不会对其全部内容进行讲解,摘取其部分使用到的内容,进行实战说明。网站
首先,让咱们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。咱们能够这样理解:get的中文意思是获得、抓住,那这个requests.get()方法就是从服务器获得、抓住数据,也就是获取数据。让咱们看一个例子(以 www.gitbook.cn为例)来加深理解:ui
# -*- coding:UTF-8 -*-
import requestsurl
if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
1
2
3
4
5
6
7
requests.get()方法必须设置的一个参数就是url,由于咱们得告诉GET请求,咱们的目标是谁,咱们要获取谁的信息。运行程序看下结果:.net
左侧是咱们程序得到的结果,右侧是咱们在www.gitbook.cn网站审查元素得到的信息。咱们能够看到,咱们已经顺利得到了该网页的HTML信息。这就是一个最简单的爬虫实例,可能你会问,我只是爬取了这个网页的HTML信息,有什么用呢?客官稍安勿躁,接下来进入咱们的实战正文。