python爬虫（1）——urllib包

时间 2019-11-10

标签 python 爬虫 urllib 栏目 Python 繁體版

原文原文链接

　　人生苦短，我用python！html

1、关于爬虫python

　　鉴于个人windos环境使用命令行感受很是不便，也懒得折腾虚拟机，因而我选择了一个折中的办法——Cmder。它的下载地址是：cmder.netlinux

Cmder是一个加强型命令行工具，不只可使用windows下的全部命令，更爽的是可使用linux的命令,shell命令。下载下来后，解压便可使用。稍加设置（具体的设置能够百度），你就会发现它比windos的cmd要好用的多。shell

　　爬虫分为通用爬虫和聚焦爬虫，咱们所研究的就是聚焦爬虫——抓取网页时筛选，尽可能只抓与需求相关的网页信息。而网络爬虫的抓取过程咱们能够理解为模拟浏览器操做的过程，这个过程基于Http（超文本传输协议）和Https（安全版的Http）的。当咱们向浏览器中输入https://www.baidu.com/时，它就会根据这个地址来获取网页信息。咱们所输入的网址就是URL——统一资源定位符，它是用于完整地描述Internet上网页和其它资源的地址的一种标识方式。windows

2、Python的urllib包浏览器

　　在Python3中，咱们可使用urlib这个组件抓取网页，urllib是一个URL处理包，这个包中集合了一些处理URL的模块。咱们可使用help命令查看一下。安全

import urllib

help(urllib)

其中：网络

　　1.urllib.request模块是用来打开和读取URLs的；工具

　　2.urllib.error模块包含一些有urllib.request产生的错误，可使用try进行捕捉处理（能够学习一下python的异常处理机制）；学习

　　3.urllib.parse模块包含了一些解析URLs的方法；

　　4.urllib.robotparser模块用来解析robots.txt（爬虫协议）文本文件，它提供了一个单独的RobotFileParser类，经过该类提供的can_fetch()方法测试爬虫是否能够下载一个页面。

3、下载一个页面

　　了解了以上这些，咱们能够用request来尝试下载一个页面。在ipython中测试一下：

1 from urllib import request
2 
3 response=request.urlopen('http://www.17jita.com/')
4 html=response.read()
5 
6 print(html)

　　看起来有些乱码，别着急，咱们能够经过简单的decode()命令将网页的信息进行解码，并显示出来.

1 from urllib import request
2 
3 response=request.urlopen('http://www.17jita.com/')
4 html=response.read().decode('gbk')
5 
6 print(html)

　　这样咱们就能够利用python看到网页的源码了，这与在浏览器右键查看网页源代码所看到的是一致的。

　　值得注意的是，在使用decode解码时，咱们要了解到一些一些经常使用的编码方式，如：gbk，gb2312，utf-8，Unicode等等。python2的编码就经常为人所诟病，可是在在python3中，这个问题获得了解决。具体资料能够自行百度。