人生苦短,我用python!html
1、关于爬虫python
鉴于个人windos环境使用命令行感受很是不便,也懒得折腾虚拟机,因而我选择了一个折中的办法——Cmder。它的下载地址是:cmder.netlinux
Cmder是一个加强型命令行工具,不只可使用windows下的全部命令,更爽的是可使用linux的命令,shell命令。下载下来后,解压便可使用。稍加设置(具体的设置能够百度),你就会发现它比windos的cmd要好用的多。shell
爬虫分为通用爬虫和聚焦爬虫,咱们所研究的就是聚焦爬虫——抓取网页时筛选,尽可能只抓与需求相关的网页信息。而网络爬虫的抓取过程咱们能够理解为模拟浏览器操做的过程,这个过程基于Http(超文本传输协议)和Https(安全版的Http)的。当咱们向浏览器中输入https://www.baidu.com/时,它就会根据这个地址来获取网页信息。咱们所输入的网址就是URL——统一资源定位符,它是用于完整地描述Internet上网页和其它资源的地址的一种标识方式。windows
2、Python的urllib包浏览器
在Python3中,咱们可使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块。咱们可使用help命令查看一下。安全
import urllib help(urllib)
其中:网络
1.urllib.request模块是用来打开和读取URLs的;工具
2.urllib.error模块包含一些有urllib.request产生的错误,可使用try进行捕捉处理(能够学习一下python的异常处理机制);学习
3.urllib.parse模块包含了一些解析URLs的方法;
4.urllib.robotparser模块用来解析robots.txt(爬虫协议)文本文件,它提供了一个单独的RobotFileParser类,经过该类提供的can_fetch()方法测试爬虫是否能够下载一个页面。
3、下载一个页面
了解了以上这些,咱们能够用request来尝试下载一个页面。在ipython中测试一下:
1 from urllib import request 2 3 response=request.urlopen('http://www.17jita.com/') 4 html=response.read() 5 6 print(html)
看起来有些乱码,别着急,咱们能够经过简单的decode()命令将网页的信息进行解码,并显示出来.
1 from urllib import request 2 3 response=request.urlopen('http://www.17jita.com/') 4 html=response.read().decode('gbk') 5 6 print(html)
这样咱们就能够利用python看到网页的源码了,这与在浏览器右键查看网页源代码所看到的是一致的。
值得注意的是,在使用decode解码时,咱们要了解到一些一些经常使用的编码方式,如:gbk,gb2312,utf-8,Unicode等等。python2的编码就经常为人所诟病,可是在在python3中,这个问题获得了解决。具体资料能够自行百度。