原文传送门:http://blog.csdn.net/column/details/why-bug.htmlcss
[Python]网络爬虫(一):抓取网页的含义和URL基本构成html
1、网络爬虫的定义node
网络爬虫,即Web Spider,是一个很形象的名字。python
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是经过网页的连接地址来寻找网页的。git
从网站某一个页面(一般是首页)开始,读取网页的内容,找到在网页中的其它连接地址,web
而后经过这些连接地址寻找下一个网页,这样一直循环下去,直到把这个网站全部的网页都抓取完为止。正则表达式
若是把整个互联网当成一个网站,那么网络蜘蛛就能够用这个原理把互联网上全部的网页都抓取下来。shell
这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。编程
网络爬虫的基本操做是抓取网页。json
那么如何才能为所欲为地得到本身想要的页面?
咱们先从URL开始。
2、浏览网页的过程
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是同样的。
好比说你在浏览器的地址栏中输入 www.baidu.com 这个地址。
打开网页的过程其实就是浏览器做为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展示。
HTML是一种标记语言,用标签标记内容并加以解析和区分。
3、URI和URL的概念和举例
简单的来说,URL就是在浏览器端输入的 http://www.baidu.com 这个字符串。
在理解URL以前,首先要理解URI的概念。
什么是URI?
Web上每种可用的资源,如 HTML文档、图像、视频片断、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位。
URI一般由三部分组成:
①访问资源的命名机制;
②存放资源的主机名;
③资源自身 的名称,由路径表示。
以下面的URI:
http://www.why.com.cn/myhtml/html1223/
咱们能够这样解释它:
①这是一个能够经过HTTP协议访问的资源,
②位于主机 www.webmonkey.com.cn上,
③经过路径“/html/html40”访问。
4、URL的理解和举例
URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。
通俗地说,URL是Internet上描述信息资源的字符串,主要用在各类WWW客户程序和服务器程序上。
采用URL能够用一种统一的格式来描述各类信息资源,包括文件、服务器的地址和目录等。
URL的通常格式为(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
第一部分和第二部分用“://”符号隔开,
第二部分和第三部分用“/”符号隔开。
第一部分和第二部分是不可缺乏的,第三部分有时能够省略。
5、URL和URI简单比较
URI属于URL更低层次的抽象,一种字符串文本标准。
换句话说,URI属于父类,而URL属于URI的子类。URL是URI的一个子集。
URI的定义是:统一资源标识符;
URL的定义是:统一资源定位符。
两者的区别在于,URI表示请求服务器的路径,定义这么一个资源。
而URL同时说明要如何访问这个资源(http://)。
下面来看看两个URL的小例子。
1.HTTP协议的URL示例:
使用超级文本传输协议HTTP,提供超级文本信息服务的资源。
例:http://www.peopledaily.com.cn/channel/welcome.htm
其计算机域名为www.peopledaily.com.cn。
超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。
这是中国人民日报的一台计算机。
例:http://www.rol.cn.net/talk/talk1.htm
其计算机域名为www.rol.cn.net。
超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。
这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。
2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。
有时能够省略目录和文件名,但“/”符号不能省略。
例:file://ftp.yoyodyne.com/pub/files/foobar.txt
上面这个URL表明存放在主机ftp.yoyodyne.com上的pub/files/目录下的一个文件,文件名是foobar.txt。
例:file://ftp.yoyodyne.com/pub
表明主机ftp.yoyodyne.com上的目录/pub。
例:file://ftp.yoyodyne.com/
表明主机ftp.yoyodyne.com的根目录。
爬虫最主要的处理对象就是URL,它根据URL地址取得所须要的文件内容,而后对它 进行进一步的处理。
所以,准确地理解URL对理解网络爬虫相当重要。
[Python]网络爬虫(二):利用urllib2经过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程。
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
相似于使用程序模拟IE浏览器的功能,把URL做为HTTP请求的内容发送到服务器端, 而后读取服务器端的响应资源。
在Python中,咱们使用urllib2这个组件来抓取网页。
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以urlopen函数的形式提供了一个很是简单的接口。
最简单的urllib2的应用代码只须要四行。
咱们新建一个文件urllib2_test01.py来感觉一下urllib2的做用:
咱们能够打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器都可),会发现也是彻底同样的内容。
也就是说,上面这四行代码将咱们访问百度时浏览器收到的代码们所有打印了出来。
这就是一个最简单的urllib2的例子。
除了"http:",URL一样可使用"ftp:","file:"等等来替代。
HTTP是基于请求和应答机制的:
客户端提出请求,服务端提供应答。
urllib2用一个Request对象来映射你提出的HTTP请求。
在它最简单的使用形式中你将用你要请求的地址建立一个Request对象,
经过调用urlopen并传入Request对象,将返回一个相关请求response对象,
这个应答对象如同一个文件对象,因此你能够在Response中调用.read()。
咱们新建一个文件urllib2_test02.py来感觉一下:
urllib2使用相同的接口处理全部的URL头。例如你能够像下面那样建立一个ftp请求。
1.发送data表单数据
这个内容相信作过Web端的都不会陌生,
有时候你但愿发送一些数据到URL(一般URL与CGI[通用网关接口]脚本,或其余WEB应用程序挂接)。
在HTTP中,这个常用熟知的POST请求发送。
这个一般在你提交一个HTML表单时由你的浏览器来作。
并非全部的POSTs都来源于表单,你可以使用POST提交任意的数据到你本身的程序。
通常的HTML表单,data须要编码成标准形式。而后作为data参数传到Request对象。
编码工做使用urllib的函数而非urllib2。
咱们新建一个文件urllib2_test03.py来感觉一下:
GET和POST请求的不一样之处是POST请求一般有"反作用",
它们会因为某种途径改变系统状态(例如提交成堆垃圾到你的门口)。
Data一样能够经过在Get请求的URL自己上面编码来传送。
2.设置Headers到http请求
有一些站点不喜欢被程序(非人为访问)访问,或者发送不一样版本的内容到不一样的浏览器。
默认的urllib2把本身做为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7),
这个身份可能会让站点迷惑,或者干脆不工做。
浏览器确认本身身份是经过User-Agent头,当你建立了一个请求对象,你能够给他一个包含头数据的字典。
下面的例子发送跟上面同样的内容,但把自身模拟成Internet Explorer。
(多谢你们的提醒,如今这个Demo已经不可用了,不过原理仍是那样的)。
先来讲一说HTTP的异常处理问题。
当urlopen不可以处理一个response时,产生urlError。
不过一般的Python APIs异常如ValueError,TypeError等也会同时产生。
HTTPError是urlError的子类,一般在特定HTTP URLs中产生。
1.URLError
一般,URLError在没有网络链接(没有路由到特定服务器),或者服务器不存在的状况下产生。
这种状况下,异常一样会带有"reason"属性,它是一个tuple(能够理解为不可变的数组),
包含了一个错误号和一个错误信息。
咱们建一个urllib2_test06.py来感觉一下异常的处理:
按下F5,能够看到打印出来的内容是:
[Errno 11001] getaddrinfo failed
也就是说,错误号是11001,内容是getaddrinfo failed
2.HTTPError
服务器上每个HTTP 应答对象response包含一个数字"状态码"。
有时状态码指出服务器没法完成请求。默认的处理器会为你处理一部分这种应答。
例如:假如response是一个"重定向",须要客户端从别的地址获取文档,urllib2将为你处理。
其余不能处理的,urlopen会产生一个HTTPError。
典型的错误包含"404"(页面没法找到),"403"(请求禁止),和"401"(带验证请求)。
HTTP状态码表示HTTP协议所返回的响应的状态。
好比客户端向服务器发送请求,若是成功地得到请求的资源,则返回的状态码为200,表示响应成功。
若是请求的资源不存在, 则一般返回404错误。
HTTP状态码一般分为5种类型,分别以1~5五个数字开头,由3位整数组成:
------------------------------------------------------------------------------------------------
200:请求成功 处理方式:得到响应的内容,进行处理
201:请求完成,结果是建立了新资源。新建立资源的URI可在响应的实体中获得 处理方式:爬虫中不会遇到
202:请求被接受,但处理还没有完成 处理方式:阻塞等待
204:服务器端已经实现了请求,可是没有返回新的信 息。若是客户是用户代理,则无须为此更新自身的文档视图。 处理方式:丢弃
300:该状态码不被HTTP/1.0的应用程序直接使用, 只是做为3XX类型回应的默认解释。存在多个可用的被请求资源。 处理方式:若程序中可以处理,则进行进一步处理,若是程序中不能处理,则丢弃
301:请求到的资源都会分配一个永久的URL,这样就能够在未来经过该URL来访问此资源 处理方式:重定向到分配的URL
302:请求到的资源在一个不一样的URL处临时保存 处理方式:重定向到临时的URL
304 请求的资源未更新 处理方式:丢弃
400 非法请求 处理方式:丢弃
401 未受权 处理方式:丢弃
403 禁止 处理方式:丢弃
404 没有找到 处理方式:丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现本身出现错误,不能继续执行请求 处理方式:丢弃
------------------------------------------------------------------------------------------------
Error Codes错误码
由于默认的处理器处理了重定向(300之外号码),而且100-299范围的号码指示成功,因此你只能看到400-599的错误号码。
BaseHTTPServer.BaseHTTPRequestHandler.response是一个颇有用的应答号码字典,显示了HTTP协议使用的全部的应答号。
当一个错误号产生后,服务器返回一个HTTP错误号,和一个错误页面。
你可使用HTTPError实例做为页面返回的应答对象response。
这表示和错误属性同样,它一样包含了read,geturl,和info方法。
咱们建一个urllib2_test07.py来感觉一下:
3.Wrapping
因此若是你想为HTTPError或URLError作准备,将有两个基本的办法。推荐使用第二种。
咱们建一个urllib2_test08.py来示范一下第一种异常处理的方案:
咱们建一个urllib2_test09.py来示范一下第二种异常处理的方案:
在开始后面的内容以前,先来解释一下urllib2中的两个个方法:info and geturl
urlopen返回的应答对象response(或者HTTPError实例)有两个颇有用的方法info()和geturl()1.geturl():
这个返回获取的真实的URL,这个颇有用,由于urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不一样。
以人人中的一个超级连接为例,
咱们建一个urllib2_test10.py来比较一下原始URL和重定向的连接:
2.info():
这个返回对象的字典对象,该字典描述了获取的页面状况。一般是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。
经典的headers包含"Content-length","Content-type",和其余内容。
咱们建一个urllib2_test11.py来测试一下info的应用:
下面来讲一说urllib2中的两个重要概念:Openers和Handlers。
1.Openers:
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。
正常状况下,咱们使用默认opener:经过urlopen。
但你可以建立个性的openers。
2.Handles:
Openers使用处理器handlers,全部的“繁重”工做由handlers处理。
每一个handlers知道如何经过特定协议打开URLs,或者如何处理URL打开时的各个方面。
例如HTTP重定向或者HTTP cookies。
若是你但愿用特定处理器获取URLs你会想建立一个openers,例如获取一个能处理cookie的opener,或者获取一个不重定向的opener。
要建立一个 opener,能够实例化一个OpenerDirector,
而后调用.add_handler(some_handler_instance)。
一样,可使用build_opener,这是一个更加方便的函数,用来建立opener对象,他只须要一次函数调用。其余的处理器handlers你或许会但愿处理代理,验证,和其余经常使用但有点特殊的状况。
Opener对象有一个open方法。
该方法能够像urlopen函数那样直接用来获取urls:一般没必要调用install_opener,除了为了方便。
说完了上面两个内容,下面咱们来看一下基本认证的内容,这里会用到上面说起的Opener和Handler。
Basic Authentication 基本验证为了展现建立和安装一个handler,咱们将使用HTTPBasicAuthHandler。
当须要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个‘realm’,看起来像这样:Www-authenticate: SCHEME realm="REALM".
例如客户端必须使用新的请求,并在请求头里包含正确的姓名和密码。
这是“基础验证”,为了简化这个过程,咱们能够建立一个HTTPBasicAuthHandler的实例,并让opener使用这个handler就能够啦。
HTTPBasicAuthHandler使用一个密码管理的对象来处理URLs和realms来映射用户名和密码。
若是你知道realm(从服务器发送来的头里)是什么,你就能使用HTTPPasswordMgr。
一般人们不关心realm是什么。那样的话,就能用方便的HTTPPasswordMgrWithDefaultRealm。
这个将在你为URL指定一个默认的用户名和密码。
这将在你为特定realm提供一个其余组合时获得提供。
咱们经过给realm参数指定None提供给add_password来指示这种状况。
最高层次的URL是第一个要求验证的URL。你传给.add_password()更深层次的URLs将一样合适。
说了这么多废话,下面来用一个例子演示一下上面说到的内容。
咱们建一个urllib2_test12.py来测试一下info的应用:
注意:以上的例子咱们仅仅提供咱们的HHTPBasicAuthHandler给build_opener。
默认的openers有正常情况的handlers:ProxyHandler,UnknownHandler,HTTPHandler,HTTPDefaultErrorHandler, HTTPRedirectHandler,FTPHandler, FileHandler, HTTPErrorProcessor。
代码中的top_level_url 实际上能够是完整URL(包含"http:",以及主机名及可选的端口号)。
例如:http://example.com/。
也能够是一个“authority”(即主机名和可选的包含端口号)。
例如:“example.com” or “example.com:8080”。
后者包含了端口号。
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。
1.Proxy 的设置
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。
若是想在程序中明确控制 Proxy 而不受环境变量的影响,可使用代理。
新建test14来实现一个简单的代理Demo:
这里要注意的一个细节,使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。
这样后面的使用会很方便,但不能作更细致的控制,好比想在程序中使用两个不一样的 Proxy 设置等。
比较好的作法是不使用 install_opener 去更改全局的设置,而只是直接调用 opener 的 open 方法代替全局的 urlopen 方法。
3.在 HTTP Request 中加入特定的 Header
要加入 header,须要使用 Request 对象:
5.Cookie
urllib2 对 Cookie 的处理也是自动的。若是须要获得某个 Cookie 项的值,能够这么作:运行以后就会输出访问百度的Cookie值:
6.使用 HTTP 的 PUT 和 DELETE 方法
urllib2 只支持 HTTP 的 GET 和 POST 方法,若是要使用 HTTP PUT 和 DELETE ,只能使用比较低层的 httplib 库。虽然如此,咱们仍是能经过下面的方式,使 urllib2 可以发出 PUT 或DELETE 的请求:
7.获得 HTTP 的返回码
对于 200 OK 来讲,只要使用 urlopen 返回的 response 对象的 getcode() 方法就能够获得 HTTP 的返回码。但对其它返回码来讲,urlopen 会抛出异常。这时候,就要检查异常对象的 code 属性了:8.Debug Log
使用 urllib2 时,能够经过下面的方法把 debug Log 打开,这样收发包的内容就会在屏幕上打印出来,方便调试,有时能够省去抓包的工做这样就能够看到传输的数据包内容了:
9.表单的处理
登陆必要填表,表单怎么填?
首先利用工具截取所要填表的内容。
好比我通常用firefox+httpfox插件来看看本身到底发送了些什么包。
以verycd为例,先找到本身发的POST请求,以及POST表单项。
能够看到verycd的话须要填username,password,continueURI,fk,login_submit这几项,其中fk是随机生成的(其实不太随机,看上去像是把epoch时间通过简单的编码生成的),须要从网页获取,也就是说得先访问一次网页,用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义能够随便写,login_submit是固定的,这从源码能够看出。还有username,password那就很显然了:
10.假装成浏览器访问
某些网站反感爬虫的到访,因而对爬虫一概拒绝请求
这时候咱们须要假装成浏览器,这能够经过修改http包中的header来实现
就是检查你发送请求的header里面,referer站点是否是他本身,
因此咱们只须要像把headers的referer改为该网站便可,以cnbeta为例:
#... headers = { 'Referer':'http://www.cnbeta.com/articles' } #...
headers是一个dict数据结构,你能够放入任何想要的header,来作一些假装。
例如,有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP,能够直接把X-Forwarde-For改了。
接下来准备用糗百作一个爬虫的小例子。
可是在这以前,先详细的整理一下Python中的正则表达式的相关内容。
正则表达式在Python爬虫中的做用就像是老师点名时用的花名册同样,是必不可少的神兵利器。
如下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
整理时没有注意,实在抱歉。
1、 正则表达式基础
1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并非Python的一部分。
其余编程语言中也有正则表达式的概念,区别只在于不一样的编程语言实现支持的语法数量不一样。
它拥有本身独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达式的语法都是同样的。
下图展现了使用正则表达式进行匹配的流程:
正则表达式的大体匹配过程是:
1.依次拿出表达式和文本中的字符比较,
2.若是每个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。
3.若是表达式中有量词或边界,这个过程会稍微有一些不一样。
下图列出了Python支持的正则表达式元字符和语法:
正则表达式一般用于在文本中查找匹配的字符串。
贪婪模式,老是尝试匹配尽量多的字符;
非贪婪模式则相反,老是尝试匹配尽量少的字符。
Python里数量词默认是贪婪的。
例如:正则表达式"ab*"若是用于查找"abbbc",将找到"abbb"。
而若是使用非贪婪的数量词"ab*?",将找到"a"。
与大多数编程语言相同,正则表达式里使用"\"做为转义字符,这就可能形成反斜杠困扰。
假如你须要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将须要4个反斜杠"\\\\":
第一个和第三个用于在编程语言里将第二个和第四个转义成反斜杠,
转换成两个反斜杠\\后再在正则表达式里转义成一个反斜杠用来匹配反斜杠\。
这样显然是很是麻烦的。
Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可使用r"\\"表示。
一样,匹配一个数字的"\\d"能够写成r"\d"。
有了原生字符串,妈妈不再用担忧个人反斜杠问题~
Python经过re模块提供对正则表达式的支持。
使用re的通常步骤是:
Step1:先将正则表达式的字符串形式编译为Pattern实例。
Step2:而后使用Pattern实例处理文本并得到匹配结果(一个Match实例)。
Step3:最后使用Match实例得到信息,进行其余的操做。
咱们新建一个re01.py来试验一下re的应用:
下面来具体看看代码中的关键方法。
★ re.compile(strPattern[, flag]):
这个方法是Pattern类的工厂方法,用于将字符串形式的正则表达式编译为Pattern对象。
第二个参数flag是匹配模式,取值可使用按位或运算符'|'表示同时生效,好比re.I | re.M。
另外,你也能够在regex字符串中指定模式,
好比re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。
可选值有:
如下两个正则表达式是等价的:
这些方法可使用Pattern实例的相应方法替代,惟一的好处是少写一行re.compile()代码,
但同时也没法复用编译后的Pattern对象。
这些方法将在Pattern类的实例方法部分一块儿介绍。
如一开始的hello实例能够简写为:
2.2. Match
Match对象是一次匹配的结果,包含了不少关于这次匹配的信息,可使用Match提供的可读属性或方法来获取这些信息。
属性:
方法:
Pattern对象是一个编译好的正则表达式,经过Pattern提供的一系列方法能够对文本进行匹配查找。
Pattern不能直接实例化,必须使用re.compile()进行构造,也就是re.compile()返回的对象。
Pattern提供了几个可读属性用于获取表达式的相关信息:
1.match
match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern;
若是pattern结束时仍可匹配,则返回一个Match对象;
若是匹配过程当中pattern没法匹配,或者匹配未结束就已到达endpos,则返回None。
pos和endpos的默认值分别为0和len(string);
re.match()没法指定这两个参数,参数flags用于编译pattern时指定匹配模式。
注意:这个方法并非彻底匹配。
当pattern结束时若string还有剩余字符,仍然视为成功。
想要彻底匹配,能够在表达式末尾加上边界匹配符'$'。
下面来看一个Match的简单案例:
2.search
search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中能够匹配成功的子串。
从string的pos下标处起尝试匹配pattern,
若是pattern结束时仍可匹配,则返回一个Match对象;
若没法匹配,则将pos加1后从新尝试匹配;
直到pos=endpos时仍没法匹配则返回None。
pos和endpos的默认值分别为0和len(string));
re.search()没法指定这两个参数,参数flags用于编译pattern时指定匹配模式。
那么它和match有什么区别呢?
match()函数只检测re是否是在string的开始位置匹配,
search()会扫描整个string查找匹配,
match()只有在0位置匹配成功的话才有返回,若是不是开始位置匹配成功的话,match()就返回none
例如:
print(re.match(‘super’, ‘superstition’).span())
会返回(0, 5)
print(re.match(‘super’, ‘insuperable’))
则返回None
search()会扫描整个字符串并返回第一个成功的匹配
例如:
print(re.search(‘super’, ‘superstition’).span())
返回(0, 5)
print(re.search(‘super’, ‘insuperable’).span())
返回(2, 7)
看一个search的实例:
3.split
split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照可以匹配的子串将string分割后返回列表。
maxsplit用于指定最大分割次数,不指定将所有分割。
4.findall
findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string,以列表形式返回所有能匹配的子串。
5.finditer
finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string,返回一个顺序访问每个匹配结果(Match对象)的迭代器。
6.sub
sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替换string中每个匹配的子串后返回替换后的字符串。
当repl是一个字符串时,可使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
count用于指定最多替换次数,不指定时所有替换。
subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):
返回 (sub(repl, string[, count]), 替换次数)。
[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
Q&A:
1.为何有段时间显示糗事百科不可用?
答:前段时间由于糗事百科添加了Header的检验,致使没法爬取,须要在代码中模拟Header。如今代码已经做了修改,能够正常使用。
2.为何须要单独新建个线程?
答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,若是剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网获取,因此浏览更顺畅。也能够把加载放在主线程,不过这样会致使爬取过程当中等待时间过长的问题。
项目内容:
用Python写的糗事百科的网络爬虫。
使用方法:
新建一个Bug.py文件,而后将代码复制到里面后,双击运行。
程序功能:
在命令提示行中浏览糗事百科。
原理解释:
首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1
能够看出来,连接中page/后面的数字就是对应的页码,记住这一点为之后的编写作准备。
而后,右击查看页面源码:
观察发现,每个段子都用div标记,其中class必为content,title是发帖时间,咱们只须要用正则表达式将其“扣”出来就能够了。
明白了原理以后,剩下的就是正则表达式的内容了,能够参照这篇博文:
http://blog.csdn.net/wxg694175346/article/details/8929576
运行效果:
百度贴吧的爬虫制做和糗百的爬虫制做原理基本相同,都是经过查看源码扣出关键数据,而后将其存储到本地txt文件。
源码下载:
http://download.csdn.net/detail/wxg694175346/6925583
用Python写的百度贴吧的网络爬虫。
使用方法:
新建一个BugBaidu.py文件,而后将代码复制到里面后,双击运行。
程序功能:
将贴吧中楼主发布的内容打包txt存储到本地。
原理解释:
首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页以后url发生了一点变化,变成了:
http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1
能够看出来,see_lz=1是只看楼主,pn=1是对应的页码,记住这一点为之后的编写作准备。
这就是咱们须要利用的url。接下来就是查看页面源码。
首先把题目抠出来存储文件的时候会用到。
能够看到百度使用gbk编码,标题使用h1标记:
一样,正文部分用div和class综合标记,接下来要作的只是用正则表达式来匹配便可。
运行截图:
生成的txt文件:
先来讲一下咱们学校的网站:
http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html
查询成绩须要登陆,而后显示各学科成绩,可是只显示成绩而没有绩点,也就是加权平均分。
显然这样手动计算绩点是一件很是麻烦的事情。因此咱们能够用python作一个爬虫来解决这个问题。
1.决战前夜
先来准备一下工具:HttpFox插件。
这是一款http协议分析插件,分析页面请求和响应的时间、内容、以及浏览器用到的COOKIE等。
以我为例,安装在火狐上便可,效果如图:
能够很是直观的查看相应的信息。
点击start是开始检测,点击stop暂停检测,点击clear清除内容。
通常在使用以前,点击stop暂停,而后点击clear清屏,确保看到的是访问当前页面得到的数据。
2.深刻敌后
下面就去山东大学的成绩查询网站,看一看在登陆的时候,到底发送了那些信息。
先来到登陆页面,把httpfox打开,clear以后,点击start开启检测:
输入完了我的信息,确保httpfox处于开启状态,而后点击肯定提交信息,实现登陆。
这个时候能够看到,httpfox检测到了三条信息:
这时点击stop键,确保捕获到的是访问该页面以后反馈的数据,以便咱们作爬虫的时候模拟登录使用。
3.庖丁解牛
乍一看咱们拿到了三个数据,两个是GET的一个是POST的,可是它们究竟是什么,应该怎么用,咱们还一无所知。
因此,咱们须要挨个查看一下捕获到的内容。
先看POST的信息:
既然是POST的信息,咱们就直接看PostData便可。
能够看到一共POST两个数据,stuid和pwd。
而且从Type的Redirect to能够看出,POST完毕以后跳转到了bks_login2.loginmessage页面。
由此看出,这个数据是点击肯定以后提交的表单数据。
点击cookie标签,看看cookie信息:
没错,收到了一个ACCOUNT的cookie,而且在session结束以后自动销毁。
那么提交以后收到了哪些信息呢?
咱们来看看后面的两个GET数据。
先看第一个,咱们点击content标签能够查看收到的内容,是否是有一种生吞活剥的快感-。-HTML源码暴露无疑了:
看来这个只是显示页面的html源码而已,点击cookie,查看cookie的相关信息:
啊哈,原来html页面的内容是发送了cookie信息以后才接受到的。
再来看看最后一个接收到的信息:
大体看了一下应该只是一个叫作style.css的css文件,对咱们没有太大的做用。
4.冷静应战
既然已经知道了咱们向服务器发送了什么数据,也知道了咱们接收到了什么数据,基本的流程以下:
OK,看上去好像很简单的样纸。那下面咱们就来试试看吧。
可是在实验以前,还有一个问题没有解决,就是POST的数据到底发送到了哪里?
再来看一下当初的页面:
很明显是用一个html框架来实现的,也就是说,咱们在地址栏看到的地址并非右边提交表单的地址。
那么怎样才能得到真正的地址-。-右击查看页面源代码:
嗯没错,那个name="w_right"的就是咱们要的登陆页面。
网站的原来的地址是:
http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html
因此,真正的表单提交的地址应该是:
http://jwxt.sdu.edu.cn:7777/zhxt_bks/xk_login.html
输入一看,果不其然:
靠竟然是清华大学的选课系统。。。目测是我校懒得作页面了就直接借了。。结果连标题都不改一下。。。
可是这个页面依旧不是咱们须要的页面,由于咱们的POST数据提交到的页面,应该是表单form的ACTION中提交到的页面。
也就是说,咱们须要查看源码,来知道POST数据到底发送到了哪里:
嗯,目测这个才是提交POST数据的地址。
整理到地址栏中,完整的地址应该以下:
http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login
(获取的方式很简单,在火狐浏览器中直接点击那个连接就能看到这个连接的地址了)
5.小试牛刀
接下来的任务就是:用python模拟发送一个POST的数据并取到返回的cookie值。
关于cookie的操做能够看看这篇博文:
http://blog.csdn.net/wxg694175346/article/details/8925978
咱们先准备一个POST的数据,再准备一个cookie的接收,而后写出源码以下:
ok,如此这般,咱们就算模拟登录成功了。
6.偷天换日
接下来的任务就是用爬虫获取到学生的成绩。
再来看看源网站。
开启HTTPFOX以后,点击查当作绩,发现捕获到了以下的数据:
点击第一个GET的数据,查看内容能够发现Content就是获取到的成绩的内容。
而获取到的页面连接,从页面源代码中右击查看元素,能够看到点击连接以后跳转的页面(火狐浏览器只须要右击,“查看此框架”,便可):
从而能够获得查当作绩的连接以下:
http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre
7.万事俱备
如今万事俱备啦,因此只须要把连接应用到爬虫里面,看看可否查看到成绩的页面。
从httpfox能够看到,咱们发送了一个cookie才能返回成绩的信息,因此咱们就用python模拟一个cookie的发送,以此来请求成绩的信息:
既然这样就没有什么问题了吧,用正则表达式将数据稍稍处理一下,取出学分和相应的分数就能够了。
8.手到擒来
这么一大堆html源码显然是不利于咱们处理的,下面要用正则表达式来抠出必须的数据。
关于正则表达式的教程能够看看这个博文:
http://blog.csdn.net/wxg694175346/article/details/8929576
咱们来看当作绩的源码:
既然如此,用正则表达式就易如反掌了。
咱们将代码稍稍整理一下,而后用正则来取出数据:
ok,接下来的只是数据的处理问题了。。
9.凯旋而归
完整的代码以下,至此一个完整的爬虫项目便完工了。
[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,
用来解决简单的贴吧下载,绩点运算天然不在话下。
不过要想批量下载大量的内容,好比知乎的全部的问答,那便显得游刃不有余了点。
因而乎,爬虫框架Scrapy就这样出场了!
Scrapy = Scrach+Python,Scrach这个单词是抓取的意思,
暂且能够叫它:小抓抓吧。
小抓抓的官网地址:点我点我。
那么下面来简单的演示一下小抓抓Scrapy的安装流程。
具体流程参照:官网教程
友情提醒:必定要按照Python的版本下载,要否则安装的时候会提醒找不到Python。建议你们安装32位是由于有些版本的必备软件64位很差找。
1.安装Python(建议32位)
建议安装Python2.7.x,3.x貌似还不支持。
安装完了记得配置环境,将python目录和python目录下的Scripts目录添加到系统环境变量的Path里。
在cmd中输入python若是出现版本信息说明配置完毕。
2.安装lxml
lxml是一种使用 Python 编写的库,能够迅速、灵活地处理 XML。点击这里选择对应的Python版本安装。
3.安装setuptools
用来安装egg文件,点击这里下载python2.7的对应版本的setuptools。
4.安装zope.interface
可使用第三步下载的setuptools来安装egg文件,如今也有exe版本,点击这里下载。
5.安装Twisted
Twisted是用Python实现的基于事件驱动的网络引擎框架,点击这里下载。
6.安装pyOpenSSL
pyOpenSSL是Python的OpenSSL接口,点击这里下载。
7.安装win32py
提供win32api,点击这里下载
8.安装Scrapy
终于到了激动人心的时候了!安装了那么多小部件以后终于轮到主角登场。
直接在cmd中输入easy_install scrapy回车便可。
9.检查安装
打开一个cmd窗口,在任意位置执行scrapy命令,获得下列页面,表示环境配置成功。
[Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
(建议你们多看看官网教程:教程地址)
咱们使用dmoz.org这个网站来做为小抓抓一展身手的对象。
首先先要回答一个问题。
问:把网站装进爬虫里,总共分几步?
答案很简单,四步:
好的,基本流程既然肯定了,那接下来就一步一步的完成就能够了。
1.新建项目(Project)
在空目录下按住Shift键右击,选择“在此处打开命令窗口”,输入一下命令:
能够看到将会建立一个tutorial文件夹,目录结构以下:
下面来简单介绍一下各个文件的做用:
2.明确目标(Item)
在Scrapy中,items是用来加载抓取内容的容器,有点像Python中的Dic,也就是字典,可是提供了一些额外的保护减小错误。
通常来讲,item能够用scrapy.item.Item类来建立,而且用scrapy.item.Field对象来定义属性(能够理解成相似于ORM的映射关系)。
接下来,咱们开始来构建item模型(model)。
首先,咱们想要的内容有:
修改tutorial目录下的items.py文件,在本来的class后面添加咱们本身的class。
由于要抓dmoz.org网站的内容,因此咱们能够将其命名为DmozItem:
刚开始看起来可能会有些看不懂,可是定义这些item能让你用其余组件的时候知道你的 items究竟是什么。
能够把Item简单的理解成封装好的类对象。
3.制做爬虫(Spider)
制做爬虫,整体分两步:先爬再取。
也就是说,首先你要获取整个网页的全部内容,而后再取出其中对你有用的部分。
3.1爬
Spider是用户本身编写的类,用来从一个域(或域组)中抓取信息。
他们定义了用于下载的URL列表、跟踪连接的方案、解析网页内容的方式,以此来提取items。
要创建一个Spider,你必须用scrapy.spider.BaseSpider建立一个子类,并肯定三个强制的属性:
这里能够参考宽度爬虫教程中说起的思想来帮助理解,教程传送:[Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫。
也就是把Url存储下来并依此为起点逐步扩散开去,抓取全部符合条件的网页Url存储起来继续爬取。
下面咱们来写第一只爬虫,命名为dmoz_spider.py,保存在tutorial\spiders目录下。
dmoz_spider.py代码以下:
从parse函数能够看出,将连接的最后两个地址取出做为文件名进行存储。
而后运行一下看看,在tutorial目录下按住shift右击,在此处打开命令窗口,输入:
报错了:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in range(128)
运行第一个Scrapy项目就报错,真是命运多舛。
应该是出了编码问题,谷歌了一下找到了解决方案:
在python的Lib\site-packages文件夹下新建一个sitecustomize.py:
再次运行,OK,问题解决了,看一下结果:
最后一句INFO: Closing spider (finished)代表爬虫已经成功运行而且自行关闭了。
包含 [dmoz]的行 ,那对应着咱们的爬虫运行的结果。
能够看到start_urls中定义的每一个URL都有日志行。
还记得咱们的start_urls吗?
http://www.dmoz.org/Computers/Programming/Languages/Python/Books
http://www.dmoz.org/Computers/Programming/Languages/Python/Resources
由于这些URL是起始页面,因此他们没有引用(referrers),因此在它们的每行末尾你会看到 (referer: <None>)。
在parse 方法的做用下,两个文件被建立:分别是 Books 和 Resources,这两个文件中有URL的页面内容。
那么在刚刚的电闪雷鸣之中到底发生了什么呢?
首先,Scrapy为爬虫的 start_urls属性中的每一个URL建立了一个 scrapy.http.Request 对象 ,并将爬虫的parse 方法指定为回调函数。
而后,这些 Request被调度并执行,以后经过parse()方法返回scrapy.http.Response对象,并反馈给爬虫。
3.2取
爬取整个网页完毕,接下来的就是的取过程了。
光存储一整个网页仍是不够用的。
在基础的爬虫里,这一步能够用正则表达式来抓。
在Scrapy里,使用一种叫作 XPath selectors的机制,它基于 XPath表达式。
若是你想了解更多selectors和其余机制你能够查阅资料:点我点我
这是一些XPath表达式的例子和他们的含义
以上只是几个使用XPath的简单例子,可是实际上XPath很是强大。
能够参照W3C教程:点我点我。
必须经过一个 Response 对象对他们进行实例化操做。
你会发现Selector对象展现了文档的节点结构。所以,第一个实例化的selector必与根节点或者是整个目录有关 。
在Scrapy里面,Selectors 有四种基础的方法(点击查看API文档):
3.3xpath实验
下面咱们在Shell里面尝试一下Selector的用法。
实验的网址:http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
熟悉完了实验的小白鼠,接下来就是用Shell爬取网页了。
进入到项目的顶层目录,也就是第一层tutorial文件夹下,在cmd中输入:
在Shell载入后,你将得到response回应,存储在本地变量 response中。
因此若是你输入response.body,你将会看到response的body部分,也就是抓取到的页面内容:
或者输入response.headers 来查看它的 header部分:
如今就像是一大堆沙子握在手里,里面藏着咱们想要的金子,因此下一步,就是用筛子摇两下,把杂质出去,选出关键的内容。
selector就是这样一个筛子。
在旧的版本中,Shell实例化两种selectors,一个是解析HTML的 hxs 变量,一个是解析XML 的 xxs 变量。
而如今的Shell为咱们准备好的selector对象,sel,能够根据返回的数据类型自动选择最佳的解析方案(XML or HTML)。
而后咱们来捣弄一下!~
要完全搞清楚这个问题,首先先要知道,抓到的页面究竟是个什么样子。
好比,咱们要抓取网页的标题,也就是<title>这个标签:
能够输入:
这样就能把这个标签取出来了,用extract()和text()还能够进一步作处理。
备注:简单的罗列一下有用的xpath路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的全部子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
所有的实验结果以下,In[i]表示第i次实验的输入,Out[i]表示第i次结果的输出(建议你们参照:W3C教程):
固然title这个标签对咱们来讲没有太多的价值,下面咱们就来真正抓取一些有意义的东西。
使用火狐的审查元素咱们能够清楚地看到,咱们须要的东西以下:
咱们能够用以下代码来抓取这个<li>标签:
从<li>标签中,能够这样获取网站的描述:
能够这样获取网站的标题:
能够这样获取网站的超连接:
固然,前面的这些例子是直接获取属性的方法。
咱们注意到xpath返回了一个对象列表,
那么咱们也能够直接调用这个列表中对象的属性挖掘更深的节点
(参考:Nesting selectors andWorking with relative XPaths in the Selectors):
sites = sel.xpath('//ul/li')
for site in sites:
title = site.xpath('a/text()').extract()
link = site.xpath('a/@href').extract()
desc = site.xpath('text()').extract()
print title, link, desc
3.4xpath实战
咱们用shell作了这么久的实战,最后咱们能够把前面学习到的内容应用到dmoz_spider这个爬虫中。
在原爬虫的parse函数中作以下修改: