【Python爬虫】入门知识

时间 2019-12-08

标签 Python爬虫入门知识栏目 Python 繁體版

原文原文链接

爬虫基本知识

这阵子须要用爬虫作点事情，因而系统的学习了一下python爬虫，以为还挺有意思的，比我想象中的能干更多的事情，这里记录下学习的经历。css

网上有关爬虫的资料特别多，写的都挺复杂的，我这里不打算讲什么大道理，由于其实爬虫挺好理解的。就是下面一个流程：html

Created with Raphaël 2.1.0网页网页源代码正则表达式须要的内容

爬虫的功能就是把网页源代码想办法爬下来，而后分析出须要的内容。总结起来就是2个部分：
1. 爬
2. 提取python

因此，整个爬虫须要掌握的技能，就是如何高效的爬，如何快速的分析提取所须要的内容。正则表达式

如何爬？

Requests

说实话，以前为了找爬虫的教程，走了挺多弯路的，由于如今不少教程刚上来就介绍urllib，urllib2这两个python自带的有关网页的包，因此刚开始个人单线程爬虫实现也都是基于urllib的，不只代码多，并且效率还低。实际上，目前来讲，这两个已经很过期了，目前用的比较多的是requests这个第三方包（这里我也是偶然间发现极客学院有关爬虫的视频，让我少走那么多弯路，这里我就不说是什么视频了，以避免有广告的嫌疑，你们有兴趣的能够本身去搜）。
正如requests的官方网页说的：markdown

Requests: HTTP for Humanscookie

它目前应该是python下最好的Http库了。它还有不少别的特性：数据结构

Requests 使用的是 urllib3，继承了urllib2的全部特性。Requests支持HTTP链接保持和链接池，支持使用cookie保持会话，支持文件上传，支持自动肯定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。app

上面介绍的是单线程爬虫，而后，若是要提升爬的效率，并行化确定必不可少，那么scrapy就能够解决你的问题。而后还有js动态加载的问题。那些我之后也会慢慢加上来。python爬虫

Requests安装

pip install requests

全部的python第三方包的安装均可以用pip，若是cmd中没法输入pip命令，请把C:\Python27\Scripts加入PATH环境变量。scrapy

注：这里不推荐使用easy_install 由于这个只管安装，无论卸载。

Requests使用

基本知道一个requests.get()和requests.post()就好了。

一样它还有
requests.head()
requests.delete()
功能，不过用的很少。须要的时候，查手册就行了。
这里有个文档写requests写的挺全面的。能够看看：requests快速上手

requests的返回值能够有多种形式输出，最经常使用的是
“.text”和”.content”，前者输出unicode，后者输出二进制

import requests  
 url = 'http://www.baidu.com'
 html = requests.get(url)
 print html.text

输出：

<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg"><link rel="dns-prefetch" href="//s1.bdstatic.com"/><link rel="dns-prefetch" href="//t1.baidu.com"/><link rel="dns-prefetch" href="//t2.baidu.com"/><link rel="dns-prefetch" href="//t3.baidu.com"/><link rel="dns-prefetch" href="//t10.baidu.com"/><link rel="dns-prefetch" href="//t11.baidu.com"/><link rel="dns-prefetch" href="//t12.baidu.com"/><link rel="dns-prefetch" href="//b1.bdstatic.com"/><title>百度一下，你就知道</title>
……
……

如何提取？

正则表达式

正则表达式是一个大头！不少也都听过正则表达式，第一印象就是记不住，可是其实也不用特别记忆，由于在爬虫里，用的最多的基本就一个

(.*?)

( ) ：表示这个内容是咱们须要提取的
.* ：表示匹配任意字符0到n次
？：表示非贪心，找对第一个就停下来

我来解释下为何在爬虫里只要这个pattern就好了。
在html网页源代码中，咱们须要找的内容通常都是被某些标签包围的，若是咱们能保证找到咱们须要的内容左右的标签（而且他们是独一无二的）那么咱们很容易写出一个正则表达式：

<XXX>(.*?)</XXX>

把其中的内容提取出来

python正则模块使用

python的正则模块是re，主要用的函数是（re.S的意思是让”.”能够匹配换行符，否则有些标签头和尾是分几行的，就会匹配失败）

findall(pattern,str,re.S)

主力部队，把全部知足正则的内容提取出来，用于匹配知足某个条件的大量咱们须要的内容。（好比全部的图片，全部的网址，全部的回复，全部的连接……）。它在网页提取中占了主要地位，工做量大，任务重，因此是主力部队。

search(pattern,str,re.S)

狙击手，用来匹配第一个找到的元素，它的目标目的就是找到咱们明显知道只有一个的元素好比标题什么的，一旦找到就结束，因此它的执行速度很快。它的目标明确，效率高，因此是狙击手的角色。

sub(pattern,str,replace)

后勤，它的功能是替换，通常用于替换一个网页地址中的关键词，替换页码等。它看似不重要，可是每每能在不少方面给咱们提供便利，因此是后勤。

注意：正则有时候一步不能完成咱们须要的功能，可能须要进行几步操做，这时候，咱们通常先提取大的部分，在从大部分里面提取咱们须要的部分

咱们看个很简单的例子：

import re

#假设下面是一个源码，我想保存里面全部的连接
text = '<a href = "www.baidu.com">....'
urls = re.findall('<a href = (.*?)>',text,re.S)
for each in urls:
    print each

#假设我须要爬取当前网页的头部
html = ''' <html> <title>爬虫的基本知识</title> <body> …… </body> </html> '''
print re.search('<title>(.*?)</title>',html,re.S).group(1)
#这里group(1)表示第一个括号的内容，若是正则里面有多个括号，这里能够经过group(i)返回第i个空格里的内容



#假设下面是一个贴吧的帖子地址，有不少页，每一页就是靠后面的pn=几来区分的，咱们输出前10页的网址
Pages = 'http://tieba.baidu.com/p/4342201077?pn=1'
for i in range(10): 
    print re.sub('pn=\d','pn=%d'%i,Pages)

输出：

"www.baidu.com"
爬虫的基本知识
http://tieba.baidu.com/p/4342201077?pn=0
http://tieba.baidu.com/p/4342201077?pn=1
http://tieba.baidu.com/p/4342201077?pn=2
http://tieba.baidu.com/p/4342201077?pn=3
http://tieba.baidu.com/p/4342201077?pn=4
http://tieba.baidu.com/p/4342201077?pn=5
http://tieba.baidu.com/p/4342201077?pn=6
http://tieba.baidu.com/p/4342201077?pn=7
http://tieba.baidu.com/p/4342201077?pn=8
http://tieba.baidu.com/p/4342201077?pn=9

XPath

若是说正则表达式就已经让你以为很神奇了，那XPath真是要吓死你了。这真是个神器，它让提取信息网页信息变得更加轻松。XPath是一个树型的结构，比较符合“html”的层次结构。

XPath即为XML路径语言，它是一种用来肯定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其做为一个通用的、介于XPointer与XSLT间的语法模型。可是 XPath 很快的被开发者采用来看成小型查询语言。

我以为视频中老师的解释超精彩：若是你提取信息就像让你找一栋建筑，那么正则就是告诉你建筑左边是什么，右边是什么，可是全国可能有不少都知足条件的，你找起来仍是不方便。

红房子(.*?)绿房子

XPath就是告诉你，这个建筑在北京市——海淀区——中关村——15号街——那栋黄色的建筑，你能够立刻找到对应的建筑。若是一个地名只有一个地方有，那么你更能够简化成“中关村——15号街”

//北京市/海淀区/中关村/15号街[@房子颜色=黄色]/text()
//中关村/15号[@房子颜色=黄色]/text()

也许在这里你还没能体会到他们之间的差异，可是相信我，当你遇到复杂的html分析的时候，你会发现它的厉害之处的。好比下面的例子，我想把Hello，my world!打印出来用正则须要考虑一下吧？可是用XPath就简单不少

<div id="class">Hello，
    <font color=red>my</font>
    <font color=green>world!</font>
<div>

XPath语法

XPath你只须要知道这些语法

// 根节点
/ 下一层路径
[@XX=xx] 特定的标签

/text() 以文本返回
/@para 返回参数

string(.) 当前层的全部内容做为一个字符串输出
start-with(str) 全部以这个str开头的标签

下面是一个简单的例子

from lxml import etree
html=
''' <div id="test1">content1</div> <div id="test2">content2</div> <div id="test3">content3</div> '''

selector = etree.HTML(html)
content = selector.XPath('//div[start-with(@id,"test")]/text()')
for each in content:
    print each

html1=
''' <div id="class">Hello, <font color=red>my</font> <font color=green>world!</font> <div> '''

selector = etree.HTML(html)
tmp = selector.XPath('//div[@id="class"]')[0]
info = tmp.XPath('string(.)')
content2 = info.replace('\n','')
print content2

输出：

content 1
content 2
content 3
Hello,        my        world!