网络爬虫(1)--准备工做

       网络爬虫是根据必定的规则自动的对网络信息进行抓取,为了对爬虫有更深的了解,学习爬虫前有必要先了解一下一个网页打开的完整过程,能够参考http://blog.csdn.net/saiwaifeike/article/details/8789624html

            接下来就是须要安装和了解经常使用的2个相关库,一个是urllib ,另外一是 BeautifulSoup。urllib是Python自带的标准库,不须要另外安装,而BeautifulSoup须要本身安装,能够经过pip或者easy_install来安装。能够直接命令行easy_install  BeautifulSoup安装。
        urllib分为几个子模块:urllib.request, urllib.parse, urllib.error。具体功能能够从名字得出。其中使用最频繁的是urllib.request中的urlopen,这个函数用来打开并获取从网络获取的远程对象。其余函数参考 https://docs.python.org/3/library/urllib.html
        这两个库配合使用就已经能够完成简单的爬虫任务了,咱们以打开一个简单的网页为例:
http://www.heibanke.com/lesson/crawler_ex00/
    咱们用urlopen访问这个网页,而后用BeautifulSoup转换成BeautifulSoup对象,最后输出其中的<h1>标签中的文本,代码以下:
  
1 __author__ = 'f403'
2 #coding = utf-8
3 from urllib.request import urlopen
4 from bs4 import BeautifulSoup
5 html = urlopen("http://www.heibanke.com/lesson/crawler_ex00/")
6 bsobj = BeautifulSoup(html,"html.parser")
7 print(bsobj.h1)

 

运行脚本后输出结果为:
<h1>这里是黑板客爬虫闯关的第一关</h1>
 
 小结:
urlopen完成访问远程网站以及读取的过程。
BeautifulSoup完成对html的转换,转换成BeautifulSoup结构:

 

 

相关文章
相关标签/搜索