python-62: BS4的基本知识

咱们前面提出了几个问题,如今就来一个一个的解决这些问题html

1.BS4是什么?
python

官方文档上是这样写的:linux

Beautiful Soup 是一个能够从HTML或XML文件中提取数据的Python库
正则表达式

所谓的提取数据就是在网页源码中获取你想要的信息,好比,网址,图片的连接,文字等等,这个功能跟咱们以前使用的正则表达式同样,并且通过前面的学习咱们也知道,使用正则表达式在网页源码中获取咱们想要的数据并非一件很困难的事情,只须要记住".*?"和"(.*?)",就好了,那为何咱们还要学习 BS4呢?ubuntu

2. 为何要学习BS4?windows

我以为这是在咱们学习以前最主要的问题,其余的BS4是什么,怎么安装,怎么使用这些都是次要的,这些内容上网随时能够找获得,我没有必要纠结这些,并且若是不知道为何要学BS4,这些问题我可能连查都不会去查,我就直接使用RE,这跟个人性格有关,我必需要先知道为何去作一件事情,找到一个能说服个人理由,而后才会认真的去作这件事情cookie

可是事实上,这BS4还真是必需要学的同样东西,这个问题我会在下一个小节以一个例子来详细的说明,如今先来看看其余的问题函数

3. BS4怎么使用
学习

前面也说了BS4是python的一个库,也就是,模块,咱们前面的学习中也使用到了一些模块,像re,urllib,urllib2,cookielib,等等,因此既然BS4也是一个模块,那它的用法应该也跟前面同样,因此咱们就来import看看吧url

这里出现了一个错误,这是为何呢?

缘由很简单,前面咱们使用到的库是python自带的库函数,因此咱们不须要安装直接import就可使用,可是BS4不同,BS4不是python自带的库,它是一个第三方的库,在咱们的系统中并无这个库函数,因此咱们直接import会提示没有这个模块----"no module name bs4",解决的方法也很简单,直接安装这个模块就好了

至于怎么安装,根据操做系统的不一样安装的方法也有不一样,这里简单的讲一下

我这里使用的是ubuntu系统,个人安装方法很简单

sudo apt-get install python-bs4

至于其余的操做系统包括其余的linux,或者windows,能够到http://www.crummy.com/software/BeautifulSoup/download/4.x/ 下载源码而后经过setup.py来安装

Python setup.py install

这些都是很简单的问题,实在不懂的话网上一大把,能够上网去找找看

4. 怎么学习BS4

这个问题也很重要,先要知道为何要学,而后须要知道怎么学,这个怎么学的过程首先要认知自我,你以为你能凭空学出来一个BS4吗?若是能凭空的话,那应该是你本身造出来的只属于你的BS4,因此咱们须要一个教材,或者说一本参考书之类的,那咱们以什么做为学习的标准呢?BS4的官方文档,在学习以前,我首先是看了官方文档,可是发现写得不是那么有趣,因此我就上网去找找看有没有什么好的资料,结果发现网上绝大部分的教程都是官方文档上的,甚至连例子都不修改一下,最后没办法只能乖乖的看官方文档来学习,哦,对了,官方文档的地址是这个

http://beautifulsoup.readthedocs.org/zh_CN/latest/#

好了,这一小节咱们总算把BS4的一些最最基本的问题讲完了,可是别忘了最重要的问题:

为何要学习BS4

相关文章
相关标签/搜索