以前咱们从网页中提取重要信息主要是经过本身编写正则表达式完成的,可是若是你以为正则表达式很好写的话,那你估计不是地球人了,并且很容易出问题。下边要介绍的Beautiful Soup就能够帮你简化这些操做,更加方便的提取网页中信息。python
Beautiful Soup 3 目前已经中止开发,官方推荐在如今的项目中使用Beautiful Soup 4正则表达式
Beautiful Soup是有中文文档的,里边有详细的介绍,文档地址是: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/centos
1. 安装centos7
我是在centos7环境中,因此安装过程比较简单,直接能够经过yum来安装:spa
sudo yum install python-beautifulsoup4
若是你安装了pip,也能够经过它来下载:code
sudo pip install beautifulsoup4
2.快速上手blog
其实其中文文档已经很是nice了。ip
点击这里查看: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/开发