用Python抓取网页并解析

时间 2019-11-06

标签 python 抓取网页并解栏目 Python 繁體版

原文原文链接

软件版本html

python:2.7.12html5

网页抓取库python

网页抓取库为requests,git

安装很简单，直接使用pipcode

pip install requests

网页解析库xml

网页解析库使用beautifulsoup4,其支持多种html解析器，如html5lib,lxml，须要一并安装，推荐使用lxml网页解析器。htm

安装过程以下：blog

pip install beautifulsoup4
pip install lxml
pip install html5lib

使用方法：

soup = BeautifulSoup(html_content, "lxml", from_encoding="utf-8")