urllib是python3.x中提供的一系列操做的URL的库,它能够轻松的模拟用户使用浏览器访问网页.python
Beautiful Soup 是一个能够从HTML或XML文件中提取数据的Python库.它可以经过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工做时间.python3.x
一、安装python最新安装包3.5.2浏览器
下载地址:https://www.python.org/服务器
注:安装的时候注意勾选添加到PATH(系统环境变量)中post
验证安装是否成功: 在命令行cmd中输入python,若是进入到python的编辑环境,则安装成功。测试
二、安装urlliburl
在python命令行中输入:from urllib.request import urlopenspa
显示以下:没有出现错误信息则安装成功命令行
三、安装BeautifulSoupcode
在cmd中输入:pip install beautifulsoup4
验证是否装成功:form bs4 import BeautifulSoup 若是没有报错就是安装成功
四、urllib的用法介绍
(1)使用步骤
from urllib import request req = request.Request("http://www.baidu.com") req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0") resp = request.urlopen(req) print(resp.read().decode("utf-8"))
这里我用sublime Text 测试:能够看到百度首页的数据是能够被获取下来的。
(2)post请求
postData = parse.urlencode([
(key1,val1),
(key2,val2),
(key3,val3)
])
from urllib.request import urlopen from urllib.request import Request from urllib import parse req = Request('http://huochepiao.114piaowu.com/train/ydTrainZdz_searchAdapter.action') postData = parse.urlencode({ 'fromStation':'上海', 'godateStr':'2016-09-07', 'searchType':0, 'toStation':'广州' }).encode('utf-8') req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0") resp = urlopen(req,data = postData) print(resp.read().decode('utf-8'))
五、beautifulSoup使用简介
http://beautifulsoup.readthedocs.io/zh_CN/latest/#id20