python+urllib+beautifulSoup实现一个简单的爬虫

时间 2019-11-29

标签 python+urllib+beautifulsoup python urllib beautifulsoup 实现一个简单爬虫栏目 Python 繁體版

原文原文链接

urllib是python3.x中提供的一系列操做的URL的库，它能够轻松的模拟用户使用浏览器访问网页.python

Beautiful Soup 是一个能够从HTML或XML文件中提取数据的Python库.它可以经过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工做时间.python3.x

一、安装python最新安装包3.5.2浏览器

　　下载地址：https://www.python.org/服务器

　　注：安装的时候注意勾选添加到PATH（系统环境变量）中post

　　验证安装是否成功：在命令行cmd中输入python,若是进入到python的编辑环境，则安装成功。测试

二、安装urlliburl

　　在python命令行中输入：from urllib.request import urlopenspa

　　显示以下：没有出现错误信息则安装成功命令行

三、安装BeautifulSoupcode

　　在cmd中输入：pip install beautifulsoup4

　　验证是否装成功：form bs4 import BeautifulSoup 若是没有报错就是安装成功

四、urllib的用法介绍

　（1）使用步骤

导入urllib库的request模块 from urllib import request
请求URL req = request.Request(URL)
设置请求头 req.add_header(key,value)
使用响应对象输出数据print(resp.read().decode('utf-8'))

from urllib import request

req = request.Request("http://www.baidu.com")

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0")

resp = request.urlopen(req)

print(resp.read().decode("utf-8"))

这里我用sublime Text 测试：能够看到百度首页的数据是能够被获取下来的。

　（2）post请求

导入urllib库下面的parse： from urllib import parse
使用urlencode生成post数据

postData = parse.urlencode([

　　(key1,val1),

　　(key2,val2),

　　(key3,val3)

　　])

使用postData发送POST请求 request.urlopen(req,data = postData.encode('utf-8'))
获得请求状态 resp.status
获得服务器类型 resp.reason

from urllib.request import urlopen
from urllib.request import Request
from urllib import parse

req = Request('http://huochepiao.114piaowu.com/train/ydTrainZdz_searchAdapter.action')

postData = parse.urlencode({
    'fromStation':'上海',
    'godateStr':'2016-09-07',
    'searchType':0,
    'toStation':'广州'
}).encode('utf-8')

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0")

resp = urlopen(req,data = postData)

print(resp.read().decode('utf-8'))

五、beautifulSoup使用简介

　　http://beautifulsoup.readthedocs.io/zh_CN/latest/#id20