爬虫基础之(二) --- urllib基础

时间 2019-11-08

标签爬虫基础 urllib 栏目网络爬虫繁體版

原文原文链接

简介

爬取数据种类html

　　网页：网页文本，如HTML文档，Json格式化文本等
　　图片：获取到的是二进制文件，保存为图片格式
　　视频：一样是二进制文件
　　其余：只要请求到的，均可以获取python

解析数据方法web

问题难点　　ajax

　　抓取的页面数据和浏览器里看到的不同的问题正则表达式

　　由于不少网站中的数据都是经过js，ajax动态加载的，因此直接经过get请求获取的页面和浏览器显示的不一样。sql

　　如何解决js渲染问题：分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py数据库

保存数据浏览器

　　文本：纯文本，Json、Xml等oracle

　　关系型数据库： Mysql、oracle、sql server等结构化数据库框架

　　非关系型数据库：MongoDB、Redis等key-value形式存储

urllib介绍

　Urllib是python内置的HTTP请求库，是python提供的一个用于发起和处理http请求和响应的框架。

　后期的一些框架,好比： requests、 scrapy等都是基于它

　包括如下四个模块：

mac中使用：

import ssl
ssl._create_default_https_context = ssl._create_unverified_context