爬取数据种类html
网页:网页文本,如HTML文档,Json格式化文本等
图片:获取到的是二进制文件,保存为图片格式
视频:一样是二进制文件
其余:只要请求到的,均可以获取python
解析数据方法web
问题难点 ajax
抓取的页面数据和浏览器里看到的不同的问题正则表达式
由于不少网站中的数据都是经过js,ajax动态加载的,因此直接经过get请求获取的页面和浏览器显示的不一样。sql
如何解决js渲染问题:分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py数据库
保存数据浏览器
文本: 纯文本,Json、Xml等oracle
关系型数据库: Mysql、oracle、sql server等结构化数据库框架
非关系型数据库:MongoDB、Redis等key-value形式存储
官方文档:https://docs.python.org/zh-cn/3/library/urllib.html
urllib介绍
Urllib是python内置的HTTP请求库,是python提供的一个用于发起和处理http请求和响应的框架。
后期的一些框架,好比: requests、 scrapy等都是基于它
包括如下四个模块:
mac中使用:
import ssl ssl._create_default_https_context = ssl._create_unverified_context