爬虫基础 之(二) --- urllib基础

简介

爬取数据种类html

  网页:网页文本,如HTML文档,Json格式化文本等
  图片:获取到的是二进制文件,保存为图片格式
  视频:一样是二进制文件
  其余:只要请求到的,均可以获取python

解析数据方法web

  1. 直接处理
  2. Json解析
  3. 正则表达式处理
  4. BeautifulSoup解析处理
  5. PyQuery解析处理
  6. XPath解析处理

问题难点  ajax

  抓取的页面数据和浏览器里看到的不同的问题正则表达式

  由于不少网站中的数据都是经过js,ajax动态加载的,因此直接经过get请求获取的页面和浏览器显示的不一样。sql

  如何解决js渲染问题:分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py数据库

保存数据浏览器

  文本: 纯文本,Json、Xml等oracle

  关系型数据库:   Mysql、oracle、sql server等结构化数据库框架

  非关系型数据库:MongoDB、Redis等key-value形式存储

urllib

 官方文档https://docs.python.org/zh-cn/3/library/urllib.html

 urllib介绍

 Urllib是python内置的HTTP请求库,是python提供的一个用于发起和处理http请求和响应的框架。

 后期的一些框架,好比: requests、 scrapy等都是基于它

 包括如下四个模块:

  1. urllib.error        异常处理模块
  2. urllib.request      请求模块
  3. urllib.parse       url解析模块
  4. urllib.robotparser     robots.txt解析模块

mac中使用:

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

相关文章
相关标签/搜索