Python爬虫教程-01-爬虫介绍

时间 2020-05-24 标签 python 爬虫教程介绍

Spider-01-爬虫介绍

Python 爬虫的知识量不是特别大，可是须要不停和网页打交道，每一个网页状况都有所差别，全部对应变能力有些要求css

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
两大特征
- 能按照做者要求下载数据
- 能自动在网络上流窜
三大步骤
- 下载网页
- 提取正确的信息
- 根据必定规则自动跳到另外的网页上执行上两步操做
爬虫分类
- 通用爬虫：
  不分类，好比百度搜索引擎，咱们经过百度输入数据，获取百度爬虫从各类网站爬到的数据
- 专用爬虫（聚焦爬虫）：
  就是咱们介绍的，关于某一类的数据，好比说，须要爬智联招聘网站，某地区的招聘信息
Python网络包简介
- Python2.*：urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.*：urllib, urllib3, httplib2, requests
- Python2：urllib, urllib2配合使用，或者requests
- Python3：urllib，requests