Python爬虫教程-01-爬虫介绍

Spider-01-爬虫介绍

Python 爬虫的知识量不是特别大,可是须要不停和网页打交道,每一个网页状况都有所差别,全部对应变能力有些要求css

爬虫准备工做

  • 参考资料
  • 精通Python爬虫框架Scrapy,人民邮电出版社
  • -

基础知识

  • url, http
  • web前端,html,css,js
  • ajax
  • re,xpath

python 爬虫简介

  • 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
  • 两大特征
    • 能按照做者要求下载数据
    • 能自动在网络上流窜
  • 三大步骤
    • 下载网页
    • 提取正确的信息
    • 根据必定规则自动跳到另外的网页上执行上两步操做
  • 爬虫分类
    • 通用爬虫:
      不分类,好比百度搜索引擎,咱们经过百度输入数据,获取百度爬虫从各类网站爬到的数据
    • 专用爬虫(聚焦爬虫) :
      就是咱们介绍的,关于某一类的数据,好比说,须要爬智联招聘网站,某地区的招聘信息
  • Python网络包简介
    • Python2.*:urllib, urllib2, urllib3, httplib, httplib2, requests
    • Python3.*:urllib, urllib3, httplib2, requests
    • Python2:urllib, urllib2配合使用,或者requests
    • Python3:urllib,requests

个人爬虫笔记