关于爬虫

时间 2019-11-05

标签关于爬虫栏目网络爬虫繁體版

原文原文链接

技术选型

scrapy VS requests+beautifulsoupcss

1.　requests+beautifulsoup都是库，而scrapy是框架html

2.　scrapy框架中能够加入requests+beautifulsouppython

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优点web

4.　scrapy方便扩展，提供了不少内置的功能redis

5.　scrapy内置的css和xpath selector很是方便，beautifulsoup最大的缺点就是慢api

网页分类

1.　静态网页python爬虫

2.　动态网页框架

3.　webservice(rest api)机器学习

爬虫的做用

1.　搜索引擎：Googel、百度、垂直领域搜索引擎异步

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

关于Python爬虫，咱们须要学习的有

1. Python基础语法学习（基础知识）

2. HTML页面的内容抓取（数据抓取）

3. HTML页面的数据提取（数据清洗）

4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

相关文章

相关标签/搜索

爬虫－反爬虫

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<