Python爬虫写在前面

时间 2019-11-08

原文原文链接

不知道你们有没有和我同样的想法，最开始学习Python的兴趣就是为了爬虫，爬一些好看的妹子图片...css

恩，准备进入正题了！最近一段时间没有怎么更新公众号，主要就是在作爬虫教程的一些准备工做，看看爬虫须要用到那些技术，而后作个计划出来,肯定一下学习课程中缝,这不今天就先列出一些玩爬虫须要的准备工做!html

Python爬虫这门技术你能够作得很简单，你也能够玩得很深刻.打比方用简单的爬虫方式爬取1000万条数据可能须要一周时间，但若是你的爬虫玩得比较厉害，你能够采用分布式爬虫技术1天就能完成了1000万条数据。虽然都是爬虫，但这就是菜鸟与大牛的区别！这就和太极拳似的，易学难精！mysql

这里面的技术点挺多的！如今来简单聊聊爬虫须要涉及的知识点。正则表达式

html，js,css，xpath这些知识，虽然简单，但必定须要了解。你得知道这些网页是如何构成的，而后才能去分解他们.redis

有了正则表达式才能更好的分割网页信息，获取咱们想要的数据，因此正则表达式也是须要了解的.sql

爬取到的数据咱们得有个地方来保存，可使用文件，也可使用数据库，这里我会使用mysql，还有更适合爬虫的MongoDB数据库，以及分布式要用到的redis 数据库数据库

PySpider和Scrapy 这两个爬虫框架是很是NB的,简单的爬虫可使用urllib与urllib2以及正则表达式就能完成，但高级的爬虫还得用这两个框架。这两个框架须要另行安装。后面一块儿学习.浏览器

有时候你的网站数据想禁止别人爬取，能够作一些反爬虫处理操做。打比方百度上就没法去查找淘宝上的数据，这样就避开了搜索引擎的竞争，淘宝就能够搞本身的一套竞价排名缓存

使用多个redis实例来缓存各台主机上爬取的数据。cookie

爬虫要学的东西仍是挺多的，想把爬虫玩得666，基本就是这些知识点吧！好了，上面的东西我也只是粗略整理，笔误在所不免，后面咱们会一块儿来学习爬虫知识吧！而我也准备作这样一套完整的爬虫系列教程！

最后咱们一块儿来一场愉快的爬虫之旅吧！