《实战Python网络爬虫》- 感想

时间 2020-07-16

标签实战Python网络爬虫感想栏目 Python 繁體版

原文原文链接

端午节假期过了，以前一直在作出行准备，后面旅游完又休息了一下，最近才恢复状态。html

端午假期最后一天收到一个快递，回去打开，发现是微信抽奖中的一本书，黄永祥的《实战Python网络爬虫》。java

去各大网站搜了一下这我的，没有名气，去网购平台看了他别的书的书评，总体来讲，书都是拼凑的。。。python

可是既然书到手了，不妨翻开看看，恰好最近没有什么头绪，又偏头痛。花了几个半天总体翻了一下这本书，感受是有点浅显的。ajax

我以前用java写过爬虫，感受比较难的仍是反爬虫这块。这本书，我先看了第一个实战项目，51job的，运行了代码以后发现，哦，好吧，这个网站，貌似没有反爬虫机制？正则表达式

其实具体的爬取内容的方法各个网站也是差很少的。主要仍是反爬虫这块。可是书上内容很少，只有一个章节。redis

我的以为，对于爬虫新手，看一看每章的小结，仍是很能增加一些见识的。更深刻的技术，大概这本书是不能提供的。sql

后续有时间，我大概会摘录一些小结放到这里来吧~虽然没什么人看这里。数据库

定义：自动抓取网络信息浏览器

分类：缓存

requests_cache.install_cache(backend='memory')

存储机制：

并发库concurrent.futures：ThreadPoolExecutor和ProcessPoolExecutor