【python面试】爬虫

时间 2019-11-08

原文原文链接

1.爬虫是一个什么样的过程？

2.scrapy的工做原理？

3.scrapy的去重原理？

答：scrapy自己自带一个去重中间件，scrapy源码中能够找到一个dupfilters.py去重器，里面有个方法叫作request_seen,他在scheduler(发起请求的第一时间)的时候被调用，它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。scrapy

就是给每个传递过来的url生成一个固定长度的惟一哈希值，可是这种量级千万到亿的内存是能够应付的post

4.Python如何爬取实时变化的WebSocket数据?

答：juejin.im/post/5c80b7…url

【python面试】爬虫

1.爬虫是一个什么样的过程？

2.scrapy的工做原理？

3.scrapy的去重原理？

4.Python如何爬取实时变化的WebSocket数据?

5.爬虫如何实现断点徐爬？