【python面试】爬虫

1.爬虫是一个什么样的过程?

2.scrapy的工做原理?

3.scrapy的去重原理?

答:scrapy自己自带一个去重中间件,scrapy源码中能够找到一个dupfilters.py去重器,里面有个方法叫作request_seen,他在scheduler(发起请求的第一时间)的时候被调用,它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。scrapy

就是给每个传递过来的url生成一个固定长度的惟一哈希值,可是这种量级千万到亿的内存是能够应付的post

4.Python如何爬取实时变化的WebSocket数据?

答:juejin.im/post/5c80b7…url

5.爬虫如何实现断点徐爬?

相关文章
相关标签/搜索