Ali1688爬虫实践(2)

前面文章是基础篇,也是参考网上一些资料做的一个实验,结果效率太差,直接舍弃,第二种方法采用的是scrapy+xpath+mongodb+第三方ip代理做的数据爬取,下面简单做个网页分析   由于从首页进入一个个搜索的话会有很多弹窗,所以考虑过用selenium模拟点击关闭各种弹窗以及验证等等,但是效率实在不敢恭维,虽然封ip没那么严重,但是没那么多时间消耗,所以后来考虑直接通过1688供应商按省市
相关文章
相关标签/搜索