python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB

时间 2020-07-23

标签 python3 python 爬虫入门实战 scrapy 多多五百万数据 mongodb 栏目 Python 繁體版

原文原文链接

总结：虽然是第二次爬取，可是多多少少仍是遇到一些坑，总的结果仍是好的，scrapy比多线程多进程强多了啊，中途没有一次被中断过。此版本是盘多多爬取数据的scrapy版本，涉及数据量较大，到如今已是近500万的数据了。html 1，抓取的内容主要爬取了：文件名，文件连接，文件类型，文件大小，文件浏览量，文件收录时间node 一，scrapy中item.py代码 # -*- coding: utf

>>阅读原文<<