Scrapy实现对新浪微博某关键词的爬取以及不同url中重复内容的过滤

工作原因需要爬取微博上相关微博内容以及评论。直接scrapy上手,发现有部分重复的内容出现。(标题重复,内容重复,但是url不重复) 目录 1.scrapy爬取微博内容  2.scrapy爬取微博评论 3.scrapy+Redis实现对重复微博的过滤 1.scrapy爬取微博内容  为了降低爬取难度,直接爬取微博的移动端:(电脑访问到移动版本微博,之后F12调出控制台来操作) 点击搜索栏:输入相关
相关文章
相关标签/搜索