网络爬虫之Scrapy实战一

时间 2021-01-16

原文原文链接

我们用scrapy来爬取一个具体的网站。以迅读网站为例。如下是首页的内容，我想要得到文章列表以及对应的作者名称。首先在items.py中定义title, author. 这里的Test1Item和Django中的modul作用类似。这里可以将Test1Item看做是一个容器。这个容器继承自scrapy.Item. 而Item又继承自DictItem。因此可以认为Test1Item就是一个字典的