今天根据书上的介绍写了一个简单爬虫,爬取豌豆荚里面APP的基本信息,可是在调试结果正常后,发现跳转到result页面后没有看到结果。app
后来上网查了一下,发现要在def detail_page(self, response)方法的前面加上
@config(priority=2)
url
即:spa
@config(priority=2)
def detail_page(self,response):
title=response.doc('p > [itemprop="name"]').text()
updateDate=response.doc('[itemprop="datePublished"]').attr.datetime
version=response.doc('div[class="download-wp"]>a').attr('data-app-vname')
developer=response.doc('dd > span[itemprop="name"]').text()
size=response.doc('.infos-list > dd>meta[itemprop="fileSize"]').attr.content
downloadLink=response.doc('.qr-info > a').attr.href
packagename=response.doc('div[class="download-wp"]>a').attr('data-app-pname')
return {
"title": title,
"updateDate": updateDate,
"version":version,
"developer":developer,
"size":size,
"downloadLink":downloadLink,
"packagename":packagename
}.net
果真在再次启动后能够在result页面看到结果。调试
后来就去搜索@config(priority=2) 这个是什么意思,发现原来这个是优先级设置。数字越小越先执行。code
而后方法前面还能够作如下这些设置:blog
这些相关知识来自https://blog.csdn.net/qq_33052539/article/details/52850199it