Scrapy选择器Xpath和CSS

时间 2020-01-15

原文原文链接

使用Scrapy爬取数据前，须要先了解Scrapy的选择器。网络网络爬虫的原理就是获取网页返回，而后提取所需的内容。简单的网页可使用Python的re模块提取内容，复杂一点的可使用scrapy。scrapy提取数据的机制被称为选择器（seletors），经过特定的XPath或者CSS表达式来“选择”HTML文件中的某个部分。scrapy XPath是一门用来在XML文件中选择节点的语言，也能够用