python3下scrapy爬虫(第二卷:初步抓取网页内容之直接抓取网页）

时间 2019-11-30

标签 python3 python scrapy 爬虫第二初步抓取网页内容直接栏目 Python 繁體版

原文原文链接

上一卷中介绍了安装过程，如今咱们开始使用这个神奇的框架cookie

跟不少博主同样我也先选择一个很是好爬取的网站做为最初案例，那么我先用屌丝必备网站http://www.shaimn.com/xinggan/做为这一卷的案例，不用想有图，有字框架

第一步：scrapy

建立爬虫文件：网站

如今切换到scrapy_test的根目录下：日志

咱们如今建立了爬虫文件，这个网页正常状况下就能够直接抓取，不像糗事啊，天猫啊须要到SETTING里去设置对抗ROBOT cookie user-AGENT这样的反爬手段视频

如今开始建立代码blog

如今在终端切换到爬虫文件的目录中图片

执行命令：test

scrapy crawl crawler1 --nolog音频

--nolog是为了隐藏日志文件时我添加的命令语句，由于这个网页过于简单，因此为了方便数据的展现，我加了这句语句，可是若是抓取复杂的网站时我建议添加，一旦出问题能够立马发现问题的所在：

如今看下结果：

这样这个网页就爬了下来，可是数据内容不精准，我相信没有人会把别让人的全部网页代码拿来用，要用的是其中的数据，图片，视频，音频等内容