爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法

时间 2019-11-08

标签图片过程遇到 valueerror missing scheme request url 报错解决方法栏目 HTTP/TCP 繁體版

原文原文链接

一、scrapy总体框架

1.1 scrapy框架图

1.2 scrapy框架各结构解析

　　item：保存抓取的内容html

　　spider：定义抓取内容的规则，也是咱们主要编辑的文件python

　　pipelines：管道做用，用来定义如何过滤、存储等功能（好比导出到csv或者mysql等功能）mysql

　　settings：配置例如ITEM_PIPELINES 、图片存储位置等等功能sql

　　middlewares：下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response多线程

1.3 数据流过程

　　从start_urls 开始，Scheduler 会将其交给 Downloader 进行下载，下载以后会交给 Spider 进行分析，Spider 分析出来的结果有两种：一种是须要进一步抓取的连接，例如以前分析的“下一页”的连接，这些东西会被传回 Scheduler ；另外一种是须要保存的数据，它们则被送到 Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还能够安装各类中间件，进行必要的处理。　　app

2、爬取图片过程

2.1 总体介绍

2.1.1 环境

Anocondas+python3.6框架

2.1.2 建立工程

一、建立hupu这个工程dom

E:\pgtool>scrapy startproject hupu异步

二、建立相应的spidersscrapy

E:\pgtool>cd hupu##必须是进入到建立的项目中去建spiders

E:\pgtool\hupu>scrapy genspider hp hupu.com ##hp=>生成hp.py ，爬虫名称为hp.py,容许访问的域名为hupu.com

经过爬取http://photo.hupu.com/nba/p35923-1.html网页中一个系列的图片

2.2 配置各组件

2.2.1 item.py

import scrapy


class HupuItem(scrapy.Item):
    # define the fields for your item here like:
    hupu_pic = scrapy.Field()
#    images = scrapy.Field()
    image_paths = scrapy.Field()

2.2.2 settings.py

BOT_NAME = 'hupu'

SPIDER_MODULES = ['hupu.spiders']
NEWSPIDER_MODULE = 'hupu.spiders'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
    'hupu.pipelines.HupuImgDownloadPipeline': 300,
}
IMAGES_URLS_FIELD = "hupu_pic"  # 对应item里面设定的字段，取到图片的url
#IMAGES_RESULT_FIELD = "image_path"
IMAGES_STORE = 'E:/hupu'

2.2.3 hp.py

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from scrapy import Request
 4 from urllib.parse import urljoin
 5 from hupu.items import HupuItem
 6 class HpSpider(scrapy.Spider):
 7     name = 'hp'
 8     allowed_domains = ['hupu.com']
 9     start_urls = ['http://photo.hupu.com/nba/p35923-1.html']
10     
11     def parse(self, response):
12         item=HupuItem()
13         url=response.xpath('//div[@id="picccc"]/img[@id="bigpicpic"]/@src').extract()
14 
15         reurl="http:"+url[0]
16         print ('links is :--','\n',reurl)
17         list1=[]
18         list1.append(reurl)
19         item['hupu_pic']=list1
20         yield item
21         ifnext=response.xpath('//span[@class="nomp"]/a[2]/text()').extract()[0]
22         if "下一张" in ifnext:
23             next_url=response.xpath('//span[@class="nomp"]/a[2]/@href').extract()[0]
24             yield Request(('http://photo.hupu.com/nba/'+next_url),callback=self.parse)

2.2.4 pipelines.py

 1 from scrapy.pipelines.images import ImagesPipeline
 2 from scrapy import Request
 3 class HupuPipeline(object):
 4     def process_item(self, item, spider):
 5         return item
 6 class HupuImgDownloadPipeline(ImagesPipeline):
 7 
 8     def get_media_requests(self, item, info):
 9         for image_url in item['hupu_pic']:
10             yield Request(image_url)

3、爬虫执行与结果

3.1 执行过程

　　进入到工程路径下 scrapy crawl hp

　　(base) E:\pgtool\Files\hupu>scrapy crawl hp

3.2 得到结果

4、遇到的问题与分析解决

4.1 问题出现

　　最开始遇到ValueError: Missing scheme in request url: h 这种报错，以下图

4.2 问题解析

　　若是单纯获取文本，那么只需start_urls是一个list；而若是获取图片，则必须start_urls与item中存储图片路径字段这二者必须都是 list。

4.3 解决方案

　未修改前的spiders：

　　修改后spiders

5、总结

　　scrapy框架简单容易理解，并且支持异步多线程，是一个比较上手的爬虫框架。本次爬虫犯了一个低级错误，在于直接将图片连接转换为list而不经意间将连接拆分为一个一个的元素，以下示例：

　　str1='baidu.com'

　　list1=list(str1)

　　list1的结果实际为['b','a','i','d','u','.','c','o','m'],这也就是为何一直报错Missing scheme in request url: h（翻译为：请求URL中的丢失总体连接：在h开始的位置）因此须要咱们将整个连接放在只有一个元素的list中，使用修改后list.append（）将一个连接完整的放置在list[0]中。

有问题的小伙伴们能够留言讨论交流，转载请注明出处，谢谢。