python爬虫实战(七)--------伯乐在线文章(模版)

相关代码已经修改调试成功----2017-4-21html

1、说明

1.目标网址伯乐在线mysql

2.实现:如图字段的爬取git

3.数据:存放在百度网盘,有须要的能够拿取 连接:http://pan.baidu.com/s/1nvdnzpZ 密码:2j9lgithub

2、运行

运行我就很少说了,直接运行main.py,相关的参数变一下就行了。有点基础的应该都会。sql

3、学习笔记

本项目爬取伯乐在线的所有文章,主要是记录几个经常使用的模版能够反复使用数据库

  1. loader机制和item处理
  2. 异步存入数据库模版
  3. 爬取图片存放目录记录
  4. main.py的模版
  5. md5加密函数
  6. scrapy框架中自动下载图片

4、问题----欢迎留言提出问题

1.暂时没有很大的问题解决不了,后期若是遇到再贴出来框架

5、调试中遇到的问题记录

1.TypeError:'Failure' object is not subscriptable异步

如图:
scrapy

解决方法: 添加一个try,except,由于有些图片加载不出来ide

2.pymysql.err.InterfaceError: (0, '')

那是由于scrapy异步的存储的缘由,太快。

解决方法:只要放慢爬取速度就能解决,setting.py中设置 DOWNLOAD_DELAY = 2


想要看代码请移步个人github:https://github.com/pujinxiao/jobbole_spider

若是本项目对你有用请给我一颗star,万分感谢。

做者:今孝

出处:http://www.cnblogs.com/jinxiao-pu/p/6744374.html

本文版权归做者和博客园共有,欢迎转载,但未经做者赞成必须保留此段声明,且在文章页面明显位置给出原文链接。

相关文章
相关标签/搜索