python爬虫实战（七）--------伯乐在线文章（模版）

时间 2019-11-22

标签 python 爬虫实战伯乐在线文章模版栏目 Python 繁體版

原文原文链接

相关代码已经修改调试成功----2017-4-21html

1、说明

1.目标网址：伯乐在线mysql

2.实现：如图字段的爬取git

3.数据：存放在百度网盘，有须要的能够拿取连接：http://pan.baidu.com/s/1nvdnzpZ 密码：2j9lgithub

运行我就很少说了，直接运行main.py，相关的参数变一下就行了。有点基础的应该都会。sql

本项目爬取伯乐在线的所有文章，主要是记录几个经常使用的模版能够反复使用数据库

loader机制和item处理

异步存入数据库模版

爬取图片存放目录记录

main.py的模版

md5加密函数

scrapy框架中自动下载图片

1.暂时没有很大的问题解决不了，后期若是遇到再贴出来框架

1.TypeError：'Failure' object is not subscriptable异步

如图：
scrapy

解决方法：添加一个try，except，由于有些图片加载不出来ide

2.pymysql.err.InterfaceError: (0, '')

那是由于scrapy异步的存储的缘由，太快。

解决方法：只要放慢爬取速度就能解决，setting.py中设置 DOWNLOAD_DELAY = 2

若是本项目对你有用请给我一颗star，万分感谢。

做者：今孝

本文版权归做者和博客园共有，欢迎转载，但未经做者赞成必须保留此段声明，且在文章页面明显位置给出原文链接。