django-dynamic-scraper(DDS)网页抓取环境安装搭建

       以前了解了scrapy的强大和速率的惊人,django的便捷,苦于没有机会真正的接触,前几天大哥让研究一下这个框架,wow,DDS强大的把这两个得力的工具整合到了一块儿,这样只需简单的安装和配置,就能够顺利的爬网抓取页面了。废话很少说将环境搭建过程整理出来,以做备份,但愿也能帮助到一些人吐舌笑脸html

搭建django环境

查看前一篇博客 搭建Django开发环境 python

安装scrapy

最新版本是0.18,能够经过命令  easy_install Scrapy or pip install Scrapy,可是dds暂不支持0.18, git

这里要安装0.16,是经过命令”pip install scrapy==0.16” github

测试安装成功 shell

scrapy shell http://www.baidu.com

若是是windows系统,须要预先安装一些额外的插件 django

win32api windows

Zope.Interface api

Twisted 框架

w3lib

pyOpenSSL scrapy

lxml

安装django-Celery,设置调度计划任务

pip install django-celery

或者经过解压包文件(下载)安装”Python setup.py install”

安装PIL(Python Imaging Library

点击下载安装包,解压后经过命令“python setup.py install”安装

装完之后,系统可能仍是缺乏一些图片处理的扩展包,以jpeg为例:

brew search jpeg     查找

brew install jpeg      安装

安装South

经过执行命令安装 “easy_install South”

经过下载解压包文件安装“Python setup.py install”

安装DDS

ok,主角终于登场了

pip install django-dynamic-scraper

或者用git获取项目安装

git clone https://github.com/holgerd77/django-dynamic-scraper.git
pip install -r requirements.txt
python setup.py install

到此为之,该安装的东西都差很少安装完毕。剩下的就能够按照官方文档作一些简单的配置就能够抓取想要的网站啦

注意

在高级主题配置中

http://django-dynamic-scraper.readthedocs.org/en/latest/advanced_topics.html

要求安装kombu要安装上一个版本2.5.7(最新版本的上一版),不然当执行命令时会报next模块找不到的错误

相关文章
相关标签/搜索