在Ubuntu 12.04中配置分布式爬虫框架——Cola

Cola是一个用Python编写的分布式爬虫框架,其目的是为了方便分布式的部署,目前虽仍有不少不完善的地方,但仍然值得对其进行一番探索。本文将对Cola的运行环境配置进行一番较为详细的介绍。在配置以前,请保证系统已经有正常的编译工具(gcc, make, autoconf, etc.)。另外,可能须要先安装python-dev:python

sudo apt-get install python-dev

1 安装MongoDB

Cola所采用的数据库为文档型数据库MongoDB,所以首先须要配置MongoDB,这里给出一种较为方便的部署方法。git

MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:github

 

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list

sudo apt-get update

通过以上几步以后,就能够安装最新稳定版本的MongoDB:mongodb

sudo apt-get install mongodb-10gen

安装完毕后,会自动启动MongoDB服务。数据库

2 安装PIP

PIP是一个Python的包管理工具。由于Cola依赖不少的Python库,为了方便后期的安装,咱们须要先配置好PIP。PIP自己依赖于setuptools,所以在安装PIP前,须要先安装setuptools,具体的方法以下:ubuntu

wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl
curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py
sudo python get-pip.py

3 配置Cola所依赖的库

sudo apt-get install libyaml-dev
sudo pip install pyyaml
sudo pip install mechanize
sudo pip install python-dateutil
sudo pip install BeautifulSoup4
sudo pip install mongoengine
sudo easy_install rsa
git clone https://github.com/chineking/cola.git

在最后一个命令中,咱们获取Cola的源代码,以后就能够单机模式或分布式模式来运行了,具体能够参见:https://github.com/chineking/cola/wikibash

相关文章
相关标签/搜索