pyspider是国人写的一款开源爬虫框架,我的以为这个框架用起来很方便,至于如何方即可以继续看下去。
做者博客:http://blog.binux.me/python
安装pyspider
安装pyspider:pip install pyspider
因为pyspider目前只支持32位系统,由于安装pyspider前须要先安装一个依赖库:pycurl,而pycurl只支持32位系统
若是你是32位系统,就这样安装:linux
pip install pycurl
pip install pyspider
cmd后输入:pip install pyspidergit
Windows下可能会出现这样的错误提示:github
这是PyCurl安装错误,此时须要安装PyCurl库。从http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到对应的Python版本,而后下载相应的wheel文件便可。好比Windows 64位、Python 3.7,则须要下载pycurl-7.43.1-cp37-cp37m-win_amd64.whl,随后用pip安装便可,命令以下:sql
pip install d:\pycurl-7.43.1-cp37-cp37m-win_amd64.whl segmentfault
运行:pyspider all 而后又报错:windows
从(https://blog.csdn.net/qq_26261381/article/details/86514138 ) 哪里获得解决办法。app
是由于async从python3.7开始不能用做参数名了,将全部脚本里面的async换一个名字便可,脚本很少,一共两个脚本框架
1 ffk_py/lib/python3.7/site-packages/pyspider/run.py
2 ffk_py/lib/python3.7/site-packages/pyspider/fetcher/tornado_fetcher.py
修改完成后,运行以下:
Deprecated option 'domaincontroller': use 'domain_controller' instead的问题。(https://segmentfault.com/q/1010000015429020?utm_source=tag-newest 上面的解释) wsgidav发布的3.x版本目前仍然是测试版,相对于2.x(例如2.4.1)更改了一些用法,上面报错的两个部分就是的。pyspider的3.0及以上版本在安装时,会默认安装wsgidav的3.x版(具体的版本可能会有误差)。其实上面错误信息已经提示该如何改了,不过那样改比较麻烦。能够换个方法,换回wsgidav的2.x版本就不会报错了。先把3.x版卸载,再装2.x版(pip安装wsgidav会默认安装2.x版 个人是2.4.1版)。下面是具体的卸载安装的命令 windows下进入cmd,(linux下打开终端),输入: pip uninstall wsgidav pip install wsgidav 若是报错失败,按照下面的再试一次,(通常linux不会出错,windows下可能输入下面的命令) python -m pip uninstall wsgidav python -m pip install wsgidav 若是安装的wsgidav版本仍是3.x版本,能够在卸载这个版本以后, 在安装命令后面加上具体版本 例如 python -m pip install wsgidav==2.4.1
wsgidav 后,运行以下: