最近公司有这方面需求,在网上找了一些爬虫,使用了一段时间以后发现不少没解决验证码和cookie这两个很头疼的问题。git
因而想到了PhantomJS和webdriver,Headless浏览器,虽然PhantomJS看不到显示界面,但其实就是在一个浏览器内核中运行,这免去了不少麻烦事。github
最初试了Firefox,验证码出现的概率几乎降到了0,文章列表基本上跟真浏览器访问无差,后来移植到centos上,但由于centos上装firefox仍是比较麻烦,因而改用了PhantomJS,但测试发现PhantomJS的抓取效果很通常,常常关键词抓错,暂时不知道缘由,但效果相似于将中文字符去掉,英文关键词抓取是没有问题的,还望有经验的人士解答。web
本着方便的原则,简单封装了几个操做MySQL方法,能够直接将数据存到MySQL里面,sql文件夹下面的两个文件分别是文章和公众号的表格建立文件,链接MySQL以后直接输入source
,而后把文件拖到命令行就好了。sql
配置文件能够本身修改,也能够本身在建立实例的时候输入config。centos
暂时使用的PhantomJS,须要安装很多东西,有时间写个安装教程。浏览器
main.py是测试文件,里面写了两个测试用例,能够在安装好东西以后运行一下。cookie
项目地址是WickedDogg/WecharScraper,欢迎提issue,fork和star。less