发现两款不错的爬虫框架,极力推荐下:php
phpspider
一款优秀的PHP开发蜘蛛爬虫git
官方下载地址:https://github.com/owner888/phpspidergithub
官方开发手册:https://doc.phpspider.org/正则表达式
QueryList
使用jQuery选择器来作采集,告别复杂的正则表达式;QueryList具备jQuery同样的DOM操做能力、Http网络操做能力、乱码解决能力、内容过滤能力以及可扩展能力;浏览器
能够轻松实现诸如:模拟登录、伪造浏览器、HTTP代理等意复杂的网络请求;拥有丰富的插件,支持多线程采集以及使用PhantomJS采集JavaScript动态渲染的页面。网络
官方下载地址:https://github.com/jae-jae/QueryList多线程
官方开发手册:https://doc.querylist.cc/框架