前段时间接到一个开发采集网站数据的项目,从事php开发的我马上想到使用php作爬虫。虽然python爬虫方便,可是php在这方面也不弱,谁让php是世界上最好的语言!这里推荐一款php的爬虫框架phpspider。不建议本身写爬虫,由于效率过低。使用框架爬虫真的要高效许多php
官方文档:html
https://doc.phpspider.org/python
官方github下载地址:git
https://github.com/owner888/phpspidergithub
下载解压后,phpspider的文件结构如图所示:sql
其中demo文件夹放的是phpspider的一些案例,如图所示:浏览器
在demo文件夹下建立爬虫文件。须要注意的是,phpspider有两种运行爬虫文件的方式,一种是在命令行下运行;另一种是可视化操做(在浏览器下运行)bash
要爬取的对象连接:markdown
https://www.douban.com/photos/album/1616649448/app
要爬取的内容如图所示:
爬取id为wrapper的div所包含的内容
<?php require_once __DIR__ . '/../autoloader.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '豆瓣',//定义当前爬虫名称 'log_show' => true, //显示日志调试信息 'input_encoding' => 'UTF-8',//输入编码 //定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提升爬取速度 'domains' => array( 'www.douban.com' ), //定义爬虫的入口连接, 爬虫从这些连接开始爬取,同时这些连接也是监控爬虫所要监控的连接 'scan_urls' => array( 'https://www.douban.com/photos/album/1616649448/' ), //爬虫爬取数据导出 'export' => array( 'type' => 'csv', //type:导出类型 csv、sql、db 'file' => '../data/abc.csv', //file:导出 csv、sql 文件地址,若是不存在文件自动建立 ), //定义内容页的抽取规则 'fields' => array( array( 'name' => "wrapper", 'selector' => "//div[@id='wrapper']", ) ) ); $spider = new phpspider($configs); $spider->start();复制代码
在phpspider文件结构中找到data文件夹下的abc.csv文件,打开文件可看到爬取下来的数据,如图所示:
要爬取的对象连接:
https://movie.douban.com/subject/26588308/?from=showing
要爬取的内容如图所示:
爬取class为nav-items的div所包含的内容
<?php header("Content-Type: text/html;charset=utf-8"); date_default_timezone_set("Asia/Shanghai"); ini_set("memory_limit", "10240M"); require_once __DIR__ . '/../autoloader.php'; use phpspider\core\phpspider; use phpspider\core\requests; use phpspider\core\selector; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $html = requests::get('https://movie.douban.com/subject/26588308/?from=showing'); $data = selector::select($html, "//div[@class='nav-items']"); echo $data; 复制代码
以上只是简单的爬虫例子,还能够进行多进程爬取,代理爬虫,不少好玩的,更多操做参考官方文档
https://doc.phpspider.org/
以为文章不错的话,给我个关注哇,点个赞呗!
若是对文章有疑问或想技术交流,可关注公众号【GitWeb】与我一块儿探索学习!