考虑用PHP实现如下场景: 有一个抓站的URL列表保存在队列里,后台程序读取这个队列,而后转交给子进程去抓取HTML存放到文件里。 为了提升效率,容许多任务并行执行,但为了不机器负载太高,限制了最大的并行任务数(为了测试方便,咱们把这个数设为3),当队列中取到 END标记时,程序结束运行。php
这个场景用QPM的Supervisor::taskFactoryMode()实现,很是简单。html
QPM全名是 Quick Process Management Module for PHP. PHP 是强大的web开发语言,以致于你们经常忘记PHP 能够用来开发健壮的命令行(CLI)程序以致于daemon程序。 而编写daemon程序免不了与各类进程管理打交道。QPM正式为简化进程管理而开发的类库。QPM的项目地址是:https://github.com/Comos/qpmgit
为了,简化测试环境,咱们能够用一个文本文件来模拟队列的数据。完整的例子文件看这里:spider_task_factory_data.txtgithub
http://ent.ifeng.com/ http://news.sina.com.cn/ http://news.ifeng.com/ http://news.163.com/ http://news.sohu.com/ http://ent.sina.com.cn/ http://ent.ifeng.com/ ... END
使用QPM的taskFactoryMode以前,咱们须要准备一个TaskFactory类。 咱们将其命名为 SpiderTaskFactory,SpdierTaskFactory 的工厂方法fetchTask 正常返回 Runnable的子类的实例。当碰到END或文件结束,则throw StopSignal,这样程序就会终止。web
如下是组装 Supervisor 并执行的代码片断。完整的例子见:spider_task_factory.php并发
//若是没有从参数指定输入,把spider_task_factory_data.txt做为数据源 $input = isset($argv[1]) ? $argv[1] : __DIR__.'/spider_task_factory_data.txt'; $spiderTaskFactory = new SpiderTaskFactory($input);$config = [ //指定taskFactory对象和工厂方法 'factoryMethod'=>[$spiderTaskFactory, 'fetchTask'], //指定最大并发数量为3 'quantity' => 3, ]; //启动Supervisor qpm\supervisor\Supervisor::taskFactoryMode($config)->start();
SpiderTaskFactory 的实现以下:框架
/** * 任务工厂,必须实现 fetchTask方法。 * 该方法正常返回 * */class SpiderTaskFactory { private $_fh; public function __construct($input) { $this->_input = $input; $this->_fh = fopen($input, 'r'); if ($this->_fh === false) { throw new Exception('fopen failed:'.$input); } } public function fetchTask() { while (true) { if (feof($this->_fh)) { throw new qpm\supervisor\StopSignal(); } $line = trim(fgets($this->_fh)); if ($line == 'END') { throw new qpm\supervisor\StopSignal(); } if (empty($line)) { continue; } break; } return new SpiderTask($line); } }
SpiderTask 的实现以下:ide
/** * 在子进程中执行任务的类 * 必须实现 qpm\process\Runnable 接口 */ class SpiderTask implements qpm\process\Runnable { private $_target; public function __construct($target) { $this->_target = $target; } //在子进程中执行的部分 public function run() { $r = @file_get_contents($this->_target); if ($r===false) { throw new Exception('fail to crawl url:'.$this->_target); } file_put_contents($this->getLocalFilename(), $r); } private function getLocalFilename() { $filename = str_replace('/', '~', $this->_target); $filename = str_replace(':', '_', $filename); $filename = $filename.'-'.date('YmdHis'); return __DIR__.'/_spider/'.$filename.'.html'; } }
真实的生产环境,用队列替换文件输入,便可实现持久运行的生产者/消费者模型的程序。测试
关于 QPM的使用,能够参考:fetch