这段时间比较忙,已经好久没有写博客了。今天我就来聊聊我关于curl_multi_*函数集的使用心得,关于http请求的问题。php
当咱们用户php发起一个http请求的时候。咱们会首先想到用什么?没错,咱们会建立curl来请求。当咱们在一次执行中须要发起多个http请求呢。这简单,对每个URL发起一次url请求。请求玩第1个再请求第2个....这就完了?哪咱们还说个啥。git
官网连接:http://php.net/manual/zh/book.curl.phpgithub
咱们举个栗子。如今有三个http请求。每一个请求耗时2s。若是按照简单的curl请求(图1-(1))。耗时6s.这是不能容忍的。若是请求的个数越多耗时约多。框架
有没有一种方式来缩小查询时间?能不能三个http请求同时执行(如图1-(1))?有不少方法来解决这个问题,将耗时减小到2s。如:多进程、线程、事件循环、curl_multi_*等等。最简单的方式就是经过curl_multi_*函数来完成。事实上curl_multi_*内部实现就是用的事件循环。curl
<?php /** * * curl_multi_*简单运用 * * @author: rudy * @date: 2016/07/12 */ /** * 根据url,postData获取curl请求对象,这个比较简单,能够看官方文档 */ function getCurlObject($url,$postData=array(),$header=array()){ $options = array(); $url = trim($url); $options[CURLOPT_URL] = $url; $options[CURLOPT_TIMEOUT] = 10; $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36'; $options[CURLOPT_RETURNTRANSFER] = true; // $options[CURLOPT_PROXY] = '127.0.0.1:8888'; foreach($header as $key=>$value){ $options[$key] =$value; } if(!empty($postData) && is_array($postData)){ $options[CURLOPT_POST] = true; $options[CURLOPT_POSTFIELDS] = http_build_query($postData); } if(stripos($url,'https') === 0){ $options[CURLOPT_SSL_VERIFYPEER] = false; } $ch = curl_init(); curl_setopt_array($ch,$options); return $ch; } // 建立三个待请求的url对象 $chList = array(); $chList[] = getCurlObject('https://www.baidu.com'); $chList[] = getCurlObject('http://www.jd.com'); $chList[] = getCurlObject('http://www.jianshu.com/'); // 建立多请求执行对象 $downloader = curl_multi_init(); // 将三个待请求对象放入下载器中 foreach ($chList as $ch){ curl_multi_add_handle($downloader,$ch); } // 轮询 do { while (($execrun = curl_multi_exec($downloader, $running)) == CURLM_CALL_MULTI_PERFORM) ; if ($execrun != CURLM_OK) { break; } // 一旦有一个请求完成,找出来,处理,由于curl底层是select,因此最大受限于1024 while ($done = curl_multi_info_read($downloader)) { // 从请求中获取信息、内容、错误 $info = curl_getinfo($done['handle']); $output = curl_multi_getcontent($done['handle']); $error = curl_error($done['handle']); // 将请求结果保存,我这里是打印出来 print $output; // print "一个请求下载完成!\n"; // 把请求已经完成了得 curl handle 删除 curl_multi_remove_handle($downloader, $done['handle']); } // 当没有数据的时候进行堵塞,把 CPU 使用权交出来,避免上面 do 死循环空跑数据致使 CPU 100% if ($running) { $rel = curl_multi_select($downloader, 1); if($rel == -1){ usleep(1000); } } if( $running == false){ break; } } while (true); // 下载完毕,关闭下载器 curl_multi_close($downloader); echo "全部请求下载完成!";
在该例子中,首先建立三个或多个要请求的url请求对象。经过curl_multi_*函数建立下载器。将请求写入下载器中。最后轮询。等待三个请求如今完成。作处理。ide
这就是curl_multi_*用法?too yong too simple!在上面的例子中。下载器$downloader中的请求是一开始就添加好了的。咱们能不能动态的向下载器中添加请求。动态的从下载器中取出已经完成了的请求。想一想。这是什么?这不就是爬虫的核心部分-动态下载器。如何动态的添加?咱们能够用多进程经过IPC添加。咱们能够经过协程经过队列添加等待。函数
curl_multi_*函数实现的HTTP压测工具:
https://github.com/hirudy/phplib/blob/master/phpAb.php。工具curl_multi_*实现的http请求类:post
https://github.com/hirudy/phplibui
我这实现了一个经过协程+curl_multi_*的爬虫框架。
Tspider:https://github.com/hirudy/Tspider。单进程可处理请求2000-5000/min。