【php爬虫】百万级别知乎用户数据爬取与分析

时间 2019-11-11

标签 php爬虫百万级别用户数据分析栏目快乐工作繁體版

原文原文链接

代码托管地址：https://github.com/hoohack/zhihuSpiderphp

此次抓取了110万的用户数据，数据分析结果以下：
html

开发前的准备

安装Linux系统（Ubuntu14.04），在VMWare虚拟机下安装一个Ubuntu；mysql

安装PHP5.6或以上版本；linux

安装MySQL5.5或以上版本；git

安装curl、pcntl扩展。github

使用PHP的curl扩展抓取页面数据

PHP的curl扩展是PHP支持的容许你与各类服务器使用各类类型的协议进行链接和通讯的库。正则表达式

本程序是抓取知乎的用户数据，要能访问用户我的页面，须要用户登陆后的才能访问。当咱们在浏览器的页面中点击一个用户头像连接进入用户我的中心页面的时候，之因此可以看到用户的信息，是由于在点击连接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，因此你就能进入到用户的我的中心页面。所以实现访问我的页面以前须要先得到用户的cookie信息，而后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了本身的cookie，在页面中能够看到本身的cookie信息：
redis

一个个地复制，以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可使用该cookie字符串来发送请求。sql

初始的示例：数据库

$url = 'http://www.zhihu.com/people/mora-hu/about'; //此处mora-hu表明用户ID
$ch = curl_init($url); //初始化会话
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  //设置请求COOKIE
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  
$result = curl_exec($ch);
return $result;  //抓取的结果

运行上面的代码能够得到mora-hu用户的我的中心页面。利用该结果再使用正则表达式对页面进行处理，就能获取到姓名，性别等所须要抓取的信息。

图片防盗链

在对返回结果进行正则处理后输出我的信息的时候，发如今页面中输出用户头像时没法打开。通过查阅资料得知，是由于知乎对图片作了防盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的连接以后，再发一次请求，这时候带上图片请求的来源，说明该请求来自知乎网站的转发。具体例子以下：

function getImg($url, $u_id)
{
    if (file_exists('./images/' . $u_id . ".jpg"))
    {
        return "images/$u_id" . '.jpg';
    }
    if (empty($url))
    {
        return '';
    }
    $context_options = array(  
        'http' =>  
        array(
            'header' => "Referer:http://www.zhihu.com"//带上referer参数 
    　　)
　　);
      
    $context = stream_context_create($context_options);  
    $img = file_get_contents('http:' . $url, FALSE, $context);
    file_put_contents('./images/' . $u_id . ".jpg", $img);
    return "images/$u_id" . '.jpg';
}

爬取更多用户

抓取了本身的我的信息后，就须要再访问用户的关注者和关注了的用户列表获取更多的用户信息。而后一层一层地访问。能够看到，在我的中心页面里，有两个连接以下：

这里有两个连接，一个是关注了，另外一个是关注者，以“关注了”的连接为例。用正则匹配去匹配到相应的连接，获得url以后用curl带上cookie再发一次请求。抓取到用户关注了的用于列表页以后，能够获得下面的页面：

分析页面的html结构，由于只要获得用户的信息，因此只须要框住的这一块的div内容，用户名都在这里面。能够看到，用户关注了的页面的url是：

不一样的用户的这个url几乎是同样的，不一样的地方就在于用户名那里。用正则匹配拿到用户名列表，一个一个地拼url，而后再逐个发请求（固然，一个一个是比较慢的，下面有解决方案，这个稍后会说到）。进入到新用户的页面以后，再重复上面的步骤，就这样不断循环，直到达到你所要的数据量。

Linux统计文件数量

脚本跑了一段时间后，须要看看究竟获取了多少图片，当数据量比较大的时候，打开文件夹查看图片数量就有点慢。脚本是在Linux环境下运行的，所以可使用Linux的命令来统计文件数量：

ls -l | grep "^-" | wc -l

其中， ls -l 是长列表输出该目录下的文件信息（这里的文件能够是目录、连接、设备文件等）； grep "^-" 过滤长列表输出信息， "^-" 只保留通常文件，若是只保留目录是 "^d" ； wc -l 是统计输出信息的行数。下面是一个运行示例：

插入MySQL时重复数据的处理

程序运行了一段时间后，发现有不少用户的数据是重复的，所以须要在插入重复用户数据的时候作处理。处理方案以下：

1）插入数据库以前检查数据是否已经存在数据库；

2）添加惟一索引，插入时使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...

3）添加惟一索引，插入时使用 INSERT INGNORE INTO...

4）添加惟一索引，插入时使用 REPLACE INTO...

第一种方案是最简单但也是效率最差的方案，所以不采起。二和四方案的执行结果是同样的，不一样的是，在遇到相同的数据时， INSERT INTO ... ON DUPLICATE KEY UPDATE 是直接更新的，而 REPLACE INTO 是先删除旧的数据而后插入新的，在这个过程当中，还须要从新维护索引，因此速度慢。因此在二和四二者间选择了第二种方案。而第三种方案， INSERT INGNORE 会忽略执行INSERT语句出现的错误，不会忽略语法问题，可是忽略主键存在的状况。这样一来，使用 INSERT INGNORE 就更好了。最终，考虑到要在数据库中记录重复数据的条数，所以在程序中采用了第二种方案。

使用curl_multi实现多线程抓取页面

刚开始单进程并且单个curl去抓取数据，速度很慢，挂机爬了一个晚上只能抓到2W的数据，因而便想到能不能在进入新的用户页面发curl请求的时候一次性请求多个用户，后来发现了curl_multi这个好东西。curl_multi这类函数能够实现同时请求多个url，而不是一个个请求，这相似于linux系统中一个进程开多条线程执行的功能。下面是使用curl_multi实现多线程爬虫的示例：

$mh = curl_multi_init(); //返回一个新cURL批处理句柄
    for ($i = 0; $i < $max_size; $i++)
    {
        $ch = curl_init();  //初始化单个cURL会话
        curl_setopt($ch, CURLOPT_HEADER, 0);
        curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');
        curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);
        curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        $requestMap[$i] = $ch;
        curl_multi_add_handle($mh, $ch);  //向curl批处理会话中添加单独的curl句柄
    }

    $user_arr = array();
    do {
                    //运行当前 cURL 句柄的子链接
        while (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM);
        
        if ($cme != CURLM_OK) {break;}
                    //获取当前解析的cURL的相关传输信息
        while ($done = curl_multi_info_read($mh))
        {
            $info = curl_getinfo($done['handle']);
            $tmp_result = curl_multi_getcontent($done['handle']);
            $error = curl_error($done['handle']);

            $user_arr[] = array_values(getUserInfo($tmp_result));

            //保证同时有$max_size个请求在处理
            if ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list))
            {
                $ch = curl_init();
                curl_setopt($ch, CURLOPT_HEADER, 0);
                curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');
                curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);
                curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');
                curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
                curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
                $requestMap[$i] = $ch;
                curl_multi_add_handle($mh, $ch);

                $i++;
            }

            curl_multi_remove_handle($mh, $done['handle']);
        }

        if ($active)
            curl_multi_select($mh, 10);
    } while ($active);

    curl_multi_close($mh);
    return $user_arr;

HTTP 429 Too Many Requests

使用curl_multi函数能够同时发多个请求，可是在执行过程当中使同时发200个请求的时候，发现不少请求没法返回了，即发现了丢包的状况。进一步分析，使用 curl_getinfo 函数打印每一个请求句柄信息，该函数返回一个包含HTTP response信息的关联数组，其中有一个字段是http_code，表示请求返回的HTTP状态码。看到有不少个请求的http_code都是429，这个返回码的意思是发送太多请求了。我猜是知乎作了防爬虫的防御，因而我就拿其余的网站来作测试，发现一次性发200个请求时没问题的，证实了个人猜想，知乎在这方面作了防御，即一次性的请求数量是有限制的。因而我不断地减小请求数量，发如今5的时候就没有丢包状况了。说明在这个程序里一次性最多只能发5个请求，虽然很少，但这也是一次小提高了。

使用Redis保存已经访问过的用户

抓取用户的过程当中，发现有些用户是已经访问过的，并且他的关注者和关注了的用户都已经获取过了，虽然在数据库的层面作了重复数据的处理，可是程序仍是会使用curl发请求，这样重复的发送请求就有不少重复的网络开销。还有一个就是待抓取的用户须要暂时保存在一个地方以便下一次执行，刚开始是放到数组里面，后来发现要在程序里添加多进程，在多进程编程里，子进程会共享程序代码、函数库，可是进程使用的变量与其余进程所使用的大相径庭。不一样进程之间的变量是分离的，不能被其余进程读取，因此是不能使用数组的。所以就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候都把用户push到一个already_request_queue队列中，把待抓取的用户（即每一个用户的关注者和关注了的用户列表）push到request_queue里面，而后每次执行前都从request_queue里pop一个用户，而后判断是否在already_request_queue里面，若是在，则进行下一个，不然就继续执行。

在PHP中使用redis示例：

<?php
    $redis = new Redis();
    $redis->connect('127.0.0.1', '6379');
    $redis->set('tmp', 'value');
    if ($redis->exists('tmp'))
    {
        echo $redis->get('tmp') . "\n";
    }

使用PHP的pcntl扩展实现多进程

改用了curl_multi函数实现多线程抓取用户信息以后，程序运行了一个晚上，最终获得的数据有10W。还不能达到本身的理想目标，因而便继续优化，后来发现php里面有一个pcntl扩展能够实现多进程编程。下面是多编程编程的示例：

//PHP多进程demo
//fork10个进程
for ($i = 0; $i < 10; $i++) {
    $pid = pcntl_fork();
    if ($pid == -1) {
        echo "Could not fork!\n";
        exit(1);
    }
    if (!$pid) {
        echo "child process $i running\n";
        //子进程执行完毕以后就退出，以避免继续fork出新的子进程
        exit($i);
    }
}

//等待子进程执行完毕，避免出现僵尸进程
while (pcntl_waitpid(0, $status) != -1) {
    $status = pcntl_wexitstatus($status);
    echo "Child $status completed\n";
}

在Linux下查看系统的cpu信息

实现了多进程编程以后，就想着多开几条进程不断地抓取用户的数据，后来开了8调进程跑了一个晚上后发现只能拿到20W的数据，没有多大的提高。因而查阅资料发现，根据系统优化的CPU性能调优，程序的最大进程数不能随便给的，要根据CPU的核数和来给，最大进程数最好是cpu核数的2倍。所以须要查看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令：

cat /proc/cpuinfo

结果以下：

其中，model name表示cpu类型信息，cpu cores表示cpu核数。这里的核数是1，由于是在虚拟机下运行，分配到的cpu核数比较少，所以只能开2条进程。最终的结果是，用了一个周末就抓取了110万的用户数据。

多进程编程中Redis和MySQL链接问题

在多进程条件下，程序运行了一段时间后，发现数据不能插入到数据库，会报mysql too many connections的错误，redis也是如此。

下面这段代码会执行失败：

<?php
     for ($i = 0; $i < 10; $i++) {
          $pid = pcntl_fork();
          if ($pid == -1) {
               echo "Could not fork!\n";
               exit(1);
          }
          if (!$pid) {
               $redis = PRedis::getInstance();
               // do something     
               exit;
          }
     }

根本缘由是在各个子进程建立时，就已经继承了父进程一份彻底同样的拷贝。对象能够拷贝，可是已建立的链接不能被拷贝成多个，由此产生的结果，就是各个进程都使用同一个redis链接，各干各的事，最终产生莫名其妙的冲突。

解决方法：

程序不能彻底保证在fork进程以前，父进程不会建立redis链接实例。所以，要解决这个问题只能靠子进程自己了。试想一下，若是在子进程中获取的实例只与当前进程相关，那么这个问题就不存在了。因而解决方案就是稍微改造一下redis类实例化的静态方式，与当前进程ID绑定起来。

改造后的代码以下：

<?php
     public static function getInstance() {
          static $instances = array();
          $key = getmypid();//获取当前进程ID
          if ($empty($instances[$key])) {
               $inctances[$key] = new self();
          }
     
          return $instances[$key];
     }

PHP统计脚本执行时间

由于想知道每一个进程花费的时间是多少，所以写个函数统计脚本执行时间：

function microtime_float()
{
     list($u_sec, $sec) = explode(' ', microtime());
     return (floatval($u_sec) + floatval($sec));
}

$start_time = microtime_float();

//do something
usleep(100);

$end_time = microtime_float();
$total_time = $end_time - $start_time;

$time_cost = sprintf("%.10f", $total_time);

echo "program cost total " . $time_cost . "s\n";

若文中有不正确的地方，望各位指出以便改正。