Perl爬虫的简单实现

时间 2019-11-20

标签 perl 爬虫简单实现栏目 Perl 繁體版

原文原文链接

因为工做中有个项目须要爬取第三方网站的内容，因此在Linux下使用Perl写了个简单的爬虫。html

爬取步骤

下面以爬取某网站的手机App为例，说明一下爬取的步骤。

1. 爬取目录

假设我须要爬取的目录页是http://www.anzhi.com/sort_39_1_new.html，首先找到页索引和URL的规律，这个是很简单的，只须要把http://www.anzhi.com/sort_39_[i]_new.html中的[i]替换为页索引便可。接下来，须要知道一共有多少页，才能知道爬取目录页何时时候完成。通常页面上会显示共多少页，但这里要爬的页面是没有的，那怎么办呢？能够经过人工的方式去看一共有多少页，还有一个方法是，爬取到某一页发现没有匹配的目录项了，就说明全部目录页已经爬完了。

把目录页爬取下来后，把二级页面的ULR经过正则匹配提取出来，写到数据库中，URL能够标识一个页面的惟一性，因此要保证写入数据的URL不重复。须要注意的是在HTML中的URL多是相对路径，须要把URL补全。

大部分状况是须要增量爬取的，如天天只爬取新增的目录项，为了防止重复无效的爬取，选择的目录页最好是按更新时间排序的，这样只须要爬取有更新的前几页就能够了。那怎么知道哪些目录页是有更新的呢？若是目录项有更新时间的话，能够经过比较这个时间来肯定。还有一种更简单的方法是，若是某一页全部的URL在数据库都存在了，说明这一页没有新的目录项了，能够中止爬取了。

2. 爬取详细信息

在第一步中已经把二级页面的URL爬取下来了，接下来就是要爬取详细信息了，如手机App的各类信息，截图和安装包的URL。对于文字信息是很容易在HTML中提取的，但对于安装包URL就不是一眼能找到的，这里的下载地址隐藏在JS中，以下图，在页面里提取到id后，就能拼出安装包URL。对于爬取完成的URL，在数据库中应该用状态字段标示其爬取完成，避免重复爬取。

3. 文件下载

有时候咱们不只要爬取文字信息，还须要下载图片或文件，好比这里咱们还须要下载截图和安装包，在前一步中已经爬取了截图和安装包的URL，使用curl或wget能够很方便地进行文件下载。一样也须要状态字段来标示文件的下载状态。

通用和扩展

1. 通用爬取接口

为了减小一些爬取的重复代码，这里提取了一些公共代码，写了一个比较通用的爬取接口，须要注意的是，因为页面的编码和数据编码可能不一致，因此须要把页面的编码转化成数据库编码，不然写入数据就可能出现乱码。接口说明和代码以下：

调用方式：@results=&CrawlUrl($url, $page_charset, $expect_charset, \@regexs, \$crawl_result)

参数：URL，页面编码，指望编码，正则表达式数组，爬取是否成功（0成功，不然失败）

返回值：匹配结果二维数组（一个正则表达式能够匹配一组数据）

 1 #!/usr/bin/perl
 2 
 3 sub ParseUrl
 4 {
 5     my $url=$_[0];
 6     $url=~s/\[/\\\[/g;
 7     $url=~s/\]/\\\]/g;
 8     return $url;
 9 }
10 
11 sub CrawlUrl
12 {
13     my $url=$_[0];
14     my $page_charset=$_[1];
15     my $expect_charset=$_[2];
16     my $regex_ref=$_[3];
17     my $crawl_result_ref=$_[4];
18     my @regexs=@$regex_ref;
19     my @results;
20    
21     my $file=`echo -n "$url" | md5sum | awk '{print \$1".htm"}'`;
22     chomp($file);
23     $url=&ParseUrl($url);
24     `curl -o "$file" "$url"`;
25     my $curl_result=`echo $?`;
26     chomp($curl_result);
27     if($curl_result!=0)
28     {
29         $$crawl_result_ref=1;
30         return @results;
31 }
32 
33     my $html="";
34     if($page_charset ne "" && $expect_charset ne "" && $page_charset ne $expect_charset)
35     {
36         $html=`iconv -f $page_charset -t $expect_charset "$file"`;
37     }
38     else
39     {
40         $html=`cat "$file"`;
41     }
42     `rm -f $file`;
43 
44     for(my $i=0;$i<=$#regexs;$i++)
45     {
46         my $reg=@regexs[$i];
47         my @matches=($html=~/$reg/sg);
48         $results[$i]=\@matches;
49     }
50 
51     $$crawl_result_ref=0;
52     return @results;
53 }

2. 爬虫通用性

咱们可能须要爬去同一个类型的多个网站，好比我须要爬取数十个来源的手机App，若是每一个网站都写一个特定的爬虫，会带来大量的编码工做，这时候就要考虑爬虫的通用性，如何让一套代码可以适应一类网站。这里采用的方法是把各个网站的差别化信息做为配置存储在数据库，如目录页URL、网站编码、各字段正则表达式等，这样爬虫经过读取这些配置就能够去适配不一样的网站，达到必定的通用性。若是要新增一个网站的爬取，只须要增长相应的配置，而不须要修改任何代码。

3. 多进程爬取

若是要爬取的页面或要下载的文件数量比较大，会比较耗时，这时候能够考虑多个进程同时进行爬取。写一个进程控制模块，经过查询数据库中未爬取的URL和检测当前启用爬取的进程数，来肯定是否启用新的进程，达到对多进程爬取的控制。

4. 代理

有些网站可能会限制IP的访问频率，若是对网站的爬取频率比较高，可能就会致使IP被封了，能够经过在多个代理服务器随机切换的方式来规避这个问题。为了不代码重复，写了一个使用代理的wget封装的Shell工具。

 1 #!/bin/bash
 2 
 3 PROXY_HOST=(代理服务器列表)
 4 
 5 function GetProxyStr()
 6 {
 7     rand=$(($RANDOM%(${#PROXY_HOST[*]}+1)))
 8     if [ $rand -lt ${#PROXY_HOST[*]} ]
 9     then
10         PROXY_STR="-e http_proxy=${PROXY_HOST[$rand]}"
11     fi
12 }
13 
14 PROXY_STR=""
15 PATH_TYPE="$1"
16 FILE_PATH="$2"
17 URL="$3"
18 
19 GetProxyStr
20 GetPath
21 
22 wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" $PROXY_STR $PATH_TYPE "$FILE_PATH" "$URL"

5. 监控

还有一个问题就是，若是爬虫是天天定时运行的，在网站目录页URL发生变化或页面改版了，爬取就会失败。这就要求对这些失败进行监控，在爬取页面失败或者正则匹配失败时，经过短信、邮件等方式进行告警。

Perl爬虫的简单实现

相关工具

爬取步骤

通用和扩展