因为工做中有个项目须要爬取第三方网站的内容,因此在Linux下使用Perl写了个简单的爬虫。html
1. HttpWatch/浏览器开发人员工具正则表达式
通常状况下这个工具是用不到的,可是若是你发现要爬取的内容在页面的HTML源码里找不到,若有的页面是经过AJAX异步请求数据的,这时候就须要HttpWatch之类的工具来找到实际的HTTP请求的URL了,固然如今不少浏览器都有开发人员工具(如Chrome, Firefox等),这样能够更方便查看全部请求的URL了。数据库
2. curl/wget数组
这是爬虫中最重要的工具了,做用就是模拟浏览器的HTTP请求,从而获取数据。通常来讲就是请求一个URL来获取相应的Web页面的HTML源码,还能够下载文件。使用curl和wget均可以很方便完成这个任务。浏览器
3. Perlbash
把页面爬下来后,就要从HTML中提取所须要的信息,这时候就要用到正则表达式了。我用的是Perl来编写爬虫脚本。之因此不使用Shell,是由于Shell的正则匹配功能仍是太弱了。固然有不少脚本语言在正则匹配方面都很强大,如Python,若是你对这些脚本语言都不熟悉,相对而言,Perl会更容易上手一些。服务器
4. 正则表达式curl
正则表达式的语法大部分都是通用的,可是不用的语言又会有些小的差异,下面列举Perl中正则表达式的一些重要的语法:异步
元字符 .工具
锚位 ^ $ \b
字符集 \d \w \s
量词 * ? + {m,n}
分组 () (abc)*
择一匹配 | (ab|bc)
捕获变量 ()
修饰符 /i /s /g
下面以爬取某网站的手机App为例,说明一下爬取的步骤。
1. 爬取目录
假设我须要爬取的目录页是http://www.anzhi.com/sort_39_1_new.html,首先找到页索引和URL的规律,这个是很简单的,只须要把http://www.anzhi.com/sort_39_[i]_new.html中的[i]替换为页索引便可。接下来,须要知道一共有多少页,才能知道爬取目录页何时时候完成。通常页面上会显示共多少页,但这里要爬的页面是没有的,那怎么办呢?能够经过人工的方式去看一共有多少页,还有一个方法是,爬取到某一页发现没有匹配的目录项了,就说明全部目录页已经爬完了。
把目录页爬取下来后,把二级页面的ULR经过正则匹配提取出来,写到数据库中,URL能够标识一个页面的惟一性,因此要保证写入数据的URL不重复。须要注意的是在HTML中的URL多是相对路径,须要把URL补全。
大部分状况是须要增量爬取的,如天天只爬取新增的目录项,为了防止重复无效的爬取,选择的目录页最好是按更新时间排序的,这样只须要爬取有更新的前几页就能够了。那怎么知道哪些目录页是有更新的呢?若是目录项有更新时间的话,能够经过比较这个时间来肯定。还有一种更简单的方法是,若是某一页全部的URL在数据库都存在了,说明这一页没有新的目录项了,能够中止爬取了。
2. 爬取详细信息
在第一步中已经把二级页面的URL爬取下来了,接下来就是要爬取详细信息了,如手机App的各类信息,截图和安装包的URL。对于文字信息是很容易在HTML中提取的,但对于安装包URL就不是一眼能找到的,这里的下载地址隐藏在JS中,以下图,在页面里提取到id后,就能拼出安装包URL。对于爬取完成的URL,在数据库中应该用状态字段标示其爬取完成,避免重复爬取。
3. 文件下载
有时候咱们不只要爬取文字信息,还须要下载图片或文件,好比这里咱们还须要下载截图和安装包,在前一步中已经爬取了截图和安装包的URL,使用curl或wget能够很方便地进行文件下载。一样也须要状态字段来标示文件的下载状态。
1. 通用爬取接口
为了减小一些爬取的重复代码,这里提取了一些公共代码,写了一个比较通用的爬取接口,须要注意的是,因为页面的编码和数据编码可能不一致,因此须要把页面的编码转化成数据库编码,不然写入数据就可能出现乱码。接口说明和代码以下:
调用方式:@results=&CrawlUrl($url, $page_charset, $expect_charset, \@regexs, \$crawl_result)
参数:URL,页面编码,指望编码,正则表达式数组,爬取是否成功(0成功,不然失败)
返回值:匹配结果二维数组(一个正则表达式能够匹配一组数据)
1 #!/usr/bin/perl 2 3 sub ParseUrl 4 { 5 my $url=$_[0]; 6 $url=~s/\[/\\\[/g; 7 $url=~s/\]/\\\]/g; 8 return $url; 9 } 10 11 sub CrawlUrl 12 { 13 my $url=$_[0]; 14 my $page_charset=$_[1]; 15 my $expect_charset=$_[2]; 16 my $regex_ref=$_[3]; 17 my $crawl_result_ref=$_[4]; 18 my @regexs=@$regex_ref; 19 my @results; 20 21 my $file=`echo -n "$url" | md5sum | awk '{print \$1".htm"}'`; 22 chomp($file); 23 $url=&ParseUrl($url); 24 `curl -o "$file" "$url"`; 25 my $curl_result=`echo $?`; 26 chomp($curl_result); 27 if($curl_result!=0) 28 { 29 $$crawl_result_ref=1; 30 return @results; 31 } 32 33 my $html=""; 34 if($page_charset ne "" && $expect_charset ne "" && $page_charset ne $expect_charset) 35 { 36 $html=`iconv -f $page_charset -t $expect_charset "$file"`; 37 } 38 else 39 { 40 $html=`cat "$file"`; 41 } 42 `rm -f $file`; 43 44 for(my $i=0;$i<=$#regexs;$i++) 45 { 46 my $reg=@regexs[$i]; 47 my @matches=($html=~/$reg/sg); 48 $results[$i]=\@matches; 49 } 50 51 $$crawl_result_ref=0; 52 return @results; 53 }
2. 爬虫通用性
咱们可能须要爬去同一个类型的多个网站,好比我须要爬取数十个来源的手机App,若是每一个网站都写一个特定的爬虫,会带来大量的编码工做,这时候就要考虑爬虫的通用性,如何让一套代码可以适应一类网站。这里采用的方法是把各个网站的差别化信息做为配置存储在数据库,如目录页URL、网站编码、各字段正则表达式等,这样爬虫经过读取这些配置就能够去适配不一样的网站,达到必定的通用性。若是要新增一个网站的爬取,只须要增长相应的配置,而不须要修改任何代码。
3. 多进程爬取
若是要爬取的页面或要下载的文件数量比较大,会比较耗时,这时候能够考虑多个进程同时进行爬取。写一个进程控制模块,经过查询数据库中未爬取的URL和检测当前启用爬取的进程数,来肯定是否启用新的进程,达到对多进程爬取的控制。
4. 代理
有些网站可能会限制IP的访问频率,若是对网站的爬取频率比较高,可能就会致使IP被封了,能够经过在多个代理服务器随机切换的方式来规避这个问题。为了不代码重复,写了一个使用代理的wget封装的Shell工具。
1 #!/bin/bash 2 3 PROXY_HOST=(代理服务器列表) 4 5 function GetProxyStr() 6 { 7 rand=$(($RANDOM%(${#PROXY_HOST[*]}+1))) 8 if [ $rand -lt ${#PROXY_HOST[*]} ] 9 then 10 PROXY_STR="-e http_proxy=${PROXY_HOST[$rand]}" 11 fi 12 } 13 14 PROXY_STR="" 15 PATH_TYPE="$1" 16 FILE_PATH="$2" 17 URL="$3" 18 19 GetProxyStr 20 GetPath 21 22 wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" $PROXY_STR $PATH_TYPE "$FILE_PATH" "$URL"
5. 监控
还有一个问题就是,若是爬虫是天天定时运行的,在网站目录页URL发生变化或页面改版了,爬取就会失败。这就要求对这些失败进行监控,在爬取页面失败或者正则匹配失败时,经过短信、邮件等方式进行告警。