使用PHP作网页采集实例过程总结

时间 2019-11-09

标签使用 php 网页采集实例过程总结栏目 PHP 繁體版

原文原文链接

最近有个任务是须要我检查一些网站，若是纯手工检查的话，感受既费时又无聊。因此我就想用采集。思路其实很简单，先把网站的源码采集下来，而后用正则表达式去匹配符合的连接，最后把标题和网址入库、分析。由于我使用最多的是php，因此打算用php作网页采集。php

第一步，连接数据库，取出须要检查的网站和正则。html

数据库这里我用了postgresql，数据库和表已经按要求建好。由于默认配置的环境是centos系统加nginx、mysql和php，因此首先是配置环境。配置具体不在这里多说，下次总结。环境配置好后在php中用pg_connect链接数据库，这里我链接了两个不一样的数据库。mysql

$conn_1=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb1 user=postgres password=xxxxxx") ;nginx

$conn_2=pg_connect("host=xxx.xxx.xxx.xxx port=5432?dbname=mydb2?user=postgres password=xxxxxx") ;正则表达式

第二步，取出网页源码，对源码进行初步处理。sql

不一样网站编码格式不同，须要先把编码统一转换成utf-8，否则以后入库会出现乱码。数据库

//获取网页源码centos

//$url='http://www.sijitao.net/' ;数组

$str = file_get_contents($url);函数

//使用preg_match和正则表达式取出编码

$wcharset = preg_match("/<meta.+?charset=[^\w]?([-\w]+)/i",$str,$temp) ? strtolower($temp[1]):"" ;

//编码转换

if($wcharset){

$str=iconv("$wcharset", "UTF-8", $str) ;

}

这里我还使用str_ireplace()函数对取到的源码作了些字符替换，否则最后用正则匹配网址的时候会出现问题。

第三步，匹配处理后的源码字符串，对匹配的数据入库。

从数据库中取出对应的正则，保存在$preg变量，符合正则的数据已数组形式保存在$m。

$pat = "/<a(.*?)href=\"($preg)\"(.*?)>(.*?)<\/a>/is";

preg_match_all($pat, $str, $m);

$cnt=count($m[2]) ;

for($i=0;$i<$cnt;$i++){

if(strip_tags($m[2][$i])){

$url=strip_tags($m[2][$i]) ;

$url=$m[2][$i] ;

}

if(strip_tags($m[4][$i])){

$title=strip_tags($m[4][$i]) ;

}

else{

$title="There's Something Errors!" ;

}

//编写代码，对title和url进行入库操做。

}

采集单个网页这样基本上就算完成了。总结，这里其实就用了preg_match(),preg_match_all()和str_ireplace()函数。程序菜鸟，写的很差请见谅。