基于PHP/CURL/codeIgniter的Spider Webbot爬虫[3]=使用get_attribute定义资源类型

时间 2019-12-13

标签基于 php curl codeigniter spider webbot 爬虫使用 attribute 定义资源类型栏目 PHP 繁體版

原文原文链接

<?php
include ("application/libraries/LIB_http.php");
include ("application/libraries/LIB_parse.php");
//定义目标和参照页
$target="http://www.wenku8.cn";//定义抓取下载的档案
$ref="http://www.wenku8.cn";
$web_page=http_get($target,$ref);//下载网页

//解释图像标签
$meta_tag_array=parse_array($web_page['FILE'],"<img",">");
$attribute="src";
//解释图像标签
for ($xx=0; $xx < count($meta_tag_array); $xx++)
{
     $file_name=get_attribute($meta_tag_array[$xx],$attribute);
     echo $file_name."<br/>";//打印图像地址
}
?>

//只要是img标签，不管是什么文件，其地址都会被抓取下来php