使用PHP采集远程图片

时间 2020-09-12

标签使用 php 采集远程图片栏目 PHP 繁體版

原文原文链接

当咱们须要采集网络上的某个网页内容时，若是目标网站上的图片作了防盗链的话，咱们直接采集过来的图片在本身网站上是不可用的。那么咱们使用程序将目标网站上的图片下载到咱们网站服务器上，而后就可调用图片了。

本文将使用PHP实现采集远程图片功能。基本流程：

一、获取目标网站图片地址。

二、读取图片内容。

三、建立要保存图片的路径并命名图片名称。

四、写入图片内容。

五、完成。

咱们经过写几个函数来实现这一过程。

函数make_dir()创建目录。判断要保存的图片文件目录是否存在，若是不存在则建立目录，而且将目录设置为可写权限。

   
   
   
   
    
    
    
    function make_dir($path){  
    
    
    
        if(!file_exists($path)){//不存在则创建  
    
    
    
            $mk=@mkdir($path,0777); //权限  
    
    
    
            @chmod($path,0777);  
    
    
    
        }  
    
    
    
        return true;  
    
    
    
    }

函数read_filetext()取得图片内容。使用fopen打开图片文件，而后fread读取图片文件内容。

   
   
   
   
    
    
    
    function read_filetext($filepath){  
    
    
    
        $filepath=trim($filepath);  
    
    
    
        $htmlfp=@fopen($filepath,"r");  
    
    
    
        //远程  
    
    
    
        if(strstr($filepath,"://")){  
    
    
    
            while($data=@fread($htmlfp,500000)){  
    
    
    
                $string.=$data;  
    
    
    
            }  
    
    
    
        }  
    
    
    
        //本地  
    
    
    
        else{  
    
    
    
            $string=@fread($htmlfp,@filesize($filepath));  
    
    
    
        }  
    
    
    
        @fclose($htmlfp);  
    
    
    
        return $string;  
    
    
    
    }

函数write_filetext()写文件，将图片内容fputs写入文件中，即保存图片文件。

   
   
   
   
    
    
    
    function write_filetext($filepath,$string){  
    
    
    
        //$string=stripSlashes($string);  
    
    
    
        $fp=@fopen($filepath,"w");  
    
    
    
        @fputs($fp,$string);  
    
    
    
        @fclose($fp);  
    
    
    
    }

函数get_filename()获取图片名称，也能够自定义要保存的文件名。

   
   
   
   
    
    
    
    function get_filename($filepath){  
    
    
    
        $fr=explode("/",$filepath);  
    
    
    
        $count=count($fr)-1;  
    
    
    
        return $fr[$count];  
    
    
    
    }

而后将几个函数组合，在函数save_pic()中调用，最后返回保存后的图片路径。

   
   
   
   
    
    
    
    function save_pic($url,$savepath=''){  
    
    
    
        //处理地址  
    
    
    
        $url=trim($url);  
    
    
    
        $url=str_replace(" ","%20",$url);  
    
    
    
        //读文件  
    
    
    
        $string=read_filetext($url);  
    
    
    
        if(emptyempty($string)){  
    
    
    
            echo '读取不了文件';exit;  
    
    
    
        }  
    
    
    
        //文件名  
    
    
    
        $filename = get_filename($url);  
    
    
    
        //存放目录  
    
    
    
        make_dir($savepath); //创建存放目录  
    
    
    
        //文件地址  
    
    
    
        $filepath = $savepath.$filename;  
    
    
    
        //写文件  
    
    
    
        write_filetext($filepath,$string);  
    
    
    
        return $filepath;  
    
    
    
    }

最后一步就是调用save_pic()函数保存图片，咱们使用如下代码作测试。

   
   
   
   
    
    
    
    //目标图片地址  
    
    
    
    $pic = "http://img0.pconline.com.cn/pconline/1205/06/2776119_end1_thumb.jpg";  
    
    
    
    //保存目录  
    
    
    
    $savepath = "p_w_picpaths/";  
    
    
    
    echo save_pic($pic,$savepath);

实际应用中，咱们可能会采集某个站点的内容，好比产品信息，包括采集防盗链的图片保存到网站上服务器上。这时咱们能够使用正则匹配页面内容，将页面中相匹配的图片都找出来，而后分别下载到网站服务器上，完成图片的采集。如下代码仅供测试：

   
   
   
   
    
    
    
    function get_pic($cont,$path){  
    
    
    
        $pattern_src = '/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/';  
    
    
    
        $num = preg_match_all($pattern_src, $cont, $match_src);  
    
    
    
        $pic_arr = $match_src[1]; //得到图片数组  
    
    
    
        foreach ($pic_arr as $pic_item) { //循环取出每幅图的地址  
    
    
    
            save_pic($pic_item,$path); //下载并保存图片  
    
    
    
            echo "[OK]..!";  
    
    
    
        }  
    
    
    
    }

而后咱们经过分析页面内容，将主体内容找出来，调用get_pic()实现图片的保存。

//咱们采集太平洋电脑网上一篇关于手机报道内容页的图片

   
   
   
   
    
    
    
    $url = "http://gz.pconline.com.cn/321/3215791.html";  
    
    
    
      
    
    
    
    $content = file_get_contents($url);//获取网页内容  
    
    
    
    $preg = '#<div class="art_con">(.*)<div class="ivy620 ivy620Ex"></div>#iUs';  
    
    
    
    preg_match_all($preg, $content, $arr);  
    
    
    
    $cont = $arr[1][0];   
    
    
    
    get_pic($cont,'img/');

以上代码笔者亲测，能够采集图片，可是还有些场景没考虑进去，好比目标网站作了302屡次跳转的，目标网站作了多种防采集的，留给喜欢折腾的同窗去试试吧。