在看文章以前,先上一个图片看看咱们要达到的实际效果。
这是一个自动运做的过程,自动过程因为是基于chrome插件实现的,实现起来也比较简单,因此这里不作这方面的分析(关于chrome插件自动化实现思路,我接下来的博文再作分析)。这里我只作一下如何实现文章概要的总结并混淆实现伪原创的过程。
一、抓取文章text文本php
利用chrome插件获取页面html富文本内容,过虑掉html标签,获得纯文本内容,过虑正则表达式为:"/<[^>]*?>/ig" 。
二、总结文章概要html
这里直接使用现成的新闻摘要提取接口: http://showdoc.dagoogle.cn/index.php/Home/page/index?page_id=127
三、文章内容的混淆实现伪原创前端
实现自动伪原创的思路千万种,最好的不过是自动重写了,但要作到自动重写,通常手段是没法实现的,因此我这里只尝试了抓取5118.com网站的每日热门词(接口https://www.jsanai.com/hotwords)进行自动关键词混淆,提供下php实现html富文本自动插入关键词的代码
//隔开html随机向指定文本插入内容,txt 内容;insert要插入的关键字,能够是连接,数组 function rand_in_str($txt,$insert){ //将内容拆分红数组,每一个字符都是一个value,英文,中文,符号都算一个,只能在utf-8下中文才能拆分 preg_match_all("/[\x01-\x7f]|[\xe0-\xef][\x80-\xbf]{2}/", $txt, $match); $delay=array(); $add=0; //获取不能插入的位置索引号($delay 数组),也就是< > 之间的位置 foreach($match[0] as $k=>$v){ if($v=='<') $add=1; if($add==1) $delay[]=$k; if($v=='>') $add=0; } $str_arr=$match[0]; $len=count($str_arr); if(is_array($insert)){ foreach($insert as $k=>$v){ //获取随机插入的位置索引值 $insertk=insertK($len-1,$delay); //循环将insert数据 拼接到 随机生成的索引 $str_arr[$insertk] .= $insert[$k]; } } else{ //获取随机插入的位置索引值 $insertk=insertK($len-1,$delay); //循环将insert数据 拼接到 随机生成的索引 $str_arr[$insertk] .= $insert; } //合并插入 关键词后的数据,拼接成一段内容 return join('',$str_arr); } function insertK($count,$delay){//count 随机索引值范围,也就是内容拆分红数组后的总长度-1;delay 不容许的随机索引值,也就是不能在 < > 之间 $insertk=rand(0,$count); if(in_array($insertk,$delay)){//索引值不能在 不容许的位置处(也就是< > 以内的索引值) $insertk=insertK($count,$delay);//递归调用,直到随机插入的索引值不在 < > 这个索引值数组中 } return $insertk; }
四、自动推送至百度或者其余正则表达式
自动推送能够后端实现,但使用后端实现的效果,不如使用前端js推送的效果好,因此为了实现前端js推送,就必须有人访问这个页面实现,因而我这里就顺带使用微头条的兴趣推送功能,把文章概要做为内容发到微头条,而后附加上文章连接做为微头条的详情连接,这样就算没有人点击查看这微头条,字节跳动公司的服务器也会经过内部服务器对附带的连接进行模拟访问,这个访问其实也达到了自动推送的功能。
整个流程的实现代码,将会在后续的文章中一个个展现,欢迎关注此话题。