nginx+lua防采集

简介 以前介绍了nginx+lua+redis实现验证码防采集,在此基础上我又增长了搜索引擎的域名反查,以排查伪造搜索引擎的爬虫。原理是查看根据useragent为搜索引擎的客户端,如:百度、搜狗、谷歌等;经过nslookup或其余工具反查其ip所对应的域名是否包含baidu、sogou等关键字,若包含则直接加入白名单;不然认为是伪造搜索引擎的。固然更严谨的是判断其一级域名的关键字是否为baidu
相关文章
相关标签/搜索