给大家说几点鲜有人知的爬虫技巧

时间 2021-01-01

标签 css python web ide 学习字体网站搜索引擎 google 加密栏目网络爬虫繁體版

原文原文链接

今天小帅b想跟分享几个
css

关于爬虫能够用到的技巧python

只要技巧使用得当web

那么尽管姿式再多
ide

也能感到爽爽的了
学习

那么，如何才能爽呢？字体

接下来就是网站

学习python的正确姿式搜索引擎

技巧一
google

换个角度，解锁新姿式加密

我知道

你在爬取某些 web 网站的时候

被各类反爬弄得哭天喊地

什么几把 css 字体加密

什么几把 js 的 MD5 等

各类乱七八糟的加密

什么几把各类飞的验证码

这时候

就别太执着于 web PC 端嘛

我们去看看人家的移动端

看看人家的 H5

在爬取前能够问问对方：

“在吗？看看 H5”

可能你会在移动端发现惊喜

数据都是同样的数据

冤冤相报什么时候了

技巧二

夜太美，爬虫就没那么危险

在爬取的时候

不要猛攻嘛～

人家受不了啊

你要学会停顿

克制一点

该 sleep 就 sleep

要趁人家睡觉的时候

限制防范程度低的时候

能晚点就晚点再去爬

没看过凌晨四点的洛杉矶

可是你能够看到凌晨四点的爬虫啊

这样你买的 IP 才不会频繁被封

技巧三

善用他人的 UA

若是你去看别人网站的 robots.txt

你就会看到别人的声明

声明什么东西是能够爬取

什么东西是不容许被爬的

但你经常忽略了一个东西

人家声明了但愿给什么搜索引擎爬

好比这个

看到没

这是别人定义的 robots

值得注意的是

尚亮亮的 User-agent

那么当你在 Python 构造 Header 的时候

User-agent 就直接指定他们 robots 定义的就行了啊

好比百度的UA，google的UA，360的UA

你再去爬取看看

那是一个友好啊

技巧四

插件让你节省时间

有时候咱们要拿一些关键的数据

每每会用到 xpath、css selctor 之类的

本身一个一个去比对获取

那就太麻烦了啊

还记得以前说得这个吗？

吐血分享这两个爬虫用到的 Chrome 牛逼插件

记得用起来呀

技巧五

那 Header 快速生成吧

每一次你在复制 request header 的时候

是否是有一大串有的没的

又不得不复制过来

在你的 Python 中使用

但是

格式又不对

每次操做很麻烦是不？

那你能够本身写一个方法

参数就是你复制的 header 字符串

而后生成 header 的字典格式

不就完事了

技巧六

爬取整站实际上是这样的

有时候你想爬取整个网站的url

怎么办呢？

不是去首页一个一个抓

你应该找到对方的 sitemap.xml

由于网站通常但愿 Google 或者百度快点收录他们的网站

因此他们会把本身的网站的 url 生成 sitemap 提交

这个时候 sitemap 就包含了这个网站全部可爬取的 url

sitemap通常在网站的根目录下

能够在他们的 robots.txt 看看他们指定的位置

好比猫眼电影的sitemap：

从而获取 sitemap 再去请求里面的 url 便可！

ojbk

以上就是小帅b

给你分享的爬虫技巧

但愿对你有帮助

那么咱们下回见

peace

相关文章

相关标签/搜索

爬虫－反爬虫

Docker命令大全

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<