爬虫岗位不多,我总共也就面过五六家,其中某金融互联网公司技术最好,虽然他们的爬虫人员也是后来转的 java
问题一:若是链接断了怎么办? 算法
什么链接呢,猜是tcp 链接吧,tcp链接不是时时联通的,只有http或者其余应用协议须要的时候才会有链接,固然也有隧道等特殊状况 服务器
实际工程中,链接的创建都是引用的模块,无需本身写程序控制。 负载均衡
问题二:服务器发现你用代理怎么办? tcp
服务器能够发现客户端用代理吗,这要看代理的种类,若是是匿名代理则发现不来 分布式
问题三:服务器返回假数据怎么办? 大数据
这种状况或许有,但没遇到过,首先服务器能够有百分之百的肯定你是爬虫程序,才会有这样的状况,这点几乎没法作到。若是我就是模拟用户行为慢慢采集呢。 加密
问题四:分布式 代理
不少招聘高大上,须要分布式爬虫经验,分布式也分不少种,像不带负载均衡的分布式很容易实现,加上负载均衡也不难,关键你得肯定任务的粒度,一个采集任务的范围 。 开发
不少场景只是须要好的任务管理加上分布式负载均衡即可以
问题五:爬虫作好了不是就能够了吗
不须要维护吗,双十一某电商两小时更新一次加密算法
问题六:爬虫岗位不多,作爬虫的很难找到工做
谁说我只会作爬虫, 遇到不少有经验的爬虫工程师逐渐不作爬虫了,不少吐糟企业的短视。
最后,爬虫工程师成本高,若是没有长期信息采集需求,不建议设置此岗位,通常信息采集利用开源程序便可
或者外包出去。
虽然大数据带动爬虫岗位很火,但相对于java开发,爬虫的岗位能够忽略不计。
爱好能够空余作作。