基于spark和kafka反爬虫技术【第一天】

时间 2021-01-13

标签大数据栏目 Spark 繁體版

原文原文链接

1.技术背景现在很多购票网站在互联网提供查询、预定等服务，有大量用户访问的同时，也存在着大量爬虫，爬虫消耗了系统资源，但是没有转化为销量，导致系统资源虚耗，严重时造成系统波动，影响正常用户访问购票。通过日志分析，发现官网访问中存在大量爬虫，且通过ip伪装。为了限制伪装奇数越来越强的爬虫访问和恶意占座行为，需要开发大数据爬虫工具。 2. 项目概述 2.1 系统功能数据管理：数据采集、分类、处理

>>阅读原文<<