基于spark和kafka反爬虫技术【第一天】

1.技术背景 现在很多购票网站在互联网提供查询、预定等服务,有大量用户访问的同时,也存在着大量爬虫,爬虫消耗了系统资源,但是没有转化为销量,导致系统资源虚耗,严重时造成系统波动,影响正常用户访问购票。通过日志分析,发现官网访问中存在大量爬虫,且通过ip伪装。 为了限制伪装奇数越来越强的爬虫访问和恶意占座行为,需要开发大数据爬虫工具。 2. 项目概述 2.1 系统功能 数据管理:数据采集、分类、处理
相关文章
相关标签/搜索