spark screaming 模拟实战项目实例

时间 2019-12-05

原文原文链接

因为没有网络日志，咱们这里用以前写的python脚本爬取新浪微博热搜模拟产生日志文件，经过kafka和flume整合将日志定时抽取到 spark上进行处理，微博热搜是十分钟更新一次，咱们这里也设置十分钟的定时任务，具体步骤以下java 第一步python 编写python脚本获取微博热搜实时排名，主题和url，而后运行测试，代码以下mysql #!python2 # -*- coding:ut

>>阅读原文<<