spark screaming 模拟实战项目实例

因为没有网络日志,咱们这里用以前写的python脚本爬取新浪微博热搜模拟产生日志文件,经过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,咱们这里也设置十分钟的定时任务,具体步骤以下java 第一步python 编写python脚本获取微博热搜 实时排名,主题和url,而后运行测试,代码以下mysql #!python2 # -*- coding:ut
相关文章
相关标签/搜索