Scala+Spark:对文件进行滤重

需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下 先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据 整体逻辑: 文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件 1、主文件: 2、工具包: processinfo: 关于
相关文章
相关标签/搜索