Scala+Spark:对文件进行滤重

时间 2021-01-13

原文原文链接

需求来源：有俩文件，里面存着很多公司信息，但是有重复的，由于数据量太大，因此，决定写个小脚本，用spark跑一下先看一下文件格式，origin为原始公司信息数据，spider为爬虫抓取的数据整体逻辑：文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby，取首位数据 ==> 保存文件 1、主文件： 2、工具包： processinfo：关于