spark清洗离线数据

最近花了半个月时间研究了一哈scala 感受能够作的东西仍是蛮多了。目前工做清洗40多G的数据很费劲(采用oracle作很费事),全部研究了spark来清洗离线数据。linux 废话很少说开始程序设计:数据库 首先我想到的是输入 这里采用HDFS文件。假设咱们将oracle的数据采用json格式的形式而且采用urldecode方法转换文本(由于一些特殊字符经常会致使咱们的json文件读取异常,全部
相关文章
相关标签/搜索