记录下今天学习到的东西,分两部分:
1 了解了一些异常检测的算法算法
异常检测算法的分类:函数
以上只是对经常使用的异常检测算法进行了一个简述,具体还须要查阅资料。学习
2 pyspark的继续学习
今天看case study的时候学到了两个很是重要的函数spa
rdd.combineByKey(f1,f2,f3) #输入的必须是pair rdd(k,v) f1:初始函数,给全部非重复的k初始一个值 eg:lambda x:[x] 这个函数的意思就是把全部非重复的k赋初始值[v](把v变成了列表) f2:合并函数,对全部拥有相同k的数据进行合并 eg: lambda x,y:x+[y] 有点像reduce的味道,就是把全部相同的k的v合并到一个list中去(可是这里只是产生累加器并未合并) f3:lambda x,y:x+y 这里才是真正的合并操做 获得最后的结果 具体能够参考:https://blog.csdn.net/u010159842/article/details/71471655 还有一个takeOrdered(20, key=lambda s:-s) rdd.takeOrdered(20, key=lambda s:-s) 这个函数的意思和take差很少,就是附带排序功能,若是想降序的话要这么写key=lambda s:-s