目的:对于无label数据,寻找异常数据html
孤立森林算法思想:算法
能够看到d最有多是异常,由于其最先就被孤立(isolated)了测试
iForest算法默认参数设置以下:spa
subsample size: 256rest
Tree height: 8htm
Number of trees: 100blog
通俗解释就是——建100棵iTree,每棵iTree最高8层,且每棵iTree都是独立随机选择256个数据样本建成递归
算法优缺点:ci
1)一般树的数量越多,算法越稳定get
2)iForest不适用于特别高维的数据,因为每次切数据空间都是随机选取一个维度,建完树后仍然有大量的维度信息没有被使用,致使算法可靠性下降
论文下载:
http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/tkdd11.pdf
调包:
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html
转载本博笔记须在文章明显处注明原文的连接和做者信息
参考资料:
https://www.jianshu.com/p/5af3c66e0410?utm_campaign=maleskine