论文阅读 (二十):Isolation Kernel and Its Effect on SVM (2018)

引入

  本文 [ 1 ] \color{red}^{[1]} [1]贡献:
  1)提出了一种新的数据相关核,即隔离核 (Isolation kernel)。与已有的数据相关核相比,其无需使用或学习类别信息。
  2)对隔离核的划分机制进行评估,即划分机制须要使得大隔离分区 (partition)位于稀疏区域 (region),小隔离分区位于密集区域。该性质要求隔离核:两个点间距离相等的点,在稀疏区域应该更类似,相比于在密集区域。
  3)说明了为何隔离核可以适用于SVM,并提升预测精度。
  4)与RBF、Laplacian、多核学习、距离度量学习进行比较。html


【1】Kai Ming Ting, Yue Zhu, and Zhi-Hua Zhou. 2018. Isolation Kernel and Its Effect on SVM. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18). Association for Computing Machinery, New York, NY, USA, 2329–2337. DOI:https://doi.org/10.1145/3219819.3219990web


1 隔离核:定义

  部分符号表以下:svg

符号 含义
D = { x 1 , ⋯   , x n } , x i ∈ R d D = \{ \mathbf{x}_1, \cdots, \mathbf{x}_n \}, \mathbf{x}_i \in \mathbb{R}^d D={ x1,,xn},xiRd 来自服从未知几率密度函数 x i \mathbf{x}_i xi~ F F F的样本
H ψ ( D ) \mathcal{H}_\psi (D) Hψ(D) 全部分区 (partition) H H H的集合
D ∈ D , ∣ D ∣ = ψ \mathcal{D} \in D, \mid D \mid = \psi DD,D=ψ 随机子集
θ ∈ H \theta \in H θH 隔离分区,将某一个点与 D \mathcal{D} D中其他点隔开

  定义1.1. 给定任意两个点 x , y ∈ R d \mathbf{x}, \mathbf{y} \in \mathbb{R}^d x,yRd,其关于 D D D的隔离核被定义为:在全部的分区 H H H上, x , y \mathbf{x}, \mathbf{y} x,y属于相同隔离分区 θ \theta θ的指望:
K ψ ( x , y ∣ D ) = E H ψ ( D ) [ I ( x , y ∈ θ ∣ θ ∈ H ) ] (1) \tag{1} K_\psi (\mathbf{x}, \mathbf{y} \mid D) = \mathbb{E}_{\mathcal{H}_\psi (D)} \left[ \mathbb{I} (\mathbf{x}, \mathbf{y} \in \theta \mid \theta \in H) \right] Kψ(x,yD)=EHψ(D)[I(x,yθθH)](1)其中 I ( B ) \mathbb{I} (B) I(B)是一个指示函数:
I ( B ) = { 1 B  is true ; 0 otherwise \mathbb{I} (B) = \left \{ \begin{matrix} 1 & B \text{ is true};\\ 0 & \text{otherwise} \end{matrix} \right. I(B)={ 10B is true;otherwise  事实上,隔离核将经过有限数量的分区 H i ∈ H ψ ( D ) , i = 1 , ⋯   , t H_i \in \mathcal{H}_\psi (D), i = 1, \cdots, t HiHψ(D),i=1,,t来计算:
K ψ ( x , y ∣ D ) = 1 t ∑ i = 1 t ( x , y ∈ θ ∣ θ ∈ H i ) (2) \tag{2} K_\psi (\mathbf{x}, \mathbf{y} \mid D) = \frac{1}{t} \sum{i = 1}^t (\mathbf{x}, \mathbf{y} \in \theta \mid \theta \in H_i) Kψ(x,yD)=t1i=1t(x,yθθHi)(2)函数

  引理1.2. K ψ ( x , y ∣ D ) K_\psi (\mathbf{x}, \mathbf{y} \mid D) Kψ(x,yD)是一个合法核 (证实见原论文)。学习

  目前,假设 H H H可以达成贡献 (2)中的要求。
  令 X S \mathcal{X}_S XS X T \mathcal{X}_T XT分别表明稀疏和密集区域点的子集,则有几率密度 P ( X S ) < P ( X T ) P (\mathcal{X}_S) < P (\mathcal{X}_T) P(XS)<P(XT),且 ∥ x − y ∥ \| \mathbf{x} - \mathbf{y} \| xy表示两点间的距离。spa

   K ψ K_\psi Kψ的性质: ∀ x , y ∈ X S \forall \mathbf{x}, \mathbf{y} \in \mathcal{X}_S x,yXS以及 ∀ x ′ , y ′ ∈ X T \forall \mathbf{x}', \mathbf{y}' \in \mathcal{X}_T x,yXT,知足:
K ψ ( x , y ) > K ψ ( x ′ , y ′ ) (3) \tag{3} K_\psi (\mathbf{x}, \mathbf{y}) > K_\psi (\mathbf{x}', \mathbf{y}') Kψ(x,y)>Kψ(x,y)(3).net

1.1 划分机制

  隔离方法适用iForest [ 1 ] \color{red}^{[1]} [1]。下图展现了拉普拉斯核、隔离核和RBF核在均匀密度分布下的不一样之处。
rest


【1】 Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Isolation forest. In Proceedings of the IEEE International Conference on Data Mining, pages 413–422, 2008.xml

1.2 均匀密度分布下的 K ψ K_\psi Kψ

1.2.1 Breiman分析下的彻底随机树

  Breiman [ 1 ] \color{red}^{[1]} [1]基于彻底随机树,其无需数据便可生成。对于树深度 d ≥ 5 d \geq 5 d5且叶子节点数 T ≤ exp ⁡ ( d / 2 ) T \leq \exp(d / 2) Texp(d/2),能够获得拉普拉斯核近似
L ( x , y ) = exp ⁡ ( − λ ∑ J = 1 d ∣ x J − y J ∣ ) (4) \tag{4} L (\mathbf{x}, \mathbf{y}) = \exp \left (- \lambda \sum_{J = 1}^d | \mathbf{x}_J - \mathbf{y}_J | \right) L(x,y)=exp(λJ=1dxJyJ)(4)其中 x = < x 1 , ⋯   , x J , ⋯   , x d > \mathbf{x} = <x_1, \cdots, x_J, \cdots, x_d> x=<x1,,xJ,,xd> λ \lambda λ决定核的锐度 (sharpness)。
  均匀密度分布时,上述核等价于iForest。htm


【1】Leo Breiman. Some infinity theory for predictor ensembles. Technical Report 577. Statistics Dept. UCB., 2000.


1.2.2 拉普拉斯核的新发现

  令 ψ \psi ψ表示一个数据不相关彻底随机树的叶子节点数量,Breiman的分析代表:拉普拉斯核 λ = log ⁡ ( ψ ) d \lambda = \frac{\log(\psi)}{d} λ=dlog(ψ)
  故拉普拉斯核被从新表示为:
(5) \tag{5} (5)

  

本文同步分享在 博客“因吉”(CSDN)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索