做者:Geppettoweb
在机器学习中,离散化(Discretization)和特征选择(Feature Selection,FS)是预处理数据的重要技术,提升了算法在高维数据上的性能。因为许多FS方法须要离散数据,因此一般的作法是在FS以前对数据进行离散化。此外,为了提升效率,特征一般单独(或单变量)离散。这种方案的原理是基于假定每一个特征都是独立的,可是当特征之间存在交互时,这种方案可能不成立。所以,单变量离散化可能会下降FS的性能,由于在离散化过程当中可能会由于特征之间存在交互而丢失部分信息。算法
在生物信息学、基因组学、图像处理、文本分类等不一样领域的机器学习应用中,愈来愈多的高维数据集具备成千上万的特性。这些数据集一般有大量的冗余特征和不相关的特征,咱们能够称之为噪声,这是对学习算法的新能有负面影响的。所以,特征选择(Feature Selection,FS)一般是一个关键的预处理步骤,用于选择许多机器学习任务的相关特性,例如分类和聚类。在本文中,咱们将重点放在FS的分类问题上。尽管许多研究已经证实了在高维数据中使用特征选择的有效性,可是因为大的搜索空间和特征交互的存在,这任然是一个具备挑战性的研究。app
除了特征选择,离散化也是对高维数据预处理的关键。首先,许多学习算法只适用于离散的数据。此外,经过离散化,能够忽略数据中一些微小的波动或可能的噪声。这样,离散化就有助于提升学习算法的有效性和效率。最后,由于离散数据比联系数据更紧凑,那么须要的内存就相对较少,从而提升了学习算法的效率。所以,特征选择和离散化一般用于提升分类性能,同时也对优化计算时间和存储空间方面有提高。机器学习
虽然目前有不少离散化的方法,可是最经常使用的离散化方法是单变量法。在一个时间内对某一个特征离散,当不存在特征交互时,这个方法是很是有效的。可是当这个假设不成立时,咱们须要同时对多个特征进行离散化。然而,对变量离散化的时间复杂度会高不少,所以,咱们须要一个更强大的搜索技术用于多变量离散化,尤为是在高维数据上。svg
此外,在实际应用中,一般将单变量离散化应用于FS是许多FS方法的要求。然而,单变量的离散化可能会破坏特征交互的信息。所以,能够经过将离散化和特征选择两个过程合并为一个单独的过程来得到更好的效果。粒子群优化(PSO)是由Eberhart and Kennedy提出的一种元启发式算法。PSO模仿鸟群中发现的社会行为。许多FS方法已经被提出使用不一样类型的PSO算法,如上一篇所介绍的连续PSO和二进制PSO(BPSO)。这些方法的结果显示了PSO在那些领域的潜力,然而,PSO还并无被用于离散化。函数
在最近的一种方法[evolve particle swarm optimization(EPSO)]中,咱们推荐使用一种被称为“bare-bones” PSO (BBPSO)的PSO派生方法来同时离散和特征选择,缘由以下:在PSO中,PSO一般是一个N维向量,对应于N个特征,每一个值的范围都是[0,1]。若是它大于一个预约的阈值,则选择相信的特征,反之亦然,而不去管它与阈值相比有多大或者多小。所以,两个不一样的进化向量可能会产生相同的特征子集。另外一方面,在离散化中,一个稍微不一样的进化点可能会致使一个不一样的离散特征。所以,找到一个好的切点须要一个微调的搜索机制,能够在BBPSO中找到。在这个派生的PSO版本中,使用一个高斯随机发生器对新位置进行采样,中心是个体最佳位置(pbest)和它的邻居的最佳位置(gbest)和它们之间的距离的标准误差。性能
EPSO使用了BBPSO来实现离散化和FS。每一个特征都有一个转折点。因为一个切点能够是特征范围内的任何值,离散化的可能解决方案的数量要比FS大得多。所以,从中获得的基于熵的切割点被用做缩小搜索空间的初始或潜在的切割点。该方法已取得了良好的效果。可是,因为这种表示方法,搜索空间对于BBPSO来讲仍然太大,没法得到更好的性能。为了缩小搜索空间,本文提出了一种利用BBPSO的潜在粒子群优化算法,该方法能够在潜在的好算法中选择合适的分界点。提出了一种新的适应度函数和缩放机制,以提升该方法的性能。学习
(一)研究目标优化
本文针对高维连续数据,提出了一种将离散化和FS相结合的新方法。为实现这一目标,提出了一种新的粒子在BBPSO中的表示方法。虽然EPSO使用BBPSO直接为每一个特性发现了一个切点,但新的方法称为PPSO,它容许BBPSO自动为离散化和FS选择潜在的良好的切点。与使用全特征集、离散化和FS的两阶段方法和高维数据的EPSO进行了比较。咱们的具体研究目标包括如下内容:网站
虽然本文提出的新方法(PPSO)和现有的方法(EPSO)是经过离散化来解决FS的,但它们的主要组成部分,即表示方法和评价方法,都是很是不一样的。在进化计算(EC)技术中,表征在方法的有效性和效率方面起着重要的做用。一个好的表示能够减小搜索空间的大小,这在EC方法中一般是很是大的。仅FS问题的搜索空间已经很是大,所以将其与离散化相结合会致使更大的空间。所以,本文提出了一种新的表示方法,使搜索过程更加有效。本文的另外一个贡献是一种新的适应度函数,它结合了包装(wrapped)和过滤(filter)措施,以综合两种方法的优势。然而,提出的混合方法是为了更好地评估候选方案,而不须要使用基于相同距离度量的包装器和过滤方法来支付更多的计算成本。