新型初始化和更新机制在分类中的特征选择PSO

转自论文:Novel Initialisation and Updating Mechanisms in PSO for Feature Selection in Classi cation


  在分类中,特征选择是重要的,但是困难问题。粒子群优化(PSO)是一个有效的进化计算技术。但是,传统的个人最好并且PSO中的全局最佳更新机制限制了其性能
功能选择和PSO功能选择的潜力尚未被充分开发。本文提出了一种新的初始化策略
以及PSO中新的个人最优和全局最优更新机制,开发一种具有最小化目标的新颖特征选择算法功能的数量,最大化分类性能同时减少计算时间。提出的算法与两种传统特征选择方法进行比较,一个基于PSO的方法,目的是最大化分类性能和基于PSO的两阶段算法考虑两者功能数量和分类性能。实验八个基准数据集显示出所提出的算法可以自动进行
演化具有较少数量特征的特征子集更高的分类性能比使用所有功能。提出的算法实现了明显更好的分类性能两种传统方法。所提出的算法也胜过两种基于PSO的特征选择算法在分类方面性能,功能数量和计算成本

1.简介

  分类问题通常有很多功能,包括相关的,不相关和冗余的功能。 然而,不相关和冗余的功能由于搜索空间大,可能会降低分类性能,被称为“维度的诅咒”[3,6]。 特征选择是选择一个子集的相关分类功能,可以缩短培训时间,简化学习分类器,和/或提高分类精度[6]。特征选择是一个困难的问题,主要是由于搜索空间大,其相对于可用特征的数量呈指数增长[6]。 因此,在大多数情况下,穷举搜索几乎是不可能的。不同的启发式搜索技术已被应用于特征选择作为贪心搜索[3]。 然而,大多数现有算法仍然存在
局部最佳停滞或计算费用昂贵的问题[3,6]。 为了更好地解决功能选择问题,一个高效的全局需要搜索技术。

  进化计算(EC)技术是全球知名的搜索能力。 它们已被应用于特征选择问题,如
遗传算法(GAs)[1],遗传规划(GP)[13]和粒子群优化(PSO)[15]。 PSO [14]是一种相对较新的EC技术计算上比一些其他EC算法便宜。 在PSO [14]中,a候选解决方案的群体在搜索空间中被编码为粒子。PSO开始于粒子群随机初始化。 基于
一个粒子(pbest)及其相邻粒子(gbest)的最佳体验,PSO通过更新速度和位置来搜索最优解
根据下列方程:

  

  其中x和v表示位置和速度。 t表示第t次迭代在进化过程中。 d 2 D表示第d维
D维搜索空间。 w是惯性重量。 c1和c2是加速度常数。r1i和r2i是均匀分布在[0,1]中的随机值。 pid和pgd代表第d维中pbest和gbest的元素。

  许多研究表明,PSO是一种高效的搜索技术选择[2,8,15]。 但是,目前的PSO有一些限制用于特征选择。 首先,PSO没有被调整到特征选择任务。 在PSO中提出了许多初始化策略来改进它表现[16]。 然而,没有具体的现有的初始化策略提出特征选择。 其次,传统的pbest和gbest更新机制可能导致丢失具有高分类的良好特征子集性能和少量功能(第2.2节中的讨论)。 因此,PSO对特征选择的潜力尚未得到充分研究。

1.1目标
  本文的总体目标是提出一种新的基于PSO的特征选择选择较少数量的功能并实现类似或甚至的方法更好的分类性能比使用所有功能和传统/现有特征选择方法。 为了实现这一目标,我们提出了一个新的初始化策略和更新pbest和gbest在PSO中的新机制来减少
功能数量不减少(甚至增加)分类性能。 具体来说,我们会:

  在PSO中提出了一种新的初始化策略来减少功能的数量而不降低演化子集的分类性能,。

  开发新的更新机制,引导PSO搜索该功能具有高分类性能和少量特征的子集,

  开发一种新的基于PSO的包装特征选择算法提出了初始化策略和更新机制

  调查所提出的特征选择算法是否能够胜过两种传统的特征选择方法,一种基于PSO的算法只有最大化分类性能的目标,以及基于PSO的考虑两个主要目标的两阶段算法。

  


2提出的方法
  特征选择具有最大化分类的两个主要目标性能和最小化功能数量。 但是,大多数现有的方法仅旨在最大化分类性能[2]。 一些作品将这两个目标组合成一个单一的适应度函数[8,18],但它们需要一个预定义的参数来平衡这两个组件,这通常是这样的问题依赖,难以确定先验。 为了解决这个问题,我们只包括适应度函数中的分类错误率(方程式3)因为它比功能的数量更重要。 同时,我们提出一个初始化策略和一个新的pbest和gbest更新机制减少功能的数量而不减少或甚至增加分类性能,这也降低了计算成本。

  Fitness1 = ErrorRate (3)

2.1新的初始化策略
  新的初始化策略是由两种传统方法驱动的,前向选择[17]和向后选择[12]。 正向选择开始于一组空白的功能,通常选择较少的功能,但它可能会错过具有大量特征的最优特征子集。 落后选择从全部功能开始,通常选择大量的功能,但计算时间长于前进选择。

  因此,我们提出了一种新的初始化策略,以利用前进的优势反向选择,避免其缺点。在这个新战略中,使用少量特征来初始化粒子。因此,算法将从搜索具有小特征子集的解空间开始。这会也减少了计算成本,因为评估了一个小的特征子集在包装方法中比一个大的特征子集花费更少的时间。然而,如果所有的粒子都用小的子集初始化,则PSO可能会错过该介质或可以实现最佳分类性能的大特征子集。因此,在提出的初始化策略中,大多数粒子被初始化使用少量特征(模拟正向选择)等粒子使用大特征子集进行初始化(模拟向后选择)。同时,通过社会互动(更新pbest和gbest),预期PSO
能够通过媒体功能到达和搜索解决方案空间子集如果这些特征子集可以实现更好的分类性能。

2.2新的pbest和gbest更新机制
  在PSO中,粒子通过pbest和gbest共享信息,这可以影响在进化过程中群体的行为。 传统上,pbest和gbest仅基于粒子的适应度值进行更新(即,特征选择问题中的分类表现)。 粒子的pbest只有当粒子的新位置的适应性更好时才更新比目前的pbest。 在特征选择中,传统的更新机制有潜在的限制。 如果粒子的分类性能是新的位置与当前pbest相同,但功能数量较小,粒子的新位置对应于更好的特征子集。 然而,根据传统的更新机制,pbest不会更新因为他们的分类表现是一样的。 

  为了克服这个限制,我们提出了一个新的pbest和gbest更新机制。 在新机制中,功能的分类性能子集被用作适应度函数,这意味着分类性能仍然是首要任务,但也考虑了功能的数量。 pbest和gbest在两种情况下更新。 第一种情况是,如果分类粒子的新位置的表现要好于pbest,pbest将是更新并替换为新职位。 在这种情况下,功能的数量
选择将被忽略。 第二种情况是,如果分类表现的新位置与pbest和功能的数量是一样的
较小的,当前的pbest将被粒子的新位置所取代。 后更新pbest,每个粒子的gbest以相同的方式通过比较更新gbest与粒子和它的邻居的pbest。 

  增加第二种情况,拟议的更新机制是预期的避免传统更新机制的局限性。 如果有的话,它将始终选择一个更好的特征子集成为pbest或gbest,其中具有更好的分类性能或相同的分类性能具有较少的功能。 这可以帮助算法过滤掉冗余功能,使特征子集具有良好的分类性能和少量功能成为每个人的领导者(pbest或gbest)粒子和整个群体。

  请注意,在GP中,每个人都可以表示为树的大小在选择过程中可以考虑树木,被称为简约压力[11]。 简约压力似乎与拟议的pbest和gbest相似更新机制。 但是,他们在两个方面是不同的想法。 首先,GP中的简约压力改变了树木的大小pbest和gbest更新机制不会改变粒子的大小总是数据集中的功能总数。 其次,简约压力是控制GP中的树的大小,可以在任何情况下使用问题领域,但在提出的pbest中考虑的功能的数量并且gbest更新机制特别适用于特征选择问题优化两个主要目标之一,即最小化特征的数量。

  基于新的初始化策略和更新机制,一个新的特征选择算法被提名为IniPG。 IniPG的伪码。


  可以在算法1中看到。PSO有两个版本,它们是连续的PSO [14]和二进制PSO [9],但是二进制PSO具有潜在的局限性[10]。 因此,我们将使用连续的PSO来提出一种新的特征选择算法。该粒子的表示是“n”位串,其中“n”是总数特征。 每个维度(xid)中的位置值在[0,1]中。 阈值?是需要与xid的值进行比较。 如果xid>?,则选择第d个功能。否则,没有选择第d个功能。

  

3实验设计
3.1基准测试技术
  为了检查所提出的算法(IniPG)的性能,两个传统的包装特征选择方法和两种基于PSO的算法(ErRt和2Stage)作为实验中的基准技术。

  两种传统方法是线性前向选择(LFS)[5]和贪心逐步向后选择(GSBS),源自SFS和SBS,分别。 有关LFS的更多细节可以在文献[5]和GSBS中看到从所有可用功能开始,并在删除任何剩余的时间停止特征导致分类性能下降。 ErRt只使用分类误差率作为适应度函数。 2Stage [18]采用两阶段健身功能在第一阶段优化分类并采取第二阶段考虑的功能数量[18]。 使用二进制PSO在[18]中,本文采用连续的PSO来保持一致ErRt和IniPG进行公平比较。

  

3.2数据集和参数设置
  从UCI机器学习库中选择八个数据集(表1)[4]具有不同数量的特征,类和实例。 对于每一个数据集,实例随机分为两组:70%作为训练集和30%作为测试集。


  实验中使用K最近邻(KNN),K = 5(5NN)。Weka [7]用于运行使用LFS和GSBS的实验。 所有的设置在LFS和GSBS中保持默认值,除了选择向后搜索在GSBS。 ErRt,2Stage和IniPG中的PSO参数设置如下:w = 0:7298,c1 = c2 = 1:49618,vmax = 6:0,种群大小为30,最大迭代次数为100.使用完全连接的拓扑。 这些值基于[14]中的常见设置进行选择。 根据我们以前的实验,门槛? 在三种基于PSO的算法中设置为0.6。 在IniPG,大部分群集(2/3)使用大约10%的初始化功能总数。 群体的其他小部分(1/3)被初始化使用一半以上的功能总数,其中随机数(例如m,其中m在一半和特征的总数之间)首先随机选择生成和m特征来初始化该粒子。

  对于每个数据集,每个实验测试已经进行了40次独立运行 进行统计显着性检验,T检验其分类表现和显着性水平选为0.05。


4实验结果与讨论
  表2显示了所提出的算法和基准的实验结果技术。 “全部”表示所有功能都用于分类。 “没有。”代表所选功能的平均数量。 “Ave”,“Best”和“StdDev”
指示40个测试精度的平均值,最佳值和标准偏差在ErRt,2Stage或IniPG中。 “T检验”显示T检验的结果,其中“+”(“ - ”)表示基准技术的分类表现明显好于(差)IniPG。 “=”表示它们相似。 

   

4.1 Benckmark技术的结果
  LFS和GSBS的结果:根据表2,LFS选择较小的数字的功能,并且在大多数情况下实现了与使用所有功能相似或更高的分类精度。 GSBS可以减少功能的数量,但只能减少
在几个数据集上实现了更好的分类性能。 在大多数情况下,LFS在功能数量和分类方面表现优于GSBS性能。 结果表明,LFS作为前向选择算法更有可能获得具有少量特征的良好特征子集GSBS(后退选择)由于起点不同。 特征子集由GSBS选择可能仍然有冗余。 这也表明利用前向选择和向后选择的优点可以提高特征选择算法的性能,促使提案的新的初始化策略在这项工作。

  


  ErFs的结果:根据表2,几乎所有的数据集中,ErRt都达到了类似或更好的分类性能比使用所有功能,以及演进功能子集只包含大约一半的可用功能。 这表明可以成功地使用PSO作为进化搜索技术功能选择问题。

  2Stage的结果:根据表2,2Stage演化特征子集大约一半(或更少)的可用功能,并实现更好的分类性能比在几乎所有情况下使用所有功能。 2Stage表现优于几乎所有情况下都是ErRt。 然而,2Stage试图找到一个权衡分类性能和功能数量,这意味着减少的功能数量可能会降低分类性能。


4.2 IniPG的结果
  根据表2,在12个数据集中的11个中,IniPG演进了特征子集选择不到一半(甚至接近10%的四个数据集)可用功能,但实现了明显更好的分类性能比使用所有功能。 只有运动数据集才是平均分类IniPG(94.62%)获得的性能比使用全部下降0.2%特征(94.81%),但最佳精度(95.19%)较高。

  IniPG与两种传统方法(LFS和GSBS)的比较:在几乎所有数据集中,IniPG实现了明显更好或相似的分类性能对LFS,虽然功能的数量稍微大一些案例。 将IniPG与GSBS进行比较,IniPG中的功能数量较少所有数据集中的GSBS和IniPG的分类性能显着在12个数据集中的11个中比GSBS更好。 这表明IniPG是一个基于PSO的算法可以比两者更有效地搜索解决方案空间LFS和GSB。 初始化策略由前向选择动员反向选择可以帮助IniPG采取两种前瞻性选择的优势和向后选择以获得具有较小数量的特征子集的功能和更好的分类性能比LFS和GSB。

  IniPG和ErRt之间的比较:根据表2,选择IniPG特征子集包括较少数量的特征并且显着地实现比几乎所有数据集中的ErRt更好或相似的分类性能(除了对于电离层数据集,IniPG中的功能数量在哪里在ErRt中的四分之一)。 这表明虽然ErRt和IniPG共享
相同的适应度函数(公式3),拟议的初始化策略和pbest和gbest更新机制可以帮助IniPG有效消除冗余和不相关的特征,以获得较小的特征子集明显优于ErRt的分类性能。

  IniPG和2Stage之间的比较:根据表2,几乎全部数据集中,IniPG的分类性能明显好于或相似到2Stage和功能的数量较小。原因可能在2Stage中的第二阶段的适应性功能旨在找到平衡分类表现与功能数量之间。因此,功能数量的减少也将降低分类性能。在IniPG中,适应度函数仅包括分类性能在整个进化过程中。这确保了减少IniPG中的功能数量不会降低分类性能。同时,提出了初始化策略和pbest和gbest更新机制可以帮助IniPG进一步消除不相关或冗余的功能以减少功能的数量,从而可以增加分类性能。此外,与2Stage相比,IniPG的另一个优点是它不需要预定义的参数来平衡相对重要性
的分类性能和功能数量。

  请注意,简单地增加迭代次数不能帮助ErRt和2Stage通过IniPG实现了相同的性能。 主要原因是ErRt不考虑适应度函数中的特征数量2Stage在分类性能和功能数量之间取得平衡。 IniPG模拟前向和后向选择以进行复制他们的优势,有助于IniPG更加重视小特征子集,但不会错过具有高分类性能的大特征子集。同时,由于新的更新机制,对于两个特征子集具有相同的分类性能,IniPG将选择较小的一个新的pbest或gbest。 ErRt和2Stage采用传统的更新机制在进化训练过程中不会这样做。 所以,ErRt和在几乎所有情况下,2Sit无法实现与IniPG一样好的性能。


4.3计算时间分析
  实验中使用的所有五种方法都是基于包装的功能选择方法。 因此,他们的大部分计算时间花在健身上评估,它涉及培训和测试分类过程。

  由于前进,LFS通常使用的时间少于其他四种方法选择策略开始于少量功能和a的评估小特征子集比大特征子集花费更少的时间。 GSBS成本较低时间比其他三种基于PSO的算法(ErRt,2Stage和IniPG)上的数据集具有少量功能,但在数据集上有更多的时间与a大量的功能,如Madelon和Isolet5数据集。 原因是GSBS从全套功能开始,需要更长的时间每次评估。 GSBS的评估数量大幅增加这样大的数据集,而基于PSO的算法的评估数量是多少还是一样。 一般来说,2Stage的成本比ErRt的时间要少,因为它的大小
在进化过程中,由2Stage演化的特征子集小于ErRt训练过程。 由于同样的原因,IniPG的计算时间较短比ErRt和2Stage都要好。


5。结论
  本文提出了一种用于特征选择问题(IniPG)的新型PSO算法。在IniPG中,提出了基于两个思想的新的初始化策略传统特征选择方法(正向选择和反向选择)利用这两种方法的优点。同时,一个新的pbest和gbest提出了更新机制来克服传统的局限性更新机制,以确保分类最高的特征子集性能和他们最小的功能成为新的pbest或gbest。对IniPG进行了检测,并与两个传统特征进行了比较选择算法(LFS和GSBS),基于PSO的算法,只有分类错误率作为适应度函数(ErRt)和基于PSO的两阶段算法(2Stage)。实验结果表明,在几乎所有的数据集中,IniPG尽管如此,分类效果明显优于LFS和GSBS在某些情况下,功能的数量大于LFS。几乎全部情况下,IniPG在功能数量方面表现优于ErRt和2Stage和分类性能,并使用较少的计算时间。  

  在将来,我们将进一步调整PSO算法的特征选择问题。 我们还将研究多目标PSO进行特征选择分类问题。 我们还会调查是否使用给定的学习包装特征选择方法中的算法可以选择好的或最适合的未来其他学习算法的特征子集。