数据挖掘 自习笔记 第三章 定性概括实践(上)

      基于属性概括的基本思想就是首先利用关系数据库查询来收集与任务相关的数据并经过对任务相关的数据并经过对任务相关数据集中各属性不一样值个数的检查完成数据泛化操做。算法

     下面是《数据挖掘导论》原文提供的算法——AOI方法(基于属性概括方法),我原本概念挺模糊的,但后来本身仍是思考了,发现这个算法能够当作为一个泛化表的程序。数据库

clip_image001

 

(1)选择数据表。ide

(2)获取数据表中各属性不一样值的个数,为下面操做作准备(其中应该运用了SQL中的groupby语句进行汇总).net

(3)对知足条件的属性,进行泛化操做,并可进行删减、整理工做。excel

(4)合并数据表,整理数据表。ip

(5)输出,完成过程。ci

这里还提到一个概念是泛化阈值,泛化阈值,据我理解是这样的。泛化阈值是一个自定义的数值,是与属性中不一样值的个数做对比。若是泛化阈值比属性不一样值的个数要小,证实该属性要进行泛化操做了。get

如:一个表的属性名为:“姓名”,它有700个不一样取值,设泛化阈值是2。2<700,那么该属性要进行泛化操做。it

此外,还有一个概念叫概念层次树。个人理解是这样的。原表有本身原本的属性。若是它要进行泛化操做。那么进行操做后,要根据新数据与原数据的关系进行新的命名。此时,泛化的属性名与原属性名组成的关系,咱们称之为概念层次树。数据挖掘

clip_image003

clip_image005

下面是书中说起的例子

例3.1 从一个大学数据库的学生数据中挖掘出研究生的概念描述。所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和GPA。

第一步将相关学生的数据抽取出来。

获得以下属性

clip_image001[6]

第二部进行分析处理。

(1) name,因为name属性拥有许多不一样的取值且对它也没定义合适的泛化操做。可被省掉。

(2) gender,因为gender属性仅包含两个不一样值,该属性被保留无需进行泛化。

(3) major,该属性已经定义一个概念层次树,能够进行泛化。设泛化阈值为5,初始数据有25个不一样取值。Major属性能够被泛化成指定概念(art&science、engineering、business)

(4) birth_place,该属性拥有不一样的取值,咱们须要对其进行泛化。着实行有必定的层次:city<provinve<country。咱们要根据实际状况来泛化该属性。若是country取值超过属性泛化阈值时,此属性应该被省略。所有都是一国的学生对此项目便无心义了。若是超过属性的泛化阈值,则该属性被泛化为birth_country。

(5) birth_date, 设它有一个概念层次树的存在。birth_date属性能够泛化成age;而后再到age_range。

(6) residence, 假设residence属性是有number、street、residence_city、residence_province、residence_country属性描述。Number和street属性的不一样值可能很是多。因此number和street属性或被减掉,residence_city它仅包含四个不一样取值。因此将residence属性被泛化成residence_city

(7) phone#,与name属性类似,减掉

(8) gpa,假设gpa存在一个概念层次树。它将平均成绩划分为若干组。如{3.75-4.0,3.5-3.75等},也能够相应的描述为:{excellent,good, …},所以该属性应进行属性的泛化操做。

所以得以下结果。

clip_image003[7]

相关文章
相关标签/搜索