几种不一样存储形式下的数据挖掘问题[ZZ]

从原理上说,数据挖掘应该能够应用到任何信息存储方式的知识挖掘中,可是挖掘的挑战性和技术会由于源数据的存储类型的不一样而不一样。特别是,近年来的研究代表数据挖掘所涉及的数据存储类型愈来愈丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。本节将针对一些主要的数据存储类型中的数据挖掘的问题进行介绍。算法

    一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)做为商业应用背景的。此时的被挖掘的数据库是顾客放入购物篮的商品记录,挖掘的目的就是经过发现顾客购买商品之间的关联来指导商业决策制订的。基于这样的缘由,也有人把Transactional Database翻译成交易数据库。如今看来,这种理解有其局限性。事实上,Transactional Database的挖掘问题,已经不只能够直接应用到诸如采购、销售、市场调查等这些商业活动中,并且已经成为一个解决问题的通用框架。例如,咱们能够把用户访问一个数据库或网站的行为组织成一个Transactional Database形式。所以,咱们这里的Transactional Database仍是指更宽泛的范畴。从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。经过特定的技术对事务数据库进行挖掘,能够得到动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。数据库

1、关系型数据库中的数据挖掘
    关系型数据库是由一系列数据表的组成的。它自己的发展是至关成熟的,它有成熟的语义模型(像实体-关系模型),有成熟的DBMS(像Oracle),有成熟的查询语言(像SQL语言),并且有一批可视化的工具可使用或借鉴。随着关系型数据库应用的普及和深刻,人们在思考更高层次地利用它的问题,那就是关系型数据库中的数据挖掘问题。从一个关系型数据库中,咱们能够根据挖掘目标得到想要的知识类型或模式,如上面提升的广义知识、关联知识、类知识、预测型知识和特异型知识等。
    关于关系型数据库中的数据挖掘已经积累了不少方法和成果。事实上面提到的事务型数据库能够看做是关系型数据库的特例,它的研究成果能够经过改造被利用。目前的研究更倾向于针对关系型数据库的特色集成多种技术来解决实际的应用问题。
(1)多维知识挖掘问题
 传统的事务数据库挖掘所研究的知识通常是单维(Single-Demension)的。例如,“购买计算机的人也购买打印机”这样的知识,它刻画了以“购买”行为做为聚焦点(维)的商品间的关联。可是,在关系型数据库中,仅有这样的知识可能还不够。例如,人们可能进一步想知道“什么样购买计算机的人也购买打印机的可能性更大?”,所以,象“收入高的人在购买计算机时也购买打印机”这样的知识更须要。因为关系型数据库能够存储包含收入状况等的客户基本资料以及客户购买记录,因此这样的知识是能够得到的。这样的知识是多维(Multi-Demension)的,由于它有两个聚焦点:购买和收入。另外,提到多维概念,可能天然会和多维数据库联系起来。的确,在数据仓库、OALP等研究中的多维数据库能够成为多维数据挖掘的更理想载体。
(2)多表挖掘和数量数据挖掘问题
 咱们认为,这是关系型数据库有别于传统的事务数据库挖掘中的两个重要问题。从逻辑上说,关系型数据库是一系列表的集合。所以,在关系型数据库的挖掘中,除了要考虑表内属性的关联外,也必须考虑表间属性的关联。传统的事务数据库挖掘所研究的技术和算法通常是基于单表的。所以,在关系型数据库挖掘中必须考虑多表的挖掘技术。另外,在关系型数据库中,可能具备数量属性(如工资)。
(3)多层知识挖掘问题
 数据及其关联老是能够在多个不一样的概念层上来理解它。联系咱们前面描述的多层次广义知识挖掘问题,在必定的背景知识下,一个关系型数据库能够在多个概念层次上来挖掘相关的知识。1995年,Srikant和Agrawal创建了以广义知识挖掘框架来研究多层知识挖掘的思想,并提出了R-兴趣度等概念。另外一个比较有表明性的工做是Han等对大型数据库的多层知识挖掘问题的研究。
(4)知识评价问题
1996年,Chen和Han发现按着Agrawal的规则发现理论进行强关联规则(Strong Association Rule)挖掘存在的问题。他们当时给出的例子是,在一个购物篮数据库中,经过Apriori算法发现了关联规则:buy(X,‘computer games’)=> buy(X,‘videos’)[support=40%, confidence=66%]。可是,事实上,计算机游戏和录象产品是负相关的,即购买了其中一种的客户实际上减小了购买另外一种的可能性。所以,对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必需要解决的问题。近年来,在关系型数据库所挖掘的知识的评价和改进方法的研究也不少。
(5)约束数据挖掘问题
数据挖掘系统在用户的约束指导下进行,能够提升挖掘效率和准确度。关于它的研究是一个很宽泛的课题。在可视化和交互式数据挖掘中,用户约束的使用和输入是可视化和交互式挖掘的前提。对关系型数据库而言,因为它的属性的复杂性(如大量数量属性存在)、属性关联的蕴涵存储以及多表或多层次概念等问题,约束数据挖掘问题就显得更为重要。数据结构

    关系型数据库中的数据挖掘是一个应用价值很高的研究领域,有许多课题须要进一步深刻。并且它的研究不是孤立的,不只须要借助于那些趋于成型的理论构架,并且已经和其它的数据存储类型,如事务数据库、数据仓库等研究相互交叉和补充。并发

2、数据仓库中的数据挖掘
    数据仓库中的数据是按着主题来组织的。存储的数据能够从历史的观点提供信息。面对多数据源,通过清洗和转换后的数据仓库能够为数据挖掘提供理想的发现知识的环境。假如一个数据仓库模型具备多维数据模型或多维数据立方体模型支撑的话,那么基于多维数据立方体的操做算子能够达到高效率的计算和快速存取。虽然目前的一些数据仓库辅助工具能够帮助完成数据分析,可是发现蕴藏在数据内部的知识模式及其按知识工程方法来完成高层次的工做仍须要新技术。所以,研究数据仓库中的数据挖掘技术是必要的。
    数据挖掘不只伴随数据仓库而产生,并且随着应用深刻产生了许多新的课题。若是咱们把数据挖掘做为高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。随着数据仓库技术的出现,出现了联机分析处理应用。OLAP尽管在许多方面和数据挖掘是有区别的,可是它们在应用目标上有很大的重合度,那就是它们都不知足于传统数据库的仅用于联机查询的简单应用,而是追求基于大型数据集的高级分析应用。客观讲,数据挖掘更看中数据分析后所造成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,咱们能够把数据挖掘看做是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。因为数据仓库、OLAP和数据挖掘技术都是针对高级数据分析应用而提出的,所以早期他们常常放在一块儿研究。如今,随着研究的深刻,它们不管是在研究仍是应用上都已经有所侧重。框架

3、在关系模型基础上发展的新型数据库中的数据挖掘
    面向对象数据库、对象—关系型数据库(Object-Ralational Database)以及演绎等新型数据库也成为数据挖掘的新的研究对象。随着数据库技术的发展,这些数据库系统诞生并发展以知足新的应用需求。在这些新型数据库系统上的数据挖掘成为不可回避的挑战性课题。ide

4、面向应用的新型数据源中的数据挖掘
    一些面向新型应用的数据库,如空间数据库、时态数据库、工程数据库(Engineering Database)和多媒体数据库等,已经获得了充分的发展。这些新型应用须要处理和分析空间数据、时态数据、工程设计数据和多媒体数据等。这些应用须要高效的数据结构和可用的处理复杂结构、长变量记录、半结构或无结构数据的方法。例如,卫星图象多是以光栅形式来表示数据的,而一个城市地图数据多是矢量形式。这些光栅或矢量数据一样蕴涵着丰富的知识而且它们的挖掘技术有本身的特色。经过一个用于气候分析的卫星图象,咱们可能须要知道海拔高度和睦候之间的关联;经过一个城市地图,咱们可能渴望知道高收入家庭与他们所处的位置有什么关系等。时态数据库老是包含时态相关的属性,这些数据对时间变化是敏感的。例如,股票数据记录了随时间变化的数据序列,咱们经过它能够挖掘出数据的发展趋势,进而能够帮助咱们制订正确的投资战略。在这些数据集或数据库上的知识发现工做为数据挖掘提供了丰富的研究及开发土壤。工具

5、Web数据源中的数据挖掘
    面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多,由于Web上的数据是复杂的。有些是无结构的(如Web页),一般都是用长的句子或短语来表达文档类信息;有些多是半结构的(如Email,HTML页)。固然有些具备很好的结构(如电子表格)。揭开这些复合对象蕴涵的通常性描述特征成为数据挖掘的不可推卸的责任。
    Web挖掘(Web Mining)必须面对下面一些关键问题。
(1)异构数据源环境
Web网站上的信息是一个更大、更复杂的数据体。若是把Web上的每个站点信息看做是一个数据源的话,那么这些数据源是异构的,由于每一个站点的信息和组织都不同。想要利用这种海量数据进行数据挖掘,首先,必需要研究站点之间异构数据的集成问题。只有将这些站点的数据都集成到一个统一的视图上,才有可能获取所需的东西。其次,还要解决Web上的数据查询问题,由于若是所需的数据不能颇有效地获得,对这些数据进行分析、集成、处理就无从谈起。
(2)半结构化的数据结构
Web上的数据与传统的数据库中的数据不一样,Web上的数据更可能是半结构化的。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。针对Web上的数据半结构化的特色,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还须要一种半结构化模型抽取技术。咱们知道,每一站点的数据都各自独立设计,而且数据自己具备自述性和动态可变性,所以面向Web的数据挖掘是一项复杂的技术。XML(eXtensible Markup Language)是由万维网协会(W3C)设计的一种中介标示语言(Meta-markup Language),可提供描述结构化资料的格式。XML的扩展性和灵活性容许XML描述不一样种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。因为基于XML的数据是自我描述的,数据不须要有内部描述就能被交换和处理。所以,XML可以使不一样来源的数据很容易地结合在一块儿,于是使搜索异构数据成为可能,为解决Web数据挖掘难题带来了但愿。
(3)动态变化的应用环境
首先,Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。并且这种高变化也体如今页面的动态连接和随机存取上。其次,Web上的用户是难以预测的。用户具备不一样的知识背景、兴趣以及访问目的。最后,Web上的数据环境是高噪音的。研究代表,一个Web站点的数据可能只有不超过1%的信息是对特定挖掘主题是相关的。这些变数也是Web数据挖掘必须面对的问题。网站

参考文献:ui

Han J et al. Data mining:Concepts and techniques. Morgan Kaufmann Publishers,2001. 
Agrawal R et al. A. Mining assocation rules between sets of items in large databases.In Proc. ACM SIGMOD Conf. on Management of Data. 1993: 207~216.
http://www.acm.org/sigmod/sigmod02/eproceedings.
Agrawal R et al. Fast algorithms for mining association rules in large databases. In Proc. 20th Int. Conf. Very Large DataBases, 1994: 478~499
Srikant R and Agrawal R. Mining generalized association rules. In Proc. 21st Int. Conf. Very Large DataBases, 1995: 407~419.
Han J et al. Discovery of multiple-level association rules from large databases, In Proc. 21st Int. Conf. Very Large DataBases. Zuiich, Swizerland. Sept. 1995: 420~431.
Brin S et al. Beyond market baskets: generlizing association rules to correlations. In Proc. 1997 ACM SIGMOD Int. Conf. Management Data. Tucson, USA. 1997: 265-276. Ahmed N et al. A Note on “Beyond market baskets: generlizing association rules to correlations.” SIGKDD Explorations. 2000,Vol. 1: 48~48.
Pei J et al. Can we push more constraints into frequent pattern mining? In Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining. Boston, USA. Aug. 2000.
Grahne G et al. Efficient mining of constrained correlated sets. In Proc. 2000 Int. Conf. Data Engineering. San Diego, USA. Feb. 2000: 512~521.
http://www.dmgroup.org.cn/zs.htm.
http://www.dmgroup.org.cn/ppt/XML%20Index&Join.ppt.翻译

相关文章
相关标签/搜索