1.1网络以后的下一个技术热点
咱们如今已经生活在一个网络化的时代,通讯、计算机和网络技术正改变着整我的类和社会。若是用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道传输速率来衡量通讯技术,那么摩尔定律告诉咱们,它们都是以每18个月翻一番的速度在增加,这一势头已经维持了十多年。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,国内状况亦然。1999年初,中国上网用户为210万,如今已经达到600万(做者可能有误,到2006年中国上网用户超过1.1亿,其中宽带上网用户达6430万人,中国网民数和宽带上网人数均位居世界第二)网络的发展致使经济全球化,在1998年全球产值排序前100名中,跨国企业占了51个,国家只占49个。有人提出,对待一个跨国企业也许比对待一个国家还要重要。在新世纪钟声刚刚敲响的时候,回顾往昔,人们不只要问:就推进人类社会进步而言,历史上能与网络技术相比拟的是什么技术呢?有人甚至提出要把网络技术与火的发明相比拟。火的发明区别了动物和人,种种科学技术的重大发现扩展了天然人的体能、技能和智能,而网络技术则大大提升了人的生存质量和人的素质,令人成为社会人、全球人。
如今的问题是:网络以后的下一个技术热点是什么?让咱们来看一些身边俯拾便是的现象:《纽约时报》由60年代的10~20版扩张至如今的100~200版,最高曾达1572版;《北京青年报》也已经是16~40版;市场营销报已达100版。然而在现实社会中,人均日阅读时间一般为30~45分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提升信息利用率?”
面对这一挑战,数据开采和知识发现(DM&KDD)技术应运而生,并显示出强大的生命力。
1.2 数据爆炸但知识贫乏
另外一方面,随着数据库技术的迅速发展以及数据库管理系统的普遍应用,人们积累的数据愈来愈多。激增的数据背后隐藏着许多重要的信息,人们但愿可以对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统能够高效地实现数据的录入、查询、统计等功能,但没法发现数据中存在的关系和规则,没法根据现有的数据预测将来的发展趋势。缺少挖掘数据背后隐藏的知识的手段,致使了“数据爆炸但知识贫乏”的现象。
1.3 支持数据挖掘技术的基础
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各类商业数据是存储在计算机的数据库中的,而后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不只能对过去的数据进行查询和遍历,而且可以找出过去数据之间的潜在联系,从而促进信息的传递。如今数据挖掘技术在商业应用中已经能够立刻投入使用,由于对这种技术进行支持的三种基础技术已经发展成熟,他们是:
- - 海量数据搜集
- - 强大的多处理器计算机
- - 数据挖掘算法
Friedman[1997]列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣:
- - 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;
- - 先进的计算机技术,例如更快和更大的计算能力和并行体系结构;
- - 对巨大量数据的快速访问;
- - 对这些数据应用精深的统计方法计算的能力。
商业数据库如今正在以一个空前的速度增加,而且数据仓库正在普遍地应用于各类行业;对计算机硬件性能愈来愈高的要求,也能够用如今已经成熟的并行多处理机的技术来知足;另外数据挖掘算法通过了这10多年的发展也已经成为一种成熟,稳定,且易于理解和操做的技术。
1.4 从商业数据到商业信息的进化
从商业数据到商业信息的进化过程当中,每一步前进都是创建在上一步的基础上的。见下表。表中咱们能够看到,第四步进化是革命性的,由于从用户的角度来看,这一阶段的数据库技术已经能够快速地回答商业上的不少问题了。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及普遍的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
1.5 数据挖掘逐渐演变的过程 数据挖掘实际上是一个逐渐演变的过程,电子数据处理的初期,人们就试图经过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的并已被成功解决的问题做为范例输入计算机,机器经过学习这些范例总结并生成相应的规则,这些规则具备通用性,使用它们能够解决某一类的问题.随后,随着神经网络技术的造成和发展,人们的注意力转向知识工程,知识工程不一样于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是经过使用这些规则来解决某些问题。专家系统就是这种方法所获得的成果,但它有投资大、效果不甚理想等不足。80年代人们又在新的神经网络理论的指导下,从新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指全部从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使用数据挖掘中有许多工做能够由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。 数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘愈来愈热的缘由之一。可是,数据仓库并非数据挖掘的先决条件,由于有不少数据挖掘可直接从操做数据源中挖掘信息。