数据挖掘简介
数据挖掘的任务
数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分:
数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。
多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统 Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。
采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,
直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。
数据挖掘的分类
数据挖掘所能发现的知识有如下几种:
.广义型知识,反映同类事物共同性质的知识;
.特征型知识,反映事物各方面的特征知识;
.差异型知识,反映不同事物之间属性差别的知识;
.关联型知识,反映事物之间依赖或关联的知识;
.预测型知识,根据历史的和当前的数据推测未来数据;
.偏离型知识。揭示事物偏离常规的异常现象。
所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买
食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。
数据挖掘的方法
数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没有适合每个人的简单方法。
数据挖掘算法作为数据挖掘的核心部分,它被研究得最多。目前存在很多数据挖掘方法或算法,有必要对这些方法进行分门别类[59]。我们知道,描述或说明一个算法涉及三个部分:输入、输出和处理过程。数据开采算法的输入是数据库,算法的输出是要发现的知识或模式,算法的处理过程则涉及具体的搜索算法,可以确定这样几种分类标准:挖掘任务、挖掘对象和挖掘方法。
此外,还有粗糙方法、云模型等。
数据挖掘网格的定义
在数据挖掘技术和网格计算的研究背景下,数据挖掘网格(DMG,Data MiningGrid)
作为一个研究方向出现了。由于这是一个新的技术交叉领域,目前没有权威的定义。
本文尝试对“数据挖掘网格”定义如下:它是数据挖掘技术与网格计算的有机结合,可以用于分布式环境下的数据模式发现。数据挖掘网格能够提供对大规模数据挖掘计算的解决方案,可以充分利用分布式计算的能力对相关的数据进行分析与综合。
具体而言,数据挖掘网格是一种通过共享解决方案、算法、计算、数据、存储服务来解决可靠和可扩展的商业智能分析(主要为数据挖掘)任务的系统,它能够在动态变化的多个节点间共享资源和协同解决商业智能分析(主要为数据挖掘)问题。其特点是具有好的扩展性(从理论上可以无限扩展),用户透明性,可靠性,高性能计算,分布性,协同性,主要应用于协同解决商业智能分析问题。
数据挖掘网格的意义
将数据合理地划分为若干个小模块,并由分布式数据挖掘系统并行地处理,最后再将各个局部处理结果综合成最终的输出模式,可以解决本文前言中提到的分布式计算和海量数据的挑战。这样不但能够保护已有软硬件投资,而且这种系统天生还具有计算力可无限扩展的能力。
分布并行计算是超级计算的研究重点,分布计算的当前研究重点是网格计算。网格计算的实质是,从逻辑上看它是一台可扩展的超级计算机,可以实时的进行计算能力的扩展,特点是按照计算的需要提供计算能力(规模可大可小),而不是预先购置超级的计算能力(成本高,难以扩展)。这就是网格计算区别于一般超级计算机的最大优势。
国内外数据挖掘和网格结构研究
体系结构研究
数据挖掘网格是一个新的概念和技术,是数州挖掘和网格技术的结合。鲜有资料专门论述数据挖掘网格架构的,所以,在论述当前已有相关研究,本文主要从网格架构和数据挖掘技术两个方面分别的研究现状进行综述。
数据挖掘网格相关的研究主要包含数据挖掘网格分布式算法研究和数据挖掘网格体系结构研究,以下是这两大方面在研究的项目和成果。网格技术研究历史方面,先提出的概念是计算网格、数据网格、信息网格、网格中间件,然后逐渐形成了服务网格、语义网,WEB数据挖掘,知识网格的概念,并展开了研究工作。数据挖掘网格是一种从计算网格和到知识网格的一个阶段上的研究成果。其中,计算网格研究得最早,全球目前的网格项目中,绝大多数都是计算网格。
当前,国内外己经对分布式数据挖掘展开了一定的研究。研究主要集中在分布式数据挖掘算法研究和数据挖据网格体系结构的研究。
目前有些有影响的项目和成果叙述如下。
Globus ToolKit,OGSI与OGSA
因篇幅问题不能全部显示,请点此查看更多更全内容