数据挖掘中的聚类分析方法
随着计算机应用的普及?/p>
信息系统产生的数据量日益增大?/p>
如何有效地利用巨量的原始
数据分析现状和预测未来,
己经成为人类面临的一大挑战?/p>
由此数据挖掘技术应运而生并得
以迅猛发展,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果?/p>
数据挖掘?/p>
Data Mining)
,又称为数据库中的知识发?/p>
(
简?/p>
KDD)
,是从大量数据中?/p>
取可信的?/p>
新颖的?/p>
有效的并能被人们理解的模式的处理过程?/p>
数据挖掘是一门新兴的技术,
它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学?/p>
的成果综合在一起,
进行如何从数据库中得到有用信息的研究?/p>
数据挖掘技术得到了人们?/p>
普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运
输等各个企事业单位及国防科研上?/p>
聚类分析是数据挖掘中的一个重要研究领域?/p>
所谓聚类,
就是把没有类别标记的样本?/p>
按某种准则划分成若干类,
使类内样本的相似性尽可能大,
而类间样本的相似性尽量小?/p>
?/p>
一种无监督的学习方法?/p>
聚类分析通常是在没有先验知识支持的前提下进行的,
它所要解?/p>
的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上?/p>
产生性能好而且实用的聚类算法是其终极目的?/p>
聚类是一个富有挑战性的研究领域?/p>
采用基于聚类分析方法的数据挖掘在实践中己取得
了较好的效果?/p>
在实际操作中往往不是采用单一的手段,
而是采用多种手段和方法相结合?/p>
据潜在的各项应用,数据挖掘对聚类的典型要求有以下
9
个方?/p>
:
(1)
可伸缩?/p>
可伸缩性是指算法不论对于小数据集还是对于大数据集,
都应是有效的在很多聚类算?/p>
当中?/p>
对于数据对象小于
200
个的小数据集合性很好,
而对于包含成千上万个数据对象的大
规模数据库进行聚类时?/p>
将会导致有不同的偏差结果?/p>
此外?/p>
可伸缩性算法应该随着数据?/p>
大小的变化,其运行时间应该线性变化?/p>
(2)
处理不同字段类型的能?/p>
算法不仅要能处理数值型数据,还要有处理其它类型字段的能力,包括分类标称类型
(catalog
?/p>
Viminal)
,序数型
(ordinal)
,二元类?/p>
(binary)
,或者这些数据类型的混合?/p>
(3)
能够发现任意形状的聚?/p>
(4)
用于决定输入参数的领域知识最小化
在聚类分析当中,
许多聚类算法要求用户输入一定的参数?/p>
如希望簇的数目聚类结果对
于输入参数很敏感?/p>
通常参数较难确定?/p>
尤其是对于含有高维对象的数据集更是如此?/p>
要求
用人工输入参数不但加重了用户的负担,也使得聚类质量难以控制?/p>
(5)
处理高维数据的能?/p>
既可处理属性较少的数据,又能处理属性较多的数据很多聚类算法擅长处理低维数据?/p>
一般只涉及两到三维?/p>
通常最多再加二维的情况下能够很好地判断聚类的质量聚类数据对?/p>
在高维空间是非常具有挑战性的?/p>
尤其是考虑到这样的数据可能高度偏斜并且非常稀疏?/p>
?/p>
如,考虑包含不同地区的温度测量的数据集如果温度在一个相当长的时间周期内重复地测
量,
则维度的增长正比于测量的次数为低维数据开发的传统的数据分析技术通常不能很好?/p>
处理这样的高维数据?/p>
(6)
能够处理噪声数据
现实世界中的数据库常常包含了孤立点空缺未知数据或有错误的数据一些聚类算法对
于这样的数据敏感?/p>
可能导致低质量的聚类结果所以我们希望算法可以在聚类过程中检测代
表噪声和离群的点,然后删除它们或者消除它们的负面影响?/p>