聚类算法分析报告汇总

嵌入式方向工程设计实验报告

成评语绩教师：年月日

学院班级： 130712 学生学号： 13071219 学生姓名：杨阳同作者：无实验日期： 2010年12月

聚类算法分析研究

1 实验环境以及所用到的主要软件

Windows Vista NetBeans6.5.1 Weka3.6

MATLAB R2009a

2 实验内容描述

聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。

实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以UCI Machine Learning Repository网站下载的IRIS和WINE数据集为基础通过MATLAB实现对上述算法的实验测试。然后以WINE数据集在学习了解Weka软件接口方面的基础后作聚类分析，使用最常见的K均值（即K-means）聚类算法和FCM模糊聚类算法。下面简单描述一下K均值聚类的步骤。

K均值算法首先随机的指定K个类中心。然后：

（1）将每个实例分配到距它最近的类中心，得到K个类；

（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。重复（1）和（2），直到K个类中心的位置都固定，类的分配也固定。在实验过程中通过利用Weka软件中提供的simpleKmeans（也就是K均值聚类算法对WINE数据集进行聚类分析，更深刻的理解k均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的基础上对Weka软件进行一定的扩展以加入新的聚类算法来实现基于Weka平台的聚类分析。

3 实验过程

3.1

K均值聚类算法

3.1.1 K均值聚类算法理论

K均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K均值算法的划分理论基础是

min??k?Axk?vii?1ic2 （1）

其中c是划分的聚类数，Ai是已经属于第i类的数据集vi是相应的点到第i类的平均距离，即

vi??Nik?1xkNi,xk?Ai

（2）

其中Ni表示在数据集Ai中的对象数。 3.1.2 算法的基本过程

step1:任意选择K个对象作为初始的类的中心； step2:repeat；

step3:根据类中的平均值,将每个数据点 (重新)赋给最相近的类； step4:更新

类的平均值；

step5:until不再发生变化,即没有对象进行被重新分配时过程结束。

3.1.3 算法代码分析

K均值聚类算法的代码分析过程如下

首先调用clust_normalize（）函数将数据集标准化具体过程如下 data=clust_normalize(data,'range'); 下面是对K均值算法的初始化 if max(size(param.c))==1, c = param.c;

index=randperm(N);

v=X(index(1:c),:);v = v + 1e-10;

v0=X(index(1:c)+1,:);v0 = v0 - 1e-10; else

v = param.c; c = size(param.c,1); index=randperm(N);

v0=X(index(1:c)+1,:);v0 = v0 + 1e-10; end iter = 0;

接着是迭代求解直到满足要求的解或者达到最大的迭代值 while prod(max(abs(v - v0))), iter = iter +1; v0 = v;

for i = 1:c

这里是用来计算欧氏距离

dist(:,i) = sum([(X - repmat(v(i,:),N,1)).^2],2); end

下面将分类结果赋值

[m,label] = min(dist');

聚类算法分析报告汇总

下载：聚类算法分析报告汇总.doc

最近浏览

最新搜索

站内搜索