龙源期刊?/p>
http://www.qikan.com.cn
K-means
算法研究综述
作者:丛思安
王星?/p>
来源:《电子技术与软件工程?/p>
2018
年第
17
?/p>
摘要
k-means
算法是一种非常简单并且使用广泛的聚类算法,但是一?/p>
k
值需要预先给定,?/p>
多情况下
k
值的佑计很困难。二?/p>
K-Means
算法对初始选取的聚类中心点很敏感,不同的中?/p>
点聚类结果有很大的不同。也就是说,有可能陷入局部最优解。三是对离群点敏感,聚类结果
易产生误差。四是相似性度量的函数不同也会对聚类结果产生影响。本文针?/p>
k-means
的缺
陷,对这几年
k-means
算法的研究进展进行了综述。从初始中心点的选取、离群点的检测与?/p>
除、相似性度量等几个方面进行概括、比较最后,?/p>
k-means
算法的未来趋势进行展望?/p>
【关键词?/p>
k-means
算法
初始聚类中心
相似性度?/p>
离群?/p>
K-means
聚类算法是由
Steinhaus 1955
年?/p>
Lloyd 1957
年?/p>
Ball&Hall 1965
年?
McQueen1967
年分别在各自的不同的科学研究领域独立的提出?/p>
K-means
聚类算法被提出来
后,经过多年的实践证明,
k-means
算法依然是简单、高效的算法,并且被广泛应用在科学研
究以及工业应用中,发展出大量的改进的算法。目前,
k-means
算法仍然是一个研究热点?/p>
K-means
算法的改进主要从以下几个方面:一是如何确定合适的
k
值,二是如何选取好的
初始聚类中心,三是离群点的检测与去除,四是距离与相似度度量的改进以及其他方面的改?/p>
等等。本文则从以上几个方面对
k-means
算法的研究进展进行综述。本文第一部分介绍传统?/p>
k-means
算法,第二部分从各个方面介绍
k-means
算法的优化,第三部分进行总结以及展望?/p>
1
传统?/p>
k-means
算法
K-means
算法是一种简单、高效的聚类算法,并得到了广泛的应用?/p>
K-means
算法的基?/p>
思想是首先随机选取初始聚类中心,然后计算每个样本点到初始聚类中心的欧式距离,按照距
离最近的准则将它们分配给相似度最大的聚类中心所代表的类。计算每个类别所有样本点的均
值,更新聚类中心,直到目标准则函数收敛为止。具体算法步骤如下:
?/p>
1
)用户输入类簇数目的?/p>
k
,从
n
个样本点中随机选取
k
个点作为初始聚类中心
;
?/p>
2
)遍历所有的样本点,计算每个样本点到初始聚类中心的欧式距离,欧氏距离的大?/p>
作为相似度的评判标准,欧氏距离越小,相似度越大。按照距离最近的准则将样本点分配给相
似度最大的聚类中心所代表的类?/p>