碧波液压网 欢迎你,游客。 登录 注册

初始聚类中心优化选取的核C-均值聚类算法

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。

  

  1 引言

  聚类分析是非监督模式识别中的一种重要方法。它无需任何先验知识,只按照某种相似程度的度量,把相似的样本归为一类,不相似的样本归为不同的类。C-均值聚类算法[1-3]是常用的聚类算法之一。因其算法简单,收敛速度快,在实际中得到了广泛的应用。但C-均值聚类算法存在固有的缺陷,它对于各类样本的边界是线性不可分以及类分布为非高斯分布或类分布为非椭圆分布时,其聚类效果较差[4]。文献[4]提出了一种用于聚类分析的核聚类思想,将输入空间的样本核映射到特征空间,在特征空间中进行聚类,取得了好的识别效果。文献[5]将核函数的思想与模糊聚类算法相结合,形成了模糊核聚类算法。之后不断有作者将核函数的思想与具体的聚类算法相结合,并都取得了较好的识别效果。文献[6]将核函数的思想应用到C-均值聚类算法中,提出一种核C-均值聚类算法,该算法能有效克服C-均值聚类算法的不足,提高聚类的效果。

  核C-均值聚类算法是在C-均值聚类算法的基础上所做的改进,同C-均值聚类算法一样,它也是一种基于目标函数的聚类算法。在C-均值聚类算法中,由于目标函数存在局部极小点,所以,如果初始化落在一个局部极小点附近,就可能使算法收敛到局部极小。核C-均值聚类算法也存在同样的问题,其聚类结果对初始中心有一定的敏感性。初始聚类中心选取的不同会影响分类的结果,并且对运算时间即收敛次数也有一定程度的影响。随机选取初始聚类中心容易造成迭代次数相对较多,运算时间相对较长,分类结果随初始聚类中心的变化波动,分类效果不稳定。针对核C-均值聚类算法中存在的上述问题,本文提出一种优化选取初始聚类中心的方法。该方法首先采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类。仿真实验验证了该方法的有效性。

  2 核C-均值聚类算法

  传统的C-均值聚类算法[1]算法简单,收敛速度快,在实际中得到了广泛的应用。但是, C-均值聚类算法只适用于样本分布为高斯分布或团状分布的情况。当样本线性不可分或样本分布为非高斯分布或非椭圆分布时,该算法实用性较差[4]。

  针对该问题,Girolami[7]首先提出了将核方法与聚类方法相结合的思想,通过把模式空间的数据非线性映射到特征空间,增加了模式的线性可分概率,即扩大模式类之间的差  异,在高维特征空间达到线性可聚的目的。文献[7]中指出,只要非线性映射是连续和光滑的,原空间中样本的拓扑结构将会在高维空间中得到保持;并且基于核的聚类算法在类分  布不为超球体或超椭圆体时依然有效。在此基础上,文献[6]将核方法与具体的C-均值聚类算法相结合,提出了核C-均值聚类算法,并经仿真实验证实其有效性。

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码:

最新评论