5.聚类算法-kmeans

2021-03-25 18:29

阅读：772

标签：性能数据集一起异常优缺点总结参数 k-means 平衡

1.原理

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

2、api

3、性能评估

技术图片

越接近1越好，一般不超过0.7

4、优缺点

优点
1）原理比较简单，实现也是很容易，收敛速度快。
2）聚类效果较优。
3）算法的可解释度比较强。
4）主要需要调参的参数仅仅是簇数k。

缺点
1）K值的选取不好把握
2）对于不是凸的数据集比较难收敛
3）如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。
4）最终结果和初始点的选择有关，容易陷入局部最优。
5）对噪音和异常点比较的敏感。

5、总结

5.聚类算法-kmeans

标签：性能数据集一起异常优缺点总结参数 k-means 平衡

原文地址：https://www.cnblogs.com/dominik/p/13770261.html

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：5.聚类算法-kmeans
文章链接：http://soscw.com/essay/67954.html

亲，登录后才可以留言！