Day 21 常见聚类算法-酒店常州论坛

@浙大疏锦行

知识点
1.聚类的指标
2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
3.三种算法对应的流程

作业：把心脏病数据进行聚类处理

一.kmeans聚类处理结果：

这里我选择K=4，结果如下：

能很明显看出来区分度不足，ai建议换成2试一试，结果如下：

能看出来比4好点，但是也不是很好，可能跟心脏病数据是带标签的分类数据（本身是 “健康 / 患病” 的二分类），但 KMeans 是 “无监督聚类”以及这个数据的特征之间天然区分度不算高有关。

二.dbscan聚类

16条有效参数生成的，结果为最优eps: 0.8, 最优min_samples: 2.0

结果还是很差，可能与eps小有关，我调整成1.2/1.5都试了试，效果也不显著，结果差不多

三.层次聚类

能看出来这个结果是当前尝试的算法中最有效的，但受数据本身特征限制，簇的紧凑度和分离度无法达到完全清晰”的程度。

层次聚类树状图直观呈现了心脏病数据集样本的簇合并过程，纵坐标代表簇间合并差异度（值越小表明簇间相似度越高），横坐标对应不同阶段的簇分组；底部小簇因相似度高优先合并，随纵坐标升高逐步形成中簇、大簇，合并差异度持续增大，而顶部最大差异处的切分结果与此前选定的 n=2 聚类数一致，进一步验证了该聚类数在心脏病数据无监督分组中的合理性。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？