Day 21 常见聚类算法
2026/6/29 1:50:07 网站建设 项目流程

@浙大疏锦行

知识点
1.聚类的指标
2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
3.三种算法对应的流程

作业:把心脏病数据进行聚类处理

一.kmeans聚类处理结果:

这里我选择K=4,结果如下:

能很明显看出来区分度不足,ai建议换成2试一试,结果如下:

能看出来比4好点,但是也不是很好,可能跟心脏病数据是带标签的分类数据(本身是 “健康 / 患病” 的二分类),但 KMeans 是 “无监督聚类”以及这个数据的特征之间天然区分度不算高有关。

二.dbscan聚类

16条有效参数生成的,结果为最优eps: 0.8, 最优min_samples: 2.0

结果还是很差,可能与eps小有关,我调整成1.2/1.5都试了试,效果也不显著,结果差不多

三.层次聚类

能看出来这个结果是当前尝试的算法中最有效的,但受数据本身特征限制,簇的紧凑度和分离度无法达到 完全清晰”的程度。

层次聚类树状图直观呈现了心脏病数据集样本的簇合并过程,纵坐标代表簇间合并差异度(值越小表明簇间相似度越高),横坐标对应不同阶段的簇分组;底部小簇因相似度高优先合并,随纵坐标升高逐步形成中簇、大簇,合并差异度持续增大,而顶部最大差异处的切分结果与此前选定的 n=2 聚类数一致,进一步验证了该聚类数在心脏病数据无监督分组中的合理性。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询