我正在使用K-均值聚类来在计算机上运行的过程。

数据集示例:

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

建立一个相关计数的矩阵:

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

然后,我对此数据集运行K-均值(尝试过欧几里得和曼哈顿距离功能)数据集非常稀疏,我认为这会导致生成的群集没有多大意义,因为许多机器都被分组为同一集群(因为它们非常非常非常相似的)

如何实现每个群集包含大约相等数量的簇?或者,由于数据的稀疏性,这是不可能的,而我应该尝试将数据集的不同属性聚集?

有帮助吗?

解决方案

聚类分析不是 应该 产生相等大小的组件。它旨在发现数据中的结构。

如果大多数对象高度相似,那么大多数对象应该在大多数群集中。

考虑您的所有数据都是相同的。我认为,任何产生多个集群的聚类算法都失败了...

因此,您可能使用错误的算法类别来解决问题。

许可以下: CC-BY-SA归因
scroll top