聚类不产生什至群集

题

我正在使用K-均值聚类来在计算机上运行的过程。

数据集示例：

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

建立一个相关计数的矩阵：

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

然后，我对此数据集运行K-均值（尝试过欧几里得和曼哈顿距离功能）数据集非常稀疏，我认为这会导致生成的群集没有多大意义，因为许多机器都被分组为同一集群（因为它们非常非常非常相似的）

如何实现每个群集包含大约相等数量的簇？或者，由于数据的稀疏性，这是不可能的，而我应该尝试将数据集的不同属性聚集？

解决方案

聚类分析不是应该产生相等大小的组件。它旨在发现数据中的结构。

如果大多数对象高度相似，那么大多数对象应该在大多数群集中。

考虑您的所有数据都是相同的。我认为，任何产生多个集群的聚类算法都失败了...

因此，您可能使用错误的算法类别来解决问题。

许可以下： CC-BY-SA 和归因