KMeans聚类超过500万个向量

小编典典

KMeans聚类超过500万个向量

algorithm

我遇到了一个真正的问题。我需要对500万个向量进行一些Kmeans聚类，每个向量包含约32个cols。我试用了需要Linux的Mahout，并且我在Windows上，无法使用Linux
OS和任何类型的模拟器。

谁能提出KMeans聚类算法，该算法可扩展到5M向量，并且可以快速收敛？

我测试了一些，但它们无法扩展。这意味着它们很慢并且要花很长时间才能完成。

谢谢

阅读 480

收藏

2020-07-28

共1个答案

小编典典

好的，所以想要对大型数据集进行聚类的人，唯一的方法是使用Mahout。IT需要Linux平台。所以我不得不使用虚拟盒子，在上面放置Ubuntu，然后再使用Mahout。设置Mahout的过程很漫长，但是我使用的两个链接如下。

http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_（单节点群集）

http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_（多节点集群）

2020-07-28