小编典典

KMeans聚类超过500万个向量

algorithm

我遇到了一个真正的问题。我需要对500万个向量进行一些Kmeans聚类,每个向量包含约32个cols。我试用了需要Linux的Mahout,并且我在Windows上,无法使用Linux
OS和任何类型的模拟器。

谁能提出KMeans聚类算法,该算法可扩展到5M向量,并且可以快速收敛?

我测试了一些,但它们无法扩展。这意味着它们很慢并且要花很长时间才能完成。

谢谢


阅读 480

收藏
2020-07-28

共1个答案

小编典典

好的,所以想要对大型数据集进行聚类的人,唯一的方法是使用Mahout。IT需要Linux平台。所以我不得不使用虚拟盒子,在上面放置Ubuntu,然后再使用Mahout。设置Mahout的过程很漫长,但是我使用的两个链接如下。

http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(单节点群集)

http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(多节点集群)

2020-07-28