可以在恒定内存中对低维数据进行聚类

Possible to clustering low dimensional data in constant memory?

本文关键字:数据 聚类 内存      更新时间:2023-09-26

我希望将一些非常低维(2或3)的数据聚类为少量的聚类(<25)。我拥有的实例数量非常大(100M+的数量级)。我可以从数据库流式传输这些数据(并可能在每次传递时重新流式传输),但希望避免将整个集合带入内存。[如果我必须把它带到内存中,我希望它尽可能提高内存效率]

我正在寻找一种满足这些要求的算法(最好是Javascript实现)。

谢谢!

看看MacQueens k-means算法,它能很好地处理流数据,而且实现起来很简单。

哦,它从60年代左右就已经存在了。

但也要注意,您还可以在数据集的代表性样本上运行它。最有可能的是,结果不会有实质性的不同。数量不会改变统计学上的东西,比如意义很大。