小编典典

纸男孩的聚类算法

algorithm

我需要根据某些条件选择或创建聚类算法的帮助。

想象您正在管理报纸派递人员。

  • 您有一组街道地址,每个街道地址都经过地理编码。
  • 您希望对地址进行聚类,以便将每个聚类分配给一个送货人员。
  • 交付人员或集群的数量不是固定的。如果需要,我可以随时雇用更多的送货人员,或解雇他们。
  • 每个群集应具有大约相同数量的地址。但是,如果群集的地址分散较多,则群集的地址可能较少。(换句话说:最小群集数,其中每个群集包含最大数量的地址,并且群集内的任何地址都必须以最大距离分隔。)
  • 对于奖励积分,当更改数据集(添加或删除地址)并且重新运行算法时,如果聚类保持尽可能不变将是很好的(即,这排除了简单的k均值聚类,即本质上是随机的)。否则送货人员会发疯。

那么…想法?

更新

如Arachnid的答案所述,街道网络图不可用。


阅读 308

收藏
2020-07-28

共1个答案

小编典典

我认为您需要一种分层的集聚技术,而不是k均值。如果您的算法正确,则可以在拥有正确数量的集群时停止该算法。正如其他人提到的那样,您可以使用先前的解决方案为后续的群集提供种子,这可能会给您带来明显的性能改进。

您可能需要仔细查看所使用的距离函数,尤其是在问题具有高维的情况下。欧氏距离是最容易理解的,但可能不是最好的距离,请看诸如马哈拉诺比斯之类的替代方案。

我以为您的真正问题与送报纸无关…

2020-07-28