Java中的稀疏矩阵/数组

小编典典

java

我正在开发一个用Java编写的项目，该项目要求我建立一个非常大的2-D稀疏数组。非常稀疏，如果有所作为。无论如何：此应用程序最关键的方面是时间方面的效率（假定内存负载，尽管没有那么无限的限制，以至于我无法使用标准的2D数组-关键范围在两个维度上都在数十亿之内）。

在数组中的千亿个单元中，将有数十万个单元包含一个对象。我需要能够非常快速地修改单元格内容。

无论如何：有人知道为此目的特别好的图书馆吗？它必须是伯克利，LGPL或类似的许可证（没有GPL，因为该产品不能完全开源）。或者，如果只有一种非常简单的方法来制作自制的稀疏数组对象，那也可以。

我正在考虑MTJ，但尚未听到有关其质量的任何意见。

阅读 639

2020-03-06

共1个答案

小编典典

使用散列图构建的稀疏数组对于频繁读取的数据效率很低。最有效的实现方式是使用Trie，该Trie允许访问分布有段的单个向量。

Trie可以通过仅执行只读两个数组索引来获取元素存储的有效位置，或知道基础存储中是否不存在元素，从而计算表中是否存在元素。

它也可以为稀疏数组的默认值在后备存储中提供默认位置，因此你不需要对返回的索引进行任何测试，因为Trie保证所有可能的源索引都将至少映射到默认值在后备存储中的位置（你经常会在其中存储零，空字符串或空对象）。

存在支持快速更新Tries的实现，并通过一个“ compact（）”操作在多个操作结束时优化后备存储的大小。尝试比哈希映射要快得多，因为它们不需要任何复杂的哈希函数，并且不需要处理读取冲突（对于哈希映射，读取和写入都具有冲突，这需要循环以跳至下一个候选职位，并对其进行测试以比较有效来源索引…）

另外，Java Hashmaps只能在对象上建立索引，并且为每个散列的源索引创建一个Integer对象（每次读取都需要创建该对象，而不仅仅是写入）在内存操作方面是昂贵的，因为它强调了垃圾收集器。