我需要一种更快的方式来存储和访问大约3GB的线k:v对。其中kastring或aninteger和visnp.array()可以具有不同的形状。是否有任何对象在存储和访问此类表方面比标准python dict快?例如,a pandas.DataFrame?
k:v
k
string
integer
v
np.array()
a pandas.DataFrame
据我所知,python dict是哈希表的一种非常快速的实现,有什么比我的特定情况更好的方法吗?
不,没有比字典更快的速度了,这是因为其索引甚至成员资格检查的复杂度约为O(1)。
将项目保存在字典中后,您就可以在固定时间内访问它们,这意味着性能问题与字典索引无关。话虽这么说,您仍然可以通过在对象及其类型上进行一些更改来加快此过程的速度,这些更改可能会在后台进行一些优化。
例如,如果您的字符串(键)不是很大,则可以实习查找键和字典键。实习是将对象缓存在内存中,或者像Python一样,将“实习”字符串表缓存在内存中,而不是将它们创建为单独的对象。
Pythonintern()在sys模块内提供了一个可用于此目的的功能。
intern()
sys
在“ interned”字符串表中输入string并返回被插入的字符串–它是字符串本身或副本。实习字符串对于提高 字典查找的 性能很有用…
还…
如果对字典中的键进行了intern,并且对查找键进行了intern,则可以通过指针比较而不是字符串比较来完成键比较(散列后)。这减少了对对象的访问时间。
这是一个例子:
In [49]: d = {'mystr{}'.format(i): i for i in range(30)} In [50]: %timeit d['mystr25'] 10000000 loops, best of 3: 46.9 ns per loop In [51]: d = {sys.intern('mystr{}'.format(i)): i for i in range(30)} In [52]: %timeit d['mystr25'] 10000000 loops, best of 3: 38.8 ns per loop