如何从生成器对象中构建一个 numpy 数组?
让我来说明问题:
>>> import numpy >>> def gimme(): ... for x in xrange(10): ... yield x ... >>> gimme() <generator object at 0x28a1758> >>> list(gimme()) [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> numpy.array(xrange(10)) array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> numpy.array(gimme()) array(<generator object at 0x28a1758>, dtype=object) >>> numpy.array(list(gimme())) array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
在这种情况下,gimme()是我想将其输出转换为数组的生成器。但是,数组构造函数不会遍历生成器,它只是存储生成器本身。我想要的行为是 from numpy.array(list(gimme())),但我不想支付同时在内存中拥有中间列表和最终数组的内存开销。有没有更节省空间的方法?
gimme()
numpy.array(list(gimme()))
Numpy 数组需要在创建时明确设置它们的长度,这与 python 列表不同。这是必要的,以便可以在内存中连续分配每个项目的空间。连续分配是 numpy 数组的关键特性:这与本机代码实现相结合,让对它们的操作执行得比常规列表快得多。
牢记这一点,技术上不可能将生成器对象转换为数组,除非您:
可以预测运行时会产生多少元素:
my_array = numpy.empty(predict_length())
for i, el in enumerate(gimme()): my_array[i] = el
愿意将其元素存储在中间列表中:
my_array = numpy.array(list(gimme()))
可以制作两个相同的生成器,遍历第一个找到总长度,初始化数组,然后再次遍历生成器找到每个元素:
length = sum(1 for el in gimme())
my_array = numpy.empty(length) for i, el in enumerate(gimme()): my_array[i] = el
1 可能是您正在寻找的。 2 空间效率低, 3 时间效率低(您必须通过生成器两次)。