multiprocessing.Pool：map_async和imap有什么区别？

小编典典

multiprocessing.Pool：map_async和imap有什么区别？

python

我想学习如何使用Python的multiprocessing包，但我不明白之间的差别map_async和imap。我注意到两者map_async和imap都是异步执行的。那么我什么时候应该使用另一个呢？我应该如何检索返回的结果map_async？

我应该使用这样的东西吗？

def test():
    result = pool.map_async()
    pool.close()
    pool.join()
    return result.get()

result=test()
for i in result:
    print i

阅读 360

2020-12-20

共1个答案

小编典典

imap/imap_unordered和map/之间有两个主要区别map_async：

他们消耗迭代的方式传递给他们。
他们将结果返回给您的方式。

map通过将iterable转换为列表（假设它还不是列表）来消耗iterable，将其分为多个块，然后将这些块发送到中的worker进程Pool。与将可迭代项中的每个项目一次在一个进程之间传递相比，将可迭代项拆分为多个块效果更好-
特别是在可迭代项较大的情况下。但是，将迭代器转换为列表以对其进行分块可能会具有很高的内存成本，因为整个列表都需要保留在内存中。

imap不会将您提供的可迭代项变成一个列表，也不会将其分成多个块（默认情况下）。它将一次遍历可迭代的一个元素，并将它们分别发送给工作进程。这意味着您不会浪费将整个可迭代对象转换为列表的内存，但是这也意味着由于缺少分块，大型可迭代对象的性能会降低。但是，可以通过传递chunksize大于默认值1的参数来缓解这种情况。

imap/imap_unordered和map/之间的另一个主要区别map_async是，使用imap/
imap_unordered，您可以在工作人员准备就绪后立即开始接收它们的结果，而不必等待所有工作完成。使用map_async，AsyncResult会立即返回an
，但是您必须在处理完所有对象后才能实际从该对象检索结果，此时它会返回与之相同的列表map（map实际上是在内部实现的map_async(...).get()）。无法获得部分结果。您要么拥有整个结果，要么一无所有。

imap并且imap_unordered都立即返回可迭代对象。使用时imap，结果将在准备好后立即从Iterable中产生，同时仍保留可迭代输入的顺序。使用imap_unordered，结果将在准备就绪后立即产生，无论输入可迭代的顺序如何。所以，说你有这个：

import multiprocessing
import time

def func(x):
    time.sleep(x)
    return x + 2

if __name__ == "__main__":    
    p = multiprocessing.Pool()
    start = time.time()
    for x in p.imap(func, [1,5,3]):
        print("{} (Time elapsed: {}s)".format(x, int(time.time() - start)))

这将输出：

3 (Time elapsed: 1s)
7 (Time elapsed: 5s)
5 (Time elapsed: 5s)

如果您使用p.imap_unordered而不是p.imap，则会看到：

3 (Time elapsed: 1s)
5 (Time elapsed: 3s)
7 (Time elapsed: 5s)

如果使用p.map或p.map_async().get()，则会看到：

3 (Time elapsed: 5s)
7 (Time elapsed: 5s)
5 (Time elapsed: 5s)

因此，使用imap/imap_unordered超过的主要原因map_async是：

您的可迭代对象足够大，以至于将其转换为列表会导致您用完/使用过多的内存。
您希望能够在所有结果完成之前开始处理结果。

2020-12-20