我有一个复数列表,我想在另一个复数列表中找到最接近的值。
我目前使用numpy的方法:
import numpy as np refArray = np.random.random(16); myArray = np.random.random(1000); def find_nearest(array, value): idx = (np.abs(array-value)).argmin() return idx; for value in np.nditer(myArray): index = find_nearest(refArray, value); print(index);
不幸的是,这需要花费大量的时间。是否有更快或更“ pythonian”的方式将myArray中的每个值匹配到refArray中最接近的值?
仅供参考: 我的脚本中不一定需要numpy。
重要说明: myArray和refArray的顺序都很重要,不应更改。如果要进行排序,则应以某种方式保留原始索引。
这是一种np.searchsorted基于this post-的矢量化方法
np.searchsorted
this post
def closest_argmin(A, B): L = B.size sidx_B = B.argsort() sorted_B = B[sidx_B] sorted_idx = np.searchsorted(sorted_B, A) sorted_idx[sorted_idx==L] = L-1 mask = (sorted_idx > 0) & \ ((np.abs(A - sorted_B[sorted_idx-1]) < np.abs(A - sorted_B[sorted_idx])) ) return sidx_B[sorted_idx-mask]
简要说明 :
获取左位置的排序索引。我们使用-np.searchsorted(arr1, arr2, side='left')或just进行此操作np.searchsorted(arr1, arr2)。现在,searchsorted期望将排序数组作为第一个输入,因此我们需要在那里做一些准备工作。
np.searchsorted(arr1, arr2, side='left')
np.searchsorted(arr1, arr2)
searchsorted
比较那些左侧位置的值和其紧邻右侧位置的值,(left + 1)看看哪一个最接近。我们在计算的步骤中执行此操作mask。
(left + 1)
mask
根据左边的还是最右边的,选择相应的。这是通过对索引进行减法来完成的,将mask值作为偏移量转换为ints。
ints
标杆管理
原始方法-
def org_app(myArray, refArray): out1 = np.empty(myArray.size, dtype=int) for i, value in enumerate(myArray): # find_nearest from posted question index = find_nearest(refArray, value) out1[i] = index return out1
时间和验证-
In [188]: refArray = np.random.random(16) ...: myArray = np.random.random(1000) ...: In [189]: %timeit org_app(myArray, refArray) 100 loops, best of 3: 1.95 ms per loop In [190]: %timeit closest_argmin(myArray, refArray) 10000 loops, best of 3: 36.6 µs per loop In [191]: np.allclose(closest_argmin(myArray, refArray), org_app(myArray, refArray)) Out[191]: True
50x+ 加快发布的样本的速度,希望对更大的数据集有更多的速度!
50x+