我有以下数组
a = [1, 2, 3, 0, 0, 0, 0, 0, 0, 4, 5, 6, 0, 0, 0, 0, 9, 8, 7,0,10,11]
我想找到连续为零的数组的开始和结束索引,输出上方的数组如下所示
[3,8],[12,15],[19]
我想做得尽可能高效。
这是一个相当紧凑的矢量化实现。我已经更改了一些要求,所以返回值有点“ numpythonic”:它创建一个形状为(m,2)的数组,其中m是零的“游程”数。第一列是每次运行中前0个的索引,第二列是运行后第一个非零元素的索引。(例如,此索引模式匹配切片的工作方式以及range函数的工作方式。)
range
import numpy as np def zero_runs(a): # Create an array that is 1 where a is 0, and pad each end with an extra 0. iszero = np.concatenate(([0], np.equal(a, 0).view(np.int8), [0])) absdiff = np.abs(np.diff(iszero)) # Runs start and end where absdiff is 1. ranges = np.where(absdiff == 1)[0].reshape(-1, 2) return ranges
例如:
In [236]: a = [1, 2, 3, 0, 0, 0, 0, 0, 0, 4, 5, 6, 0, 0, 0, 0, 9, 8, 7, 0, 10, 11] In [237]: runs = zero_runs(a) In [238]: runs Out[238]: array([[ 3, 9], [12, 16], [19, 20]])
使用这种格式,很容易在每次运行中获得零的数量:
In [239]: runs[:,1] - runs[:,0] Out[239]: array([6, 4, 1])
检查边缘情况总是一个好主意:
In [240]: zero_runs([0,1,2]) Out[240]: array([[0, 1]]) In [241]: zero_runs([1,2,0]) Out[241]: array([[2, 3]]) In [242]: zero_runs([1,2,3]) Out[242]: array([], shape=(0, 2), dtype=int64) In [243]: zero_runs([0,0,0]) Out[243]: array([[0, 3]])