为列表中的每个唯一值分配一个数字

小编典典

为列表中的每个唯一值分配一个数字

python

我有一个字符串列表。我想为每个字符串分配一个唯一的数字（确切的数字并不重要），并依次使用这些数字创建一个长度相同的列表。以下是我的最佳尝试，但由于以下两个原因，我不满意：

假定相同的值彼此相邻
我必须以开头列表0，否则输出将不正确

我的代码：

names = ['ll', 'll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'LL', 'HL', 'HL', 'HL']
numbers = [0]
num = 0
for item in range(len(names)):
    if item == len(names) - 1:
      break
    elif names[item] == names[item+1]:
        numbers.append(num)
    else:
        num = num + 1
        numbers.append(num)
print(numbers)

我想使代码更通用，因此可以使用未知列表。有任何想法吗？

阅读 156

2020-12-20

共1个答案

小编典典

无需使用外部库（检查 EDIT 以获取Pandas解决方案），您可以按照以下步骤进行操作：

d = {ni: indi for indi, ni in enumerate(set(names))}
numbers = [d[ni] for ni in names]

简要说明：

在第一行中，您为列表中的每个唯一元素分配了一个数字（存储在字典中d；您可以使用字典理解功能轻松创建它；set返回的唯一元素names）。

然后，在第二行中，进行列表理解并将实际数字存储在list中numbers。

一个示例说明它也可以用于未排序的列表：

# 'll' appears all over the place
names = ['ll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'll', 'LL', 'HL', 'HL', 'HL', 'll']

那是输出numbers：

[1, 1, 3, 3, 3, 2, 2, 1, 2, 0, 0, 0, 1]

如您所见，1与之关联的数字ll出现在正确的位置。

编辑

如果你有大熊猫可用，您也可以使用pandas.factorize（这似乎是巨大的名单相当有效，也能正常工作的元组的列表作为解释这里）：

import pandas as pd

pd.factorize(names)

然后将返回

(array([(array([0, 0, 1, 1, 1, 2, 2, 0, 2, 3, 3, 3, 0]),
 array(['ll', 'hl', 'LL', 'HL'], dtype=object))

因此，

numbers = pd.factorize(names)[0]

2020-12-20