小编典典

为列表中的每个唯一值分配一个数字

python

我有一个字符串列表。我想为每个字符串分配一个唯一的数字(确切的数字并不重要),并依次使用这些数字创建一个长度相同的列表。以下是我的最佳尝试,但由于以下两个原因,我不满意:

  1. 假定相同的值彼此相邻

  2. 我必须以开头列表0,否则输出将不正确

我的代码:

names = ['ll', 'll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'LL', 'HL', 'HL', 'HL']
numbers = [0]
num = 0
for item in range(len(names)):
    if item == len(names) - 1:
      break
    elif names[item] == names[item+1]:
        numbers.append(num)
    else:
        num = num + 1
        numbers.append(num)
print(numbers)

我想使代码更通用,因此可以使用未知列表。有任何想法吗?


阅读 156

收藏
2020-12-20

共1个答案

小编典典

无需使用外部库(检查 EDIT 以获取Pandas解决方案),您可以按照以下步骤进行操作:

d = {ni: indi for indi, ni in enumerate(set(names))}
numbers = [d[ni] for ni in names]

简要说明:

在第一行中,您为列表中的每个唯一元素分配了一个数字(存储在字典中d;您可以使用字典理解功能轻松创建它;set返回的唯一元素names)。

然后,在第二行中,进行列表理解并将实际数字存储在list中numbers

一个示例说明它也可以用于未排序的列表:

# 'll' appears all over the place
names = ['ll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'll', 'LL', 'HL', 'HL', 'HL', 'll']

那是输出numbers

[1, 1, 3, 3, 3, 2, 2, 1, 2, 0, 0, 0, 1]

如您所见,1与之关联的数字ll出现在正确的位置。

编辑

如果你有大熊猫可用,您也可以使用pandas.factorize(这似乎是巨大的名单相当有效,也能正常工作的元组的列表作为解释这里):

import pandas as pd

pd.factorize(names)

然后将返回

(array([(array([0, 0, 1, 1, 1, 2, 2, 0, 2, 3, 3, 3, 0]),
 array(['ll', 'hl', 'LL', 'HL'], dtype=object))

因此,

numbers = pd.factorize(names)[0]
2020-12-20