我有一个字符串列表。我想为每个字符串分配一个唯一的数字(确切的数字并不重要),并依次使用这些数字创建一个长度相同的列表。以下是我的最佳尝试,但由于以下两个原因,我不满意:
假定相同的值彼此相邻
我必须以开头列表0,否则输出将不正确
0
我的代码:
names = ['ll', 'll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'LL', 'HL', 'HL', 'HL'] numbers = [0] num = 0 for item in range(len(names)): if item == len(names) - 1: break elif names[item] == names[item+1]: numbers.append(num) else: num = num + 1 numbers.append(num) print(numbers)
我想使代码更通用,因此可以使用未知列表。有任何想法吗?
无需使用外部库(检查 EDIT 以获取Pandas解决方案),您可以按照以下步骤进行操作:
Pandas
d = {ni: indi for indi, ni in enumerate(set(names))} numbers = [d[ni] for ni in names]
简要说明:
在第一行中,您为列表中的每个唯一元素分配了一个数字(存储在字典中d;您可以使用字典理解功能轻松创建它;set返回的唯一元素names)。
d
set
names
然后,在第二行中,进行列表理解并将实际数字存储在list中numbers。
numbers
一个示例说明它也可以用于未排序的列表:
# 'll' appears all over the place names = ['ll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'll', 'LL', 'HL', 'HL', 'HL', 'll']
那是输出numbers:
[1, 1, 3, 3, 3, 2, 2, 1, 2, 0, 0, 0, 1]
如您所见,1与之关联的数字ll出现在正确的位置。
1
ll
编辑
如果你有大熊猫可用,您也可以使用pandas.factorize(这似乎是巨大的名单相当有效,也能正常工作的元组的列表作为解释这里):
pandas.factorize
import pandas as pd pd.factorize(names)
然后将返回
(array([(array([0, 0, 1, 1, 1, 2, 2, 0, 2, 3, 3, 3, 0]), array(['ll', 'hl', 'LL', 'HL'], dtype=object))
因此,
numbers = pd.factorize(names)[0]