无需使用外部库(检查 EDIT 以获取
Pandas解决方案),您可以按照以下步骤进行操作:
d = {ni: indi for indi, ni in enumerate(set(names))}numbers = [d[ni] for ni in names]简要说明:
在第一行中,您为列表中的每个唯一元素分配了一个数字(存储在字典中
d;您可以使用字典理解功能轻松创建它;
set返回的唯一元素
names)。
然后,在第二行中,进行列表理解并将实际数字存储在list中
numbers。
一个示例说明它也可以用于未排序的列表:
# 'll' appears all over the placenames = ['ll', 'll', 'hl', 'hl', 'hl', 'LL', 'LL', 'll', 'LL', 'HL', 'HL', 'HL', 'll']
那是输出
numbers:
[1, 1, 3, 3, 3, 2, 2, 1, 2, 0, 0, 0, 1]
如您所见,
1与之关联的数字
ll出现在正确的位置。
编辑
如果你有大熊猫可用,您也可以使用
pandas.factorize(这似乎是巨大的名单相当有效,也能正常工作的元组的列表作为解释这里):
import pandas as pdpd.factorize(names)
然后将返回
(array([(array([0, 0, 1, 1, 1, 2, 2, 0, 2, 3, 3, 3, 0]), array(['ll', 'hl', 'LL', 'HL'], dtype=object))
因此,
numbers = pd.factorize(names)[0]



