小编典典

Python:将复杂的字符串字典从Unicode转换为ASCII

algorithm

作为从JSON API调用解析的多级字典,我有很多输入。字符串全部用unicode表示,这意味着很多u'stuff likethis'。我正在使用jq处理结果,需要将这些结果转换为ASCII。

我知道我可以编写一个函数来像这样转换它:

def convert(input):
    if isinstance(input, dict):
        ret = {}
        for stuff in input:
            ret = convert(stuff)
    elif isinstance(input, list):
        ret = []
        for i in range(len(input))
            ret = convert(input[i])
    elif isinstance(input, str):
        ret = input.encode('ascii')
    elif :
        ret = input
    return ret

这是正确的吗?不确定。那不是我想问你的。

我要问的是,这是解决该问题的典型暴力解决方案。肯定有更好的办法。一种更pythonic的方式。我不是算法专家,但是这个算法看起来也不是特别快。

那有更好的方法吗?否则,是否可以改善此功能…?


答案后编辑

马克·阿默里(Mark
Amery)的回答
是正确的,但我想发布它的修改版本。他的功能适用于Python
2.7+,而我适用于2.6,因此必须对其进行转换:

def convert(input):
    if isinstance(input, dict):
        return dict((convert(key), convert(value)) for key, value in input.iteritems())
    elif isinstance(input, list):
        return [convert(element) for element in input]
    elif isinstance(input, unicode):
        return input.encode('utf-8')
    else:
        return input

阅读 281

收藏
2020-07-28

共1个答案

小编典典

递归似乎是一种解决方法,但是,如果您使用的是python
2.xx,则要检查unicode,而不是strstr类型代表一个字符串字符串,类型代表一个unicodeUnicode字符字符串;两者都不继承自另一个)并且它是unicode类型的字符串,在解释器中显示,前面带有au)。

在您发布的代码中也有一点语法错误(结尾elif:应该是else),并且在输入是字典或列表的情况下,您不会返回相同的结构。(对于字典,您将返回最终键的转换版本;对于列表,您将返回final元素的转换版本。都不对!)

您还可以通过理解使您的代码漂亮且具有Python风格。

那么,这就是我的建议:

def convert(input):
    if isinstance(input, dict):
        return {convert(key): convert(value) for key, value in input.iteritems()}
    elif isinstance(input, list):
        return [convert(element) for element in input]
    elif isinstance(input, unicode):
        return input.encode('utf-8')
    else:
        return input

最后一件事。我更改encode('ascii')encode('utf-8')。我的理由如下:以ASCII编码时,任何仅包含ASCII字符集中的字符的unicode字符串都将由与utf-8编码时相同的字节字符串表示,因此使用utf-8而不是ASCII不会破坏任何内容,并且只要您要处理的unicode字符串仅使用ASCII字符,更改就不会可见。但是,此更改扩展了功能的范围,使其能够处理整个unicode字符集中的字符串,而不仅仅是ASCII字符集(如有必要)。

2020-07-28