Python：将复杂的字符串字典从Unicode转换为ASCII

小编典典

Python：将复杂的字符串字典从Unicode转换为ASCII

algorithm

作为从JSON API调用解析的多级字典，我有很多输入。字符串全部用unicode表示，这意味着很多u'stuff likethis'。我正在使用jq处理结果，需要将这些结果转换为ASCII。

我知道我可以编写一个函数来像这样转换它：

def convert(input):
    if isinstance(input, dict):
        ret = {}
        for stuff in input:
            ret = convert(stuff)
    elif isinstance(input, list):
        ret = []
        for i in range(len(input))
            ret = convert(input[i])
    elif isinstance(input, str):
        ret = input.encode('ascii')
    elif :
        ret = input
    return ret

这是正确的吗？不确定。那不是我想问你的。

我要问的是，这是解决该问题的典型暴力解决方案。肯定有更好的办法。一种更pythonic的方式。我不是算法专家，但是这个算法看起来也不是特别快。

那有更好的方法吗？否则，是否可以改善此功能…？

答案后编辑

马克·阿默里（Mark
Amery）的回答是正确的，但我想发布它的修改版本。他的功能适用于Python
2.7+，而我适用于2.6，因此必须对其进行转换：

def convert(input):
    if isinstance(input, dict):
        return dict((convert(key), convert(value)) for key, value in input.iteritems())
    elif isinstance(input, list):
        return [convert(element) for element in input]
    elif isinstance(input, unicode):
        return input.encode('utf-8')
    else:
        return input

阅读 281

2020-07-28

共1个答案

小编典典

递归似乎是一种解决方法，但是，如果您使用的是python
2.xx，则要检查unicode，而不是str（str类型代表一个字符串字符串，类型代表一个unicodeUnicode字符字符串；两者都不继承自另一个）并且它是unicode类型的字符串，在解释器中显示，前面带有au）。

在您发布的代码中也有一点语法错误（结尾elif:应该是else），并且在输入是字典或列表的情况下，您不会返回相同的结构。（对于字典，您将返回最终键的转换版本；对于列表，您将返回final元素的转换版本。都不对！）

您还可以通过理解使您的代码漂亮且具有Python风格。

那么，这就是我的建议：

def convert(input):
    if isinstance(input, dict):
        return {convert(key): convert(value) for key, value in input.iteritems()}
    elif isinstance(input, list):
        return [convert(element) for element in input]
    elif isinstance(input, unicode):
        return input.encode('utf-8')
    else:
        return input

最后一件事。我更改encode('ascii')为encode('utf-8')。我的理由如下：以ASCII编码时，任何仅包含ASCII字符集中的字符的unicode字符串都将由与utf-8编码时相同的字节字符串表示，因此使用utf-8而不是ASCII不会破坏任何内容，并且只要您要处理的unicode字符串仅使用ASCII字符，更改就不会可见。但是，此更改扩展了功能的范围，使其能够处理整个unicode字符集中的字符串，而不仅仅是ASCII字符集（如有必要）。

2020-07-28