作为从JSON API调用解析的多级字典,我有很多输入。字符串全部用unicode表示,这意味着很多u'stuff likethis'。我正在使用jq处理结果,需要将这些结果转换为ASCII。
u'stuff likethis'
我知道我可以编写一个函数来像这样转换它:
def convert(input): if isinstance(input, dict): ret = {} for stuff in input: ret = convert(stuff) elif isinstance(input, list): ret = [] for i in range(len(input)) ret = convert(input[i]) elif isinstance(input, str): ret = input.encode('ascii') elif : ret = input return ret
这是正确的吗?不确定。那不是我想问你的。
我要问的是,这是解决该问题的典型暴力解决方案。肯定有更好的办法。一种更pythonic的方式。我不是算法专家,但是这个算法看起来也不是特别快。
那有更好的方法吗?否则,是否可以改善此功能…?
答案后编辑
马克·阿默里(Mark Amery)的回答是正确的,但我想发布它的修改版本。他的功能适用于Python 2.7+,而我适用于2.6,因此必须对其进行转换:
def convert(input): if isinstance(input, dict): return dict((convert(key), convert(value)) for key, value in input.iteritems()) elif isinstance(input, list): return [convert(element) for element in input] elif isinstance(input, unicode): return input.encode('utf-8') else: return input
递归似乎是一种解决方法,但是,如果您使用的是python 2.xx,则要检查unicode,而不是str(str类型代表一个字符串字符串,类型代表一个unicodeUnicode字符字符串;两者都不继承自另一个)并且它是unicode类型的字符串,在解释器中显示,前面带有au)。
unicode
str
在您发布的代码中也有一点语法错误(结尾elif:应该是else),并且在输入是字典或列表的情况下,您不会返回相同的结构。(对于字典,您将返回最终键的转换版本;对于列表,您将返回final元素的转换版本。都不对!)
elif:
else
您还可以通过理解使您的代码漂亮且具有Python风格。
那么,这就是我的建议:
def convert(input): if isinstance(input, dict): return {convert(key): convert(value) for key, value in input.iteritems()} elif isinstance(input, list): return [convert(element) for element in input] elif isinstance(input, unicode): return input.encode('utf-8') else: return input
最后一件事。我更改encode('ascii')为encode('utf-8')。我的理由如下:以ASCII编码时,任何仅包含ASCII字符集中的字符的unicode字符串都将由与utf-8编码时相同的字节字符串表示,因此使用utf-8而不是ASCII不会破坏任何内容,并且只要您要处理的unicode字符串仅使用ASCII字符,更改就不会可见。但是,此更改扩展了功能的范围,使其能够处理整个unicode字符集中的字符串,而不仅仅是ASCII字符集(如有必要)。
encode('ascii')
encode('utf-8')