当我尝试将其串联时,当字段包含“ñ”或“´”时,出现UnicodeDecodeError。如果包含“ñ”或“´”的字段是最后一个,则不会有任何错误。
#... nombre = fabrica nombre = nombre.encode("utf-8") + '-' + sector.encode("utf-8") nombre = nombre.encode("utf-8") + '-' + unidad.encode("utf-8") #... return nombre
任何想法?非常感谢!
您正在编码为UTF-8,然后 重新 编码为UTF-8。Python仅在首先再次 解码 为Unicode时才能这样做,但它必须使用默认的ASCII编解码器:
>>> u'ñ' u'\xf1' >>> u'ñ'.encode('utf8') '\xc3\xb1' >>> u'ñ'.encode('utf8').encode('utf8') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
不要继续编码;将编码保留为UTF-8 到最后一个可能的时刻 。串联Unicode值。
您可以在此处使用str.join()(或更确切地说,unicode.join())在三个值之间用破折号连接起来:
str.join()
unicode.join()
nombre = u'-'.join(fabrica, sector, unidad) return nombre.encode('utf-8')
但即使在此处编码也可能为时过早。
经验法则:对接收到的值进行解码(如果还没有API提供的Unicode值),仅在需要时进行编码(如果目标API无法直接处理Unicode值)。