我从一个包含特殊字符的国外来源中检索了基于文本的utf8数据,例如,u"ıöüç"当我想将它们标准化为英语时,例如"ıöüç"-> "iouc"。实现这一目标的最佳方法是什么?
u"ıöüç"
"ıöüç"-> "iouc"
我建议使用Unidecode模块:
>>> from unidecode import unidecode >>> unidecode(u'ıöüç') 'iouc'
请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。