多语言支持
编程语言在处理非拉丁字符时候有一个问题,带重音符号的字符有多种编码方式。比如,
字母é
,有两种编码:一个单字符é
(Unicode的LATIN SMALL LETTER E WITH ACUTE
(带有尖标的小写拉丁字母E))和字母e
后跟上音标́
的组合(COMBINING ACUTE ACCENT
(组合尖音标))。为了解决这个问题,就有了normalization(标准化)
,一种让"相同的字符串有一个唯一的二进制表示"
的运算。
幸运的是,对ASCII文本(即不需要再被标准化的文本)进行标准化不会引起任何变化,且执行多次运算也不会有副作用。 因此,这个标准化函数在文本上调用不...