假设您已将文本文件加载到字符串中,并且想要将所有Unicode转义转换为字符串内的实际Unicode字符。
例:
“以下是Unicode’\ u2320’中整数字符的上半部分,而这是下划线’\ U2321’。
答案很简单,并且适用于至少数千个字符的字符串。
范例1:
Regex rx = new Regex( @"\\[uU]([0-9A-F]{4})" ); result = rx.Replace( result, match => ((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString() );
范例2:
Regex rx = new Regex( @"\\[uU]([0-9A-F]{4})" ); result = rx.Replace( result, delegate (Match match) { return ((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString(); } );
第一个示例显示了使用lambda表达式(C#3.0)进行的替换,第二个示例使用了应与C#2.0一起使用的委托。
为了分解这里发生的事情,首先我们创建一个正则表达式:
new Regex( @"\\[uU]([0-9A-F]{4})" );
然后,我们使用字符串’result’和一个匿名方法(在第一个示例中为lambda表达式,在第二个示例中为委托- 委托也可以是正则方法)调用Replace(),该方法将转换在字符串中找到的每个正则表达式。
Unicode转义的处理方式如下:
((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString(); });
获取表示转义的数字部分的字符串(跳过前两个字符)。
match.Value.Substring(2)
使用Int32.Parse()解析该字符串,该字符串采用Parse()函数应该期望的字符串和数字格式,在这种情况下为十六进制数字。
NumberStyles.HexNumber
然后,我们将结果数字转换为Unicode字符:
(char)
最后,我们在Unicode字符上调用ToString(),它为我们提供了其字符串表示形式,该字符串表示形式是传递回Replace()的值:
.ToString()
注意:可以使用match参数的GroupCollection和正则表达式中的子表达式来捕获数字(而不是使用Substring调用来捕获要转换的文本),以仅捕获数字(‘2320’),但这更加复杂且可读性较低。