小编典典

如何将Unicode转义序列转换为.NET字符串中的Unicode字符?

c#

假设您已将文本文件加载到字符串中,并且想要将所有Unicode转义转换为字符串内的实际Unicode字符。

例:

“以下是Unicode’\ u2320’中整数字符的上半部分,而这是下划线’\ U2321’。


阅读 346

收藏
2020-05-19

共1个答案

小编典典

答案很简单,并且适用于至少数千个字符的字符串。

范例1:

Regex  rx = new Regex( @"\\[uU]([0-9A-F]{4})" );
result = rx.Replace( result, match => ((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString() );

范例2:

Regex  rx = new Regex( @"\\[uU]([0-9A-F]{4})" );
result = rx.Replace( result, delegate (Match match) { return ((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString(); } );

第一个示例显示了使用lambda表达式(C#3.0)进行的替换,第二个示例使用了应与C#2.0一起使用的委托。

为了分解这里发生的事情,首先我们创建一个正则表达式:

new Regex( @"\\[uU]([0-9A-F]{4})" );

然后,我们使用字符串’result’和一个匿名方法(在第一个示例中为lambda表达式,在第二个示例中为委托-
委托也可以是正则方法)调用Replace(),该方法将转换在字符串中找到的每个正则表达式。

Unicode转义的处理方式如下:

((char) Int32.Parse(match.Value.Substring(2), NumberStyles.HexNumber)).ToString(); });

获取表示转义的数字部分的字符串(跳过前两个字符)。

match.Value.Substring(2)

使用Int32.Parse()解析该字符串,该字符串采用Parse()函数应该期望的字符串和数字格式,在这种情况下为十六进制数字。

NumberStyles.HexNumber

然后,我们将结果数字转换为Unicode字符:

(char)

最后,我们在Unicode字符上调用ToString(),它为我们提供了其字符串表示形式,该字符串表示形式是传递回Replace()的值:

.ToString()

注意:可以使用match参数的GroupCollection和正则表达式中的子表达式来捕获数字(而不是使用Substring调用来捕获要转换的文本),以仅捕获数字(‘2320’),但这更加复杂且可读性较低。

2020-05-19