为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

小编典典

为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

java

以下代码在Java 8和9中都可以编译，但是行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我使用Java 8运行它时，它返回：

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我用Java 9运行它时，输出却不同：

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么？

阅读 304

2020-12-03

共1个答案

小编典典

在Java文档是Unicode标准的一致性出来。Javadoc弄混了\R应该匹配的内容。内容为：

\R 任何Unicode换行符序列都等效于
\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

该Java文档是错误的。在R1.6换行符的小节中，有关正则表达式的Unicode技术标准＃18明确指出：

强烈建议使用正则表达式元字符，例如“ \ R”，以匹配上面列出的所有行尾字符和序列（例如，在＃1中）。这将对应于以下表达式。
由于需要避免备份，因此该表达有些复杂。
 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说，它只能匹配两个码点CR + LF（回车+换行）序列 _ 或者从该组中的单个码点，只要它是不
只是单独一个回车然后后跟一个换行。这是因为 _ 不允许备份 。CRLF必须是原子的\R才能正常运行。

因此，Java 9不再符合R1.6的强烈建议。而且，它现在正在执行Java 8中本该不该做或不做的事情。

看来是时候该再给谢尔曼（沉学明）了。之前，我曾与他合作处理过正式合规的细节问题。

2020-12-03