以下代码在Java 8和9中都可以编译,但是行为不同。
class Simple { static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme"; public static void main(String args[]){ String[] chunks = sample.split("\\R\\R"); for (String chunk: chunks) { System.out.println("Chunk : "+chunk); } } }
当我使用Java 8运行它时,它返回:
Chunk : En un lugar de la Mancha de cuyo nombre no quiero acordarme
但是当我用Java 9运行它时,输出却不同:
Chunk : En un lugar Chunk : de la Mancha de cuyo nombre Chunk : no quiero acordarme
为什么?
在Java文档是Unicode标准的一致性出来。Javadoc弄混了\R应该匹配的内容。内容为:
\R
\R 任何Unicode换行符序列都等效于 \u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]
\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]
该Java文档是错误的。在R1.6换行符的小节中,有关正则表达式的Unicode技术标准#18明确指出:
强烈建议使用正则表达式元字符,例如“ \ R”,以匹配上面列出的所有行尾字符和序列(例如,在#1中)。这将对应于以下表达式。 由于需要避免备份,因此该表达有些复杂。 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]
强烈建议使用正则表达式元字符,例如“ \ R”,以匹配上面列出的所有行尾字符和序列(例如,在#1中)。这将对应于以下表达式。 由于需要避免备份,因此该表达有些复杂。
(?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]
换句话说,它只能匹配两个码点CR + LF(回车+换行)序列 _ 或者 从该组中的单个码点,只要它是 不 只是单独一个回车然后后跟一个换行。这是因为 _ 不允许备份 。CRLF必须是原子的\R才能正常运行。
因此,Java 9不再符合R1.6的强烈建议。而且,它现在正在执行Java 8中本该不该做或不做的事情。
看来是时候该再给谢尔曼(沉学明)了。之前,我曾与他合作处理过正式合规的细节问题。