我想使用正则表达式匹配字符串的一部分,然后访问带括号的子字符串:
var myString = "something format_abc"; // I want "abc" var arr = /(?:^|\s)format_(.*?)(?:\s|$)/.exec(myString); console.log(arr); // Prints: [" format_abc", "abc"] .. so far so good. console.log(arr[1]); // Prints: undefined (???) console.log(arr[0]); // Prints: format_undefined (!!!)
我究竟做错了什么?
我发现上面的正则表达式代码没有任何问题:我要针对的实际字符串是:
"date format_%A"
报告“%A”未定义似乎是一个非常奇怪的行为,但与该问题没有直接关系,因此我打开了一个新的代码, 为什么匹配的子字符串在JavaScript中返回“未定义”? 。
问题在于console.log它的参数就像一条printf语句一样,并且由于我正在记录的字符串("%A")具有特殊值,因此它试图查找下一个参数的值。
console.log
printf
"%A"
您可以像这样访问捕获组:
var myString = "something format_abc"; var myRegexp = /(?:^|\s)format_(.*?)(?:\s|$)/g; var match = myRegexp.exec(myString); console.log(match[1]); // abc
如果存在多个匹配项,则可以对其进行迭代:
var myString = "something format_abc"; var myRegexp = /(?:^|\s)format_(.*?)(?:\s|$)/g; match = myRegexp.exec(myString); while (match != null) { // matched text: match[0] // match start: match.index // capturing group n: match[n] console.log(match[0]) match = myRegexp.exec(myString); }
如你所见,迭代多个匹配项的方法不是很直观。这导致了该String.prototype.matchAll方法的提出。这种新方法有望在ECMAScript 2020规范中提供。它为我们提供了一个简洁的API,并解决了多个问题。它已经开始登陆主流浏览器和JS引擎,例如Chrome 73 + / Node 12+和Firefox 67+。
该方法返回一个迭代器,其用法如下:
const string = "something format_abc"; const regexp = /(?:^|\s)format_(.*?)(?:\s|$)/g; const matches = string.matchAll(regexp); for (const match of matches) { console.log(match); console.log(match.index) }
当它返回一个迭代器时,我们可以说它是惰性的,这在处理大量捕获组或非常大的字符串时非常有用。但是,如果需要,可以使用 传播语法 或Array.from方法将结果轻松转换为数组:
Array.from
function getFirstGroup(regexp, str) { const array = [...str.matchAll(regexp)]; return array.map(m => m[1]); } // or: function getFirstGroup(regexp, str) { return Array.from(str.matchAll(regexp), m => m[1]); }
同时,尽管该提案获得了更广泛的支持,但您可以使用官方的shim软件包。
而且,该方法的内部工作很简单。使用生成器功能的等效实现如下:
function* matchAll(str, regexp) { const flags = regexp.global ? regexp.flags : regexp.flags + "g"; const re = new RegExp(regexp, flags); let match; while (match = re.exec(str)) { yield match; } }
创建原始正则表达式的副本;这是为了避免lastIndex在进行多次匹配时由于属性的突变而产生的副作用。
lastIndex
另外,我们需要确保regexp具有 全局 标志以避免无限循环。
我也很高兴看到在提案的讨论中甚至提到了这个StackOverflow问题。