在JavaScript正则表达式匹配中移动索引
Moving index in JavaScript regex matching
我有这个正则表达式从文本中提取双单词
/[A-Za-z]+'s[A-Za-z]+/g
这个示例文本
Mary had a little lamb
我的输出是这个
[0] - Mary had; [1] - a little;
而我的预期输出是:
[0] - Mary had; [1] - had a; [2] - a little; [3] - little lamb
我该如何实现此输出?据我所知,搜索的索引移动到第一个匹配的末尾。我怎样才能把它移回一个单词?
使用String.replace函数
我在使用replace
函数时使用了一个小技巧。由于replace
函数在匹配中循环,并允许我们指定一个函数,因此可能性是无限的。结果将在output
中。
var output = [];
var str = "Mary had a little lamb";
str.replace(/[A-Za-z]+(?=('s[A-Za-z]+))/g, function ($0, $1) {
output.push($0 + $1);
return $0; // Actually we don't care. You don't even need to return
});
由于输出在输入字符串中包含重叠部分,因此当我们使用look-ahead1匹配当前单词时,有必要不使用下一个单词。
正则表达式/[A-Za-z]+(?=('s[A-Za-z]+))/g
的作用与我上面所说的完全一样:它一次只使用[A-Za-z]+
部分(正则表达式的开头(的一个单词,并向前看下一个单词(?=('s[A-Za-z]+))
2,同时捕获匹配的文本。
传递给replace
函数的函数将接收匹配的字符串作为第一个参数,并在随后的参数中接收捕获的文本。(还有更多-查看文档-我不需要它们(。由于前瞻是零宽度(输入不消耗(,因此整个匹配也很方便地成为第一个单词。前瞻中的捕获文本将进入第二个参数。
RegExp.exec的正确解决方案
请注意,String.replace
函数会产生替换开销,因为根本不使用替换结果。如果这是不可接受的,你可以用RegExp.exec
函数在一个循环中重写上面的代码:
var output = [];
var str = "Mary had a little lamb";
var re = /[A-Za-z]+(?=('s[A-Za-z]+))/g;
var arr;
while ((arr = re.exec(str)) != null) {
output.push(arr[0] + arr[1]);
}
脚注
在另一种支持可变宽度负向后看的正则表达式中,可以检索前一个单词,但JavaScript正则表达式不支持负向后看!。
(?=pattern)
是用于前瞻的语法。
附录
这里不能使用String.match
,因为当使用g
标志时它忽略了捕获组。捕获组在正则表达式中是必要的,因为我们需要四处查看以避免消耗输入并匹配重叠的文本。
它可以在没有regexp 的情况下完成
"Mary had a little lamb".split(" ")
.map(function(item, idx, arr) {
if(idx < arr.length - 1){
return item + " " + arr[idx + 1];
}
}).filter(function(item) {return item;})
这里有一个非正则表达式的解决方案(这不是一个真正的常规问题(。
function pairs(str) {
var parts = str.split(" "), out = [];
for (var i=0; i < parts.length - 1; i++)
out.push([parts[i], parts[i+1]].join(' '));
return out;
}
传递你的字符串,你会得到一个数组。
演示
附带说明:如果您担心输入中的非单词(为正则表达式做一个例子!(,您可以在for
循环中对parts[i]
和parts[i+1]
运行测试。如果测试失败:不要将它们推到out
上。
您可以选择以下方式:
var s = "Mary had a little lamb";
// Break on each word and loop
s.match(/'w+/g).map(function(w) {
// Get the word, a space and another word
return s.match(new RegExp(w + '''s''w+'));
// At this point, there is one "null" value (the last word), so filter it out
}).filter(Boolean)
// There, we have an array of matches -- we want the matched value, i.e. the first element
.map(Array.prototype.shift.call.bind(Array.prototype.shift));
如果您在控制台中运行此程序,您将看到["Mary had", "had a", "a little", "little lamb"]
。
通过这种方式,你可以保留原来的regex,并可以在其中做你想做的其他事情。尽管有一些代码可以让它真正工作。
顺便说一下,这段代码不是跨浏览器的。IE8及以下版本不支持以下功能:
- 阵列原型过滤器
- 阵列.原型.map
- 函数.prototype.bind
但它们很容易摆动。或者使用for
可以很容易地实现相同的功能。
开始:
你仍然不知道正则表达式内部指针是如何工作的,所以我将用一个小例子来解释它:
带有此正则表达式的Mary had a little lamb
/[A-Za-z]+'s[A-Za-z]+/g
这里,正则表达式的第一部分:[A-Za-z]+
将与Mary
匹配,因此指针将位于y
的末尾
Mary had a little lamb
^
在下一部分('s[A-Za-z]+
(中,它将匹配后面跟着另一个单词的空格,因此…
Mary had a little lamb
^
指针将位于单词had
结束的位置。这就是你的问题,你在不需要的情况下增加了正则表达式的内部指针,这是如何解决的?环视是你的朋友。使用lookaround(lookahead和lookbacking(,您可以在不增加正则表达式的主要内部指针的情况下遍历文本(它将使用另一个指针(。
所以最后,与您想要的匹配的正则表达式是:([A-Za-z]+(?='s[A-Za-z]+))
说明:
关于正则表达式,你唯一不知道的是(?='s[A-Za-z]+)
部分,这意味着[A-Za-z]+
后面必须跟一个单词,否则正则表达式将不匹配。这正是你想要的,因为中间指针不会增加,会匹配除最后一个单词之外的所有单词,因为最后一个后面不会跟一个单词。
然后,一旦你有了它,你只需要替换你现在所做的一切。
这里有一个工作示例,DEMO
在充分赞赏"前瞻"的概念的情况下,我仍然提出了一个pairwise
函数(DEMO(,因为标记化字符流实际上是Regex的任务,而如何处理标记取决于业务逻辑。至少,这是我的看法。
遗憾的是,Javascript还没有配对,但这可以做到:
function pairwise(a, f) {
for (var i = 0; i < a.length - 1; i++) {
f(a[i], a[i + 1]);
}
}
var str = "Mary had a little lamb";
pairwise(str.match(/'w+/g), function(a, b) {
document.write("<br>"+a+" "+b);
});
- 名称输入的索引
- Canvas Html5绘图应用程序,移动画布会导致重大问题
- 正在SharePoint 2013母版页中添加JQuery移动文件
- 如何在android中使用phonegap将文件从一个文件夹移动/复制到另一个文件夹
- 如何使用phaser使html5游戏在移动设备浏览器上运行
- 在jQuery中获取表的行索引
- FabricJs-限制主对象内添加对象的移动区域
- 测试索引值是否等于某个数字的倍数
- 循环遍历数组中的特定索引
- 按照选项卡索引的顺序循环一个jQuery选择
- 如何移动到数组的上一个/下一个索引键
- 在移动列后查找列的索引
- 移动safari忽略z索引
- Jquery .remove()移动索引
- 重定向到移动网站的每一页或只是根索引
- 将数组中的所有值向上移动一个索引,并将移位的最后一个元素作为第一个元素
- 如果在移动设备上,将数组(索引列表)拆分为两行
- 如何对数组进行排序,然后获取索引并使用索引移动所有相应的元素
- 将数组中的多个元素移动到数组中的某个索引
- 在JavaScript正则表达式匹配中移动索引