6位base36数字范围的正则表达式
Javascript Regular expression for range of six-digit base36 numbers
我正在构建一个node.js应用程序,并存储unix时间戳的六位数base36表示(以秒为单位)作为Mongodb中_id的第一部分。一个典型的_id是这样的:
"_id" : "lwhlzy/czwszasfgr/a4d18976c1/f835caa1c3/184d06b47f"
几个数据片段被连接起来,包括时间戳,后面跟着一系列散列数据,以形成GUID和"物化路径"
以后的查询将根据时间范围选择记录,然后是路径,以获取该特定路径在该时间段内发生的事件。这些查询将依赖于根正则表达式,所以我需要一个可以找到base36数字范围的正则表达式:
这是我到目前为止的代码(通过节点运行的测试,是的,它是硬编码到六位数的。直到2038年12月23日才需要第七个数字。)
var base36 = "0123456789abcdefghijklmnopqrstuvwxyz";
// determine how many left-most characters from & to have in common
// this function works nicely, no problems here
var getOverlap = function (from, to) {
regex = '';
count = to.length;
for (i in to) {
regex += (i>0?'|':'')+'('+to.slice(0,count)+')';
count--;
}
result = from.match(RegExp(regex,"ig"));
return result[0];
};
var from = "lec0s0";
var to = "lwhvqg"; // generated from: parseInt(Date.now()/1000,10).toString(36)
var overlap = getOverlap(from,to);
console.log(from);
console.log(to);
var regex = overlap;
var i = overlap.length;
// start immediately after the left-most common characters and append the rest of the regex
while (i<6) {
regex += "[";
if (from[i] < to[i]) {
regex += base36.slice(base36.indexOf(from[i]), base36.indexOf(to[i])+1);
} else {
regex += base36.slice(base36.indexOf(from[i])) + base36.slice(0, base36.indexOf(to[i])+1);
}
regex += "]";
i++;
}
console.log(regex);
process.exit();
将输出如下内容:
l[efghijklmnopqrstuvw][cdefgh][0123456789abcdefghijklmnopqrstuv][stuvwxyz0123456789abcdefghijklmnopq][0123456789abcdefg]
在研究了这个之后,我意识到有两个主要问题:1)它不太适合一个真实的范围(它会跳过大量的记录)和2)我宁愿有像[e-w]
这样的字符范围,而不是每个字符明确地声明,尽管它仍然有效。
对于输入from="lec0s0"
和to="lwhvqg"
,我意识到我错过了这个正则表达式的很大一部分。例如,上面的代码只允许从c-h
开始的第3个字符,但是在第2个字符可以增加之前,该位置需要达到"z"。我已经确定我实际上需要一个看起来更像这样的正则表达式:
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]
所以我的问题是:我的结论是正确的正则表达式需要看起来像上面的后者吗?如果是,我该如何修改代码来生成它呢?
提前感谢!
您当前的模式将从le0000
及以上匹配,您实际上希望匹配:
lec0s[0-9a-z]|lec0[t-z][0-9a-z]{1}|lec[1-9a-z][0-9a-z]{2}|le[d-z][0-9a-z]{3}|l[f-v][0-9a-z]{4}|lw[0-9a-g][0-9a-z]{3}|lwh[0-9a-u][0-9a-z]{2}|lwhv[0-9a-p][0-9a-z]{1}|lwhvq[0-9a-g]
下面的函数应该给你你需要的正则表达式:
function getRegex(from,to) {
var base36 = '0123456789abcdefghijklmnopqrstuvwxyz',
getRange = function(f,t) {
if(f == t) {
return f;
}
if(base36.indexOf(f) >= base36.indexOf(t)) {
return t;
}
if(t <= '9' || f >= 'a'){
return '[' +f+'-'+t+']';
}
return '[' +f+(f<'9'?'-9':'')+(t>'a'?'a-':'')+t+']';
},
from = from.split(''),
to = to.split(''),
prefix='',
regex=[],
tmp,i,l;
for(i=0,l=from.length;i<l;i++) {
if(from[i]!=to[i]) {
break;
}
prefix+=from[i];
}
from.splice(0,prefix.length);
to.splice(0,prefix.length);
i = from.length;
while(i--) {
tmp = prefix+from.slice(0,i).join('');
if(from[i] == 'z') {
tmp+='z';
}
else if(from.length-i == 1) {
tmp += getRange(from[i],'z');
}
else if(i) {
tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),'z');
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
else {
tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),base36.charAt(base36.indexOf(to[i])-1));
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
regex.push(tmp);
}
for(i=1,l=to.length;i<l;i++) {
tmp = prefix+to.slice(0,i).join('');
if(to[i] == '0') {
tmp+='0';
}
else if(to.length-i == 1) {
tmp += getRange('0',to[i]);
}
else {
tmp += getRange('0',base36.charAt(base36.indexOf(to[i])-1));
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
regex.push(tmp);
}
return regex.join('|');
}
你可以在这里看到它:http://jsfiddle.net/3cu52/3/
我只是想指出你的模式中的一个错误
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|lw[c-g][0-9a-z][0-9a-z][0-9a-z]|lwh[0-9a-u][0-9a-z][0-9a-z]| ...
^ ^^
在标记的位置,您不需要重复范围,这是不必要的,因为您在第一个备选项中覆盖了以"le"开头的模式。
相关文章:
- 是否可以扩展正则表达式元字符的范围
- 正则表达式检查循环中的 [A-Z] 范围
- 返回Javascript中给定正则表达式的文本范围数组
- 可以重构此数值范围的正则表达式吗
- 用于验证数字范围的正则表达式
- 正则表达式以匹配 HTML 范围标记中包含的多个单词
- 使用正则表达式验证特定范围
- 正则表达式表示用连字符分隔的浮点范围(用于年份和月份)
- 正则表达式捕获浮点数范围 (3.0 – 5.5)
- 正则表达式用于验证两个范围之间的数字
- 用于双精度数范围验证的正则表达式
- Javascript 正则表达式字符范围 A-z 匹配插入符号 (“^”)
- 正则表达式用于在 JavaScript 中查找任何两个数值(范围)之间的所有数字
- 正则表达式范围内的转义点
- 用于验证范围内十进制值的正则表达式是什么 - 0 到 99999.00
- 接受的正则表达式:字母、数字和一些长度范围的次要字符
- 限制正则表达式中捕获的范围
- javascript正则表达式验证范围内的年份
- 注释范围正则表达式
- 是否可以使用 Javascript 循环遍历正则表达式范围