6位base36数字范围的正则表达式

Javascript Regular expression for range of six-digit base36 numbers

本文关键字:正则表达式 范围 数字 base36 6位      更新时间:2023-09-26

我正在构建一个node.js应用程序,并存储unix时间戳的六位数base36表示(以秒为单位)作为Mongodb中_id的第一部分。一个典型的_id是这样的:

"_id" : "lwhlzy/czwszasfgr/a4d18976c1/f835caa1c3/184d06b47f"

几个数据片段被连接起来,包括时间戳,后面跟着一系列散列数据,以形成GUID和"物化路径"

以后的查询将根据时间范围选择记录,然后是路径,以获取该特定路径在该时间段内发生的事件。这些查询将依赖于根正则表达式,所以我需要一个可以找到base36数字范围的正则表达式:

这是我到目前为止的代码(通过节点运行的测试,是的,它是硬编码到六位数的。直到2038年12月23日才需要第七个数字。)

var base36 = "0123456789abcdefghijklmnopqrstuvwxyz";
// determine how many left-most characters from & to have in common
// this function works nicely, no problems here
var getOverlap = function (from, to) {
    regex = '';
    count = to.length;
    for (i in to) {
        regex += (i>0?'|':'')+'('+to.slice(0,count)+')';
        count--;
    }
    result = from.match(RegExp(regex,"ig"));
    return result[0];
};
var from = "lec0s0"; 
var to = "lwhvqg"; // generated from: parseInt(Date.now()/1000,10).toString(36)
var overlap = getOverlap(from,to);
console.log(from);
console.log(to);
var regex = overlap;
var i = overlap.length;
// start immediately after the left-most common characters and append the rest of the regex
while (i<6) {
    regex += "[";
    if (from[i] < to[i]) {
        regex += base36.slice(base36.indexOf(from[i]), base36.indexOf(to[i])+1);
    } else {
        regex += base36.slice(base36.indexOf(from[i])) + base36.slice(0, base36.indexOf(to[i])+1);
    }
    regex += "]";
    i++;
}
console.log(regex);
process.exit();

将输出如下内容:

l[efghijklmnopqrstuvw][cdefgh][0123456789abcdefghijklmnopqrstuv][stuvwxyz0123456789abcdefghijklmnopq][0123456789abcdefg]

在研究了这个之后,我意识到有两个主要问题:1)它不太适合一个真实的范围(它会跳过大量的记录)和2)我宁愿有像[e-w]这样的字符范围,而不是每个字符明确地声明,尽管它仍然有效。

对于输入from="lec0s0"to="lwhvqg",我意识到我错过了这个正则表达式的很大一部分。例如,上面的代码只允许从c-h开始的第3个字符,但是在第2个字符可以增加之前,该位置需要达到"z"。我已经确定我实际上需要一个看起来更像这样的正则表达式:

l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]

所以我的问题是:我的结论是正确的正则表达式需要看起来像上面的后者吗?如果是,我该如何修改代码来生成它呢?

提前感谢!

您当前的模式将从le0000及以上匹配,您实际上希望匹配:

lec0s[0-9a-z]|lec0[t-z][0-9a-z]{1}|lec[1-9a-z][0-9a-z]{2}|le[d-z][0-9a-z]{3}|l[f-v][0-9a-z]{4}|lw[0-9a-g][0-9a-z]{3}|lwh[0-9a-u][0-9a-z]{2}|lwhv[0-9a-p][0-9a-z]{1}|lwhvq[0-9a-g]

下面的函数应该给你你需要的正则表达式:

function getRegex(from,to) {
    var base36 = '0123456789abcdefghijklmnopqrstuvwxyz',
        getRange = function(f,t) {
            if(f == t) {
                return f;
            }
            if(base36.indexOf(f) >= base36.indexOf(t)) {
                return t;
            } 
            if(t <= '9' || f >= 'a'){
                return '[' +f+'-'+t+']';
            }
            return '[' +f+(f<'9'?'-9':'')+(t>'a'?'a-':'')+t+']';    
        },
        from = from.split(''),
        to = to.split(''),
        prefix='', 
        regex=[], 
        tmp,i,l;
    for(i=0,l=from.length;i<l;i++) {
        if(from[i]!=to[i]) {
            break;
        }
        prefix+=from[i];
    }
    from.splice(0,prefix.length);
    to.splice(0,prefix.length);
    i = from.length;
    while(i--) {
        tmp = prefix+from.slice(0,i).join('');
        if(from[i] == 'z') {
            tmp+='z';
        }
        else if(from.length-i == 1) {
            tmp += getRange(from[i],'z');
        }
        else if(i) {
            tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),'z');
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        } 
        else {
            tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),base36.charAt(base36.indexOf(to[i])-1));
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        }
        regex.push(tmp);
    }
    for(i=1,l=to.length;i<l;i++) {
        tmp = prefix+to.slice(0,i).join('');
        if(to[i] == '0') {
            tmp+='0';
        }
        else if(to.length-i == 1) {
            tmp += getRange('0',to[i]);
        }
        else {
            tmp += getRange('0',base36.charAt(base36.indexOf(to[i])-1));
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        } 
        regex.push(tmp);
    }
    return regex.join('|');
}

你可以在这里看到它:http://jsfiddle.net/3cu52/3/

我只是想指出你的模式中的一个错误

l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|lw[c-g][0-9a-z][0-9a-z][0-9a-z]|lwh[0-9a-u][0-9a-z][0-9a-z]| ...
                                        ^                               ^^
在标记的位置,您不需要重复范围,这是不必要的,因为您在第一个备选项中覆盖了以"le"开头的模式。