正则表达式与背后奇怪的行为

regex with lookbehind weird behavior

本文关键字:背后 正则表达式      更新时间:2023-09-26

在过去的两天里,我一直在尝试解决这个问题......

请帮助我理解为什么会发生这种情况。我的目的是只选择具有<DTL1 val="92">.....</HDR><HDR>

这是我的正则表达式

(?<=<HDR>).*?<DTL1'sval="3".*?</HDR>

输入字符串为:

<HDR>abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR><HDR><DTL1 val="3"><DTL2 val="4"></HDR>

但是这个正则表达式选择

abc<DTL1 val="1"><DTL2 val="2"></HDR><HDR><DTL1 val="92"><DTL2 val="55"></HDR>

谁能帮我?

则表达式引擎将始终为您提供字符串中最左侧的匹配项(即使您使用非贪婪量词(。这正是你得到的。

因此,一种解决方案是禁止在.*?描述的过于宽松的部分中存在另一种<HDR>

您有两种技术可以做到这一点,您可以将.*?替换为:

(?>[^<]+|<(?!/HDR))*

或与:

(?:(?!</HDR).)*+

大多数时候,第一种技术的性能更高,但是如果您的字符串包含高密度的<,第二种方法也可以产生良好的结果。

使用所有格量词或原子组可以减少获得结果的步骤数,尤其是在子模式失败时。

例:

第一种方法:

(?<=<HDR>)(?>[^<]+|<(?!/HDR))*<DTL1'sval="3"(?>[^<]+|<(?!/HDR))*</HDR>

或此变体:

(?<=<HDR>)(?:[^<]+|<(?!/HDR|DTL1))*+<DTL1'sval="3"(?:[^<]+|<(?!/HDR))*+</HDR>

第二种方式:

(?<=<HDR>)(?:(?!</HDR).)*<DTL1'sval="3"(?:(?!</HDR).)*+</HDR>

或此变体:

(?<=<HDR>)(?:(?!</HDR|DTL1).)*+<DTL1'sval="3"(?:(?!</HDR).)*+</HDR>

Casimir et Hippolyte已经给了你几个很好的解决方案。我想详细说明几件事。

首先,为什么你的正则表达式不能做你想要的:(?<=<HDR>).*?告诉它匹配从第一个字符开始的任意数量的字符,前面是<HDR>,直到它遇到非贪婪量词(<DTL1...(后面的内容。好吧,前面的第一个字符 <HDR> 是第一个a,因此它匹配从那里开始的所有内容,直到遇到固定字符串<DTL1'sval="3"

Casimir et Hippolyte的解决方案适用于广义情况,其中标签的内容可以是嵌套以外的任何内容。你也可以通过积极的展望来做到这一点:

(?<=<HDR>)(.(?!</HDR>))*<DTL1'sval="3".*?</HDR>

但是,如果保证字符串位于所示结构中,其中 标签仅包含一个或多个 ##"> 标签,因此您知道其中不会有任何结束标签,您可以通过将第一个.*?替换为 [^/]* 来更有效地做到这一点:

(?<=<HDR>)[^/]*<DTL1'sval="3".*?</HDR>
否定字符类

比零宽度断言更有效,如果使用否定字符类,婪量词将比惰性量词更有效。

另请注意,通过使用后视来匹配开场 ,您将它从匹配中排除,但您将包括结束。你确定这就是你想要的吗?你正在匹配这个...

<DTL1 val="3"><DTL2 val="4"></HDR>

。当大概你想要这个...

<HDR><DTL1 val="3"><DTL2 val="4"></HDR>

。或者这个...

<DTL1 val="3"><DTL2 val="4">

因此,在第一个情况下,不要对开始标记使用回溯:

<HDR>(.(?!</HDR>))*<DTL1'sval="3".*?</HDR>
<HDR>[^/]*<DTL1'sval="3".*?</HDR>

在第二种情况下,对结束标记使用前瞻:

(?<=<HDR>)(.(?!</HDR>))*<DTL1'sval="3".*?(?=</HDR>)
(?<=<HDR>)[^/]*<DTL1'sval="3".*?(?=</HDR>)