分组补充 | My Obsidian Notes

在正则表达式中，非捕获组和原子分组是两种不同类型的分组机制，它们有特定的用途，通常用于优化正则表达式的性能或改变匹配的行为。

1. 非捕获组 `(?: ...)`

非捕获组（non-capturing group）是一个常见的正则表达式概念，它的作用类似于普通的捕获组，但它 不会捕获匹配的子字符串。这意味着，尽管它在正则表达式中起到分组的作用，但你无法通过 .group() 方法来访问该分组。

语法：

(?:...)  # 非捕获组

(?:...) 用来将正则表达式中的部分括起来作为一个分组，但这个分组不会出现在 .group() 方法返回的结果中。

使用场景：

非捕获组主要用于以下几种情况：

优化性能：当你不需要分组结果时，使用非捕获组可以减少不必要的内存消耗和性能开销。
避免干扰捕获组：如果你只想用括号来组织逻辑，但又不需要捕获某些部分的匹配结果时，使用非捕获组是很方便的。

例子：

import re

# 假设字符串
text = "apple banana orange"

# 使用非捕获组：只匹配空格分隔的单词，不需要捕获括号内的部分
pattern = r'(?:apple|banana|orange)'

# 查找匹配项
matches = re.findall(pattern, text)

print(matches)  # 输出：['apple', 'banana', 'orange']

在这个例子中，(?:apple|banana|orange) 匹配了 apple、banana 和 orange，但没有使用捕获组来捕获这些单词。我们可以看到返回的匹配结果直接是这些单词，而没有单独捕获任何分组。

与捕获组的对比：

普通的捕获组 () 会捕获匹配的子字符串，而非捕获组 (?: ...) 不会：

import re

text = "apple banana orange"
# 捕获组的例子
pattern_with_capture = r'(apple|banana|orange)'

# 使用捕获组，查看每个分组的内容
matches = re.findall(pattern_with_capture, text)
print(matches)  # 输出：['apple', 'banana', 'orange']

这里，(apple|banana|orange) 作为捕获组会返回匹配的单词列表。两者的区别是，捕获组的结果会被返回为匹配的内容，而非捕获组不会。

2. 原子分组 `(?: ...)` 和 `(?> ...)`

原子分组（Atomic Grouping）是一种特殊的分组类型，它与非捕获组相似，但它的行为稍微不同。它不仅不会捕获内容，而且它 在匹配成功后，不会回溯到原子分组的内部。

语法：

(?>...)  # 原子分组

作用：

原子分组 禁止回溯，即一旦匹配成功，正则引擎就不会再尝试回溯来重新匹配原子分组中的内容。这对于复杂的正则表达式有重要意义，尤其是在深度嵌套或复杂的匹配模式下，回溯可能会导致性能问题。
当你希望强制要求某部分内容一旦匹配就不会被“反复尝试”，原子分组就非常有用。

使用场景：

优化回溯：在复杂的正则表达式中，回溯可能会导致不必要的性能损耗。使用原子分组可以避免这种情况。
嵌套结构：当处理嵌套结构（例如括号内的括号）时，原子分组防止正则引擎在匹配失败后回到先前的状态。

例子：

import re

text = "(a(b(c)))"

# 原子分组禁止回溯
pattern = r'\((?>[^\(\)]+|(?R))*\)'

# 查找匹配项
matches = re.findall(pattern, text)

print(matches)  # 输出：['(a(b(c)))']

这个正则表达式匹配的是一个嵌套括号，原子分组 (?R) 递归地匹配嵌套的括号结构，并且 避免回溯，这对于递归匹配嵌套结构非常有用。

与普通分组的区别：

普通分组 () 和原子分组 (?> ...) 的主要区别在于：

普通分组：会捕获匹配的部分，可以通过 group() 方法获取匹配的内容，并且如果匹配失败，正则引擎会进行回溯尝试不同的匹配路径。
原子分组：不会回溯，也不会捕获匹配的部分。如果正则引擎进入了原子分组并匹配成功，它就不会尝试修改这个分组的匹配内容。

总结：

非捕获组 (?: ...)：用于将表达式的一部分分组，但不捕获匹配的结果，适用于只需要分组结构的场合，而不需要访问分组内容。
原子分组 (?> ...)：用于避免回溯，确保一旦匹配成功，正则引擎就不再尝试回到原子分组内进行其他匹配，这在处理复杂模式时能显著提升性能。

这两种分组的主要目的是优化性能、避免不必要的回溯，并且在某些特定的情况下，能够使正则表达式的行为更加精确和高效。

1. 非捕获组 (?: ...)

语法：

使用场景：

例子：

与捕获组的对比：

2. 原子分组 (?: ...) 和 (?> ...)

语法：

作用：

使用场景：

例子：

与普通分组的区别：

总结：

1. 非捕获组 `(?: ...)`

2. 原子分组 `(?: ...)` 和 `(?> ...)`