一篇帖子带你走完正则表达式

天天的鸟蛋蛋 · 发表于 2025-3-15 02:41:46

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由天天的鸟蛋蛋于 2025-3-15 13:18 编辑

参考文档

正则表达式30分钟入门教程

菜鸟教程-正则表达式

...

---

今天我们来讲讲正则表达式

什么是正则？正则的定义是什么？

正则通常指 正则表达式（Regular Expression，简称 Regex），它是计算机科学中用于描述字符串匹配规则的工具。以下是详细解释：

正则表达式的定义

正则表达式是一种由特定字符和符号组成的模式，用于在文本中 搜索、匹配或替换 符合某种规则的字符串。它基于形式语言理论中的“正则语言”，通过简洁的语法实现复杂的字符串操作。

核心作用

匹配：检查字符串是否符合某种规则（如邮箱、电话号码格式）。
提取：从文本中抓取符合规则的部分（如提取网页中的链接）。
替换：修改或删除文本中的特定内容（如替换敏感词）。

基本示例

匹配数字：\d 表示单个数字，\d+ 匹配一个或多个连续数字。
验证邮箱：^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
- ^ 和 $ 表示字符串的开始和结束。
  - [a-zA-Z0-9._%+-]+ 匹配用户名部分。
    - @ 后的部分匹配域名。
    其他领域中的“正则”
    - 数学：如“正则图”（每个顶点度数相同的图）或“正则空间”（满足特定分离公理的拓扑空间）。
    - 物理学：如“正则变换”（经典力学中的坐标变换方法）。
    为什么学正则表达式？
    - 高效处理文本：替代繁琐的字符串操作代码。
    - 跨语言通用：大多数编程语言（如 Python、JavaScript）支持正则语法。
    - 应用广泛：数据清洗、日志分析、表单验证等场景必备。

---

正则表达式是什么?

正则表达式是一个查找的规则内容。用于查找复杂的内容比如一些后缀json$ 就是查找所有后缀为json 就是为了查找内容而存在的比如我们有个小说文本里面内容有中文的第一章和数字第1章整体文本大概长这样。

学习正则表达式的最好方法是从例子开始理解例子之后再自己对例子进行修改实验

原始文本：

第1章
第一章
第一章的内容
第2章
第一章的内容
第3章
第二章
第二章的内容

那么我们就需要用到正则表达式
给他查找并替换内容
我们想要的格式应该是

第一章
第一章的内容
第二章
第二章的内容

这样的我们就得需要正则表达式。
正则表达式为：
第\d+章

mt文件管理器运行正则表达式截图
下面的工具名为mt文件管理器

Screenshot_2025-03-14-23-52-17-26_9e8df3d0c7c1f50248b6ee043a653d26.webp

元字符

全部元字符

以下是全部, 有包含不常用的\nml，\xn等

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
.	匹配除换行符（\n、\r）之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用像" (.\|\n) "的模式。
(pattern)	匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 '$' 或 '$'。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y\|ies) 就是一个比 'industry\|industries' 更简略的表达式。
(?=pattern)	正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，"Windows(?=95\|98\|NT\|2000)"能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如"Windows(?!95\|98\|NT\|2000)"能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查类似，只是方向相反。例如，" `(?<=95\|98\|NT\|2000)Windows` "能匹配" `2000Windows` "中的" `Windows` "，但不能匹配" `3.1Windows` "中的" `Windows` "。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如" `(?<!95\|98\|NT\|2000)Windows` "能匹配" `3.1Windows` "中的" `Windows` "，但不能匹配" `2000Windows` "中的" `Windows` "。
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'、'l'、'i'、'n'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx	匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'。
\W	匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

我们常用的正则表达式

元字符

我们阅读常用的元字符

字符	描述
`\d`	匹配数字
`.`	匹配除换行符以外的任意字符
`\w`	匹配字母或数字或下划线或汉字
`\b`	匹配单词的开始或结束v
`^`	匹配字符串的开始
`$`	匹配字符串的结束

.*,\d+,\w+,\.+,\s\S 这些都是我们常用的

---

字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

例如： https://ysqbbs.com
我们要匹配上面的内容，我们就得要
字符转义
匹配的正则
https\:\/\/ysqbbs\.com

重复

你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。下面是正则表达式中所有的限定符(指定数量的代码，例如*,{5,12}等)：

代码/语法	说明
`*`	重复零次或更多次
`+`	重复一次或更多次
`?`	重复零次或一次
`{n}`	重复n次
`{n,}`	重复n次或更多次
`{n,m}`	重复n到m次

反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：

代码/语法	说明
`\W`	匹配任意不是字母，数字，下划线，汉字的字符
`\S`	匹配任意不是空白符的字符
`\D`	匹配任意非数字的字符
`\B`	匹配不是单词开头或结束的位置
`[^x]`	匹配除了x以外的任意字符
`[^aeiou]`	匹配除了aeiou这几个字母以外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

巨贪婪匹配

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。


为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？
简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：
最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

代码/语法	说明
`*?`	重复任意次，但尽可能少重复
`+?`	重复1次或更多次，但尽可能少重复
`??`	重复0次或1次，但尽可能少重复
`{n,m}?`	重复n到m次，但尽可能少重复
`{n,}?`	重复n次以上，但尽可能少重复

修饰符（标记）

修饰符	含义	描述
i	ignore - 不区分大小写	将匹配设置为不区分大小写，搜索时不区分大小写: A 和 a 没有区别。
g	global - 全局匹配	查找所有的匹配项。
m	multi line - 多行匹配	使边界字符 ^ 和 $ 匹配每一行的开头和结尾，记住是多行，而不是整个字符串的开头和结尾。
s	特殊字符圆点 . 中包含换行符 \n	默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符，加上 s 修饰符之后, . 中包含换行符 \n。

数字: \d+$
用户名: ^[\w\d_.]{4,16}$
字母数字字符: ^[a-zA-Z0-9]*$
带空格的字母数字字符: ^[a-zA-Z0-9 ]*$
小写字母: [a-z]+$
大写字母: [A-Z]+$
网址: ^(((http|https|ftp):\/\/)?([[a-zA-Z0-9]\-\.])+(\.)([[a-zA-Z0-9]]){2,4}([[a-zA-Z0-9]\/+=%&_\.~?\-]*))*$
日期 (MM/DD/YYYY): ^(0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])[- /.](19|20)?[0-9]{2}$
日期 (YYYY/MM/DD): ^(19|20)?[0-9]{2}[- /.](0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])$
求更求转发致谢: [$（【].*?[求更谢乐发推].*?[】）$]
查找最新章节: 您可以.*?查找最新章节
ps/PS: (?i)ps\b.*
Html标签: <[^>]+?>

恭喜你拿起了新武器正则表达式

掌握以上内容基本就够用了 ,~~还不够用自己去百度~~

正则表达式就讲到这里了我是天天的鸟蛋蛋 ~~小编下次再见~~

精选读者评论:

22楼已将错误部分修改回复这位读者，23楼第一个表格是全部展示可能有一些用不上的，但是后面表格是常用的

---

阅读的教程应该结合阅读的实际来，阅读里\w是会匹配中文汉字的。

复杂的时候\G也会很有用，教程里能讲解就好了。

\p也很有用，教程没介绍，有点遗憾。

教程里面两个\n混着一起，很容易让新手看迷糊。

还有阅读里后行断言的字符数必须有限，js里不支持后行断言。如果能提出来可以避免后人踩坑。

雷姆 · 发表于 2025-3-15 03:13:54

每个字都认识，连在一起就不知道什么意思了

天天的鸟蛋蛋 · 发表于 2025-3-15 03:17:44

雷姆发表于 2025-3-15 03:13
每个字都认识，连在一起就不知道什么意思了

慢慢来，一起学

天天的鸟蛋蛋 · 发表于 2025-3-15 03:18:18

雷姆发表于 2025-3-15 03:13
每个字都认识，连在一起就不知道什么意思了

主要内容就是如何用正则匹配匹配文本。

izz · 发表于 2025-3-15 04:36:47

感谢分享

读者202411 · 发表于 2025-3-15 04:59:06

感谢系统讲解

时玥未终 · 发表于 2025-3-15 06:07:50

很好，但脑子学会的不多，要长脑子了

我是萝卜 · 发表于 2025-3-15 06:59:09

谢谢天天大佬，又深化了一下知识点。

xlht2019 · 发表于 2025-3-15 08:35:32

谢谢分享

wusuoshishi · 发表于 2025-3-15 08:55:36

谢谢大佬

[教程] 一篇帖子带你走完正则表达式

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

参考文档

什么是正则？ 正则的定义是什么？

正则表达式的定义

核心作用

基本示例

其他领域中的“正则”

为什么学正则表达式？

正则表达式是什么?

元字符

全部元字符

我们常用的正则表达式

元字符

字符转义

重复

反义

巨贪婪匹配

修饰符（标记）

精选读者评论:

评分

版权声明

电梯直达 评论68

回复

常住居民

帅哥

美女

书源大佬

抠搜之星

龙的传人

活跃之星

源大侠

锄荡令

亥猪

戌狗

卯兔

寅虎

酉鸡

处女座

国宝熊猫

最佳新人

壹万会员

马上有钱

舞动江湖

辰龙

新春祝福

冬日之星

灌水之星

爱心之星

发财

版主

关于我们

服务支持

ysqbbs@outlook.com

什么是正则？正则的定义是什么？

电梯直达
评论68