虽然计算机可以很快地查找文本,但你必须精确地告诉它要找什么。正则表达式让你精确地指明要找的文本模式。实际上,某些文字处理和电子表格应用提供了查找替换功能,让你使用正则表达式进行查找。

Python 自带的re 模块让你编译Regex 对象。该对象有几种方法:search()查找单词匹配,findall()查找所有匹配实例,sub()对文本进行查找和替换。

正则表达式,简称为regex,是文本模式的描述方法。例如,\d 是一个正则表达式,表示一位数字字符,即任何一位 0 到 9 的数字。

有时候,想匹配的模式是可选的。就是说,不论这段文本在不在,正则表达式都会认为匹配。字符?表明它前面的分组在这个模式中是可选的。

*(称为星号)意味着“匹配零次或多次”,即星号之前的分组,可以在文本中出Python 编程快速上手——让繁琐工作自动化现任意次。它可以完全不存在,或一次又一次地重复。

*意味着“匹配零次或多次”,+(加号)则意味着“匹配一次或多次”。星号不要求分组出现在匹配的字符串中,但加号不同,加号前面的分组必须“至少出现一次”。

如果想要一个分组重复特定次数,就在正则表达式中该分组的后面,跟上花括号包围的数字。例如,正则表达式(Ha){3}将匹配字符串'HaHaHa',但不会匹配'HaHa',因为后者只重复了(Ha)分组两次。

假定想要将区号从电话号码中分离。添加括号将在正则表达式中创建“分组”:(\d\d\d)-(\d\d\d-\d\d\d\d)。然后可以使用group()匹配对象方法,从一个分组中获取匹配的文本。

除了search 方法外,Regex 对象也有一个findall()方法。search()将返回一个Match对象,包含被查找字符串中的“第一次”匹配的文本,而findall()方法将返回一组字符串,包含被查找字符串中的所有匹配。为了看看search()返回的Match 对象只包含第一次出现的匹配文本。

在正则表达式中,.(句点)字符称为“通配符”。它匹配除了换行之外的所有字符。

点-星使用“贪心”模式:它总是匹配尽可能多的文本。要用“非贪心”模式匹配所有文本,就使用点-星和问号。像和大括号一起使用时那样,问号告诉Python 用非贪心模式匹配。

>>> nongreedyRegex = re.compile(r'<.*?>')

>>> mo = nongreedyRegex.search(' for dinner.>')

>>> mo.group()

''

你可能想同时检查多个条件,例如,有时候你需要在两个条件都为True 时才执行相应的操作,而有时候你只要求一个条件为True 时就执行相应的操作。在这些情况下,关键字and 和or 可助你一臂之力。

?匹配零次或一次前面的分组。

*匹配零次或多次前面的分组。

+匹配一次或多次前面的分组。

{n}匹配n次前面的分组。

{n,}匹配n次或更多前面的分组。

{,m}匹配零次到m次前面的分组。

{n,m}匹配至少n次、至多m次前面的分组。

{n,m}或*或+对前面的分组进行非贪心匹配。

^spam意味着字符串必须以spam开始。

spam$意味着字符串必须以spam结束。

.匹配所有字符,换行符除外。

\d、\w和\s分别匹配数字、单词和空格。

\D、\W和\S分别匹配出数字、单词和空格外的所有字符。

[abc]匹配方括号内的任意字符(诸如a、b或c)。

[^abc]匹配不在方括号内的任意字符。

正则表达式不仅能找到文本模式,而且能够用新的文本替换掉这些模式。Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。第二个参数是一个字符串,即正则表达式。sub()方法返回替换完成后的字符串。例如,

>>> namesRegex = re.compile(r'Agent \w+')

>>> namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

向re.compile()传入一个字符串值,表示正则表达式,它将返回一个Regex 模式对象(或者就简称为Regex 对象)。

Regex 对象的search()方法查找传入的字符串,寻找该正则表达式的所有匹配。如果字符串中没有找到该正则表达式模式,search()方法将返回None。如果找到了该模式,search()方法将返回一个Match 对象。Match 对象有一个group()方法,它返回被查找字符串中实际匹配的文本。

如果想要一次就获取所有的分组,请使用groups()方法,注意函数名的复数形式。

因为mo.groups()返回多个值的元组,所以你可以使用多重复制的技巧,每个值赋给一个独立的变量,就像前面的代码行:areaCode, mainNumber = mo.groups()。

字符|称为“管道”。希望匹配许多表达式中的一个时,就可以使用它。例如,正则表达式r'Batman|Tina Fey'将匹配'Batman'或'Tina Fey'。

正则表达式中的(wo)?部分表明,模式wo 是可选的分组。该正则表达式匹配的文本中,wo 将出现零次或一次。这就是为什么正则表达式既匹配'Batwoman',又匹配'Batman'。

*(称为星号)意味着“匹配零次或多次”,即星号之前的分组,可以在文本中出Python 编程快速上手——让繁琐工作自动化现任意次。它可以完全不存在,或一次又一次地重复。

*意味着“匹配零次或多次”,+(加号)则意味着“匹配一次或多次”。星号不要求分组出现在匹配的字符串中,但加号不同,加号前面的分组必须“至少出现一次”。这不是可选的。

用花括号匹配特定次数如果想要一个分组重复特定次数,就在正则表达式中该分组的后面,跟上花括号包围的数字。例如,正则表达式(Ha){3}将匹配字符串'HaHaHa',但不会匹配'HaHa',因为后者只重复了(Ha)分组两次。

Python 的正则表达式默认是“贪心”的,这表示在有二义的情况下,它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串,即在结束的花括号后跟着一个问号。

除了search 方法外,Regex 对象也有一个findall()方法。search()将返回一个Match对象,包含被查找字符串中的“第一次”匹配的文本,而findall()方法将返回一组字符串,包含被查找字符串中的所有匹配。

通过在字符分类的左方括号后加上一个插入字符(^),就可以得到“非字符类”。非字符类将匹配不在这个字符类中的所有字符。

可以在正则表达式的开始处使用插入符号(^),表明匹配必须发生在被查找文本开始处。类似地,可以再正则表达式的末尾加上美元符号($),表示该字符串必须以这个正则表达式的模式结束。可以同时使用^和$,表明整个字符串必须匹配该模式,也就是说,只匹配该字符串的某个子集是不够的。

在正则表达式中,.(句点)字符称为“通配符”。它匹配除了换行之外的所有字符。

用点-星匹配所有字符有时候想要匹配所有字符串。例如,假定想要匹配字符串'First Name:',接下来是任意文本,接下来是'Last Name:',然后又是任意文本。可以用点-星(.*)表示“任意文本”

不区分大小写的匹配robocop = re.compile(r'robocop', re.I)

正则表达式不仅能找到文本模式,而且能够用新的文本替换掉这些模式。Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。第二个参数是一个字符串,即正则表达式。sub()方法返回替换完成后的字符串。

re.split(r'[\s\,\;]+', 'a,b;; c d')

['a', 'b', 'c', 'd']

除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。比如:

^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')

>>> m

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

>>> m.group(0)

'010-12345'

>>> m.group(1)

'010'

>>> m.group(2)

'12345'

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串,group(1)、group(2)……表示第1、2、……个子串。