将一个正则式,使用compile函数编译,不仅是为了提高匹配的速度,同时还能使用一些附加的功能。编译后的结果生成一个Pattern对象,这个对象里面有很多函数,他们看起来和re模块的函数非常象,它同样有findall , match , search ,finditer , sub , subn , split 这些函数,只不过它们的参数有些小小的不同。一般说来,re模块函数的第一个参数,即正则规则不再需要了,应为规则就包含在Pattern对象中了,编译选项也不再需要了,因为已经被编译过了。因此re模块中函数的这两个参数的位置,就被后面的参数取代了。
findall , match , search 和finditer这几个函数的参数是一样的,除了少了规则和选项两个参数外,它们又加入了另外两个参数,它们是:查找开始位置和查找结束位置,也就是说,现在你可以指定查找的区间,除去你不感兴趣的区间。它们现在的参数形式是:
findall ( targetString [, startPos [,endPos] ] )
finditer ( targetString [, startPos [,endPos] ] )
match ( targetString [, startPos [,endPos] ] )
search ( targetString [, startPos [,endPos] ] )
这些函数的使用和re模块的同名函数使用完全一样。所以就不多介绍了。
除了和re模块的函数同样的函数外,Pattern对象还多了些东西,它们是:
flags 查询编译时的选项
pattern 查询编译时的规则
groupindex 规则里的组
这几个不是函数,而是一个值。它们提供你一些规则的信息。比如下面这个例子
>>> p=re.compile( r'(?P\b[a-z]+\b)|(?P \b\d+\b)|(?P \b[a-z_]+\w*\b)' , re.I ) >>> p.flags 2 >>> p.pattern '(?P \\b[a-z]+\\b)|(?P \\b\\d+\\b)|(?P \\b[a-z_]+\\w*\\b)' >>> p.groupindex {'num': 2, 'word': 1, 'id': 3}
我们来分析一下这个例子:这个正则式是匹配单词、或数字、或一个由字母或’_’开头,后面接字母或数字的一个ID。我们给这三种情况的规则都包入了一个命名组,分别命名为’word’ , ‘num’ 和 ‘id’。我们规定大小写不敏感,所以使用了编译选项 ‘I’。
编译以后返回的对象为p,通过p.flag我们可以查看编译时的选项,不过它显示的不是’I’,而是一个数值2 。其实re.I是一个整数,2就是它的值。我们可以查看一下:
>>> re.I 2 >>> re.L 4 >>> re.M 8 …
每个选项都是一个数值。
通过p.pattern可以查看被编译的规则是什么。使用print的话会更好看一些
>>> print p.pattern (?P\b[a-z]+\b)|(?P \b\d+\b)|(?P \b[a-z_]+\w*\b)
看,和我们输入的一样。
接下来的p.groupindex则是一个字典,它包含了规则中的所有命名组。字典的key是名字,values是组的序号。由于字典是以名字作为key,所以一个无命名的组不会出现在这里。