ITEEDU

3.1编译后的Pattern对象

将一个正则式，使用compile函数编译，不仅是为了提高匹配的速度，同时还能使用一些附加的功能。编译后的结果生成一个Pattern对象，这个对象里面有很多函数，他们看起来和re模块的函数非常象，它同样有findall , match , search ,finditer , sub , subn , split 这些函数，只不过它们的参数有些小小的不同。一般说来，re模块函数的第一个参数，即正则规则不再需要了，应为规则就包含在Pattern对象中了，编译选项也不再需要了，因为已经被编译过了。因此re模块中函数的这两个参数的位置，就被后面的参数取代了。

findall , match , search 和finditer这几个函数的参数是一样的，除了少了规则和选项两个参数外，它们又加入了另外两个参数，它们是：查找开始位置和查找结束位置，也就是说，现在你可以指定查找的区间，除去你不感兴趣的区间。它们现在的参数形式是：

findall ( targetString [, startPos [,endPos] ] )

finditer ( targetString [, startPos [,endPos] ] )

match ( targetString [, startPos [,endPos] ] )

search ( targetString [, startPos [,endPos] ] )

这些函数的使用和re模块的同名函数使用完全一样。所以就不多介绍了。

除了和re模块的函数同样的函数外，Pattern对象还多了些东西，它们是：

flags 查询编译时的选项

pattern 查询编译时的规则

groupindex 规则里的组

这几个不是函数，而是一个值。它们提供你一些规则的信息。比如下面这个例子

>>> p=re.compile( r'(?P\b[a-z]+\b)|(?P\b\d+\b)|(?P\b[a-z_]+\w*\b)' , re.I )
>>> p.flags
2
>>> p.pattern
'(?P\\b[a-z]+\\b)|(?P\\b\\d+\\b)|(?P\\b[a-z_]+\\w*\\b)'
>>> p.groupindex
{'num': 2, 'word': 1, 'id': 3}

我们来分析一下这个例子：这个正则式是匹配单词、或数字、或一个由字母或’_’开头，后面接字母或数字的一个ID。我们给这三种情况的规则都包入了一个命名组，分别命名为’word’ , ‘num’ 和 ‘id’。我们规定大小写不敏感，所以使用了编译选项 ‘I’。

编译以后返回的对象为p，通过p.flag我们可以查看编译时的选项，不过它显示的不是’I’，而是一个数值2 。其实re.I是一个整数，2就是它的值。我们可以查看一下：

>>> re.I
2
>>> re.L
4
>>> re.M
8
…

每个选项都是一个数值。

通过p.pattern可以查看被编译的规则是什么。使用print的话会更好看一些

>>> print p.pattern
(?P\b[a-z]+\b)|(?P\b\d+\b)|(?P\b[a-z_]+\w*\b)

看，和我们输入的一样。

接下来的p.groupindex则是一个字典，它包含了规则中的所有命名组。字典的key是名字，values是组的序号。由于字典是以名字作为key，所以一个无命名的组不会出现在这里。