J2. Particularités des expressions régulières PCRE

L’expression régulière est un patron à comparer avec le texte de gauche à droite. La plupart des caractères contenus dans le patron se représentent eux-mêmes et s’appliquent aux caractères correspondants dans le texte.

L’avantage principal des expressions régulières consiste en la possibilité d’inclure dans le masque les variantes et les répétitions. Elles sont codées avec les métacaractères qui à leur tour ne se représentent pas eux-mêmes mais sont interprétés de manière appropriée.

Il existe deux ensembles de métacaractères : ceux qui sont utilisés entre crochets et ceux qui sont utilisés à l’extérieur. Nous allons les envisager de plus près. Les métacaractères listés ci-dessous sont utilisés hors crochets :

Symbole

Valeur

\

caractère de contrôle standard (escape) permettant plusieurs variantes d’utilisation

^

indique le début de la chaîne (ou du texte en mode multi-lignes)

$

indique la fin de la chaîne (ou du texte en mode multi-lignes)

.

correspond à n’importe quel caractère sauf le caractère de saut de ligne (par défaut)

[

début de la description d’une classe de caractères

]

fin de description d’une classe de caractères

|

début d’une branche de l’alternative

(

début du sous-masque

)

fin du sous-masque

?

étend la valeur (

aussi quantificateur 0 ou 1

aussi quantificateur-minimisateur

*

0 ou plus

+

1 ou plus

aussi "quantificateur possesif"

{

début du quantificateur minimum/maximum

La partie du masque se trouvant entre crochets est nommée "classe de caractères". La classe de caractère comprend les métacaractères suivants :

Symbole

Valeur

\

caractère de contrôle standard (escape)

^

négation de la classe mais uniquement dans la position au début de la classe

-

détermine la plage de caractères

[

classe de caractères POSIX (uniquement dans le cas où elle est suivie de la syntaxe POSIX)

]

ferme la classe de caractères