J2. Besonderheiten der Perl-kompatiblen regulären Ausdrücke (PCRE)

Reguläre Ausdrücke sind Muster, die von links nach rechts mit dem Text abgeglichen werden. In einem Muster repräsentieren die meisten Zeichen sich selbst und passen auf die entsprechenden Zeichen im Text.

Der Hauptvorteil regulärer Ausdrücke ist, dass ein Muster mehrere Varianten und Wiederholungen enthalten kann. Sie werden mittels Metazeichen kodiert. Metazeichen sind die Zeichen, die nicht für sich selbst stehen, sondern eine besondere Bedeutung haben.

Es gibt zwei Arten von Metazeichen: Die einen werden in eckigen Klammern gesetzt, und die anderen werden ohne eckige Klammern verwendet. Nachfolgend werden sie detailliert beschrieben. Ohne eckige Klammern werden die folgenden Metazeichen verwendet:

Zeichen

Wert

\

ein gewöhnliches Steuerzeichen (escape), das mehrere Anwendungsvarianten hat

^

Start einer Zeile (oder Beginn des Textes im Mehrzeilenmodus)

$

Zeilenende (oder Ende des Textes im Mehrzeilenmodus)

.

beliebiges Zeichen außer Zeilentrenner (standardmäßig)

[

Anfang der Zeichenklasse

]

Ende der Zeichenklasse

|

Alternative

(

Anfang des Untermusters

)

Ende des Untermusters

?

erweitert die Bedeutung von (

tritt auch als Quantor auf: 0 oder 1

tritt auch als Minimizer auf

*

keinmal oder beliebig oft

+

mindestens einmal

tritt auch als possessiver Quantor auf

{

Anfang eines minimalen/maximalen Quantors

Der Teil des Musters, der von eckigen Klammern umschlossen ist, wird als Zeichenklasse bezeichnet. Metazeichen in der Zeichenklasse sind:

Zeichen

Wert

\

ein gewöhnliches Steuerzeichen (escape)

^

findet ein Zeichen oder eine Zeichenfolge am Anfang, am Anfang eines Zeichenbereichs steht es für eine Negation

-

definiert einen Zeichenbereich

[

POSIX-Zeichenklasse (nur wenn die POSIX-Syntax ihr folgt)

]

Ende der Zeichenklasse