9 Repérer et extraire des motifs (expressions régulières)

Une expression régulière ou rationnelle est une chaîne de caractères décrivant au moyen d’une syntaxe spéciale plusieurs chaînes de caractères possibles.

Elles sont utilisables dans Openrefine:

  • dans l’interface graphique : filtres, facettes, séparateurs de valeurs.
  • dans certaines fonctions GREL :
    • find
    • match
    • rpartition
    • replace
    • partition
    • split

Il existe plusieurs variantes d’expressions régulières. Celles d’Openrefine reposent sur la variante Java.

match () ne renvoie un résultat que si la chaîne entière correspond au motif.

find () est plus souple.

Pour aller plus loin :

Documentation d’Openrefine https://github.com/OpenRefine/OpenRefine/wiki/Understanding-Regular-Expressions

Les expressions régulières en Java http://docs.oracle.com/javase/tutorial/essential/regex/

Site pour construire et tester des expression régulières : https://regex101.com/

Site sur les expressions régulières en général https://www.regular-expressions.info/

Démonstration

Rechercher une suite de 4 à 6 chiffres dans la chaîne de caractère “abc12894po34” avec match ()

Même opération avec find ()