Expressions régulières en C: exemples?

171

Je suis après quelques exemples simples et les meilleures pratiques sur la façon d'utiliser les expressions régulières dans ANSI C. man regex.hne fournit pas beaucoup d'aide.

Dervin Thunk
la source
6
Il n'y a pas de support intégré pour les regex dans ANSI C. Quelle bibliothèque de regex utilisez-vous?
Joe le
7
Rob Pike a écrit une petite fonction de recherche de chaîne d'expression régulière qui a accepté un sous-ensemble très utile d'expressions régulières pour le livre The Practice of Programming dont lui et Brian Kernighan ont co-écrit. Voir cette discussion, A Regular Expression Matcher, par Dr Kernighan cs.princeton.edu/courses/archive/spr09/cos333/beautiful.html
Richard Chambers

Réponses:

233

En fait, les expressions régulières ne font pas partie d'ANSI C. Il semble que vous parliez peut-être de la bibliothèque d'expressions régulières POSIX, qui est fournie avec la plupart (tous?) * Nix. Voici un exemple d'utilisation des expressions régulières POSIX en C (basé sur ceci ):

#include <regex.h>        
regex_t regex;
int reti;
char msgbuf[100];

/* Compile regular expression */
reti = regcomp(&regex, "^a[[:alnum:]]", 0);
if (reti) {
    fprintf(stderr, "Could not compile regex\n");
    exit(1);
}

/* Execute regular expression */
reti = regexec(&regex, "abc", 0, NULL, 0);
if (!reti) {
    puts("Match");
}
else if (reti == REG_NOMATCH) {
    puts("No match");
}
else {
    regerror(reti, &regex, msgbuf, sizeof(msgbuf));
    fprintf(stderr, "Regex match failed: %s\n", msgbuf);
    exit(1);
}

/* Free memory allocated to the pattern buffer by regcomp() */
regfree(&regex);

Vous pouvez également consulter PCRE , une bibliothèque d'expressions régulières compatibles Perl en C. La syntaxe Perl est à peu près la même syntaxe utilisée dans Java, Python et un certain nombre d'autres langages. La syntaxe POSIX est la syntaxe utilisée par grep, sed, vi, etc.

Laurence Gonsalves
la source
7
A moins que vous n'ayez besoin d'éviter la dépendance I deuxième PCRE, il a quelques améliorations de syntaxe et est très stable. Au moins avec certaines versions plus anciennes de Linux, la bibliothèque d'expressions régulières «intégrée» n'est pas trop difficile à planter étant donné certaines chaînes d'entrée et certaines expressions régulières qui correspondent «presque» ou impliquent beaucoup de caractères spéciaux
bdk
@Laurence Quelle est la signification de passer 0 à regcomp? regcomp ne prend que quatre valeurs entières 1, 2, 4 et 8 pour représenter 4 modes différents.
lixiang
2
@lixiang Le dernier paramètre à regcomp, cflagsest un masque de bits. De pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "L'argument cflags est le OU inclusif au niveau du bit de zéro ou plusieurs des indicateurs suivants ...". Si vous OU-ensemble zéro, vous obtiendrez 0. Je vois que la page de regcompmanuel Linux pour dit "cflags peut être le bit au niveau d'un ou plusieurs des éléments suivants", ce qui semble trompeur.
Laurence Gonsalves
2
Vous pouvez extraire le texte des groupes correspondants avec quelque chose comme: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }notez que les correspondances de groupe commencent à 1, le groupe 0 est la chaîne entière. Ajouter des vérifications d'erreurs pour les hors limites, etc.
BurnsBA
2
Quant à savoir si cela regfreeest nécessaire après un échec regcomp, bien que cela soit vraiment sous-spécifié, cela suggère que cela ne devrait pas être fait: redhat.com/archives/libvir-list/2013-September/msg00276.html
Daniel Jour
12

Ce n'est probablement pas ce que vous voulez, mais un outil comme re2c peut compiler des expressions régulières POSIX (-ish) en ANSI C.Il est écrit en remplacement de lex, mais cette approche vous permet de sacrifier la flexibilité et la lisibilité pour le dernier bit de vitesse, si vous en avez vraiment besoin.

Michiel Buddingh
la source
9

man regex.hsignale qu'il n'y a pas d'entrée manuelle pour regex.h, mais man 3 regex vous donne une page expliquant les fonctions POSIX pour la correspondance de modèles.
Les mêmes fonctions sont décrites dans La bibliothèque GNU C: Correspondance d'expressions régulières , qui explique que la bibliothèque C GNU supporte à la fois l'interface POSIX.2 et l'interface que la bibliothèque C GNU a depuis de nombreuses années.

Par exemple, pour un programme hypothétique qui imprime laquelle des chaînes passées en argument correspond au modèle passé en premier argument, vous pouvez utiliser un code similaire au suivant.

#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void print_regerror (int errcode, size_t length, regex_t *compiled);

int
main (int argc, char *argv[])
{
  regex_t regex;
  int result;

  if (argc < 3)
    {
      // The number of passed arguments is lower than the number of
      // expected arguments.
      fputs ("Missing command line arguments\n", stderr);
      return EXIT_FAILURE;
    }

  result = regcomp (&regex, argv[1], REG_EXTENDED);
  if (result)
    {
      // Any value different from 0 means it was not possible to 
      // compile the regular expression, either for memory problems
      // or problems with the regular expression syntax.
      if (result == REG_ESPACE)
        fprintf (stderr, "%s\n", strerror(ENOMEM));
      else
        fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
      return EXIT_FAILURE;               
    }
  for (int i = 2; i < argc; i++)
    {
      result = regexec (&regex, argv[i], 0, NULL, 0);
      if (!result)
        {
          printf ("'%s' matches the regular expression\n", argv[i]);
        }
      else if (result == REG_NOMATCH)
        {
          printf ("'%s' doesn't the regular expression\n", argv[i]);
        }
      else
        {
          // The function returned an error; print the string 
          // describing it.
          // Get the size of the buffer required for the error message.
          size_t length = regerror (result, &regex, NULL, 0);
          print_regerror (result, length, &regex);       
          return EXIT_FAILURE;
        }
    }

  /* Free the memory allocated from regcomp(). */
  regfree (&regex);
  return EXIT_SUCCESS;
}

void
print_regerror (int errcode, size_t length, regex_t *compiled)
{
  char buffer[length];
  (void) regerror (errcode, compiled, buffer, length);
  fprintf(stderr, "Regex match failed: %s\n", buffer);
}

Le dernier argument de regcomp()doit être au moins REG_EXTENDED, ou les fonctions utiliseront des expressions régulières de base , ce qui signifie que (par exemple) vous devrez utiliser a\{3\}au lieu d' a{3}utiliser des expressions régulières étendues , ce qui est probablement ce que vous vous attendez à utiliser.

POSIX.2 a également une autre fonction pour la correspondance générique: fnmatch(). Il ne permet pas de compiler l'expression régulière, ou d'obtenir les sous-chaînes correspondant à une sous-expression, mais il est très spécifique pour vérifier quand un nom de fichier correspond à un joker (par exemple, il utilise le FNM_PATHNAMEdrapeau).

kiamlaluno
la source
6

Voici un exemple d'utilisation de REG_EXTENDED. Cette expression régulière

"^(-)?([0-9]+)((,|.)([0-9]+))?\n$"

Vous permet d'attraper des nombres décimaux dans le système espagnol et international. :)

#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];

int main(int argc, char const *argv[])
{
    while(1){
        fgets( msgbuf, 100, stdin );
        reti = regcomp(&regex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
        if (reti) {
            fprintf(stderr, "Could not compile regex\n");
            exit(1);
        }

        /* Execute regular expression */
        printf("%s\n", msgbuf);
        reti = regexec(&regex, msgbuf, 0, NULL, 0);
        if (!reti) {
            puts("Match");
        }
        else if (reti == REG_NOMATCH) {
            puts("No match");
        }
        else {
            regerror(reti, &regex, msgbuf, sizeof(msgbuf));
            fprintf(stderr, "Regex match failed: %s\n", msgbuf);
            exit(1);
        }

        /* Free memory allocated to the pattern buffer by regcomp() */
        regfree(&regex);
    }

}
Diego Campos
la source
5

Bien que la réponse ci-dessus soit bonne, je recommande d'utiliser PCRE2 . Cela signifie que vous pouvez littéralement utiliser tous les exemples de regex là-bas maintenant et ne pas avoir à traduire à partir d'une ancienne regex.

J'ai déjà répondu à cette question, mais je pense que cela peut aussi aider ici.

Regex In C pour rechercher des numéros de carte de crédit

// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h

#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>

int main(){

bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;


char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";

pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX 
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. 
subject_length = strlen((char *)subject);




  re = pcre2_compile(
  pattern,               /* the pattern */
  PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
  0,                     /* default options */
  &errornumber,          /* for error number */
  &erroroffset,          /* for error offset */
  NULL);                 /* use default compile context */

/* Compilation failed: print the error message and exit. */
if (re == NULL)
  {
  PCRE2_UCHAR buffer[256];
  pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
  printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
  return 1;
  }


match_data = pcre2_match_data_create_from_pattern(re, NULL);

rc = pcre2_match(
  re,
  subject,              /* the subject string */
  subject_length,       /* the length of the subject */
  0,                    /* start at offset 0 in the subject */
  0,                    /* default options */
  match_data,           /* block for storing the result */
  NULL);

if (rc < 0)
  {
  switch(rc)
    {
    case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
    pcre2_match_data_free(match_data);
    pcre2_code_free(re);
    Found = 0;
    return Found;
    //  break;
    /*
    Handle other special cases if you like
    */
    default: printf("Matching error %d\n", rc); //break;
    }
  pcre2_match_data_free(match_data);   /* Release memory used for the match */
  pcre2_code_free(re);
  Found = 0;                /* data and the compiled pattern. */
  return Found;
  }


if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);

if (rc == 0)
  printf("ovector was not big enough for all the captured substrings\n");


if (ovector[0] > ovector[1])
  {
  printf("\\K was used in an assertion to set the match start after its end.\n"
    "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
      (char *)(subject + ovector[1]));
  printf("Run abandoned\n");
  pcre2_match_data_free(match_data);
  pcre2_code_free(re);
  return 0;
}

for (i = 0; i < rc; i++)
  {
  PCRE2_SPTR substring_start = subject + ovector[2*i];
  size_t substring_length = ovector[2*i+1] - ovector[2*i];
  printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
  }
}

else{
  if(rc > 0){
    Found = true;

    } 
} 
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;

}

Installez PCRE en utilisant:

wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make 
sudo make install 
sudo ldconfig

Compilez en utilisant:

gcc foo.c -lpcre2-8 -o foo

Vérifiez ma réponse pour plus de détails.

LUser
la source