Je suis après quelques exemples simples et les meilleures pratiques sur la façon d'utiliser les expressions régulières dans ANSI C. man regex.hne fournit pas beaucoup d'aide.
Il n'y a pas de support intégré pour les regex dans ANSI C. Quelle bibliothèque de regex utilisez-vous?
Joe le
7
Rob Pike a écrit une petite fonction de recherche de chaîne d'expression régulière qui a accepté un sous-ensemble très utile d'expressions régulières pour le livre The Practice of Programming dont lui et Brian Kernighan ont co-écrit. Voir cette discussion, A Regular Expression Matcher, par Dr Kernighan cs.princeton.edu/courses/archive/spr09/cos333/beautiful.html
Richard Chambers
Réponses:
233
En fait, les expressions régulières ne font pas partie d'ANSI C. Il semble que vous parliez peut-être de la bibliothèque d'expressions régulières POSIX, qui est fournie avec la plupart (tous?) * Nix. Voici un exemple d'utilisation des expressions régulières POSIX en C (basé sur ceci ):
#include<regex.h>regex_t regex;int reti;char msgbuf[100];/* Compile regular expression */
reti = regcomp(®ex,"^a[[:alnum:]]",0);if(reti){
fprintf(stderr,"Could not compile regex\n");
exit(1);}/* Execute regular expression */
reti = regexec(®ex,"abc",0, NULL,0);if(!reti){
puts("Match");}elseif(reti == REG_NOMATCH){
puts("No match");}else{
regerror(reti,®ex, msgbuf,sizeof(msgbuf));
fprintf(stderr,"Regex match failed: %s\n", msgbuf);
exit(1);}/* Free memory allocated to the pattern buffer by regcomp() */
regfree(®ex);
Vous pouvez également consulter PCRE , une bibliothèque d'expressions régulières compatibles Perl en C. La syntaxe Perl est à peu près la même syntaxe utilisée dans Java, Python et un certain nombre d'autres langages. La syntaxe POSIX est la syntaxe utilisée par grep, sed, vi, etc.
A moins que vous n'ayez besoin d'éviter la dépendance I deuxième PCRE, il a quelques améliorations de syntaxe et est très stable. Au moins avec certaines versions plus anciennes de Linux, la bibliothèque d'expressions régulières «intégrée» n'est pas trop difficile à planter étant donné certaines chaînes d'entrée et certaines expressions régulières qui correspondent «presque» ou impliquent beaucoup de caractères spéciaux
bdk
@Laurence Quelle est la signification de passer 0 à regcomp? regcomp ne prend que quatre valeurs entières 1, 2, 4 et 8 pour représenter 4 modes différents.
lixiang
2
@lixiang Le dernier paramètre à regcomp, cflagsest un masque de bits. De pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "L'argument cflags est le OU inclusif au niveau du bit de zéro ou plusieurs des indicateurs suivants ...". Si vous OU-ensemble zéro, vous obtiendrez 0. Je vois que la page de regcompmanuel Linux pour dit "cflags peut être le bit au niveau d'un ou plusieurs des éléments suivants", ce qui semble trompeur.
Laurence Gonsalves
2
Vous pouvez extraire le texte des groupes correspondants avec quelque chose comme: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }notez que les correspondances de groupe commencent à 1, le groupe 0 est la chaîne entière. Ajouter des vérifications d'erreurs pour les hors limites, etc.
Ce n'est probablement pas ce que vous voulez, mais un outil comme re2c peut compiler des expressions régulières POSIX (-ish) en ANSI C.Il est écrit en remplacement de lex, mais cette approche vous permet de sacrifier la flexibilité et la lisibilité pour le dernier bit de vitesse, si vous en avez vraiment besoin.
man regex.hsignale qu'il n'y a pas d'entrée manuelle pour regex.h, mais man 3 regex vous donne une page expliquant les fonctions POSIX pour la correspondance de modèles.
Les mêmes fonctions sont décrites dans La bibliothèque GNU C: Correspondance d'expressions régulières , qui explique que la bibliothèque C GNU supporte à la fois l'interface POSIX.2 et l'interface que la bibliothèque C GNU a depuis de nombreuses années.
Par exemple, pour un programme hypothétique qui imprime laquelle des chaînes passées en argument correspond au modèle passé en premier argument, vous pouvez utiliser un code similaire au suivant.
#include<errno.h>#include<regex.h>#include<stdio.h>#include<stdlib.h>#include<string.h>void print_regerror (int errcode,size_t length,regex_t*compiled);int
main (int argc,char*argv[]){regex_t regex;int result;if(argc <3){// The number of passed arguments is lower than the number of// expected arguments.
fputs ("Missing command line arguments\n", stderr);return EXIT_FAILURE;}
result = regcomp (®ex, argv[1], REG_EXTENDED);if(result){// Any value different from 0 means it was not possible to // compile the regular expression, either for memory problems// or problems with the regular expression syntax.if(result == REG_ESPACE)
fprintf (stderr,"%s\n", strerror(ENOMEM));else
fputs ("Syntax error in the regular expression passed as first argument\n", stderr);return EXIT_FAILURE;}for(int i =2; i < argc; i++){
result = regexec (®ex, argv[i],0, NULL,0);if(!result){
printf ("'%s' matches the regular expression\n", argv[i]);}elseif(result == REG_NOMATCH){
printf ("'%s' doesn't the regular expression\n", argv[i]);}else{// The function returned an error; print the string // describing it.// Get the size of the buffer required for the error message.size_t length = regerror (result,®ex, NULL,0);
print_regerror (result, length,®ex);return EXIT_FAILURE;}}/* Free the memory allocated from regcomp(). */
regfree (®ex);return EXIT_SUCCESS;}void
print_regerror (int errcode,size_t length,regex_t*compiled){char buffer[length];(void) regerror (errcode, compiled, buffer, length);
fprintf(stderr,"Regex match failed: %s\n", buffer);}
Le dernier argument de regcomp()doit être au moins REG_EXTENDED, ou les fonctions utiliseront des expressions régulières de base , ce qui signifie que (par exemple) vous devrez utiliser a\{3\}au lieu d' a{3}utiliser des expressions régulières étendues , ce qui est probablement ce que vous vous attendez à utiliser.
POSIX.2 a également une autre fonction pour la correspondance générique: fnmatch(). Il ne permet pas de compiler l'expression régulière, ou d'obtenir les sous-chaînes correspondant à une sous-expression, mais il est très spécifique pour vérifier quand un nom de fichier correspond à un joker (par exemple, il utilise le FNM_PATHNAMEdrapeau).
Bien que la réponse ci-dessus soit bonne, je recommande d'utiliser PCRE2 . Cela signifie que vous pouvez littéralement utiliser tous les exemples de regex là-bas maintenant et ne pas avoir à traduire à partir d'une ancienne regex.
J'ai déjà répondu à cette question, mais je pense que cela peut aussi aider ici.
// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h#define PCRE2_CODE_UNIT_WIDTH 8#include<stdio.h>#include<string.h>#include<pcre2.h>#include<stdbool.h>int main(){boolDebug=true;boolFound=false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;int errornumber;int i;int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;size_t subject_length;
pcre2_match_data *match_data;char*RegexStr="(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";char* source ="5111 2222 3333 4444";
pattern =(PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX
subject =(PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked.
subject_length = strlen((char*)subject);
re = pcre2_compile(
pattern,/* the pattern */
PCRE2_ZERO_TERMINATED,/* indicates pattern is zero-terminated */0,/* default options */&errornumber,/* for error number */&erroroffset,/* for error offset */
NULL);/* use default compile context *//* Compilation failed: print the error message and exit. */if(re == NULL){
PCRE2_UCHAR buffer[256];
pcre2_get_error_message(errornumber, buffer,sizeof(buffer));
printf("PCRE2 compilation failed at offset %d: %s\n",(int)erroroffset,buffer);return1;}
match_data = pcre2_match_data_create_from_pattern(re, NULL);
rc = pcre2_match(
re,
subject,/* the subject string */
subject_length,/* the length of the subject */0,/* start at offset 0 in the subject */0,/* default options */
match_data,/* block for storing the result */
NULL);if(rc <0){switch(rc){case PCRE2_ERROR_NOMATCH://printf("No match\n"); //
pcre2_match_data_free(match_data);
pcre2_code_free(re);Found=0;returnFound;// break;/*
Handle other special cases if you like
*/default: printf("Matching error %d\n", rc);//break;}
pcre2_match_data_free(match_data);/* Release memory used for the match */
pcre2_code_free(re);Found=0;/* data and the compiled pattern. */returnFound;}if(Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n",(int)ovector[0]);if(rc ==0)
printf("ovector was not big enough for all the captured substrings\n");if(ovector[0]> ovector[1]){
printf("\\K was used in an assertion to set the match start after its end.\n""From end to start the match was: %.*s\n",(int)(ovector[0]- ovector[1]),(char*)(subject + ovector[1]));
printf("Run abandoned\n");
pcre2_match_data_free(match_data);
pcre2_code_free(re);return0;}for(i =0; i < rc; i++){
PCRE2_SPTR substring_start = subject + ovector[2*i];size_t substring_length = ovector[2*i+1]- ovector[2*i];
printf("%2d: %.*s\n", i,(int)substring_length,(char*)substring_start);}}else{if(rc >0){Found=true;}}
pcre2_match_data_free(match_data);
pcre2_code_free(re);returnFound;}
Installez PCRE en utilisant:
wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make
sudo make install
sudo ldconfig
Réponses:
En fait, les expressions régulières ne font pas partie d'ANSI C. Il semble que vous parliez peut-être de la bibliothèque d'expressions régulières POSIX, qui est fournie avec la plupart (tous?) * Nix. Voici un exemple d'utilisation des expressions régulières POSIX en C (basé sur ceci ):
Vous pouvez également consulter PCRE , une bibliothèque d'expressions régulières compatibles Perl en C. La syntaxe Perl est à peu près la même syntaxe utilisée dans Java, Python et un certain nombre d'autres langages. La syntaxe POSIX est la syntaxe utilisée par
grep
,sed
,vi
, etc.la source
regcomp
,cflags
est un masque de bits. De pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "L'argument cflags est le OU inclusif au niveau du bit de zéro ou plusieurs des indicateurs suivants ...". Si vous OU-ensemble zéro, vous obtiendrez 0. Je vois que la page deregcomp
manuel Linux pour dit "cflags peut être le bit au niveau d'un ou plusieurs des éléments suivants", ce qui semble trompeur.regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }
notez que les correspondances de groupe commencent à 1, le groupe 0 est la chaîne entière. Ajouter des vérifications d'erreurs pour les hors limites, etc.regfree
est nécessaire après un échecregcomp
, bien que cela soit vraiment sous-spécifié, cela suggère que cela ne devrait pas être fait: redhat.com/archives/libvir-list/2013-September/msg00276.htmlCe n'est probablement pas ce que vous voulez, mais un outil comme re2c peut compiler des expressions régulières POSIX (-ish) en ANSI C.Il est écrit en remplacement de
lex
, mais cette approche vous permet de sacrifier la flexibilité et la lisibilité pour le dernier bit de vitesse, si vous en avez vraiment besoin.la source
man regex.h
signale qu'il n'y a pas d'entrée manuelle pour regex.h, maisman 3 regex
vous donne une page expliquant les fonctions POSIX pour la correspondance de modèles.Les mêmes fonctions sont décrites dans La bibliothèque GNU C: Correspondance d'expressions régulières , qui explique que la bibliothèque C GNU supporte à la fois l'interface POSIX.2 et l'interface que la bibliothèque C GNU a depuis de nombreuses années.
Par exemple, pour un programme hypothétique qui imprime laquelle des chaînes passées en argument correspond au modèle passé en premier argument, vous pouvez utiliser un code similaire au suivant.
Le dernier argument de
regcomp()
doit être au moinsREG_EXTENDED
, ou les fonctions utiliseront des expressions régulières de base , ce qui signifie que (par exemple) vous devrez utilisera\{3\}
au lieu d'a{3}
utiliser des expressions régulières étendues , ce qui est probablement ce que vous vous attendez à utiliser.POSIX.2 a également une autre fonction pour la correspondance générique:
fnmatch()
. Il ne permet pas de compiler l'expression régulière, ou d'obtenir les sous-chaînes correspondant à une sous-expression, mais il est très spécifique pour vérifier quand un nom de fichier correspond à un joker (par exemple, il utilise leFNM_PATHNAME
drapeau).la source
Voici un exemple d'utilisation de REG_EXTENDED. Cette expression régulière
Vous permet d'attraper des nombres décimaux dans le système espagnol et international. :)
la source
Bien que la réponse ci-dessus soit bonne, je recommande d'utiliser PCRE2 . Cela signifie que vous pouvez littéralement utiliser tous les exemples de regex là-bas maintenant et ne pas avoir à traduire à partir d'une ancienne regex.
J'ai déjà répondu à cette question, mais je pense que cela peut aussi aider ici.
Regex In C pour rechercher des numéros de carte de crédit
Installez PCRE en utilisant:
Compilez en utilisant:
Vérifiez ma réponse pour plus de détails.
la source