Regex - comment faire correspondre tout sauf un modèle particulier
171
Comment écrire une expression régulière pour correspondre à une chaîne qui ne répond pas à un modèle particulier? Je suis confronté à une situation où je dois faire correspondre un motif (A et ~ B).
Cet exemple correspond à trois chiffres autres que 999.
Mais si vous n'avez pas d'implémentation d'expression régulière avec cette fonctionnalité (voir Comparaison des saveurs d'expressions régulières ), vous devez probablement créer vous-même une expression régulière avec les fonctionnalités de base.
Une expression régulière compatible avec une syntaxe de base uniquement serait:
[0-8]\d\d|\d[0-8]\d|\d\d[0-8]
Cela correspond également à toute séquence de trois chiffres qui ne l'est pas 999.
Look-ahead n'est pas une syntaxe d'expression régulière standard, c'est une extension Perl, elle ne fonctionnera qu'en Perl, PCRE (Perl-Compatible RegEx) ou d'autres implémentations non standard
Juliano
10
Ce n'est peut-être pas standard, mais la plupart des langues modernes ne le prennent-ils pas en charge? Quelle langue ne prend pas en charge les anticipations de nos jours?
je pense que la dernière regex ne correspondrait pas non plus à 009, 019 ... etc
Sebastian Viereck
1
Lex standard pour C n'utilise pas les PCRE :-(
pieman72
30
Si vous souhaitez faire correspondre un mot A dans une chaîne et ne pas faire correspondre un mot B. Par exemple: Si vous avez un texte:
1. I have a two pets - dog and a cat
2. I have a pet - dog
Si vous voulez rechercher des lignes de texte qui ont un chien pour un animal de compagnie et qui n'ont PAS de chat, vous pouvez utiliser cette expression régulière:
Il n'a pas mentionné cela dans la question, mais l'OP utilise en fait la findstrcommande DOS . Il n'offre qu'un petit sous-ensemble des fonctionnalités que vous vous attendez à trouver dans un outil regex; lookahead n'en fait pas partie. (Je viens d'ajouter la balise findstr moi-même.)
Alan Moore
2
hm, oui, je l'ai trouvé maintenant dans l'un de ses commentaires sur les messages. J'ai vu Regex dans le titre. Quoi qu'il en soit, si quelqu'un trouve ce message lors de la recherche de la même expression régulière, comme je l'ai fait, cela pourrait peut-être être utile à quelqu'un :) merci pour vos commentaires
Aleks
15
Faites correspondre le modèle et utilisez la langue hôte pour inverser le résultat booléen de la correspondance. Ce sera beaucoup plus lisible et maintenable.
Ensuite, je me retrouve avec (~ A ou B) au lieu de (A et ~ B). Cela ne résout pas mon problème.
notnot
1
Pseudo-code: String toTest; if (toTest.matches (A) AND! toTest.matches (B)) {...}
Ben S
J'aurais dû être plus clair - les pièces ne sont pas totalement indépendantes. Si A correspond à une partie de la chaîne, alors nous nous soucions si ~ B correspond au reste (mais pas nécessairement au tout). C'était pour la fonction findstr en ligne de commande Windows, que j'ai trouvée limitée aux vraies expressions régulières, donc point discutable.
notnot
8
non pas, ressuscitant cette ancienne question parce qu'elle avait une solution simple qui n'était pas mentionnée. (Vous avez trouvé votre question en faisant des recherches pour une quête de primes regex .)
Je suis confronté à une situation où je dois faire correspondre un motif (A et ~ B).
L'expression régulière de base pour cela est terriblement simple: B|(A)
Vous ignorez simplement les correspondances globales et examinez les captures du groupe 1, qui contiendront A.
Un exemple (avec toutes les clauses de non-responsabilité concernant l'analyse du code HTML dans l'expression régulière): A est des chiffres, B est des chiffres dans <a tag
Le regex: <a.*?<\/a>|(\d+)
Démo (regardez le groupe 1 dans le volet inférieur droit)
Ça semble trop bon pour être vrai! Malheureusement, cette solution n'est pas universelle et elle échoue dans Emacs, même après avoir été remplacée \dpar [[:digit:]]. La première référence mentionne qu'elle est spécifique à Perl et PHP: "Il existe une variante utilisant une syntaxe spécifique à Perl et PHP qui accomplit la même chose."
miguelmorin
4
Le complément d'une langue standard est également une langue standard, mais pour le construire, vous devez créer le DFA pour la langue standard et transformer tout changement d'état valide en erreur. Voir ceci pour un exemple. Ce que la page ne dit pas, c'est qu'elle a été convertie /(ac|bd)/en /(a[^c]?|b[^d]?|[^ab])/. La conversion d'un DFA en une expression régulière n'est pas anodine. C'est plus facile si vous pouvez utiliser l'expression régulière inchangée et changer la sémantique dans le code, comme suggéré précédemment.
Si je parlais de regex réels, tout cela serait sans objet. Regex semble maintenant faire référence à l'espace nébuleux CSG-ish (?) De correspondance de motifs que la plupart des langages prennent en charge. Puisque je dois faire correspondre (A et ~ B), il n'y a aucun moyen de supprimer la négation et de tout faire en une seule étape.
notnot
Lookahead, comme décrit ci-dessus, l'aurait fait si findstr avait fait autre chose que les véritables expressions rationnelles DFA. Le tout est assez étrange et je ne sais pas pourquoi je dois faire ce style de ligne de commande (lot maintenant). C'est juste un autre exemple de mes mains liées.
notnot
1
@notnot: Vous utilisez findstr depuis Windows? Ensuite, vous avez juste besoin de / v. Comme: findstr Un fichier d'entrée | findstr / v B> outputfile.txt Le premier correspond à toutes les lignes avec A, le second correspond à toutes les lignes qui n'ont pas B.
Juliano
Merci! C'est en fait exactement ce dont j'avais besoin. Je n'ai pas posé la question de cette façon, cependant, je donne toujours la réponse à Gumbo pour la réponse plus générale.
Vous voudrez probablement mentionner que vous devez vous inscrire à nouveau.
tomdemuyt
Une approche similaire utilise replacestr.replace(/re/g, ''), alors il n'est pas nécessaire de les rejoindre. aussi si vous lancez une belle traîne \ s? comme str.replace(/\re\s?/g, '')alors vous vous débarrassez de tous les espaces en double que vous auriez du remplacement de quelque chose au milieu d'une chaîne
jakecraige
0
Ma réponse ici pourrait également résoudre votre problème:
Le groupe a $2été rendu non capturant là-bas, ce que vous éviteriez.
Exemple:
Regex.Match("50% of 50% is 25%", "(\d+\%)|(.+?)");
Le premier groupe de capture spécifie le modèle que vous souhaitez éviter. Le dernier groupe de capture capture tout le reste. Lisez simplement ce groupe $2,.
findstr
balise car toutes les réponses ici ne sont pas valides pour la balise.Réponses:
Vous pouvez utiliser une assertion anticipée:
Cet exemple correspond à trois chiffres autres que
999
.Mais si vous n'avez pas d'implémentation d'expression régulière avec cette fonctionnalité (voir Comparaison des saveurs d'expressions régulières ), vous devez probablement créer vous-même une expression régulière avec les fonctionnalités de base.
Une expression régulière compatible avec une syntaxe de base uniquement serait:
Cela correspond également à toute séquence de trois chiffres qui ne l'est pas
999
.la source
Si vous souhaitez faire correspondre un mot A dans une chaîne et ne pas faire correspondre un mot B. Par exemple: Si vous avez un texte:
Si vous voulez rechercher des lignes de texte qui ont un chien pour un animal de compagnie et qui n'ont PAS de chat, vous pouvez utiliser cette expression régulière:
Il ne trouvera que la deuxième ligne:
la source
findstr
commande DOS . Il n'offre qu'un petit sous-ensemble des fonctionnalités que vous vous attendez à trouver dans un outil regex; lookahead n'en fait pas partie. (Je viens d'ajouter la balise findstr moi-même.)Faites correspondre le modèle et utilisez la langue hôte pour inverser le résultat booléen de la correspondance. Ce sera beaucoup plus lisible et maintenable.
la source
non pas, ressuscitant cette ancienne question parce qu'elle avait une solution simple qui n'était pas mentionnée. (Vous avez trouvé votre question en faisant des recherches pour une quête de primes regex .)
L'expression régulière de base pour cela est terriblement simple:
B|(A)
Vous ignorez simplement les correspondances globales et examinez les captures du groupe 1, qui contiendront A.
Un exemple (avec toutes les clauses de non-responsabilité concernant l'analyse du code HTML dans l'expression régulière): A est des chiffres, B est des chiffres dans
<a tag
Le regex:
<a.*?<\/a>|(\d+)
Démo (regardez le groupe 1 dans le volet inférieur droit)
Référence
Comment faire correspondre le modèle sauf dans les situations s1, s2, s3
Comment faire correspondre un motif à moins que ...
la source
\d
par[[:digit:]]
. La première référence mentionne qu'elle est spécifique à Perl et PHP: "Il existe une variante utilisant une syntaxe spécifique à Perl et PHP qui accomplit la même chose."Le complément d'une langue standard est également une langue standard, mais pour le construire, vous devez créer le DFA pour la langue standard et transformer tout changement d'état valide en erreur. Voir ceci pour un exemple. Ce que la page ne dit pas, c'est qu'elle a été convertie
/(ac|bd)/
en/(a[^c]?|b[^d]?|[^ab])/
. La conversion d'un DFA en une expression régulière n'est pas anodine. C'est plus facile si vous pouvez utiliser l'expression régulière inchangée et changer la sémantique dans le code, comme suggéré précédemment.la source
motif - re
renverra tout sauf le motif.
Testez ici
la source
replace
str.replace(/re/g, '')
, alors il n'est pas nécessaire de les rejoindre. aussi si vous lancez une belle traîne \ s? commestr.replace(/\re\s?/g, '')
alors vous vous débarrassez de tous les espaces en double que vous auriez du remplacement de quelque chose au milieu d'une chaîneMa réponse ici pourrait également résoudre votre problème:
https://stackoverflow.com/a/27967674/543814
$1
, vous liriez groupe$2
.$2
été rendu non capturant là-bas, ce que vous éviteriez.Exemple:
Regex.Match("50% of 50% is 25%", "(\d+\%)|(.+?)");
Le premier groupe de capture spécifie le modèle que vous souhaitez éviter. Le dernier groupe de capture capture tout le reste. Lisez simplement ce groupe
$2
,.la source
puis utilisez ce que le groupe 2 capture ...
la source