méthode pour soustraire des chaînes de texte communes dans deux fichiers?

0

J'ai deux fichiers texte, l'un avec 100 000 chaînes et l'autre avec 1 000 chaînes, qui sont déjà présentes dans le fichier plus grand. Je voudrais soustraire ces 1 000 chaînes, de sorte que le fichier plus volumineux ne contienne alors que 99 000. Il ne s’agit pas de supprimer les doublons, mais plutôt de supprimer les chaînes.

Y a-t-il une commande pour le faire.

george
la source
Quel système d'exploitation utilisez-vous? Cela ressemble à quelque chose que vous pourriez faire sur une ligne de commande Linux avec plusieurs méthodes différentes.
drk.com.ar
Win XP, j'ai peur ...
george
Pouvez-vous fournir des échantillons des deux fichiers de taille réduite et quels sont les résultats attendus?
R Sahu
Envisageriez-vous d'installer MSYS dans votre Windows?
drk.com.ar
Je voudrais installer MSYS!
george

Réponses:

0

Si les chaînes sont toutes sur des lignes séparées, vous pouvez utiliser grep de MSYS ou Cygwin comme suit:

C:\> grep -v -f thousandLine.txt hundred000line.txt >ninetynine000Line.txt

le -v option inverse la correspondance de sorte que la sortie est toutes les lignes hundred000line.txt qui ne correspond à aucune ligne thousandLine.txt. Voir le manuel de grep pour plus d'informations.

Simon
la source