Existe-t-il un moyen de trouver tous les fichiers dans un répertoire avec des noms de fichiers en double, indépendamment de la casse (majuscules et / ou minuscules)?
17
Existe-t-il un moyen de trouver tous les fichiers dans un répertoire avec des noms de fichiers en double, indépendamment de la casse (majuscules et / ou minuscules)?
Si vous avez des utilitaires GNU (ou au moins un ensemble qui peut traiter les lignes terminées par zéro) disponibles, une autre réponse a une excellente méthode:
find . -maxdepth 1 -print0 | sort -z | uniq -diz
Remarque: la sortie aura des chaînes terminées par zéro; l'outil que vous utilisez pour poursuivre le traitement devrait pouvoir gérer cela.
En l'absence d'outils traitant des lignes terminées par zéro, ou si vous voulez vous assurer que votre code fonctionne dans des environnements où ces outils ne sont pas disponibles, vous avez besoin d'un petit script:
#!/bin/sh
for f in *; do
find . -maxdepth 1 -iname ./"$f" -exec echo \; | wc -l | while read count; do
[ $count -gt 1 ] && echo $f
done
done
Quelle est cette folie? Voir cette réponse pour une explication des techniques qui rendent cela sûr pour les noms de fichiers fous.
-mindepth
?find
; J'ai édité la réponse pour inclure une solution non GNU.Il y a beaucoup de réponses compliquées ci-dessus, cela semble plus simple et plus rapide que toutes:
Si vous souhaitez trouver des noms de fichiers en double dans les sous-répertoires, vous devez comparer uniquement le nom de fichier, pas le chemin complet:
Edit: Shawn J. Goff a souligné que cela échouera si vous avez des noms de fichiers avec des caractères de nouvelle ligne. Si vous utilisez des utilitaires GNU, vous pouvez également les faire fonctionner:
L' option
-print0
(pour la recherche) et l'-z
option (pour le tri et l'uniq) les obligent à travailler sur des chaînes terminées par NUL, au lieu de chaînes terminées par une nouvelle ligne. Étant donné que les noms de fichiers ne peuvent pas contenir NUL, cela fonctionne pour tous les noms de fichiers.la source
Triez la liste des noms de fichiers de manière non sensible à la casse et imprimez les doublons.
sort
a une option pour le tri non sensible à la casse. Il en va de même pour GNUuniq
, mais pas pour les autres implémentations, et tout ce que vous pouvez faireuniq
est d'imprimer chaque élément d'un ensemble de doublons, sauf le premier rencontré. Avec les outils GNU, en supposant qu'aucun nom de fichier ne contient de nouvelle ligne, il existe un moyen facile d'imprimer tous les éléments sauf un dans chaque jeu de doublons:Portablement, pour imprimer tous les éléments dans chaque jeu de doublons, en supposant qu'aucun nom de fichier ne contient de nouvelle ligne:
Si vous devez accepter des noms de fichiers contenant des sauts de ligne, optez pour Perl ou Python. Notez que vous devrez peut-être modifier la sortie, ou mieux effectuer votre traitement ultérieur dans la même langue, car l'exemple de code ci-dessous utilise des retours à la ligne pour séparer les noms dans sa propre sortie.
Voici une pure solution zsh. C'est un peu verbeux, car il n'y a pas de moyen intégré de conserver les éléments en double dans un tableau ou un résultat global.
la source
Sans GNU
find
:LANG=en_US ls | tr '[A-Z]' '[a-z]' | uniq -c | awk '$1 >= 2 {print $2}'
la source
tr
est très susceptible de faire des ravages sur tout jeu de caractères qui utilise plus d'un octet par caractère. Seuls les 256 premiers caractères de l'UTF-8 sont sûrs lors de l'utilisationtr
. De Wikipedia tr (Unix) .. La plupart des versions detr
, y compris GNUtr
et Unix classiquetr
, fonctionnent sur SINGLE BYTES et ne sont pas conformes à Unicode ..uniq
a un indicateur insensible à la casse i.J'ai finalement réussi comme ça:
J'ai utilisé à la
find
place de lals
cause, j'avais besoin du chemin complet (beaucoup de sous-répertoires) inclus. Je n'ai pas trouvé comment faire ça avecls
.la source
sort
etuniq
ont respectivement des indicateurs ignorer la casse, f et i.Pour toute autre personne qui souhaite ensuite renommer etc. l'un des fichiers:
la source