C'est un peu hors sujet, mais j'espère que vous m'aiderez. J'ai trouvé un site Web plein d'articles dont j'ai besoin, mais ceux-ci sont mélangés avec beaucoup de fichiers inutiles (principalement jpgs).
Je voudrais savoir s'il existe un moyen de trouver ( pas de télécharger ) tous les PDF sur le serveur pour faire une liste de liens. Fondamentalement, je voudrais simplement filtrer tout ce qui n'est pas un PDF, afin d'avoir une meilleure vue sur ce qu'il faut télécharger et ce qui ne l'est pas.
Réponses:
Aperçu
Ok, c'est parti. Il s'agit d'une solution programmatique sous forme de script:
Installation
Vous devrez avoir
wget
etlynx
installer:Usage
Le script obtiendra une liste de tous les
.pdf
fichiers sur le site Web et le déposera dans la sortie de la ligne de commande et dans un fichier texte dans le répertoire de travail. Si vous commentez lawget
commande "facultative", le script procédera au téléchargement de tous les fichiers dans un nouveau répertoire.Exemple
la source
"$(pwd)/pdflinks.txt"
au lieu depdflinks.txt
?un simple extrait javascript peut résoudre ce problème: (REMARQUE: je suppose que tous les fichiers pdf se terminent par .pdf dans le lien.)
ouvrez la console javascript de votre navigateur, copiez le code suivant et collez-le sur la console js, c'est fait!
la source
lu
fonction devait être:,lu.endsWith (".pdf") == 1
alors cela ne m'a donné que les liens PDF, pas tous les liens contenant "* .pdf *", ce que j'ai obtenu avec le code tel que publié. FWIW.